Redian新闻
>
485, H1b, 回国问题请教 (转载)
avatar
485, H1b, 回国问题请教 (转载)# Immigration - 落地生根
b*m
1
一个巨大的文件,XML格式,是一个access log数据库数据倒出来的结果。由于格式问
题,该XML文件不分行。有什么好办法做XML分析,目的是分析XML然后总结出里面某些
字样的出现情况。我现在用的是Perl,目前没找到特别合适的库。如果有C#的方案也可
以。大家集思广益吧。
avatar
A*e
2
【 以下文字转载自 I485 讨论区 】
发信人: Arche (阿澈), 信区: I485
标 题: 485, H1b, 回国问题请教
发信站: BBS 未名空间站 (Mon Mar 19 19:28:46 2012, 美东)
avatar
t*a
3
传说中的SAX就是处理大XML的啊,你肯定看过了,是不好用么?如果你的问题简单,不
需要考虑XML结构,那么直接sed效率更高。
avatar
e*r
4
H1B可以有移民倾向。我的理解是,交了485可以回,不用申请AP了
然后重新签H1B回来。
供参考

【在 A***e 的大作中提到】
: 【 以下文字转载自 I485 讨论区 】
: 发信人: Arche (阿澈), 信区: I485
: 标 题: 485, H1b, 回国问题请教
: 发信站: BBS 未名空间站 (Mon Mar 19 19:28:46 2012, 美东)

avatar
b*m
5
你说的SAX和SED俺通通不懂……
avatar
s*l
6
我以前有个朋友象你这情况,485交了后回国签H1,居然签证官说他应该签移民签
证,他说了半天,还是签了H1回美国了。
avatar
t*a
7
sed还是很有用的,做这种dirty things sed, grep得学会。
另外,如果你的分析是一次性的,就算TB的话sed grep几个小时到一天也该够了。如果
你需要经常干这个,并且分析不需要考虑结构的话,那么推荐你把它弄到hadoop上去,
用sed配合hadoop streaming来做,那样做起来快很多。

【在 b***m 的大作中提到】
: 你说的SAX和SED俺通通不懂……
avatar
A*e
8
谢谢楼上两位。请问其他人有相关意见吗?主要是我的律师这么跟我一说让我心里不踏
实。

【在 s*****l 的大作中提到】
: 我以前有个朋友象你这情况,485交了后回国签H1,居然签证官说他应该签移民签
: 证,他说了半天,还是签了H1回美国了。

avatar
b*m
9

grep是Linux上那个grep吗?SED给个link看看?我不知道微软内部是否允许使用啊。

【在 t****a 的大作中提到】
: sed还是很有用的,做这种dirty things sed, grep得学会。
: 另外,如果你的分析是一次性的,就算TB的话sed grep几个小时到一天也该够了。如果
: 你需要经常干这个,并且分析不需要考虑结构的话,那么推荐你把它弄到hadoop上去,
: 用sed配合hadoop streaming来做,那样做起来快很多。

avatar
b*a
12
微软,亮了
avatar
H*e
13
我的PhD 研究是做XML查询处理的,经常要处理GB级别的XML文件,如果需要考虑XML自
己的模式DTD的话,SAX是很好的选择
我有现成的Java代码,如果你需要的话,我可以发给你

【在 b***m 的大作中提到】
: 一个巨大的文件,XML格式,是一个access log数据库数据倒出来的结果。由于格式问
: 题,该XML文件不分行。有什么好办法做XML分析,目的是分析XML然后总结出里面某些
: 字样的出现情况。我现在用的是Perl,目前没找到特别合适的库。如果有C#的方案也可
: 以。大家集思广益吧。

avatar
h*e
14
很好的面试题。LZ做完了公布一下方法吧。
avatar
b*m
15
这不是面试题啊,是我手头的工作之一。

【在 h****e 的大作中提到】
: 很好的面试题。LZ做完了公布一下方法吧。
avatar
b*m
16
明天我先琢磨一下SAX这个东东。谢谢啦啊。

【在 H********e 的大作中提到】
: 我的PhD 研究是做XML查询处理的,经常要处理GB级别的XML文件,如果需要考虑XML自
: 己的模式DTD的话,SAX是很好的选择
: 我有现成的Java代码,如果你需要的话,我可以发给你

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。