L*h
2 楼
会不会像那个underworld续集一样不咋地?
G*Y
3 楼
小的不快,
快的做不小。
pad再牛他也不是笔记本。
比如,
出去开会,
中间需要改slides,
东西还在学校的server上,
这是没有笔记本死定了。
最理想的就是把t61那类的内功和ipad那张的外功结合起来。
可惜近期不太可能。
快的做不小。
pad再牛他也不是笔记本。
比如,
出去开会,
中间需要改slides,
东西还在学校的server上,
这是没有笔记本死定了。
最理想的就是把t61那类的内功和ipad那张的外功结合起来。
可惜近期不太可能。
w*w
4 楼
问题很简单,需要从几十万个pdf文件中抓点东西。java的程序已经有了,一个pdf输入
,产生一个csv文件。
我的基本思路是,做一个RDD,第一列是读进来的pdf binary,第二列是根据输入文件名
产生的输出文件名,然后就可以送到各个node上去抓了,最后根据输出名把结果合并成
1000个左右的输出文件。
熟悉spark的朋友能否给个框架?
,产生一个csv文件。
我的基本思路是,做一个RDD,第一列是读进来的pdf binary,第二列是根据输入文件名
产生的输出文件名,然后就可以送到各个node上去抓了,最后根据输出名把结果合并成
1000个左右的输出文件。
熟悉spark的朋友能否给个框架?
j*n
5 楼
烦不烦啊你,人家宰相肚里能乘船,你连个处女座都乘不下
j*n
9 楼
什么乱七八糟的
讨厌就是讨厌
喜欢就是喜欢
高兴就是高兴
难过就是难过
拜托有话直接说!!
拐弯抹角的一天到晚说反话还怪人家不理解你,我的天!!
讨厌就是讨厌
喜欢就是喜欢
高兴就是高兴
难过就是难过
拜托有话直接说!!
拐弯抹角的一天到晚说反话还怪人家不理解你,我的天!!
w*w
16 楼
狗了半天解决了一半问题:
val files = sc.binaryFiles("hdfs://server/path/*.pdf")
println(files.keys.collect().mkString("\n"))
PDF内容都在files.values里。
val files = sc.binaryFiles("hdfs://server/path/*.pdf")
println(files.keys.collect().mkString("\n"))
PDF内容都在files.values里。
P*I
17 楼
我ld对双儿也是温情如水啊,陪玩儿。。。。我和双儿高兴了互相抱着咬来咬去,不爽
就互相上爪子,所以我家双儿把ld当好朋友,把我当后妈。
就互相上爪子,所以我家双儿把ld当好朋友,把我当后妈。
L*h
18 楼
李冰冰感觉会比较生硬
w*w
20 楼
有点入门了,exception还要处理一下。这里实际使用spark的人看来不多。
import my.pdf._
import collection.JavaConverters._
import collection.mutable._
def extract_func ( row: (String, org.apache.spark.input.PortableDataStream)
) =
{
val stripper = new MyStripper()
val extractor = new MyReportExtractor()
extractor.setText(stripper.getText(row._2.open));
row._2.close
extractor.getContent().asScala
}
val file_rdd = sc.binaryFiles ("/path/test/*.pdf")
file_rdd.flatMap(extract_func(_)).zipWithIndex.map(_._1).saveAsTextFile("/
path/result_test")
import my.pdf._
import collection.JavaConverters._
import collection.mutable._
def extract_func ( row: (String, org.apache.spark.input.PortableDataStream)
) =
{
val stripper = new MyStripper()
val extractor = new MyReportExtractor()
extractor.setText(stripper.getText(row._2.open));
row._2.close
extractor.getContent().asScala
}
val file_rdd = sc.binaryFiles ("/path/test/*.pdf")
file_rdd.flatMap(extract_func(_)).zipWithIndex.map(_._1).saveAsTextFile("/
path/result_test")
P*I
21 楼
我一起作项目的魔杰作,昨天和我聊天,很随意的外着头吹口哨来着,顿时我觉得好可
爱哈哈^^魔杰作也有如此可爱的一面
爱哈哈^^魔杰作也有如此可爱的一面
g*i
22 楼
这个系列一直不差,这周才重新复习了遍
c*e
24 楼
spark就一工具,网站上都教你怎么用了。
)
【在 w****w 的大作中提到】
: 有点入门了,exception还要处理一下。这里实际使用spark的人看来不多。
: import my.pdf._
: import collection.JavaConverters._
: import collection.mutable._
: def extract_func ( row: (String, org.apache.spark.input.PortableDataStream)
: ) =
: {
: val stripper = new MyStripper()
: val extractor = new MyReportExtractor()
: extractor.setText(stripper.getText(row._2.open));
)
【在 w****w 的大作中提到】
: 有点入门了,exception还要处理一下。这里实际使用spark的人看来不多。
: import my.pdf._
: import collection.JavaConverters._
: import collection.mutable._
: def extract_func ( row: (String, org.apache.spark.input.PortableDataStream)
: ) =
: {
: val stripper = new MyStripper()
: val extractor = new MyReportExtractor()
: extractor.setText(stripper.getText(row._2.open));
h*e
25 楼
看侧面还蛮帅的啊
【在 j**n 的大作中提到】
: http://www.jiaoyou8.com/friends_info?action=user_info&login_id=
【在 j**n 的大作中提到】
: http://www.jiaoyou8.com/friends_info?action=user_info&login_id=
d*n
28 楼
李去不去倭瓜国,我都看,又不是看李,她就是个笑话。
t*c
33 楼
木有,木有,真的木有么。我怎么觉得小七说的越来越搞笑了
c*i
34 楼
看完3D归来。音效和配乐还可以。opening 很震撼。3D 效果还可以,各种武器飞过来
也不怎么觉得恐怖。
李冰冰的角色没有什么发挥空间,根本就没有格斗的戏,换刘亦菲演也一样。不过她的
口语好像比以前好一点了。
很意外在里面居然看到了carfax 的大招牌。
也不怎么觉得恐怖。
李冰冰的角色没有什么发挥空间,根本就没有格斗的戏,换刘亦菲演也一样。不过她的
口语好像比以前好一点了。
很意外在里面居然看到了carfax 的大招牌。
l*e
41 楼
还有萧亚轩?这我肯定得去看看了。本周末不错,有小鱼和生化。都是我很喜欢的。
l*a
46 楼
刚看回来,冰冰造型无比惊艳啊!脸无敌了!
这集感觉很动作,完全不恐怖了。。。。
这集感觉很动作,完全不恐怖了。。。。
相关阅读
scala看来也就这样了感叹一下,除了能力之外的资本为0c的问题20多年過去了還是喜歡C++最近发现用了reactgo这么屌?继安卓后 iOS设备销量也将超过Windows电脑古巴,你们公司新福利很爽啊jQuery还能活多久啊?node.js child process: 怎样保证1个命令执行完了再执行下一个?netflix今天又接近涨停了有没有好的workflow system推荐mitbbs的构架是咋样的?3个url指向同一个版的首页。Java concurrency的疑惑,难道我理解错了?我要做一个Java演示系统,用哪些前台技术比较好?我溜须拍马的跟风赞下好虫Netty和JavaEEiOS类似Picasso这样的库哪个最好语言选择, Java or Python?可能还得死磕Hbase