Redian新闻
>
单机学习spark/hadoop的方案?
avatar
单机学习spark/hadoop的方案?# Programming - 葵花宝典
a*t
1
看大家都在搞百叶,没人装窗帘吗? 小区邻居也是百叶的多。
是因为价格还是美观还是实用性的原因?
avatar
S*P
2
偶然看到的,就拿来试用下,目前在首页右下角和章节列表页底部可见。(好像会被
adblock拦截)
号称有啥独有的小说推荐策略,但为啥我觉得好像推荐的总是就那么几本?也可能是还
没获取到足够的数据?还没开始挑本来试毒,大家可以试试看~
avatar
n*7
4
千老找工作,被问到了scala/spark/NoSQL这方面
感觉有必要练习一下
有个16核64G内存的机器
为了学习spark/hadoop之类的
我在琢磨单机多开虚拟机来模拟cluster
有这么玩的吗?
最好有什么工具专门为这个目的设计的
vagrant似乎不错?
avatar
s*u
5
看情况吧。
有的地方也不适合装窗帘,我家有个屋子的窗户不是整个的,分了3个并排,同在一面
墙,装窗帘就不好弄,装三个显得很繁琐。
那种整个又好看的窗户,外面view好,又有比较好私密性的窗户(窗帘全部打开,也很
有私密性),这种额肯定要装窗帘,好看,拉开窗帘就是天然的风景。
看具体的实际情况吧。

【在 a*******t 的大作中提到】
: 看大家都在搞百叶,没人装窗帘吗? 小区邻居也是百叶的多。
: 是因为价格还是美观还是实用性的原因?

avatar
s*t
6
随便说下,这种有的没的倒无所谓。。。关键基本功能要保持好
最近看魔天记时,开始几个链接什么六月啥的都是很不好的链接,都只有图片版本,要
到第4,5个链接的豌豆,读零零什么的才可以看

【在 S*******P 的大作中提到】
: 偶然看到的,就拿来试用下,目前在首页右下角和章节列表页底部可见。(好像会被
: adblock拦截)
: 号称有啥独有的小说推荐策略,但为啥我觉得好像推荐的总是就那么几本?也可能是还
: 没获取到足够的数据?还没开始挑本来试毒,大家可以试试看~

avatar
p*o
7
github上搜一搜, 现成的vagrant/docker配置都很多。

【在 n******7 的大作中提到】
: 千老找工作,被问到了scala/spark/NoSQL这方面
: 感觉有必要练习一下
: 有个16核64G内存的机器
: 为了学习spark/hadoop之类的
: 我在琢磨单机多开虚拟机来模拟cluster
: 有这么玩的吗?
: 最好有什么工具专门为这个目的设计的
: vagrant似乎不错?

avatar
w*n
8
我装的窗帘啊,感觉邻居窗帘也很多。可能因为我们是老区,周围树多,不需要百页窗
遮阳光。
如果需要遮阳光,我也会选择里面用cellular的百页,外面加一层窗帘。窗帘使家里显
得温馨柔和。
另:你在南方还是北方?北方的话,冬天晚上没有厚窗帘,外面的凉辐射进来也觉得嗖
嗖的。
avatar
S*P
9
嗯,其实用个几天就基本上能知道哪些站点适合自己,然后就可以在设置里调整喜欢和
不喜欢的站点,这样之后,在主页上直接点击蓝齿轮或者绿齿轮,就能够智能根据你的喜
好选站了。

【在 s*********t 的大作中提到】
: 随便说下,这种有的没的倒无所谓。。。关键基本功能要保持好
: 最近看魔天记时,开始几个链接什么六月啥的都是很不好的链接,都只有图片版本,要
: 到第4,5个链接的豌豆,读零零什么的才可以看

avatar
w*g
10
直接跑单机版的。不用开虚拟机。
如果是非linux主机非要开虚拟机,最多开一个。

【在 n******7 的大作中提到】
: 千老找工作,被问到了scala/spark/NoSQL这方面
: 感觉有必要练习一下
: 有个16核64G内存的机器
: 为了学习spark/hadoop之类的
: 我在琢磨单机多开虚拟机来模拟cluster
: 有这么玩的吗?
: 最好有什么工具专门为这个目的设计的
: vagrant似乎不错?

avatar
x*g
11
我们家都是窗帘
不喜欢百叶窗...

【在 a*******t 的大作中提到】
: 看大家都在搞百叶,没人装窗帘吗? 小区邻居也是百叶的多。
: 是因为价格还是美观还是实用性的原因?

avatar
x*u
12
工作当然是这样。
要是学习/实验在cluster上部署呢?


: 直接跑单机版的。不用开虚拟机。

: 如果是非linux主机非要开虚拟机,最多开一个。



【在 w***g 的大作中提到】
: 直接跑单机版的。不用开虚拟机。
: 如果是非linux主机非要开虚拟机,最多开一个。

avatar
g*1
13
cloudera
avatar
n*7
14
谢大牛
先从最简单方案的开始学最好

【在 w***g 的大作中提到】
: 直接跑单机版的。不用开虚拟机。
: 如果是非linux主机非要开虚拟机,最多开一个。

avatar
l*n
15
正解

【在 w***g 的大作中提到】
: 直接跑单机版的。不用开虚拟机。
: 如果是非linux主机非要开虚拟机,最多开一个。

avatar
c*7
16
mark

【在 w***g 的大作中提到】
: 直接跑单机版的。不用开虚拟机。
: 如果是非linux主机非要开虚拟机,最多开一个。

avatar
b*u
17
最近给公司搞了一个,俺就用local mode,这样hadoop都不用装,解决问题最重要。最
主要的是用dataframe和一些machine learning 的包。说实话spark做的也就那回事。
python里的dataframe要好用太多了。装一个cluster,挺炫的,但很多精力要放在
infrastructure上。
avatar
n*7
18
你有工作了,所以解决问题最重要
我没有工作,所以一个东西即使用不上
只要别人想考你,你就得知道不是

【在 b****u 的大作中提到】
: 最近给公司搞了一个,俺就用local mode,这样hadoop都不用装,解决问题最重要。最
: 主要的是用dataframe和一些machine learning 的包。说实话spark做的也就那回事。
: python里的dataframe要好用太多了。装一个cluster,挺炫的,但很多精力要放在
: infrastructure上。

avatar
b*u
19
我的意思是不要在infrastructure 上花太多时间。做一个实际的例子。比如把文件夹
里所有的数据排序整合成一个文件。把这个放到GitHub 上更有意义。
avatar
c*e
20
没做过就说没做过,否则骗过了面试,进去让你做个项目,你就难了。

【在 n******7 的大作中提到】
: 千老找工作,被问到了scala/spark/NoSQL这方面
: 感觉有必要练习一下
: 有个16核64G内存的机器
: 为了学习spark/hadoop之类的
: 我在琢磨单机多开虚拟机来模拟cluster
: 有这么玩的吗?
: 最好有什么工具专门为这个目的设计的
: vagrant似乎不错?

avatar
b*u
21
就凭楼主上来问问题的精神,进公司就一定能把事搞定的。关键是如何跨进一个公司。
avatar
n*7
22
謝謝!
一直想在github上放点啥,你这个建议很好
我研究一下spark要怎么弄

【在 b****u 的大作中提到】
: 我的意思是不要在infrastructure 上花太多时间。做一个实际的例子。比如把文件夹
: 里所有的数据排序整合成一个文件。把这个放到GitHub 上更有意义。

avatar
c*e
23
一生物千老,从来没做过distributed system,面试的时候骗人家说以前做过,进了公
司,你觉得他搞得定spark, hadoop吗?没做过就说没做过,人要诚实。做过了,做得
不好,可以吹成做得很好。但是,没做过,就说没做过。

【在 b****u 的大作中提到】
: 就凭楼主上来问问题的精神,进公司就一定能把事搞定的。关键是如何跨进一个公司。
avatar
n*7
24
你为什么总要假设我面试的时候骗人家说以前做过?
我还真不觉得spark有多难,但是我需要学习,就这么简单

【在 c*********e 的大作中提到】
: 一生物千老,从来没做过distributed system,面试的时候骗人家说以前做过,进了公
: 司,你觉得他搞得定spark, hadoop吗?没做过就说没做过,人要诚实。做过了,做得
: 不好,可以吹成做得很好。但是,没做过,就说没做过。

avatar
w*m
25
估计spark是个人都谈
还没见过谁真正用。
所以大胆吹牛吧
avatar
c*e
26
自己把自己推上难堪的境地,何必呢?

【在 n******7 的大作中提到】
: 你为什么总要假设我面试的时候骗人家说以前做过?
: 我还真不觉得spark有多难,但是我需要学习,就这么简单

avatar
T*x
27
你这就有点引申了。打住吧。

【在 c*********e 的大作中提到】
: 自己把自己推上难堪的境地,何必呢?
avatar
w*g
28
其实我也想这么说的。spark一个是怎么用API写算法。一个是怎么调优,出了问题怎么
解决。单机学习前一个没问题。但是后一个,单机模拟机群和真的机群的行为非常不一
样,小
机群和大机群的行为也非常不一样。我们团队有一个机群,只有很少几台极其,但每台
配置
都很高。还有一个团队,机器数量是我们好几倍,但每台配置都很低,这个一看就是外行
配出来的。算法怎么说都可以,配系统,调优的事情,碰到内行的,问上一两句基本上就
现原形了。我要出去说,也只能够说我在小机群上跑过生产系统,几百台几千台的部署
根本
就没见过。我还有一个只有两台机器的hadoop生产系统,跑了有几年了。如果生物千老
过来说搞过spark机群,这事本来就非常可疑,必然要问下去的。不需要问技术细节,
只要问是什么样的dataset,有多大,楼主立刻就完蛋了。
但楼主要是说是一个10来G的dataset,单机上各种统计聚类啥的玩得纯熟,感觉上
会好很多。
本来要做成事情就难,大家都open实话实说还能降低点通信成本。平级的互相搞政治也是
为了生存没有办法。但要是发现自己招进来的人吹牛,感觉会非常不好。
(对方如果根本不懂技术,招人带头建data science组这种情况另说,那就真的怎么乎
悠都
行了。)

【在 c*********e 的大作中提到】
: 一生物千老,从来没做过distributed system,面试的时候骗人家说以前做过,进了公
: 司,你觉得他搞得定spark, hadoop吗?没做过就说没做过,人要诚实。做过了,做得
: 不好,可以吹成做得很好。但是,没做过,就说没做过。

avatar
b*u
29
这就是为什么我让楼主放一个简单的Spark项目到Github上,其实有个基本入门就可以
了。我们公司刚招了一个来接管我Spark的活,没用过DATAFRAME,没用过ML包,也不影
响人家说他会用Spark。有个好的工作态度,能够交流学习就可以了。也就是用用别人
的轮子,没什么太难的活。
avatar
T*x
30
这个在理。

【在 b****u 的大作中提到】
: 这就是为什么我让楼主放一个简单的Spark项目到Github上,其实有个基本入门就可以
: 了。我们公司刚招了一个来接管我Spark的活,没用过DATAFRAME,没用过ML包,也不影
: 响人家说他会用Spark。有个好的工作态度,能够交流学习就可以了。也就是用用别人
: 的轮子,没什么太难的活。

avatar
n*7
31
学习新东西就是自己把自己推上难堪的境地?
你有病 不回了

【在 c*********e 的大作中提到】
: 自己把自己推上难堪的境地,何必呢?
avatar
n*7
32
你是受了这个ID信口开河的误导
我从来没有吹牛说我会scala/spark
我学这个直接的动因是面试一个职位,recruiter 问我会不会这个
我说没接触,顺便问她这个需要懂吗
她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景
来决定最佳的人选
我就感觉,如果我有hand-on的经验,会是个很大的plus
另外现在的行业确实对这一块有需求
我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作

外行
上就

【在 w***g 的大作中提到】
: 其实我也想这么说的。spark一个是怎么用API写算法。一个是怎么调优,出了问题怎么
: 解决。单机学习前一个没问题。但是后一个,单机模拟机群和真的机群的行为非常不一
: 样,小
: 机群和大机群的行为也非常不一样。我们团队有一个机群,只有很少几台极其,但每台
: 配置
: 都很高。还有一个团队,机器数量是我们好几倍,但每台配置都很低,这个一看就是外行
: 配出来的。算法怎么说都可以,配系统,调优的事情,碰到内行的,问上一两句基本上就
: 现原形了。我要出去说,也只能够说我在小机群上跑过生产系统,几百台几千台的部署
: 根本
: 就没见过。我还有一个只有两台机器的hadoop生产系统,跑了有几年了。如果生物千老

avatar
w*g
33
我解释下为啥学习的时候也不要用单机虚拟集群。
我认为面试的时候吹牛没问题,只要不吹破就行。
这个我觉得大家都是默认的。
但是如果往集群吹,实际没做过会非常容易吹破,所以不建议。
我觉得楼上那位也是那个意思吧。
如果只是吹各种数据分析算法,千老非常有优势。

【在 n******7 的大作中提到】
: 你是受了这个ID信口开河的误导
: 我从来没有吹牛说我会scala/spark
: 我学这个直接的动因是面试一个职位,recruiter 问我会不会这个
: 我说没接触,顺便问她这个需要懂吗
: 她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景
: 来决定最佳的人选
: 我就感觉,如果我有hand-on的经验,会是个很大的plus
: 另外现在的行业确实对这一块有需求
: 我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
: 谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作

avatar
n*7
34
謝謝鼓励
我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟
我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
在我们行业里面使用的话,会有多大优势
很多东西都是听人说,自己不摸一下没感觉
我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的
能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再
有一些spark的经验,够不够?需要scala/nosql方面的知识吗?

【在 b****u 的大作中提到】
: 这就是为什么我让楼主放一个简单的Spark项目到Github上,其实有个基本入门就可以
: 了。我们公司刚招了一个来接管我Spark的活,没用过DATAFRAME,没用过ML包,也不影
: 响人家说他会用Spark。有个好的工作态度,能够交流学习就可以了。也就是用用别人
: 的轮子,没什么太难的活。

avatar
n*7
35
谢谢提醒
我就是论坛上发帖都不喜欢吹牛
所以不会吹破的 :)
这种专业领域,随便问点细节就知道有没有,靠瞎吹拿offer是下下策

【在 w***g 的大作中提到】
: 我解释下为啥学习的时候也不要用单机虚拟集群。
: 我认为面试的时候吹牛没问题,只要不吹破就行。
: 这个我觉得大家都是默认的。
: 但是如果往集群吹,实际没做过会非常容易吹破,所以不建议。
: 我觉得楼上那位也是那个意思吧。
: 如果只是吹各种数据分析算法,千老非常有优势。

avatar
l*s
36
其实吧,非要一个螺丝顶5个用的地方肯定累,不是什么好去处,大公司更关心的智商
。这点上,哪怕生物博士对计算机硕士也是很有优势的。:-)
我觉得楼主上策还是把leetcode刷烂,然后申请FLAG一步到位。而且转行就要准备彻底
转,不要主打data minging才能有更广阔的天地。
avatar
n*7
37
你说的也有道理,也是我纠结的
这些年一直做NGS data mining,继续这条路走下去也能有饭吃
作为千老干也比较得心应手,算是对行业知识了如指掌
但是这些年也受够了技能没需求的苦了
也在考虑彻底转掉
不过我比较没追求,不想去宇宙中心
希望能在小城市找个工作,没有traffic,买房没压力,没事经常出去玩就好

【在 l*********s 的大作中提到】
: 其实吧,非要一个螺丝顶5个用的地方肯定累,不是什么好去处,大公司更关心的智商
: 。这点上,哪怕生物博士对计算机硕士也是很有优势的。:-)
: 我觉得楼主上策还是把leetcode刷烂,然后申请FLAG一步到位。而且转行就要准备彻底
: 转,不要主打data minging才能有更广阔的天地。

avatar
b*u
38
概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西,比如从
yahoo上下载几个股票的每日价格,然后算每5天的平均价格,算一下这几个股票的相关
性,把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实
工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代
码。当然sql还是很重要的,因为很多东西还是要从数据库获取。
找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。

【在 n******7 的大作中提到】
: 謝謝鼓励
: 我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟
: 我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
: 在我们行业里面使用的话,会有多大优势
: 很多东西都是听人说,自己不摸一下没感觉
: 我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的
: 能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再
: 有一些spark的经验,够不够?需要scala/nosql方面的知识吗?

avatar
M*0
39
推荐按照cloudera的CDH配一个 虚拟机或者本机都行 楼主应该是做DM/ML的 所以没必
要花时间学java写MR code
直接学spark吧 能用scala就用 要不就Pyspark 教程youtube 联系就先用spark
summit上的几个case 弄熟了再随便网上抓data跑
这个东西其实上手还蛮快的 一周左右感觉就intro了 我当时还把那本learning spark
的书里面大部分章节看了看
不过专门招spark的职位好像非常少 所以这个只能是个plus 就算公司里用spark 你进
去了也未必要用 当然本着学习的态度了解和掌握一下肯定没有坏处
楼主加油
avatar
w*z
40
这是正解,刷 leetcode, 弄熟Java, 专心做码农吧。

【在 l*********s 的大作中提到】
: 其实吧,非要一个螺丝顶5个用的地方肯定累,不是什么好去处,大公司更关心的智商
: 。这点上,哪怕生物博士对计算机硕士也是很有优势的。:-)
: 我觉得楼主上策还是把leetcode刷烂,然后申请FLAG一步到位。而且转行就要准备彻底
: 转,不要主打data minging才能有更广阔的天地。

avatar
l*e
41
像这种对一个特定技术要求这么具体的,很可能是去了就得上手干,你自己在家鼓捣鼓
捣也未必能胜任。我们招人,基本上就是问问Java语言本身的特性,问几道常规算法题
(真的最常规的,比如怎么breadth first 遍历一个tree),问几道基本设计题,再问
问以前的项目。基本上就可以有一个还算靠谱的评价。如果一个人把一个具体的技术比
如Spark/hadoop写在简历上,就会问问,不写就不会问。也不会因为一个人不懂一个具
体的技术就不招他。其实一个人基础知识扎实的话,这些东西学起来都非常快。除了
startup那种一个人顶三个,来的就得上手的地方,一般都不会要求这么具体这么苛刻。

【在 n******7 的大作中提到】
: 謝謝鼓励
: 我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟
: 我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
: 在我们行业里面使用的话,会有多大优势
: 很多东西都是听人说,自己不摸一下没感觉
: 我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的
: 能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再
: 有一些spark的经验,够不够?需要scala/nosql方面的知识吗?

avatar
l*m
42
如果你会build你spark project成jar, 单机,多机都是一样的submit, 当然dependecy
, 优化是下一步了。

【在 n******7 的大作中提到】
: 你是受了这个ID信口开河的误导
: 我从来没有吹牛说我会scala/spark
: 我学这个直接的动因是面试一个职位,recruiter 问我会不会这个
: 我说没接触,顺便问她这个需要懂吗
: 她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景
: 来决定最佳的人选
: 我就感觉,如果我有hand-on的经验,会是个很大的plus
: 另外现在的行业确实对这一块有需求
: 我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
: 谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作

avatar
c*e
43
你到底把你学的东西放到github上没有啊?放了就告诉下咱们去学习哈。

【在 n******7 的大作中提到】
: 学习新东西就是自己把自己推上难堪的境地?
: 你有病 不回了

avatar
c*e
44
我说的就是这个意思。生物千老对计算机的基础知识知道得不多,给我一种无所畏惧的
感觉。其实,适当的吹牛没错,但是没有做过,以为很简单,到时候人家让你去做,你
根本都不知道怎么搞distributed system,到时候看你怎么办。

【在 w***g 的大作中提到】
: 我解释下为啥学习的时候也不要用单机虚拟集群。
: 我认为面试的时候吹牛没问题,只要不吹破就行。
: 这个我觉得大家都是默认的。
: 但是如果往集群吹,实际没做过会非常容易吹破,所以不建议。
: 我觉得楼上那位也是那个意思吧。
: 如果只是吹各种数据分析算法,千老非常有优势。

avatar
c*e
45
拜托你还是先把 数据结构 这些基本的书读懂了之后再说吧。

【在 n******7 的大作中提到】
: 学习新东西就是自己把自己推上难堪的境地?
: 你有病 不回了

avatar
d*i
46
我的建议是:如果想转行的话就不要去搞什么spark/scala这种东西了,这些东西都是
骗人的,IT的老手是不会上当的。真正有用的还是IT的那些老一套,你可以主攻一个语
言,C/C++, Java, Python都可以,然后看看基本的数据结构算法就差不多了,这些语
言和东西都不会变,spark这种东西再过一两年完全销声匿迹都有可能。

【在 n******7 的大作中提到】
: 你说的也有道理,也是我纠结的
: 这些年一直做NGS data mining,继续这条路走下去也能有饭吃
: 作为千老干也比较得心应手,算是对行业知识了如指掌
: 但是这些年也受够了技能没需求的苦了
: 也在考虑彻底转掉
: 不过我比较没追求,不想去宇宙中心
: 希望能在小城市找个工作,没有traffic,买房没压力,没事经常出去玩就好

avatar
w*g
47
我觉得python - C++是一条路,java是另一条路。java是主流,但python-C++可能更适合
千老。如果上java,基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上
那套也全面转python了。结果是程序更容易维护,速度差不多快。缺点是内存耗得更多
点。
像我这种今天干这明天干那的,scala真心搞不动。隔一个星期回来看,自己的代码完全
看不懂了。

【在 d****i 的大作中提到】
: 我的建议是:如果想转行的话就不要去搞什么spark/scala这种东西了,这些东西都是
: 骗人的,IT的老手是不会上当的。真正有用的还是IT的那些老一套,你可以主攻一个语
: 言,C/C++, Java, Python都可以,然后看看基本的数据结构算法就差不多了,这些语
: 言和东西都不会变,spark这种东西再过一两年完全销声匿迹都有可能。

avatar
d*i
48
没错,从数据分析角度说python-C++是容易集成一些,但是Java语言上更像C/C++, 用
C++ JNI Java也不失为一条路。

适合
spark上
完全

【在 w***g 的大作中提到】
: 我觉得python - C++是一条路,java是另一条路。java是主流,但python-C++可能更适合
: 千老。如果上java,基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上
: 那套也全面转python了。结果是程序更容易维护,速度差不多快。缺点是内存耗得更多
: 点。
: 像我这种今天干这明天干那的,scala真心搞不动。隔一个星期回来看,自己的代码完全
: 看不懂了。

avatar
w*g
49
你用过就知道了,python集成C++模块非常容易,JNI的难度不是一个数量极的。
一方面是Python C API本身非常简单,然后boost::python又做得非常干净。
另一方面,Python的单线程模式使得C++ code不需要操心被调用时可能出现的
各种同步问题。
Java本身就是一种编译型语言,和C++差不多是在一个层次上的,整合C++
捞不到太多好处。数值计算不得已可能会整合一些汇编语言写的矩阵库,
除此之外java community极其反C++,反之亦然。
java和C++基本上是势不两立的状态。python和C++则非常互补。

【在 d****i 的大作中提到】
: 没错,从数据分析角度说python-C++是容易集成一些,但是Java语言上更像C/C++, 用
: C++ JNI Java也不失为一条路。
:
: 适合
: spark上
: 完全

avatar
l*s
50
re, python和c++互补性很强,java的生态圈则比较封闭。

【在 w***g 的大作中提到】
: 你用过就知道了,python集成C++模块非常容易,JNI的难度不是一个数量极的。
: 一方面是Python C API本身非常简单,然后boost::python又做得非常干净。
: 另一方面,Python的单线程模式使得C++ code不需要操心被调用时可能出现的
: 各种同步问题。
: Java本身就是一种编译型语言,和C++差不多是在一个层次上的,整合C++
: 捞不到太多好处。数值计算不得已可能会整合一些汇编语言写的矩阵库,
: 除此之外java community极其反C++,反之亦然。
: java和C++基本上是势不两立的状态。python和C++则非常互补。

avatar
c*e
51
java也可以用c++啊。何来封闭一说?

【在 l*********s 的大作中提到】
: re, python和c++互补性很强,java的生态圈则比较封闭。
avatar
l*s
52
你写过?纸上谈兵当然容易了。

【在 c*********e 的大作中提到】
: java也可以用c++啊。何来封闭一说?
avatar
h*c
53
java 如何封闭,zkss
java 和linux kernel 一样是用 c 和 c++混着写出来的。
从我老讲下决心学java纯粹是微软逼出来,软对standard c++一直不鸟,自己搞了一出
又一出,然后又不支持了。在这方面根本没有长线战略,自己把自己的社区一个个搞调。
c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西,你在windows下编编
试试,mac也是一个坑。

【在 l*********s 的大作中提到】
: re, python和c++互补性很强,java的生态圈则比较封闭。
avatar
d*i
54
mac OS有一点不好,虽然mac声称mac OS属于一种类Unix系统,但是native的Mac OS的
东西和convention,当你用C,C++写mac OS的native程序的时候就知道和其他Unix系统
还是区别甚大,不如Linux下用C,C++写程序那么规范和严格遵守POSIX标准,这一点甚
至不如Solaris,Solaris以前也有一些自己独特的东东,但是基本还是遵守Unix那套东
西的规范和传统,后来又全部和POSIX规范统一,在保留了自己的特色的同时和Linux
LSB非常接近。

调。

【在 h**********c 的大作中提到】
: java 如何封闭,zkss
: java 和linux kernel 一样是用 c 和 c++混着写出来的。
: 从我老讲下决心学java纯粹是微软逼出来,软对standard c++一直不鸟,自己搞了一出
: 又一出,然后又不支持了。在这方面根本没有长线战略,自己把自己的社区一个个搞调。
: c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西,你在windows下编编
: 试试,mac也是一个坑。

avatar
w*g
55
所有别的语言已经有的功能,java community都会从头写一个java或至少是别的
jvm语言版的。或者你去publish一个带JNI的轮子到maven central repository
试试。

调。

【在 h**********c 的大作中提到】
: java 如何封闭,zkss
: java 和linux kernel 一样是用 c 和 c++混着写出来的。
: 从我老讲下决心学java纯粹是微软逼出来,软对standard c++一直不鸟,自己搞了一出
: 又一出,然后又不支持了。在这方面根本没有长线战略,自己把自己的社区一个个搞调。
: c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西,你在windows下编编
: 试试,mac也是一个坑。

avatar
N*m
56
jzmq?呵呵

【在 w***g 的大作中提到】
: 所有别的语言已经有的功能,java community都会从头写一个java或至少是别的
: jvm语言版的。或者你去publish一个带JNI的轮子到maven central repository
: 试试。
:
: 调。

avatar
N*m
57
不过总的来说,jni确实难用

【在 N*****m 的大作中提到】
: jzmq?呵呵
avatar
h*c
58
maven 上烂东西很多,npm match
不过maven不是信用卡公司,没有对第三方任何认证
功能还是不错的,内容很难讲
我本人讲,能用core java实现第一优先
c++写东西,顾虑太多。写服务器要很深的道行

【在 w***g 的大作中提到】
: 所有别的语言已经有的功能,java community都会从头写一个java或至少是别的
: jvm语言版的。或者你去publish一个带JNI的轮子到maven central repository
: 试试。
:
: 调。

avatar
n*7
59
谢谢,你说的两个例子都不错,有了目标学习起来就快了

【在 b****u 的大作中提到】
: 概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西,比如从
: yahoo上下载几个股票的每日价格,然后算每5天的平均价格,算一下这几个股票的相关
: 性,把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实
: 工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代
: 码。当然sql还是很重要的,因为很多东西还是要从数据库获取。
: 找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。

avatar
n*7
60
是的,我也不准备target专门做spark的工作
我主要是想学习了解一下这个方面
一方面找工作是个plus
另一方面我感觉我做的这块对这个的需求会持续上升,就当技能投资

spark

【在 M********0 的大作中提到】
: 推荐按照cloudera的CDH配一个 虚拟机或者本机都行 楼主应该是做DM/ML的 所以没必
: 要花时间学java写MR code
: 直接学spark吧 能用scala就用 要不就Pyspark 教程youtube 联系就先用spark
: summit上的几个case 弄熟了再随便网上抓data跑
: 这个东西其实上手还蛮快的 一周左右感觉就intro了 我当时还把那本learning spark
: 的书里面大部分章节看了看
: 不过专门招spark的职位好像非常少 所以这个只能是个plus 就算公司里用spark 你进
: 去了也未必要用 当然本着学习的态度了解和掌握一下肯定没有坏处
: 楼主加油

avatar
n*7
61
我明白你的意思,你说的跟我第一次面试的感觉一样。
我也权衡过怎么投技能点。目标是纯码公的话,这些基础的东西,还有leetcode啥的都
要加强。纯码工我最喜欢的就是工作机会多,可以住在我喜欢的城市。
但是这就意味着之前投的很多技能点就完全废掉了。作为千老,还在犹豫要不要删号重
练。

刻。

【在 l*****e 的大作中提到】
: 像这种对一个特定技术要求这么具体的,很可能是去了就得上手干,你自己在家鼓捣鼓
: 捣也未必能胜任。我们招人,基本上就是问问Java语言本身的特性,问几道常规算法题
: (真的最常规的,比如怎么breadth first 遍历一个tree),问几道基本设计题,再问
: 问以前的项目。基本上就可以有一个还算靠谱的评价。如果一个人把一个具体的技术比
: 如Spark/hadoop写在简历上,就会问问,不写就不会问。也不会因为一个人不懂一个具
: 体的技术就不招他。其实一个人基础知识扎实的话,这些东西学起来都非常快。除了
: startup那种一个人顶三个,来的就得上手的地方,一般都不会要求这么具体这么苛刻。

avatar
n*7
62
P.C.R.确实是千老的黄金组合,很多千老广告也是这么写的。这些年来P势头很猛,大
部分事情可以直接用python搞定
只是最近找工作发现相关的工作java特别流行,即使对性能敏感的,也基本都是java
所以想在jvm生态上花些时间学习练习
以后主要靠python+jvm混
那套分析的东西,流行的工具其实一直在变。比如你也做过RNA-seq/DE之类的,你明白的
但是统计/ML的知识跟语言是独立的,我觉得换个语言也还好吧
其实我觉得不会C/C++不算正经程序猿,我这辈子估计是算不了了

适合
spark上
完全

【在 w***g 的大作中提到】
: 我觉得python - C++是一条路,java是另一条路。java是主流,但python-C++可能更适合
: 千老。如果上java,基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上
: 那套也全面转python了。结果是程序更容易维护,速度差不多快。缺点是内存耗得更多
: 点。
: 像我这种今天干这明天干那的,scala真心搞不动。隔一个星期回来看,自己的代码完全
: 看不懂了。

avatar
z*s
63
有个职位需要hadoop,我完全大数据白痴。想快速做个东西让别人看看,可能只有不到
10小时学习时间。冒昧问一句,你说的“把文件夹里所有的数据排序整合成一个文件”
,还有这个处理股票价格的,能不能展开说说怎么下手?
你还说用local node,不用装hadoop。我看教程还是需要安装的啊。
https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoo
SingleCluster.html
另外hadoop那么多模块,你说的是不是MapReduce?谢谢指点。

【在 b****u 的大作中提到】
: 概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西,比如从
: yahoo上下载几个股票的每日价格,然后算每5天的平均价格,算一下这几个股票的相关
: 性,把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实
: 工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代
: 码。当然sql还是很重要的,因为很多东西还是要从数据库获取。
: 找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。