S*P
2 楼
偶然看到的,就拿来试用下,目前在首页右下角和章节列表页底部可见。(好像会被
adblock拦截)
号称有啥独有的小说推荐策略,但为啥我觉得好像推荐的总是就那么几本?也可能是还
没获取到足够的数据?还没开始挑本来试毒,大家可以试试看~
adblock拦截)
号称有啥独有的小说推荐策略,但为啥我觉得好像推荐的总是就那么几本?也可能是还
没获取到足够的数据?还没开始挑本来试毒,大家可以试试看~
n*7
4 楼
千老找工作,被问到了scala/spark/NoSQL这方面
感觉有必要练习一下
有个16核64G内存的机器
为了学习spark/hadoop之类的
我在琢磨单机多开虚拟机来模拟cluster
有这么玩的吗?
最好有什么工具专门为这个目的设计的
vagrant似乎不错?
感觉有必要练习一下
有个16核64G内存的机器
为了学习spark/hadoop之类的
我在琢磨单机多开虚拟机来模拟cluster
有这么玩的吗?
最好有什么工具专门为这个目的设计的
vagrant似乎不错?
w*n
8 楼
我装的窗帘啊,感觉邻居窗帘也很多。可能因为我们是老区,周围树多,不需要百页窗
遮阳光。
如果需要遮阳光,我也会选择里面用cellular的百页,外面加一层窗帘。窗帘使家里显
得温馨柔和。
另:你在南方还是北方?北方的话,冬天晚上没有厚窗帘,外面的凉辐射进来也觉得嗖
嗖的。
遮阳光。
如果需要遮阳光,我也会选择里面用cellular的百页,外面加一层窗帘。窗帘使家里显
得温馨柔和。
另:你在南方还是北方?北方的话,冬天晚上没有厚窗帘,外面的凉辐射进来也觉得嗖
嗖的。
g*1
13 楼
cloudera
b*u
17 楼
最近给公司搞了一个,俺就用local mode,这样hadoop都不用装,解决问题最重要。最
主要的是用dataframe和一些machine learning 的包。说实话spark做的也就那回事。
python里的dataframe要好用太多了。装一个cluster,挺炫的,但很多精力要放在
infrastructure上。
主要的是用dataframe和一些machine learning 的包。说实话spark做的也就那回事。
python里的dataframe要好用太多了。装一个cluster,挺炫的,但很多精力要放在
infrastructure上。
b*u
19 楼
我的意思是不要在infrastructure 上花太多时间。做一个实际的例子。比如把文件夹
里所有的数据排序整合成一个文件。把这个放到GitHub 上更有意义。
里所有的数据排序整合成一个文件。把这个放到GitHub 上更有意义。
b*u
21 楼
就凭楼主上来问问题的精神,进公司就一定能把事搞定的。关键是如何跨进一个公司。
w*m
25 楼
估计spark是个人都谈
还没见过谁真正用。
所以大胆吹牛吧
还没见过谁真正用。
所以大胆吹牛吧
w*g
28 楼
其实我也想这么说的。spark一个是怎么用API写算法。一个是怎么调优,出了问题怎么
解决。单机学习前一个没问题。但是后一个,单机模拟机群和真的机群的行为非常不一
样,小
机群和大机群的行为也非常不一样。我们团队有一个机群,只有很少几台极其,但每台
配置
都很高。还有一个团队,机器数量是我们好几倍,但每台配置都很低,这个一看就是外行
配出来的。算法怎么说都可以,配系统,调优的事情,碰到内行的,问上一两句基本上就
现原形了。我要出去说,也只能够说我在小机群上跑过生产系统,几百台几千台的部署
根本
就没见过。我还有一个只有两台机器的hadoop生产系统,跑了有几年了。如果生物千老
过来说搞过spark机群,这事本来就非常可疑,必然要问下去的。不需要问技术细节,
只要问是什么样的dataset,有多大,楼主立刻就完蛋了。
但楼主要是说是一个10来G的dataset,单机上各种统计聚类啥的玩得纯熟,感觉上
会好很多。
本来要做成事情就难,大家都open实话实说还能降低点通信成本。平级的互相搞政治也是
为了生存没有办法。但要是发现自己招进来的人吹牛,感觉会非常不好。
(对方如果根本不懂技术,招人带头建data science组这种情况另说,那就真的怎么乎
悠都
行了。)
【在 c*********e 的大作中提到】
: 一生物千老,从来没做过distributed system,面试的时候骗人家说以前做过,进了公
: 司,你觉得他搞得定spark, hadoop吗?没做过就说没做过,人要诚实。做过了,做得
: 不好,可以吹成做得很好。但是,没做过,就说没做过。
解决。单机学习前一个没问题。但是后一个,单机模拟机群和真的机群的行为非常不一
样,小
机群和大机群的行为也非常不一样。我们团队有一个机群,只有很少几台极其,但每台
配置
都很高。还有一个团队,机器数量是我们好几倍,但每台配置都很低,这个一看就是外行
配出来的。算法怎么说都可以,配系统,调优的事情,碰到内行的,问上一两句基本上就
现原形了。我要出去说,也只能够说我在小机群上跑过生产系统,几百台几千台的部署
根本
就没见过。我还有一个只有两台机器的hadoop生产系统,跑了有几年了。如果生物千老
过来说搞过spark机群,这事本来就非常可疑,必然要问下去的。不需要问技术细节,
只要问是什么样的dataset,有多大,楼主立刻就完蛋了。
但楼主要是说是一个10来G的dataset,单机上各种统计聚类啥的玩得纯熟,感觉上
会好很多。
本来要做成事情就难,大家都open实话实说还能降低点通信成本。平级的互相搞政治也是
为了生存没有办法。但要是发现自己招进来的人吹牛,感觉会非常不好。
(对方如果根本不懂技术,招人带头建data science组这种情况另说,那就真的怎么乎
悠都
行了。)
【在 c*********e 的大作中提到】
: 一生物千老,从来没做过distributed system,面试的时候骗人家说以前做过,进了公
: 司,你觉得他搞得定spark, hadoop吗?没做过就说没做过,人要诚实。做过了,做得
: 不好,可以吹成做得很好。但是,没做过,就说没做过。
b*u
29 楼
这就是为什么我让楼主放一个简单的Spark项目到Github上,其实有个基本入门就可以
了。我们公司刚招了一个来接管我Spark的活,没用过DATAFRAME,没用过ML包,也不影
响人家说他会用Spark。有个好的工作态度,能够交流学习就可以了。也就是用用别人
的轮子,没什么太难的活。
了。我们公司刚招了一个来接管我Spark的活,没用过DATAFRAME,没用过ML包,也不影
响人家说他会用Spark。有个好的工作态度,能够交流学习就可以了。也就是用用别人
的轮子,没什么太难的活。
n*7
32 楼
你是受了这个ID信口开河的误导
我从来没有吹牛说我会scala/spark
我学这个直接的动因是面试一个职位,recruiter 问我会不会这个
我说没接触,顺便问她这个需要懂吗
她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景
来决定最佳的人选
我就感觉,如果我有hand-on的经验,会是个很大的plus
另外现在的行业确实对这一块有需求
我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作
外行
上就
【在 w***g 的大作中提到】
: 其实我也想这么说的。spark一个是怎么用API写算法。一个是怎么调优,出了问题怎么
: 解决。单机学习前一个没问题。但是后一个,单机模拟机群和真的机群的行为非常不一
: 样,小
: 机群和大机群的行为也非常不一样。我们团队有一个机群,只有很少几台极其,但每台
: 配置
: 都很高。还有一个团队,机器数量是我们好几倍,但每台配置都很低,这个一看就是外行
: 配出来的。算法怎么说都可以,配系统,调优的事情,碰到内行的,问上一两句基本上就
: 现原形了。我要出去说,也只能够说我在小机群上跑过生产系统,几百台几千台的部署
: 根本
: 就没见过。我还有一个只有两台机器的hadoop生产系统,跑了有几年了。如果生物千老
我从来没有吹牛说我会scala/spark
我学这个直接的动因是面试一个职位,recruiter 问我会不会这个
我说没接触,顺便问她这个需要懂吗
她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景
来决定最佳的人选
我就感觉,如果我有hand-on的经验,会是个很大的plus
另外现在的行业确实对这一块有需求
我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作
外行
上就
【在 w***g 的大作中提到】
: 其实我也想这么说的。spark一个是怎么用API写算法。一个是怎么调优,出了问题怎么
: 解决。单机学习前一个没问题。但是后一个,单机模拟机群和真的机群的行为非常不一
: 样,小
: 机群和大机群的行为也非常不一样。我们团队有一个机群,只有很少几台极其,但每台
: 配置
: 都很高。还有一个团队,机器数量是我们好几倍,但每台配置都很低,这个一看就是外行
: 配出来的。算法怎么说都可以,配系统,调优的事情,碰到内行的,问上一两句基本上就
: 现原形了。我要出去说,也只能够说我在小机群上跑过生产系统,几百台几千台的部署
: 根本
: 就没见过。我还有一个只有两台机器的hadoop生产系统,跑了有几年了。如果生物千老
w*g
33 楼
我解释下为啥学习的时候也不要用单机虚拟集群。
我认为面试的时候吹牛没问题,只要不吹破就行。
这个我觉得大家都是默认的。
但是如果往集群吹,实际没做过会非常容易吹破,所以不建议。
我觉得楼上那位也是那个意思吧。
如果只是吹各种数据分析算法,千老非常有优势。
【在 n******7 的大作中提到】
: 你是受了这个ID信口开河的误导
: 我从来没有吹牛说我会scala/spark
: 我学这个直接的动因是面试一个职位,recruiter 问我会不会这个
: 我说没接触,顺便问她这个需要懂吗
: 她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景
: 来决定最佳的人选
: 我就感觉,如果我有hand-on的经验,会是个很大的plus
: 另外现在的行业确实对这一块有需求
: 我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
: 谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作
我认为面试的时候吹牛没问题,只要不吹破就行。
这个我觉得大家都是默认的。
但是如果往集群吹,实际没做过会非常容易吹破,所以不建议。
我觉得楼上那位也是那个意思吧。
如果只是吹各种数据分析算法,千老非常有优势。
【在 n******7 的大作中提到】
: 你是受了这个ID信口开河的误导
: 我从来没有吹牛说我会scala/spark
: 我学这个直接的动因是面试一个职位,recruiter 问我会不会这个
: 我说没接触,顺便问她这个需要懂吗
: 她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景
: 来决定最佳的人选
: 我就感觉,如果我有hand-on的经验,会是个很大的plus
: 另外现在的行业确实对这一块有需求
: 我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
: 谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作
n*7
34 楼
謝謝鼓励
我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟
我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
在我们行业里面使用的话,会有多大优势
很多东西都是听人说,自己不摸一下没感觉
我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的
能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再
有一些spark的经验,够不够?需要scala/nosql方面的知识吗?
【在 b****u 的大作中提到】
: 这就是为什么我让楼主放一个简单的Spark项目到Github上,其实有个基本入门就可以
: 了。我们公司刚招了一个来接管我Spark的活,没用过DATAFRAME,没用过ML包,也不影
: 响人家说他会用Spark。有个好的工作态度,能够交流学习就可以了。也就是用用别人
: 的轮子,没什么太难的活。
我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟
我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
在我们行业里面使用的话,会有多大优势
很多东西都是听人说,自己不摸一下没感觉
我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的
能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再
有一些spark的经验,够不够?需要scala/nosql方面的知识吗?
【在 b****u 的大作中提到】
: 这就是为什么我让楼主放一个简单的Spark项目到Github上,其实有个基本入门就可以
: 了。我们公司刚招了一个来接管我Spark的活,没用过DATAFRAME,没用过ML包,也不影
: 响人家说他会用Spark。有个好的工作态度,能够交流学习就可以了。也就是用用别人
: 的轮子,没什么太难的活。
l*s
36 楼
其实吧,非要一个螺丝顶5个用的地方肯定累,不是什么好去处,大公司更关心的智商
。这点上,哪怕生物博士对计算机硕士也是很有优势的。:-)
我觉得楼主上策还是把leetcode刷烂,然后申请FLAG一步到位。而且转行就要准备彻底
转,不要主打data minging才能有更广阔的天地。
。这点上,哪怕生物博士对计算机硕士也是很有优势的。:-)
我觉得楼主上策还是把leetcode刷烂,然后申请FLAG一步到位。而且转行就要准备彻底
转,不要主打data minging才能有更广阔的天地。
n*7
37 楼
你说的也有道理,也是我纠结的
这些年一直做NGS data mining,继续这条路走下去也能有饭吃
作为千老干也比较得心应手,算是对行业知识了如指掌
但是这些年也受够了技能没需求的苦了
也在考虑彻底转掉
不过我比较没追求,不想去宇宙中心
希望能在小城市找个工作,没有traffic,买房没压力,没事经常出去玩就好
【在 l*********s 的大作中提到】
: 其实吧,非要一个螺丝顶5个用的地方肯定累,不是什么好去处,大公司更关心的智商
: 。这点上,哪怕生物博士对计算机硕士也是很有优势的。:-)
: 我觉得楼主上策还是把leetcode刷烂,然后申请FLAG一步到位。而且转行就要准备彻底
: 转,不要主打data minging才能有更广阔的天地。
这些年一直做NGS data mining,继续这条路走下去也能有饭吃
作为千老干也比较得心应手,算是对行业知识了如指掌
但是这些年也受够了技能没需求的苦了
也在考虑彻底转掉
不过我比较没追求,不想去宇宙中心
希望能在小城市找个工作,没有traffic,买房没压力,没事经常出去玩就好
【在 l*********s 的大作中提到】
: 其实吧,非要一个螺丝顶5个用的地方肯定累,不是什么好去处,大公司更关心的智商
: 。这点上,哪怕生物博士对计算机硕士也是很有优势的。:-)
: 我觉得楼主上策还是把leetcode刷烂,然后申请FLAG一步到位。而且转行就要准备彻底
: 转,不要主打data minging才能有更广阔的天地。
b*u
38 楼
概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西,比如从
yahoo上下载几个股票的每日价格,然后算每5天的平均价格,算一下这几个股票的相关
性,把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实
工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代
码。当然sql还是很重要的,因为很多东西还是要从数据库获取。
找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。
【在 n******7 的大作中提到】
: 謝謝鼓励
: 我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟
: 我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
: 在我们行业里面使用的话,会有多大优势
: 很多东西都是听人说,自己不摸一下没感觉
: 我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的
: 能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再
: 有一些spark的经验,够不够?需要scala/nosql方面的知识吗?
yahoo上下载几个股票的每日价格,然后算每5天的平均价格,算一下这几个股票的相关
性,把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实
工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代
码。当然sql还是很重要的,因为很多东西还是要从数据库获取。
找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。
【在 n******7 的大作中提到】
: 謝謝鼓励
: 我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟
: 我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
: 在我们行业里面使用的话,会有多大优势
: 很多东西都是听人说,自己不摸一下没感觉
: 我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的
: 能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再
: 有一些spark的经验,够不够?需要scala/nosql方面的知识吗?
M*0
39 楼
推荐按照cloudera的CDH配一个 虚拟机或者本机都行 楼主应该是做DM/ML的 所以没必
要花时间学java写MR code
直接学spark吧 能用scala就用 要不就Pyspark 教程youtube 联系就先用spark
summit上的几个case 弄熟了再随便网上抓data跑
这个东西其实上手还蛮快的 一周左右感觉就intro了 我当时还把那本learning spark
的书里面大部分章节看了看
不过专门招spark的职位好像非常少 所以这个只能是个plus 就算公司里用spark 你进
去了也未必要用 当然本着学习的态度了解和掌握一下肯定没有坏处
楼主加油
要花时间学java写MR code
直接学spark吧 能用scala就用 要不就Pyspark 教程youtube 联系就先用spark
summit上的几个case 弄熟了再随便网上抓data跑
这个东西其实上手还蛮快的 一周左右感觉就intro了 我当时还把那本learning spark
的书里面大部分章节看了看
不过专门招spark的职位好像非常少 所以这个只能是个plus 就算公司里用spark 你进
去了也未必要用 当然本着学习的态度了解和掌握一下肯定没有坏处
楼主加油
l*e
41 楼
像这种对一个特定技术要求这么具体的,很可能是去了就得上手干,你自己在家鼓捣鼓
捣也未必能胜任。我们招人,基本上就是问问Java语言本身的特性,问几道常规算法题
(真的最常规的,比如怎么breadth first 遍历一个tree),问几道基本设计题,再问
问以前的项目。基本上就可以有一个还算靠谱的评价。如果一个人把一个具体的技术比
如Spark/hadoop写在简历上,就会问问,不写就不会问。也不会因为一个人不懂一个具
体的技术就不招他。其实一个人基础知识扎实的话,这些东西学起来都非常快。除了
startup那种一个人顶三个,来的就得上手的地方,一般都不会要求这么具体这么苛刻。
【在 n******7 的大作中提到】
: 謝謝鼓励
: 我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟
: 我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
: 在我们行业里面使用的话,会有多大优势
: 很多东西都是听人说,自己不摸一下没感觉
: 我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的
: 能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再
: 有一些spark的经验,够不够?需要scala/nosql方面的知识吗?
捣也未必能胜任。我们招人,基本上就是问问Java语言本身的特性,问几道常规算法题
(真的最常规的,比如怎么breadth first 遍历一个tree),问几道基本设计题,再问
问以前的项目。基本上就可以有一个还算靠谱的评价。如果一个人把一个具体的技术比
如Spark/hadoop写在简历上,就会问问,不写就不会问。也不会因为一个人不懂一个具
体的技术就不招他。其实一个人基础知识扎实的话,这些东西学起来都非常快。除了
startup那种一个人顶三个,来的就得上手的地方,一般都不会要求这么具体这么苛刻。
【在 n******7 的大作中提到】
: 謝謝鼓励
: 我搜了一下,spark这个data.frame跟R和python的概念上是一致的,这个我很熟
: 我想学spark另外一个因素就是想看看spark跟单机的工具对比起来有什么异同
: 在我们行业里面使用的话,会有多大优势
: 很多东西都是听人说,自己不摸一下没感觉
: 我最近找工作才发现java远比我想象的流行,觉得jvm上面的东西还是值得投资的
: 能大致说一下你们招人主要看什么吗?如果对用R/python 处理data和ML比较熟悉,再
: 有一些spark的经验,够不够?需要scala/nosql方面的知识吗?
l*m
42 楼
如果你会build你spark project成jar, 单机,多机都是一样的submit, 当然dependecy
, 优化是下一步了。
【在 n******7 的大作中提到】
: 你是受了这个ID信口开河的误导
: 我从来没有吹牛说我会scala/spark
: 我学这个直接的动因是面试一个职位,recruiter 问我会不会这个
: 我说没接触,顺便问她这个需要懂吗
: 她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景
: 来决定最佳的人选
: 我就感觉,如果我有hand-on的经验,会是个很大的plus
: 另外现在的行业确实对这一块有需求
: 我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
: 谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作
, 优化是下一步了。
【在 n******7 的大作中提到】
: 你是受了这个ID信口开河的误导
: 我从来没有吹牛说我会scala/spark
: 我学这个直接的动因是面试一个职位,recruiter 问我会不会这个
: 我说没接触,顺便问她这个需要懂吗
: 她说公司小,里面什么背景的都有,所以想搞清楚每个candidate的背景
: 来决定最佳的人选
: 我就感觉,如果我有hand-on的经验,会是个很大的plus
: 另外现在的行业确实对这一块有需求
: 我也不需要成为这方面的expert才能找到一个涉及这种技术的工作
: 谁都有第一次,你不能因为我在家学不到全套活计,就觉得我准备靠吹牛找工作
d*i
46 楼
我的建议是:如果想转行的话就不要去搞什么spark/scala这种东西了,这些东西都是
骗人的,IT的老手是不会上当的。真正有用的还是IT的那些老一套,你可以主攻一个语
言,C/C++, Java, Python都可以,然后看看基本的数据结构算法就差不多了,这些语
言和东西都不会变,spark这种东西再过一两年完全销声匿迹都有可能。
【在 n******7 的大作中提到】
: 你说的也有道理,也是我纠结的
: 这些年一直做NGS data mining,继续这条路走下去也能有饭吃
: 作为千老干也比较得心应手,算是对行业知识了如指掌
: 但是这些年也受够了技能没需求的苦了
: 也在考虑彻底转掉
: 不过我比较没追求,不想去宇宙中心
: 希望能在小城市找个工作,没有traffic,买房没压力,没事经常出去玩就好
骗人的,IT的老手是不会上当的。真正有用的还是IT的那些老一套,你可以主攻一个语
言,C/C++, Java, Python都可以,然后看看基本的数据结构算法就差不多了,这些语
言和东西都不会变,spark这种东西再过一两年完全销声匿迹都有可能。
【在 n******7 的大作中提到】
: 你说的也有道理,也是我纠结的
: 这些年一直做NGS data mining,继续这条路走下去也能有饭吃
: 作为千老干也比较得心应手,算是对行业知识了如指掌
: 但是这些年也受够了技能没需求的苦了
: 也在考虑彻底转掉
: 不过我比较没追求,不想去宇宙中心
: 希望能在小城市找个工作,没有traffic,买房没压力,没事经常出去玩就好
w*g
47 楼
我觉得python - C++是一条路,java是另一条路。java是主流,但python-C++可能更适合
千老。如果上java,基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上
那套也全面转python了。结果是程序更容易维护,速度差不多快。缺点是内存耗得更多
点。
像我这种今天干这明天干那的,scala真心搞不动。隔一个星期回来看,自己的代码完全
看不懂了。
【在 d****i 的大作中提到】
: 我的建议是:如果想转行的话就不要去搞什么spark/scala这种东西了,这些东西都是
: 骗人的,IT的老手是不会上当的。真正有用的还是IT的那些老一套,你可以主攻一个语
: 言,C/C++, Java, Python都可以,然后看看基本的数据结构算法就差不多了,这些语
: 言和东西都不会变,spark这种东西再过一两年完全销声匿迹都有可能。
千老。如果上java,基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上
那套也全面转python了。结果是程序更容易维护,速度差不多快。缺点是内存耗得更多
点。
像我这种今天干这明天干那的,scala真心搞不动。隔一个星期回来看,自己的代码完全
看不懂了。
【在 d****i 的大作中提到】
: 我的建议是:如果想转行的话就不要去搞什么spark/scala这种东西了,这些东西都是
: 骗人的,IT的老手是不会上当的。真正有用的还是IT的那些老一套,你可以主攻一个语
: 言,C/C++, Java, Python都可以,然后看看基本的数据结构算法就差不多了,这些语
: 言和东西都不会变,spark这种东西再过一两年完全销声匿迹都有可能。
w*g
49 楼
你用过就知道了,python集成C++模块非常容易,JNI的难度不是一个数量极的。
一方面是Python C API本身非常简单,然后boost::python又做得非常干净。
另一方面,Python的单线程模式使得C++ code不需要操心被调用时可能出现的
各种同步问题。
Java本身就是一种编译型语言,和C++差不多是在一个层次上的,整合C++
捞不到太多好处。数值计算不得已可能会整合一些汇编语言写的矩阵库,
除此之外java community极其反C++,反之亦然。
java和C++基本上是势不两立的状态。python和C++则非常互补。
【在 d****i 的大作中提到】
: 没错,从数据分析角度说python-C++是容易集成一些,但是Java语言上更像C/C++, 用
: C++ JNI Java也不失为一条路。
:
: 适合
: spark上
: 完全
一方面是Python C API本身非常简单,然后boost::python又做得非常干净。
另一方面,Python的单线程模式使得C++ code不需要操心被调用时可能出现的
各种同步问题。
Java本身就是一种编译型语言,和C++差不多是在一个层次上的,整合C++
捞不到太多好处。数值计算不得已可能会整合一些汇编语言写的矩阵库,
除此之外java community极其反C++,反之亦然。
java和C++基本上是势不两立的状态。python和C++则非常互补。
【在 d****i 的大作中提到】
: 没错,从数据分析角度说python-C++是容易集成一些,但是Java语言上更像C/C++, 用
: C++ JNI Java也不失为一条路。
:
: 适合
: spark上
: 完全
l*s
50 楼
re, python和c++互补性很强,java的生态圈则比较封闭。
【在 w***g 的大作中提到】
: 你用过就知道了,python集成C++模块非常容易,JNI的难度不是一个数量极的。
: 一方面是Python C API本身非常简单,然后boost::python又做得非常干净。
: 另一方面,Python的单线程模式使得C++ code不需要操心被调用时可能出现的
: 各种同步问题。
: Java本身就是一种编译型语言,和C++差不多是在一个层次上的,整合C++
: 捞不到太多好处。数值计算不得已可能会整合一些汇编语言写的矩阵库,
: 除此之外java community极其反C++,反之亦然。
: java和C++基本上是势不两立的状态。python和C++则非常互补。
【在 w***g 的大作中提到】
: 你用过就知道了,python集成C++模块非常容易,JNI的难度不是一个数量极的。
: 一方面是Python C API本身非常简单,然后boost::python又做得非常干净。
: 另一方面,Python的单线程模式使得C++ code不需要操心被调用时可能出现的
: 各种同步问题。
: Java本身就是一种编译型语言,和C++差不多是在一个层次上的,整合C++
: 捞不到太多好处。数值计算不得已可能会整合一些汇编语言写的矩阵库,
: 除此之外java community极其反C++,反之亦然。
: java和C++基本上是势不两立的状态。python和C++则非常互补。
d*i
54 楼
mac OS有一点不好,虽然mac声称mac OS属于一种类Unix系统,但是native的Mac OS的
东西和convention,当你用C,C++写mac OS的native程序的时候就知道和其他Unix系统
还是区别甚大,不如Linux下用C,C++写程序那么规范和严格遵守POSIX标准,这一点甚
至不如Solaris,Solaris以前也有一些自己独特的东东,但是基本还是遵守Unix那套东
西的规范和传统,后来又全部和POSIX规范统一,在保留了自己的特色的同时和Linux
LSB非常接近。
调。
【在 h**********c 的大作中提到】
: java 如何封闭,zkss
: java 和linux kernel 一样是用 c 和 c++混着写出来的。
: 从我老讲下决心学java纯粹是微软逼出来,软对standard c++一直不鸟,自己搞了一出
: 又一出,然后又不支持了。在这方面根本没有长线战略,自己把自己的社区一个个搞调。
: c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西,你在windows下编编
: 试试,mac也是一个坑。
东西和convention,当你用C,C++写mac OS的native程序的时候就知道和其他Unix系统
还是区别甚大,不如Linux下用C,C++写程序那么规范和严格遵守POSIX标准,这一点甚
至不如Solaris,Solaris以前也有一些自己独特的东东,但是基本还是遵守Unix那套东
西的规范和传统,后来又全部和POSIX规范统一,在保留了自己的特色的同时和Linux
LSB非常接近。
调。
【在 h**********c 的大作中提到】
: java 如何封闭,zkss
: java 和linux kernel 一样是用 c 和 c++混着写出来的。
: 从我老讲下决心学java纯粹是微软逼出来,软对standard c++一直不鸟,自己搞了一出
: 又一出,然后又不支持了。在这方面根本没有长线战略,自己把自己的社区一个个搞调。
: c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西,你在windows下编编
: 试试,mac也是一个坑。
w*g
55 楼
所有别的语言已经有的功能,java community都会从头写一个java或至少是别的
jvm语言版的。或者你去publish一个带JNI的轮子到maven central repository
试试。
调。
【在 h**********c 的大作中提到】
: java 如何封闭,zkss
: java 和linux kernel 一样是用 c 和 c++混着写出来的。
: 从我老讲下决心学java纯粹是微软逼出来,软对standard c++一直不鸟,自己搞了一出
: 又一出,然后又不支持了。在这方面根本没有长线战略,自己把自己的社区一个个搞调。
: c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西,你在windows下编编
: 试试,mac也是一个坑。
jvm语言版的。或者你去publish一个带JNI的轮子到maven central repository
试试。
调。
【在 h**********c 的大作中提到】
: java 如何封闭,zkss
: java 和linux kernel 一样是用 c 和 c++混着写出来的。
: 从我老讲下决心学java纯粹是微软逼出来,软对standard c++一直不鸟,自己搞了一出
: 又一出,然后又不支持了。在这方面根本没有长线战略,自己把自己的社区一个个搞调。
: c++跨平台即便今日也就是个Scheherazade .UNIX/LINUX下的东西,你在windows下编编
: 试试,mac也是一个坑。
n*7
60 楼
是的,我也不准备target专门做spark的工作
我主要是想学习了解一下这个方面
一方面找工作是个plus
另一方面我感觉我做的这块对这个的需求会持续上升,就当技能投资
spark
【在 M********0 的大作中提到】
: 推荐按照cloudera的CDH配一个 虚拟机或者本机都行 楼主应该是做DM/ML的 所以没必
: 要花时间学java写MR code
: 直接学spark吧 能用scala就用 要不就Pyspark 教程youtube 联系就先用spark
: summit上的几个case 弄熟了再随便网上抓data跑
: 这个东西其实上手还蛮快的 一周左右感觉就intro了 我当时还把那本learning spark
: 的书里面大部分章节看了看
: 不过专门招spark的职位好像非常少 所以这个只能是个plus 就算公司里用spark 你进
: 去了也未必要用 当然本着学习的态度了解和掌握一下肯定没有坏处
: 楼主加油
我主要是想学习了解一下这个方面
一方面找工作是个plus
另一方面我感觉我做的这块对这个的需求会持续上升,就当技能投资
spark
【在 M********0 的大作中提到】
: 推荐按照cloudera的CDH配一个 虚拟机或者本机都行 楼主应该是做DM/ML的 所以没必
: 要花时间学java写MR code
: 直接学spark吧 能用scala就用 要不就Pyspark 教程youtube 联系就先用spark
: summit上的几个case 弄熟了再随便网上抓data跑
: 这个东西其实上手还蛮快的 一周左右感觉就intro了 我当时还把那本learning spark
: 的书里面大部分章节看了看
: 不过专门招spark的职位好像非常少 所以这个只能是个plus 就算公司里用spark 你进
: 去了也未必要用 当然本着学习的态度了解和掌握一下肯定没有坏处
: 楼主加油
n*7
61 楼
我明白你的意思,你说的跟我第一次面试的感觉一样。
我也权衡过怎么投技能点。目标是纯码公的话,这些基础的东西,还有leetcode啥的都
要加强。纯码工我最喜欢的就是工作机会多,可以住在我喜欢的城市。
但是这就意味着之前投的很多技能点就完全废掉了。作为千老,还在犹豫要不要删号重
练。
刻。
【在 l*****e 的大作中提到】
: 像这种对一个特定技术要求这么具体的,很可能是去了就得上手干,你自己在家鼓捣鼓
: 捣也未必能胜任。我们招人,基本上就是问问Java语言本身的特性,问几道常规算法题
: (真的最常规的,比如怎么breadth first 遍历一个tree),问几道基本设计题,再问
: 问以前的项目。基本上就可以有一个还算靠谱的评价。如果一个人把一个具体的技术比
: 如Spark/hadoop写在简历上,就会问问,不写就不会问。也不会因为一个人不懂一个具
: 体的技术就不招他。其实一个人基础知识扎实的话,这些东西学起来都非常快。除了
: startup那种一个人顶三个,来的就得上手的地方,一般都不会要求这么具体这么苛刻。
我也权衡过怎么投技能点。目标是纯码公的话,这些基础的东西,还有leetcode啥的都
要加强。纯码工我最喜欢的就是工作机会多,可以住在我喜欢的城市。
但是这就意味着之前投的很多技能点就完全废掉了。作为千老,还在犹豫要不要删号重
练。
刻。
【在 l*****e 的大作中提到】
: 像这种对一个特定技术要求这么具体的,很可能是去了就得上手干,你自己在家鼓捣鼓
: 捣也未必能胜任。我们招人,基本上就是问问Java语言本身的特性,问几道常规算法题
: (真的最常规的,比如怎么breadth first 遍历一个tree),问几道基本设计题,再问
: 问以前的项目。基本上就可以有一个还算靠谱的评价。如果一个人把一个具体的技术比
: 如Spark/hadoop写在简历上,就会问问,不写就不会问。也不会因为一个人不懂一个具
: 体的技术就不招他。其实一个人基础知识扎实的话,这些东西学起来都非常快。除了
: startup那种一个人顶三个,来的就得上手的地方,一般都不会要求这么具体这么苛刻。
n*7
62 楼
P.C.R.确实是千老的黄金组合,很多千老广告也是这么写的。这些年来P势头很猛,大
部分事情可以直接用python搞定
只是最近找工作发现相关的工作java特别流行,即使对性能敏感的,也基本都是java
所以想在jvm生态上花些时间学习练习
以后主要靠python+jvm混
那套分析的东西,流行的工具其实一直在变。比如你也做过RNA-seq/DE之类的,你明白的
但是统计/ML的知识跟语言是独立的,我觉得换个语言也还好吧
其实我觉得不会C/C++不算正经程序猿,我这辈子估计是算不了了
适合
spark上
完全
【在 w***g 的大作中提到】
: 我觉得python - C++是一条路,java是另一条路。java是主流,但python-C++可能更适合
: 千老。如果上java,基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上
: 那套也全面转python了。结果是程序更容易维护,速度差不多快。缺点是内存耗得更多
: 点。
: 像我这种今天干这明天干那的,scala真心搞不动。隔一个星期回来看,自己的代码完全
: 看不懂了。
部分事情可以直接用python搞定
只是最近找工作发现相关的工作java特别流行,即使对性能敏感的,也基本都是java
所以想在jvm生态上花些时间学习练习
以后主要靠python+jvm混
那套分析的东西,流行的工具其实一直在变。比如你也做过RNA-seq/DE之类的,你明白的
但是统计/ML的知识跟语言是独立的,我觉得换个语言也还好吧
其实我觉得不会C/C++不算正经程序猿,我这辈子估计是算不了了
适合
spark上
完全
【在 w***g 的大作中提到】
: 我觉得python - C++是一条路,java是另一条路。java是主流,但python-C++可能更适合
: 千老。如果上java,基本上等于在学校玩的那套数据分析啥的全废了。我们现在spark上
: 那套也全面转python了。结果是程序更容易维护,速度差不多快。缺点是内存耗得更多
: 点。
: 像我这种今天干这明天干那的,scala真心搞不动。隔一个星期回来看,自己的代码完全
: 看不懂了。
z*s
63 楼
有个职位需要hadoop,我完全大数据白痴。想快速做个东西让别人看看,可能只有不到
10小时学习时间。冒昧问一句,你说的“把文件夹里所有的数据排序整合成一个文件”
,还有这个处理股票价格的,能不能展开说说怎么下手?
你还说用local node,不用装hadoop。我看教程还是需要安装的啊。
https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoo
SingleCluster.html
另外hadoop那么多模块,你说的是不是MapReduce?谢谢指点。
【在 b****u 的大作中提到】
: 概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西,比如从
: yahoo上下载几个股票的每日价格,然后算每5天的平均价格,算一下这几个股票的相关
: 性,把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实
: 工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代
: 码。当然sql还是很重要的,因为很多东西还是要从数据库获取。
: 找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。
10小时学习时间。冒昧问一句,你说的“把文件夹里所有的数据排序整合成一个文件”
,还有这个处理股票价格的,能不能展开说说怎么下手?
你还说用local node,不用装hadoop。我看教程还是需要安装的啊。
https://hadoop.apache.org/docs/r2.7.2/hadoop-project-dist/hadoo
SingleCluster.html
另外hadoop那么多模块,你说的是不是MapReduce?谢谢指点。
【在 b****u 的大作中提到】
: 概念上是一样的。工程上很多东西是要具体实现出来。做一个简单的东西,比如从
: yahoo上下载几个股票的每日价格,然后算每5天的平均价格,算一下这几个股票的相关
: 性,把结果输出到文本或存起来。把这样的程序放到Github 上效果会就很好了。其实
: 工作里多数时间也就是干些这类活。其实公司就是看你是不是能够作一些hands-on的代
: 码。当然sql还是很重要的,因为很多东西还是要从数据库获取。
: 找工作这个东西就是看chemistry和motivation,你表现出来的激情是最重要的。
相关阅读
dropout是不是喝dropgrad等价?kafka的兼容性问题写程序越来越难async那个架构其实很容易证明会增加复杂度的如何使神经网络输出为正,或始终有一个下界Tensorflow就是靠天吃饭啊8 bit神经网络都出来了我们换个角度看阻塞问题今天问了某ML专家一个问题。。。Androidx系统采集播放声音的任务Amazon上的smart plug一直在on sale (转载)这种支持拖拽视角的视频功能怎么撸?问一个前面讨论过的CV和NLP的问题完蛋了完蛋了,我找人开发软件,后台用的是GO有在CES的吗?请教个问题[bssd]给大家贡献几个实际项目的情况2019 年做个网页还用 bootstrap 吗?golang的一个问题我给你们挖个新坑吧 GC