股道在忍 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>Stock

股道在忍

股道在忍# Stock

l*e2010-09-13 07:09

1 楼

化学出身,
自学了个C, python, java,
想再学学Hadoop找big data工作有可能吗，
这种工作对统计要求高吗比如必须要统计硕士博士之类？

d*a2010-09-13 07:09

2 楼

尤其在金银满罐时。

z*e2010-09-13 07:09

3 楼

未必对统计要求高
但是你要知道怎么用统计上的那些知识
知道线性代数怎么用来做搜索
相似度理论，如何做群这些
严格说来这些是统计，也不是统计
可以说是统计跟cs结合的一个领域吧
另外我个人觉得big data离真正创造价值还有很长的路要走
前一段狂热有些hype的味道，我不认为把鸡蛋放在这一个篮子里是啥好事
你应该同时也考虑一下其他职位，比如开发岗

a*82010-09-13 07:09

4 楼

今天REE没忍住，早泄了。

l*e2010-09-13 07:09

5 楼

哦，
谢谢，
不过你说的这些概念比如相似度，群之类我都比较模糊，
学习这些理论需要很长时间吗，
还是只要停留在了解会用的层面上就行了。
另外谢谢你对其它职位的建议。

【在 z****e 的大作中提到】

: 未必对统计要求高
: 但是你要知道怎么用统计上的那些知识
: 知道线性代数怎么用来做搜索
: 相似度理论，如何做群这些
: 严格说来这些是统计，也不是统计
: 可以说是统计跟cs结合的一个领域吧
: 另外我个人觉得big data离真正创造价值还有很长的路要走
: 前一段狂热有些hype的味道，我不认为把鸡蛋放在这一个篮子里是啥好事
: 你应该同时也考虑一下其他职位，比如开发岗

a*g2010-09-13 07:09

6 楼

hi jinwa

【在 d****a 的大作中提到】

: 尤其在金银满罐时。

m*u2010-09-13 07:09

7 楼

big data就是要会吹牛，说你刷试管的时候用了big data处理几万billion分子的数据

A*n2010-09-13 07:09

8 楼

靠，我的FNM 0.9忍到2.1然后忍到0.7，气死掉了

【在 d****a 的大作中提到】

: 尤其在金银满罐时。

z*e2010-09-13 07:09

9 楼

如果你现在对这些还是一无所知的话
可以不要考虑这条路，基本上没戏

【在 l*******e 的大作中提到】

: 哦，
: 谢谢，
: 不过你说的这些概念比如相似度，群之类我都比较模糊，
: 学习这些理论需要很长时间吗，
: 还是只要停留在了解会用的层面上就行了。
: 另外谢谢你对其它职位的建议。

k*n2010-09-13 07:09

10 楼

呵呵，偶像

【在 A********n 的大作中提到】

: 靠，我的FNM 0.9忍到2.1然后忍到0.7，气死掉了

x*g2010-09-13 07:09

11 楼

我擦，相似度理论，群，这 tmd 要统计PhD才能接触到吧，你是来卖萌的么

【在 z****e 的大作中提到】

d*72010-09-13 07:09

12 楼

大金娃，还能涨几天呀？谢谢。

【在 d****a 的大作中提到】

: 尤其在金银满罐时。

w*p2010-09-13 07:09

13 楼

data scientist 和 big data engineer 的职位要求差很多的。在我看来天壤之别。
还是先分清是哪个职位。
当然也有看到牛人data scientist 很精通big data engineer。

【在 l*******e 的大作中提到】

: 化学出身,
: 自学了个C, python, java,
: 想再学学Hadoop找big data工作有可能吗，
: 这种工作对统计要求高吗比如必须要统计硕士博士之类？

d*a2010-09-13 07:09

14 楼

pat pat

【在 a*******8 的大作中提到】

: 今天REE没忍住，早泄了。

l*e2010-09-13 07:09

15 楼

能稍微具体展开说说data scientist 和 big data engineer 的职位区别吗，
本人纯外行，
但是有一颗好学的心。

【在 w********p 的大作中提到】

: data scientist 和 big data engineer 的职位要求差很多的。在我看来天壤之别。
: 还是先分清是哪个职位。
: 当然也有看到牛人data scientist 很精通big data engineer。

d*a2010-09-13 07:09

16 楼

KE set apart CAGC and REE for you. One winner, One loser. Convinced?

【在 a*******8 的大作中提到】

: 今天REE没忍住，早泄了。

a*32010-09-13 07:09

17 楼

data engineers 主要涵盖大数据系统的维护和开发，比如： hadoop, Spark, storm,
等等，以及基于这些系统之上的 ETL pipeline，主要的活是编程＋分布式系统设计
。
data scientists 利用上述大数据平台来获取和分析数据。简单的任务比如，运行一个
SQL 语句来拿一些数据；复杂的任务比如，建立模型来预测用户行为。一般用 SQL,
python, R 等等。
小部分牛逼的data engineers / data scientists 研究如何在大数据平台上实现高效
data mining / machine learning 算法。

d*a2010-09-13 07:09

18 楼

too hard to tell. market momentum is still there. the best strategy is to
jump in whether the market turns from correction to rally.

【在 d****7 的大作中提到】

: 大金娃，还能涨几天呀？谢谢。

l*e2010-09-13 07:09

19 楼

听起来data engineer更接近CS,
而data scientist更接近统计。
能不能这么理解，
就是找data scientist工作对统计要求更高，
但是想要在大数据平台上玩得好，
统计和编程要求都很高。

storm,

【在 a******3 的大作中提到】

: data engineers 主要涵盖大数据系统的维护和开发，比如： hadoop, Spark, storm,
: 等等，以及基于这些系统之上的 ETL pipeline，主要的活是编程＋分布式系统设计
: 。
: data scientists 利用上述大数据平台来获取和分析数据。简单的任务比如，运行一个
: SQL 语句来拿一些数据；复杂的任务比如，建立模型来预测用户行为。一般用 SQL,
: python, R 等等。
: 小部分牛逼的data engineers / data scientists 研究如何在大数据平台上实现高效
: data mining / machine learning 算法。

k*n2010-09-13 07:09

20 楼

现在jump in有点晚吧?

【在 d****a 的大作中提到】

: too hard to tell. market momentum is still there. the best strategy is to
: jump in whether the market turns from correction to rally.

z*e2010-09-13 07:09

21 楼

相似度理论都不做，那做什么big data啊？
光big就叫big data了的话，那谁都是big data了
well,不可否认，现在的确是谁都说自己搞的是big data
那看你怎么定义了

【在 x****g 的大作中提到】

: 我擦，相似度理论，群，这 tmd 要统计PhD才能接触到吧，你是来卖萌的么

d*a2010-09-13 07:09

22 楼

market turned to rally mode since Sept 1st this time. That is when I start
building my long positions.

【在 k*******n 的大作中提到】

: 现在jump in有点晚吧?

z*e2010-09-13 07:09

23 楼

相似度理论应该是big data的基石
基于txt的相似，搞出声音和图像的相似
这是人类认知的第一步，现在就在教电脑怎么认知这个世界
然后电脑才能想办法思考，人如果没有文字这些就无法思考
所以这个叫做ml
big data最大的问题在于数据的无规则化
而无规则的数据要从中找出相似的是非常有挑战性的
这就需要用到数学和各种统计了
这个才是big data进而ml那些东东
当然这个有些偏理论化了，应用的话，可以直接用来预测
比如搜索引擎预测哪些文件是你需要的
但是预测这个，其实不是big data真正关心的
在data warehousing时代就有这些东西了
包括什么etl这些，其实都是数据仓库的东东
十年前就有了，跟现在搞的这些不完全是一回事
当然他们也说自己搞的是big data就是了
毕竟是buzz words嘛，写在resume上也好看点

d*a2010-09-13 07:09

24 楼

这马屁拍得

【在 a*******8 的大作中提到】

: 今天REE没忍住，早泄了。

t*n2010-09-13 07:09

25 楼

多谢蜥蜴高论

k*n2010-09-13 07:09

26 楼

make sense, lol

【在 a*******8 的大作中提到】

: 今天REE没忍住，早泄了。

a*e2010-09-13 07:09

27 楼

再扯这些抽象的之前，你先来说什么是big data，他要解决的问题是什么？

【在 z****e 的大作中提到】

: 相似度理论应该是big data的基石
: 基于txt的相似，搞出声音和图像的相似
: 这是人类认知的第一步，现在就在教电脑怎么认知这个世界
: 然后电脑才能想办法思考，人如果没有文字这些就无法思考
: 所以这个叫做ml
: big data最大的问题在于数据的无规则化
: 而无规则的数据要从中找出相似的是非常有挑战性的
: 这就需要用到数学和各种统计了
: 这个才是big data进而ml那些东东
: 当然这个有些偏理论化了，应用的话，可以直接用来预测