Redian新闻
>
求问编程语言的选择,学stat的往DS努力
avatar
求问编程语言的选择,学stat的往DS努力# DataSciences - 数据科学
o*e
1
OCA Seeking Candidates for 2014 – 2015 Civil Rights Fellowship
FOR IMMEDIATE RELEASE
1 April 2014
CONTACT
Kham Moua | Civil Rights Fellow
202 223 5500 | k***[email protected]
WASHINGTON, D.C. – OCA – Asian Pacific American Advocates, a national
membership-driven organization of community advocates dedicated to advancing
the political, social, and economic well-being of Asian Pacific Americans (
APAs), is seeking qualified candidates for the 2014 – 2015 OCA Civil Rights
Fellowship.
The OCA Civil Rights Fellowship is a national advocacy fellowship based at
the OCA National Center in Washington DC which seeks to organize and
mobilize the chapter networks across the country to support the building of
individual and community capacity for greater civic engagement among Asian
Pacific Americans.
The key components of this program include but are not limited to:
Voter Registration
Hate Crimes Education and Monitoring
Public Policy
The Fellow will work directly and collaborate with the OCA Chapters through
a series of turn-key projects. The ultimate objective of this program is to
create a movement of APAs that embrace the vision of robust civic engagement
that fosters a strong democratic society for generations to come.
The methodologies used to promote civic engagement include:
Issue specific public education programming
Volunteer mobilization activities
Community leadership summits and town hall meetings
Candidate Requisites:
Strong cross-sectional analysis around civil rights issues related to civic
engagement activities (including naturalization process and voter
mobilization), race relations, immigration, economic development, access to
institutional and non-institutional resources and hate crimes within the
framework of these issues impacting Asian Pacific American (APA) communities.
History of demonstrated experience in leading community based advocacy
efforts within culturally diverse communities.
Ability to work collaboratively and independently to provide hands-on
project management through all phases of project development process:
Research, planning (development of time-lines, work plans, and budget),
implementation, tracking, and evaluation.
Experience with presentation, facilitation and training to small as well as
large groups.
Demonstrated ability to write in an accurate, concise, and audience-
appropriate manner on complex public policy issues.
When appropriate, be prepared to interact with the public including the
media—able to direct inquiries to the appropriate organizational
spokespersons.
Supervise staff and interns as assigned by the Executive Director according
to existing organizational policies and procedures as well as human resource
best-practices.
Serve as the primary staff liaison and support to the advisory groups for
each of the projects/programs assigned.
Additional Qualifications:
At minimum, undergraduate degree in political science, sociology, psychology
, anthropology, law, public administration, or a related field. Advanced
degree preferred (i.e. MA/MS/MPA, MBA, JD, PhD)
Proven history of developing and maintaining positive organizational
relationships with community based organizations, government agencies, and
corporations through the use of communication media.
Experience in event planning and programming which requires management of
logistics—especially for projects such as training, town halls, press
conferences, panel discussions, etc.
Ability to manage constituent database and website content software.
Strong public speaking and presentation skills.
Proficiency in the use of informational technology to fulfill the work
requirements including common work productivity software and hardware, i.e.
MS Office suites, Adobe Acrobat, etc.
Strong organization and time management skills.
Additional Qualifications (Continued):
Proven ability to manage, motivate and coach staff, interns and volunteers
with diverse backgrounds and abilities.
Ability to exercise creativity with consistency and utmost integrity.
Proven ability to manage multiple projects and deadlines simultaneously.
Capacity to maintain professional demeanor while working under significant
pressure.
Capacity to work in a fast paced and flexible environment.
High level of personal energy.
Interest and commitment to Asian Pacific American advocacy issues.
Willingness to work nights/weekends and to travel periodically as required
Location and Duration:
To be based in Washington, DC at the OCA National Center for 12 Months,
starting in July 2014. The fellow must be able to relocate for this
opportunity after acceptance—no relocation costs are included in the
fellowship.
Compensation:
$35,000 to $40,000 per year depending on experience, plus health benefits (
the Fellow may elect to enroll in dental benefits at her/his expense) and
two weeks of vacation.
Application:
Interested individuals should apply online or by submitting the following:
Copy of the official transcript from a degree issuing institution.
Application
Cover Letter
CV or Resume
Four (2) Professional References and (2) Personal References
Two (2) essays (Please see the essay prompts included in this packet).
Two (2) Work Product Samples:
Work Plan with time-lines indicating assigned leads or person responsible
for fulfilling documented activity.
Budget for activities, projects, or programs managed.
Essays:
How does your ethnic background inform your interest in advocating for the
Asian Pacific American community? What are some strategies for engaging with
communities that you are not familiar with?
What two strategies can you offer for encouraging more Asian Pacific
Americans to be civically engaged? How can we change attitudes, cultures,
and sense of importance for civic engagement?
The completed packet must be:
Submitted electronically online or as a hard copy to: OCA 1322 18th St. NW,
Washington DC 20036.
The completed packet must be received at the OCA National Office by 5 PM EST
April 30, 2014.
All application submitted by the due date will be issued an e-mail
confirmation verifying receipt.
Questions:
For additional questions, comments, or concerns, please contact [email protected]
ocanational.org or call 202.223.5500. ext. 115
OCA National Center
1322 18th Street NW
Washington, DC 20036
P: (202) 223 5500 | F: (202) 296 0540
o*[email protected]
www.ocanational.org
avatar
k*e
2
是不是什么某种片子特有的色调?
看上去好像很流行的样子。
大家分析一下怎么调
我看的:黄/蓝 split tone,好像红色加强了。其他没看出来。
avatar
l*9
3
自己在读统计phd,爱好编程,愿意学。。。
暑假自己在Coursera上学了python,看了google 的python class, 零零碎碎。 然后
现在在看C++, 这是因为将来可能会用到R和C++ 混合跑MCMC。
自己将来想成为data scientist, 看版上好多人推荐JAVA,会java比会python要有用
。 我也似乎觉得自己日常使用,会R也就够了,python 做data analysis 我觉得没有R
顺手, 并且我估计也不会用python去开发什么。。我什么都愿意学,不抵制,甚至喜
欢编程,但是实在时间不够用,并且发现学多了以后真的好容易混淆,或者忘记,如果
不是每天用的话。
请问作为我这种情况,现阶段到底应该学什么呢?
C++, python, java?
或者有时候真心觉得学统计的不要去和cs拼,感觉没精力去拼。还不如把统计学好了去
药厂。。。目前来说统计在DS圈里面好弱。每个DS职位要求第一个永远是CS...
求有经验的人指点
avatar
g*n
4
一般图片的调整要注意的就是三点, 暗调如何变化的, 亮调以及中灰部分, 这个图
片里暗的地方明显偏蓝, 最深的该是黑色的部分三个通道均被消减, 而蓝色大大突出
其他两个, 这个应该是对蓝色通道应用了apply image之类的东西, 而亮调明显红色
接近255, 也是用了apply image, 全图的细节基本保留, 色调还保持正常, 所以大
概绿色通道保留没变
所以基于以上猜测
蓝色。。。apply image, using green channel, 原图对比减弱, 应该是用了invert
的green channel, 具体比例你自己看着半吧, 应该是亮度在中的某个模式
红色通道, 同样的命令, 也是reduce contrast, 所以这个时候应该是darken, 或者
对比模式的一种, invert green channel, 比例自选
分析特征后, 可以用通道混合器做最后的微调

【在 k*****e 的大作中提到】
: 是不是什么某种片子特有的色调?
: 看上去好像很流行的样子。
: 大家分析一下怎么调
: 我看的:黄/蓝 split tone,好像红色加强了。其他没看出来。

avatar
j*p
5
都要会.
而且要有一定深度.
至少能用C++写个操作系统的程序吧.
avatar
K*i
6
要不您开个讲堂吧! 很期待的.

invert

【在 g*****n 的大作中提到】
: 一般图片的调整要注意的就是三点, 暗调如何变化的, 亮调以及中灰部分, 这个图
: 片里暗的地方明显偏蓝, 最深的该是黑色的部分三个通道均被消减, 而蓝色大大突出
: 其他两个, 这个应该是对蓝色通道应用了apply image之类的东西, 而亮调明显红色
: 接近255, 也是用了apply image, 全图的细节基本保留, 色调还保持正常, 所以大
: 概绿色通道保留没变
: 所以基于以上猜测
: 蓝色。。。apply image, using green channel, 原图对比减弱, 应该是用了invert
: 的green channel, 具体比例你自己看着半吧, 应该是亮度在中的某个模式
: 红色通道, 同样的命令, 也是reduce contrast, 所以这个时候应该是darken, 或者
: 对比模式的一种, invert green channel, 比例自选

avatar
c*z
7
you must be kidding
犯了妄语戒哦
Python 挺好

【在 j********p 的大作中提到】
: 都要会.
: 而且要有一定深度.
: 至少能用C++写个操作系统的程序吧.

avatar
g*n
8
我瞎猜的, 这种图片就是寻找规律, 亮调和暗调有规律的改变只能单独调整通道才能
实现, 一个正常的片子, 最暗的地方理想是000, 这里最暗的是比如70 70 120这一
类的, 明显是蓝色提亮了,同理红色被压了下来, 那么PS里最直接的就是apply
image单独作用于通道, 蓝得提亮, 红的压下来, 保持绿色, 由于对比急剧下降,
可能就是invet了作用的channel, 这样的结果就是暗的细节几乎全部丢失, 不过看不
到原图, 只能瞎猜

【在 K***i 的大作中提到】
: 要不您开个讲堂吧! 很期待的.
:
: invert

avatar
j*p
9
你说的那些语言不都是C/C++写的,
了解一下C/C++有什么不好.
应付目前工作Python也许够了,
但要有时间的话,
C/C++是一定要学的.
只有通过C/C++才能了解计算机的真谛.

【在 c***z 的大作中提到】
: you must be kidding
: 犯了妄语戒哦
: Python 挺好

avatar
k*e
10
赞啊!真有经验

invert

【在 g*****n 的大作中提到】
: 一般图片的调整要注意的就是三点, 暗调如何变化的, 亮调以及中灰部分, 这个图
: 片里暗的地方明显偏蓝, 最深的该是黑色的部分三个通道均被消减, 而蓝色大大突出
: 其他两个, 这个应该是对蓝色通道应用了apply image之类的东西, 而亮调明显红色
: 接近255, 也是用了apply image, 全图的细节基本保留, 色调还保持正常, 所以大
: 概绿色通道保留没变
: 所以基于以上猜测
: 蓝色。。。apply image, using green channel, 原图对比减弱, 应该是用了invert
: 的green channel, 具体比例你自己看着半吧, 应该是亮度在中的某个模式
: 红色通道, 同样的命令, 也是reduce contrast, 所以这个时候应该是darken, 或者
: 对比模式的一种, invert green channel, 比例自选

avatar
c*z
11
LZ只是想做DS
了解计算机的真谛有点overkill了
avatar
k*e
12
在网上找了张内容相似的照片模仿了一下
看看色调模仿的像不像?还有哪里没注意到?
原图
改图
样本

【在 k*****e 的大作中提到】
: 赞啊!真有经验
:
: invert

avatar
l*9
13

感觉现在版上都是cs的人,我也想了解计算机的真谛。。。时间真的不够用。。再者感
觉自学cs跟cs出身的人拼就有点不明智了。。

【在 j********p 的大作中提到】
: 你说的那些语言不都是C/C++写的,
: 了解一下C/C++有什么不好.
: 应付目前工作Python也许够了,
: 但要有时间的话,
: C/C++是一定要学的.
: 只有通过C/C++才能了解计算机的真谛.

avatar
K*i
14
拿这种照片呢?
应该从那里开始入手?



【在 g*****n 的大作中提到】
: 我瞎猜的, 这种图片就是寻找规律, 亮调和暗调有规律的改变只能单独调整通道才能
: 实现, 一个正常的片子, 最暗的地方理想是000, 这里最暗的是比如70 70 120这一
: 类的, 明显是蓝色提亮了,同理红色被压了下来, 那么PS里最直接的就是apply
: image单独作用于通道, 蓝得提亮, 红的压下来, 保持绿色, 由于对比急剧下降,
: 可能就是invet了作用的channel, 这样的结果就是暗的细节几乎全部丢失, 不过看不
: 到原图, 只能瞎猜

avatar
l*9
15

大哥在开玩笑。。。不过会努力的。

【在 j********p 的大作中提到】
: 都要会.
: 而且要有一定深度.
: 至少能用C++写个操作系统的程序吧.

avatar
g*n
16
这个应该是明显曝光过了, 绿色通道调大了一点, 就是亮的地方基本正常, 但是过
亮的地方太多, 这个应该用通道混合器直接就可以

【在 K***i 的大作中提到】
: 拿这种照片呢?
: 应该从那里开始入手?
:
: ,

avatar
l*9
17

如果目前只学一个的话,是pyhon还是c++呢? 这两个目前都没有使用需求,纯粹是想
给将来找个出路。

【在 c***z 的大作中提到】
: you must be kidding
: 犯了妄语戒哦
: Python 挺好

avatar
g*n
18
尝试直接用levels加channel mixer恢复一下

【在 g*****n 的大作中提到】
: 这个应该是明显曝光过了, 绿色通道调大了一点, 就是亮的地方基本正常, 但是过
: 亮的地方太多, 这个应该用通道混合器直接就可以

avatar
j*p
19
DS也不简单,没有这几年的基础架构上的进步,
哪来现在的大好局面。
这在几年前都是想象不到的。
如果有余力的话,稍微了解一点底层的东西,对于将来的变化,肯定是有好处的。
我观察现在的大数据计算,还只是一个阶段,以后的新思想肯定还会层出不穷。
浮在上面的说哪天淘汰了也就淘汰了,而更新的东西,
还是会在底层上发展起来。

【在 c***z 的大作中提到】
: LZ只是想做DS
: 了解计算机的真谛有点overkill了

avatar
k*e
20
我觉得他特意要那种小清新的效果

【在 g*****n 的大作中提到】
: 这个应该是明显曝光过了, 绿色通道调大了一点, 就是亮的地方基本正常, 但是过
: 亮的地方太多, 这个应该用通道混合器直接就可以

avatar
g*o
21
→_→
了解计算机真谛, 不应该把考研的那四本专业书都看了么, 计算机原理, 操作系统, 数
据结构, 网络原理
学个c算毛计算机真谛啊, 底下还有汇编和机器码啊, 起码也得学点补码运算和电路吧

【在 j********p 的大作中提到】
: 你说的那些语言不都是C/C++写的,
: 了解一下C/C++有什么不好.
: 应付目前工作Python也许够了,
: 但要有时间的话,
: C/C++是一定要学的.
: 只有通过C/C++才能了解计算机的真谛.

avatar
l*s
22
我也贴一个上来凑凑数,感觉还是有点不太对

【在 k*****e 的大作中提到】
: 在网上找了张内容相似的照片模仿了一下
: 看看色调模仿的像不像?还有哪里没注意到?
: 原图
: 改图
: 样本

avatar
g*o
23
你直接去看你想去的公司其职位的要求不是更好?
其实对于cs的人来说, 同时会几门语言是很正常的

【在 l*****9 的大作中提到】
:
: 如果目前只学一个的话,是pyhon还是c++呢? 这两个目前都没有使用需求,纯粹是想
: 给将来找个出路。

avatar
K*i
24
我个人比较喜欢你ps之后的,因为这样有力量.
而且感觉调过之后比以前sharp了,看来要sharp也不一定要用sharp的工具?

【在 g*****n 的大作中提到】
: 尝试直接用levels加channel mixer恢复一下
avatar
j*p
25
你说的那几样,知道或者大致会就行了。
但如果要自己写操作系统或者新语言,就得用C/C++了,当然,懂汇编的话可以进行一
些代码性能优化。

【在 g*****o 的大作中提到】
: →_→
: 了解计算机真谛, 不应该把考研的那四本专业书都看了么, 计算机原理, 操作系统, 数
: 据结构, 网络原理
: 学个c算毛计算机真谛啊, 底下还有汇编和机器码啊, 起码也得学点补码运算和电路吧

avatar
K*i
26
btw,她家好干净

【在 g*****n 的大作中提到】
: 尝试直接用levels加channel mixer恢复一下
avatar
j*4
27
没有使用需求的话很快就忘了

【在 l*****9 的大作中提到】
:
: 如果目前只学一个的话,是pyhon还是c++呢? 这两个目前都没有使用需求,纯粹是想
: 给将来找个出路。

avatar
l*s
28
我的办法和工人老兄的有点不同,如果你观察原图RGB各通道,会发现R通道的超高对比
度和B通道的超低对比度。基本上按这个思路调,最后在highlight和shadow再视情况分
别微补点黄红和蓝,gamma最后也要拉一下才有原图那种灰的感觉。

【在 k*****e 的大作中提到】
: 我觉得他特意要那种小清新的效果
avatar
s*h
29
现在除了做database的,或者硬件编程的,还有多少要C/C++的?
95%的C++程序员早就忘记汇编是啥了。
avatar
l*s
30
其实那是对比度加强过的感觉

【在 K***i 的大作中提到】
: 我个人比较喜欢你ps之后的,因为这样有力量.
: 而且感觉调过之后比以前sharp了,看来要sharp也不一定要用sharp的工具?

avatar
g*o
31
为什么ds要自己写操作系统和新语言?

【在 j********p 的大作中提到】
: 你说的那几样,知道或者大致会就行了。
: 但如果要自己写操作系统或者新语言,就得用C/C++了,当然,懂汇编的话可以进行一
: 些代码性能优化。

avatar
k*e
32
这个适合在ps里面调,我的适合在lightroom里面调
lightroom里面没有分通道调曲线的地方(还是我没找到?)

【在 l*******s 的大作中提到】
: 我的办法和工人老兄的有点不同,如果你观察原图RGB各通道,会发现R通道的超高对比
: 度和B通道的超低对比度。基本上按这个思路调,最后在highlight和shadow再视情况分
: 别微补点黄红和蓝,gamma最后也要拉一下才有原图那种灰的感觉。

avatar
h*7
33
c和汇编是可以相互对等转换的......本科一个主要课程实验就是用这个

【在 g*****o 的大作中提到】
: →_→
: 了解计算机真谛, 不应该把考研的那四本专业书都看了么, 计算机原理, 操作系统, 数
: 据结构, 网络原理
: 学个c算毛计算机真谛啊, 底下还有汇编和机器码啊, 起码也得学点补码运算和电路吧

avatar
a*x
34
cross process~~~
avatar
h*7
35
统计和经济数学一样,最好去银行保险公司之类的,它们也叫data scientist,也还不
错,中国人没必要都往一处去,先站住各自的档口再互相帮忙,免得都被烙印占了。
学语言不用把自己搞得很痛苦,不如就定位成R expert。
另外C++自学事倍功半。我高中就参加竞赛,本科好几门课,从谭浩强再到面向对象程
序设计再到喉结再到essential C++再到effective C++再加上一堆考试逼出来的底子。
然后去大公司接触到产品设计理念,了解开发流程,频繁用stl和各类sdk才搞出来的。
也不敢说自己就是C++达人

有R

【在 l*****9 的大作中提到】
: 自己在读统计phd,爱好编程,愿意学。。。
: 暑假自己在Coursera上学了python,看了google 的python class, 零零碎碎。 然后
: 现在在看C++, 这是因为将来可能会用到R和C++ 混合跑MCMC。
: 自己将来想成为data scientist, 看版上好多人推荐JAVA,会java比会python要有用
: 。 我也似乎觉得自己日常使用,会R也就够了,python 做data analysis 我觉得没有R
: 顺手, 并且我估计也不会用python去开发什么。。我什么都愿意学,不抵制,甚至喜
: 欢编程,但是实在时间不够用,并且发现学多了以后真的好容易混淆,或者忘记,如果
: 不是每天用的话。
: 请问作为我这种情况,现阶段到底应该学什么呢?
: C++, python, java?

avatar
a*x
36
手機裡面可以一鍵生成~卡卡卡卡~
avatar
P*6
37
了解计算机底层,C 就可以了吧, 需要C++吗。 是真的征求意见。不知为什么我不喜
欢C++, 觉得Java好些, C 没有抵触, MCMC c 就够了

【在 j********p 的大作中提到】
: 你说的那些语言不都是C/C++写的,
: 了解一下C/C++有什么不好.
: 应付目前工作Python也许够了,
: 但要有时间的话,
: C/C++是一定要学的.
: 只有通过C/C++才能了解计算机的真谛.

avatar
k*e
38
这是什么,反转负冲吗?

【在 a*********x 的大作中提到】
: cross process~~~
avatar
j*p
39
我说的底层是指相对其他语言的底层,不一定直接对机器。
C++既有C的灵活性,也能OO编程,效率还是高些。

【在 P*****6 的大作中提到】
: 了解计算机底层,C 就可以了吧, 需要C++吗。 是真的征求意见。不知为什么我不喜
: 欢C++, 觉得Java好些, C 没有抵触, MCMC c 就够了

avatar
k*e
40
原来这么简单啊,怪不得网上这么流行。
看到好多tumblr都是这种调调,估计都是手机一键生成出来的。
原来picsay pro里面有啊,我看来得花钱升级picsay了...
要是能做成一个lightroom preset多好。

【在 a*********x 的大作中提到】
: 手機裡面可以一鍵生成~卡卡卡卡~
avatar
c*z
41
最近最火的是scala
avatar
a*x
42
picsay pro絕對值啊,強力推薦~
還有camera360的付費版也很贊,cross process和小清新都有~

【在 k*****e 的大作中提到】
: 原来这么简单啊,怪不得网上这么流行。
: 看到好多tumblr都是这种调调,估计都是手机一键生成出来的。
: 原来picsay pro里面有啊,我看来得花钱升级picsay了...
: 要是能做成一个lightroom preset多好。

avatar
c*g
43
Python就够了,你这半路出家的,没必要搞C++。
Python熟了,有必要的话再搞Scala,或Java。
avatar
K*i
44
o, ic~

【在 l*******s 的大作中提到】
: 其实那是对比度加强过的感觉
avatar
l*9
45

恩, 谢谢~

【在 c******g 的大作中提到】
: Python就够了,你这半路出家的,没必要搞C++。
: Python熟了,有必要的话再搞Scala,或Java。

avatar
l*9
46

我也看过了,发现大多数data scientist要求 一个是统计的编程包,比如R SAS, 然
后要求会一种脚本语言,比如python,个别的比如ebay,他们要java。。。
还有什么stata sas 这种要c 或者 c++, 其他还真没见过。
关于金融的quant,只是听说要c++,但是好像看同学们就用用python就够了的样子

【在 g*****o 的大作中提到】
: 你直接去看你想去的公司其职位的要求不是更好?
: 其实对于cs的人来说, 同时会几门语言是很正常的

avatar
l*9
47

谢谢指点。我也觉得自己学效率好低,然后因为没有地方用,所以过两天又忘了。

【在 h*****7 的大作中提到】
: 统计和经济数学一样,最好去银行保险公司之类的,它们也叫data scientist,也还不
: 错,中国人没必要都往一处去,先站住各自的档口再互相帮忙,免得都被烙印占了。
: 学语言不用把自己搞得很痛苦,不如就定位成R expert。
: 另外C++自学事倍功半。我高中就参加竞赛,本科好几门课,从谭浩强再到面向对象程
: 序设计再到喉结再到essential C++再到effective C++再加上一堆考试逼出来的底子。
: 然后去大公司接触到产品设计理念,了解开发流程,频繁用stl和各类sdk才搞出来的。
: 也不敢说自己就是C++达人
:
: 有R

avatar
l*9
48

这个真是说对了。。。从开学到现在计算都拿R弄,python又忘了。好难。。

【在 j******4 的大作中提到】
: 没有使用需求的话很快就忘了
avatar
z*3
49
你一开始就从java开始的话
c/c++/python你一个都不学都没有问题
r用起来会比较痛苦,r是单线程,在工作中根本不能跑
哪怕套上wrapper也非常蛋疼,瓶颈往往会出现在r上
只能用来搞batch,现在通过scala来制作jvm上的r
这样就可以不修改r脚本,直接移植入生产环境
但是目前看,还非常遥远,一时半会搞不定,估计三年内都很难实现
一开始就走错了,从c开始,非常的痛苦,太底层了
你要把人家本科4年的东西全部补过去,而且中间还隔了一个软件专业
真正分布式,对于不同系统的封装,统一接口这些又都没接触到
跟真正干活的环境是两码事,ds至少说数据读取应该没啥问题
火热的hadoop你又没怎么接触过,如果你连读取数据都成问题的话
工作中会比较吃力,天天找码农来做
那蛋糕就这么大,你找别人来干活,自然就要付出一点东西
比如切一块蛋糕给码农,现在只能说把r强化下,把统计好好搞一搞
不要把鸡蛋放在一个篮子里,如果将来找工作,统计有岗位出来
也就从了吧,python其实是c的折中的解决方案
因为java强行要求跨平台,各种要求比较高,所以短时间内很多c和fortran的类库
做不到上jvm运行,又在短时间内找不到合适的人来完成这个项目
所以就上python做个warpper,然后就可以不需要接触垮平台就搞
当然这里面会有各种问题,单线程,垮平台,jit,gc带来的效率问题等等
都要自己去搞,那这个就难很多了,不仅对于干活的人来说,对于老板也是如此
不管怎样,目前看,除了本行以外,要想搞it
离你最近的就是python,还是把python搞搞吧
r就先别用太多了,工作中没有办法用r,单线程这个太蛋疼了,r只是toy
搞点spark吧,虽然东西少,而且python的接口也慢,但是多少意味着future
其实对于it来说,尤其是对于软件这个行当来说,java是绕不开的,jvm是必需的

有R

【在 l*****9 的大作中提到】
: 自己在读统计phd,爱好编程,愿意学。。。
: 暑假自己在Coursera上学了python,看了google 的python class, 零零碎碎。 然后
: 现在在看C++, 这是因为将来可能会用到R和C++ 混合跑MCMC。
: 自己将来想成为data scientist, 看版上好多人推荐JAVA,会java比会python要有用
: 。 我也似乎觉得自己日常使用,会R也就够了,python 做data analysis 我觉得没有R
: 顺手, 并且我估计也不会用python去开发什么。。我什么都愿意学,不抵制,甚至喜
: 欢编程,但是实在时间不够用,并且发现学多了以后真的好容易混淆,或者忘记,如果
: 不是每天用的话。
: 请问作为我这种情况,现阶段到底应该学什么呢?
: C++, python, java?

avatar
z*3
50
你搞research用r,只是能用,虽然很慢,嘎啦嘎啦跑半天
但是最后结果正确,但是工作中是不能这样搞的
因为r比python还要慢非常多,python已经很慢了
可以简单认为,r没有做任何的优化,python有做部分的优化,但是远远不够
对于海量数据,jvm虽然也不快,但是比起r和python,那已经是光速了
学c就意味着你要自己学会各种优化,乖乖,这个难度非常非常大
我觉得你投入20年,可能能有点小成
还有就是,python如果不想搞的话,可以看看scala
scala比java难,难很多,但是至少这样可以上jvm和spark这些
然后你再对比r,看看spark上的mllib少了什么,虽然我觉得这本身就不是一回事
ml和stat虽然有重叠,但是理论和应用,毕竟还是两回事
avatar
z*3
51
ebay不是个别
google是个别
因为google自己从c底层开始造
今天搞的c/c++/python这一套上来就是google用的方式
但是google有钱有人,你一个人这样搞,还要搞统计的phd
估计你没时间,其他公司都是hadoop,spark直接往上套了
r和sas是optional,因为会点统计的,多少都会点这两个之一不是?

【在 l*****9 的大作中提到】
:
: 这个真是说对了。。。从开学到现在计算都拿R弄,python又忘了。好难。。

avatar
z*3
52
学统计的用r,因为r不管实际情况,尤其不在乎it环境
它基本上的目标就是,验证一个方法是否正确
python则是google后来用的,因为google在做ml这套东西的时候
它没有其他人帮忙,它只能自己摸索,那因为历史上c和fortran的pkg比较多
用python比较容易做一个wrapper,那可以在不修改原来pkg的前提下
最快速度把这些东西引入并执行起来,然后google有人也有钱
去自行优化各种效率
其他公司,就都用开源的东西,这个时候都是jvm上的东西
因为大多数公司,没有办法去招募那么一批人,去优化什么
开源有啥就用啥,所以这个时候就都是java,当然现在scala也开始流行起来
基本逻辑就是idea抄google的,然后尽可能兼容各种不同的系统
使得抄袭google的产品能够最快地在各个公司中得到应用
所以一开始就上java的话,就直接跳过前两个,而进入真正的实战领域
avatar
h*7
53
“ml和stat虽然有重叠,但是理论和应用,毕竟还是两回事”
赞这句。

【在 z*******3 的大作中提到】
: 你搞research用r,只是能用,虽然很慢,嘎啦嘎啦跑半天
: 但是最后结果正确,但是工作中是不能这样搞的
: 因为r比python还要慢非常多,python已经很慢了
: 可以简单认为,r没有做任何的优化,python有做部分的优化,但是远远不够
: 对于海量数据,jvm虽然也不快,但是比起r和python,那已经是光速了
: 学c就意味着你要自己学会各种优化,乖乖,这个难度非常非常大
: 我觉得你投入20年,可能能有点小成
: 还有就是,python如果不想搞的话,可以看看scala
: scala比java难,难很多,但是至少这样可以上jvm和spark这些
: 然后你再对比r,看看spark上的mllib少了什么,虽然我觉得这本身就不是一回事

avatar
G*n
54
我觉得学统计的就不要凑CS的热闹了,那种C++的功夫不是你做几个题目看几遍书能搞
透的。用好R,最多学一门语言Python或者Java都可以,建议学Python,因为Java还是
太多CS方向的人用,而且不宜与Data处理或者ML。

有R

【在 l*****9 的大作中提到】
: 自己在读统计phd,爱好编程,愿意学。。。
: 暑假自己在Coursera上学了python,看了google 的python class, 零零碎碎。 然后
: 现在在看C++, 这是因为将来可能会用到R和C++ 混合跑MCMC。
: 自己将来想成为data scientist, 看版上好多人推荐JAVA,会java比会python要有用
: 。 我也似乎觉得自己日常使用,会R也就够了,python 做data analysis 我觉得没有R
: 顺手, 并且我估计也不会用python去开发什么。。我什么都愿意学,不抵制,甚至喜
: 欢编程,但是实在时间不够用,并且发现学多了以后真的好容易混淆,或者忘记,如果
: 不是每天用的话。
: 请问作为我这种情况,现阶段到底应该学什么呢?
: C++, python, java?

avatar
l*9
55

谢谢大哥的悉心指导,仔细看了两遍受益匪浅。
感觉自己现在离不开R,就算想学个handoop也是去看怎么拿R来连接。尽管平时作业了
什么我我知道python也都可以解决,但为了省时间都拿R来弄了。
我觉得我想要学python的话必须要用起来,尝试那python做做以前的作业。
谢谢大哥!

【在 z*******3 的大作中提到】
: 你一开始就从java开始的话
: c/c++/python你一个都不学都没有问题
: r用起来会比较痛苦,r是单线程,在工作中根本不能跑
: 哪怕套上wrapper也非常蛋疼,瓶颈往往会出现在r上
: 只能用来搞batch,现在通过scala来制作jvm上的r
: 这样就可以不修改r脚本,直接移植入生产环境
: 但是目前看,还非常遥远,一时半会搞不定,估计三年内都很难实现
: 一开始就走错了,从c开始,非常的痛苦,太底层了
: 你要把人家本科4年的东西全部补过去,而且中间还隔了一个软件专业
: 真正分布式,对于不同系统的封装,统一接口这些又都没接触到

avatar
l*9
56

谢谢回复。 我也觉得自己看C++弄的好累,就算想并入R一起用,自己学了半天也不知
道什么时候吧C++ 嵌入进去时有用的。。。
同意 理论和实际 的差别,发现工作中关心的就是结果能用就行。 也越来越觉得ML还
是学cs的搞比较好

【在 z*******3 的大作中提到】
: 你搞research用r,只是能用,虽然很慢,嘎啦嘎啦跑半天
: 但是最后结果正确,但是工作中是不能这样搞的
: 因为r比python还要慢非常多,python已经很慢了
: 可以简单认为,r没有做任何的优化,python有做部分的优化,但是远远不够
: 对于海量数据,jvm虽然也不快,但是比起r和python,那已经是光速了
: 学c就意味着你要自己学会各种优化,乖乖,这个难度非常非常大
: 我觉得你投入20年,可能能有点小成
: 还有就是,python如果不想搞的话,可以看看scala
: scala比java难,难很多,但是至少这样可以上jvm和spark这些
: 然后你再对比r,看看spark上的mllib少了什么,虽然我觉得这本身就不是一回事

avatar
l*9
57

谢谢回复~ 感觉想入哪一行都要极大的努力。。。

【在 z*******3 的大作中提到】
: ebay不是个别
: google是个别
: 因为google自己从c底层开始造
: 今天搞的c/c++/python这一套上来就是google用的方式
: 但是google有钱有人,你一个人这样搞,还要搞统计的phd
: 估计你没时间,其他公司都是hadoop,spark直接往上套了
: r和sas是optional,因为会点统计的,多少都会点这两个之一不是?

avatar
l*9
58

谢谢。 我会静下心先学好一个,再看其他的

【在 G***n 的大作中提到】
: 我觉得学统计的就不要凑CS的热闹了,那种C++的功夫不是你做几个题目看几遍书能搞
: 透的。用好R,最多学一门语言Python或者Java都可以,建议学Python,因为Java还是
: 太多CS方向的人用,而且不宜与Data处理或者ML。
:
: 有R

avatar
m*r
59
仁兄说的很对
我觉得DS这个东西是前景很好
但是现在风潮涌动
有水分
风投什么的投了很多钱
跟新和泡沫也来得很容易

【在 j********p 的大作中提到】
: DS也不简单,没有这几年的基础架构上的进步,
: 哪来现在的大好局面。
: 这在几年前都是想象不到的。
: 如果有余力的话,稍微了解一点底层的东西,对于将来的变化,肯定是有好处的。
: 我观察现在的大数据计算,还只是一个阶段,以后的新思想肯定还会层出不穷。
: 浮在上面的说哪天淘汰了也就淘汰了,而更新的东西,
: 还是会在底层上发展起来。

avatar
z*3
60
java不难,认真搞,也就2-3个月左右的事情
读arts的文科生都能学会
现在做data和ml都在jvm上搞
以后趋势就是jvm,分布式是future
python只是一个wrapper,开源的支持比较少
比较依赖c++程序员

【在 G***n 的大作中提到】
: 我觉得学统计的就不要凑CS的热闹了,那种C++的功夫不是你做几个题目看几遍书能搞
: 透的。用好R,最多学一门语言Python或者Java都可以,建议学Python,因为Java还是
: 太多CS方向的人用,而且不宜与Data处理或者ML。
:
: 有R

avatar
m*r
61
赞!!!!!

【在 z*******3 的大作中提到】
: 你一开始就从java开始的话
: c/c++/python你一个都不学都没有问题
: r用起来会比较痛苦,r是单线程,在工作中根本不能跑
: 哪怕套上wrapper也非常蛋疼,瓶颈往往会出现在r上
: 只能用来搞batch,现在通过scala来制作jvm上的r
: 这样就可以不修改r脚本,直接移植入生产环境
: 但是目前看,还非常遥远,一时半会搞不定,估计三年内都很难实现
: 一开始就走错了,从c开始,非常的痛苦,太底层了
: 你要把人家本科4年的东西全部补过去,而且中间还隔了一个软件专业
: 真正分布式,对于不同系统的封装,统一接口这些又都没接触到

avatar
P*6
62
老赵的最爱,本来我被他说的有点动心,准备偷偷脚踩python和scala两条船,但scala
在宝典版 被批的体无完肤啊。话说scala 真能跟java无缝连接吗

【在 c***z 的大作中提到】
: 最近最火的是scala
avatar
w*4
63
scala
avatar
g*o
64
学统计的本来就理论先行, 公式得推得出来
ml里面的很多东西, 放到统计里根本通不过检验→_→

【在 l*****9 的大作中提到】
:
: 谢谢。 我会静下心先学好一个,再看其他的

avatar
j*n
65
我觉得啊, 以后只要求 stat 的 DS 需求会越来越少。open source 的 lib 越来越多
,造轮子的机会越来越少, 不需要那么多数学背景的人来做理论,需要大量的码工来实
现 application 以及 large-scale implementation. 而且 会 stat 的码工越来越多
,只会stat 不会写正儿八经的 code 竞争力自然就弱了。
avatar
j*n
66
而且现在大部分公司里面真正 production 用的 lib 都是 java/scala/C++ 实现的.
MLlib 是个很好的例子. 只会R就只能做 PPT, 做个 story, 做不出产品的. 当然有些
岗位做 PPT, make up 一个 story 也就够了。

【在 j*****n 的大作中提到】
: 我觉得啊, 以后只要求 stat 的 DS 需求会越来越少。open source 的 lib 越来越多
: ,造轮子的机会越来越少, 不需要那么多数学背景的人来做理论,需要大量的码工来实
: 现 application 以及 large-scale implementation. 而且 会 stat 的码工越来越多
: ,只会stat 不会写正儿八经的 code 竞争力自然就弱了。

avatar
n*3
67
the problem is
once Milib/mahout becomes mature, there will be limited need for library
designer/writer?



【在 j*****n 的大作中提到】
: 而且现在大部分公司里面真正 production 用的 lib 都是 java/scala/C++ 实现的.
: MLlib 是个很好的例子. 只会R就只能做 PPT, 做个 story, 做不出产品的. 当然有些
: 岗位做 PPT, make up 一个 story 也就够了。

avatar
f*8
68
如果R和C++混合用可以吗,比如Rcpp?

【在 z*******3 的大作中提到】
: 你搞research用r,只是能用,虽然很慢,嘎啦嘎啦跑半天
: 但是最后结果正确,但是工作中是不能这样搞的
: 因为r比python还要慢非常多,python已经很慢了
: 可以简单认为,r没有做任何的优化,python有做部分的优化,但是远远不够
: 对于海量数据,jvm虽然也不快,但是比起r和python,那已经是光速了
: 学c就意味着你要自己学会各种优化,乖乖,这个难度非常非常大
: 我觉得你投入20年,可能能有点小成
: 还有就是,python如果不想搞的话,可以看看scala
: scala比java难,难很多,但是至少这样可以上jvm和spark这些
: 然后你再对比r,看看spark上的mllib少了什么,虽然我觉得这本身就不是一回事

avatar
l*9
69
自己在读统计phd,爱好编程,愿意学。。。
暑假自己在Coursera上学了python,看了google 的python class, 零零碎碎。 然后
现在在看C++, 这是因为将来可能会用到R和C++ 混合跑MCMC。
自己将来想成为data scientist, 看版上好多人推荐JAVA,会java比会python要有用
。 我也似乎觉得自己日常使用,会R也就够了,python 做data analysis 我觉得没有R
顺手, 并且我估计也不会用python去开发什么。。我什么都愿意学,不抵制,甚至喜
欢编程,但是实在时间不够用,并且发现学多了以后真的好容易混淆,或者忘记,如果
不是每天用的话。
请问作为我这种情况,现阶段到底应该学什么呢?
C++, python, java?
或者有时候真心觉得学统计的不要去和cs拼,感觉没精力去拼。还不如把统计学好了去
药厂。。。目前来说统计在DS圈里面好弱。每个DS职位要求第一个永远是CS...
求有经验的人指点
avatar
j*p
70
都要会.
而且要有一定深度.
至少能用C++写个操作系统的程序吧.
avatar
c*z
71
you must be kidding
犯了妄语戒哦
Python 挺好

【在 j********p 的大作中提到】
: 都要会.
: 而且要有一定深度.
: 至少能用C++写个操作系统的程序吧.

avatar
j*p
72
你说的那些语言不都是C/C++写的,
了解一下C/C++有什么不好.
应付目前工作Python也许够了,
但要有时间的话,
C/C++是一定要学的.
只有通过C/C++才能了解计算机的真谛.

【在 c***z 的大作中提到】
: you must be kidding
: 犯了妄语戒哦
: Python 挺好

avatar
c*z
73
LZ只是想做DS
了解计算机的真谛有点overkill了
avatar
l*9
74

感觉现在版上都是cs的人,我也想了解计算机的真谛。。。时间真的不够用。。再者感
觉自学cs跟cs出身的人拼就有点不明智了。。

【在 j********p 的大作中提到】
: 你说的那些语言不都是C/C++写的,
: 了解一下C/C++有什么不好.
: 应付目前工作Python也许够了,
: 但要有时间的话,
: C/C++是一定要学的.
: 只有通过C/C++才能了解计算机的真谛.

avatar
l*9
75

大哥在开玩笑。。。不过会努力的。

【在 j********p 的大作中提到】
: 都要会.
: 而且要有一定深度.
: 至少能用C++写个操作系统的程序吧.

avatar
l*9
76

如果目前只学一个的话,是pyhon还是c++呢? 这两个目前都没有使用需求,纯粹是想
给将来找个出路。

【在 c***z 的大作中提到】
: you must be kidding
: 犯了妄语戒哦
: Python 挺好

avatar
j*p
77
DS也不简单,没有这几年的基础架构上的进步,
哪来现在的大好局面。
这在几年前都是想象不到的。
如果有余力的话,稍微了解一点底层的东西,对于将来的变化,肯定是有好处的。
我观察现在的大数据计算,还只是一个阶段,以后的新思想肯定还会层出不穷。
浮在上面的说哪天淘汰了也就淘汰了,而更新的东西,
还是会在底层上发展起来。

【在 c***z 的大作中提到】
: LZ只是想做DS
: 了解计算机的真谛有点overkill了

avatar
g*o
78
→_→
了解计算机真谛, 不应该把考研的那四本专业书都看了么, 计算机原理, 操作系统, 数
据结构, 网络原理
学个c算毛计算机真谛啊, 底下还有汇编和机器码啊, 起码也得学点补码运算和电路吧

【在 j********p 的大作中提到】
: 你说的那些语言不都是C/C++写的,
: 了解一下C/C++有什么不好.
: 应付目前工作Python也许够了,
: 但要有时间的话,
: C/C++是一定要学的.
: 只有通过C/C++才能了解计算机的真谛.

avatar
g*o
79
你直接去看你想去的公司其职位的要求不是更好?
其实对于cs的人来说, 同时会几门语言是很正常的

【在 l*****9 的大作中提到】
:
: 如果目前只学一个的话,是pyhon还是c++呢? 这两个目前都没有使用需求,纯粹是想
: 给将来找个出路。

avatar
j*p
80
你说的那几样,知道或者大致会就行了。
但如果要自己写操作系统或者新语言,就得用C/C++了,当然,懂汇编的话可以进行一
些代码性能优化。

【在 g*****o 的大作中提到】
: →_→
: 了解计算机真谛, 不应该把考研的那四本专业书都看了么, 计算机原理, 操作系统, 数
: 据结构, 网络原理
: 学个c算毛计算机真谛啊, 底下还有汇编和机器码啊, 起码也得学点补码运算和电路吧

avatar
j*4
81
没有使用需求的话很快就忘了

【在 l*****9 的大作中提到】
:
: 如果目前只学一个的话,是pyhon还是c++呢? 这两个目前都没有使用需求,纯粹是想
: 给将来找个出路。

avatar
s*h
82
现在除了做database的,或者硬件编程的,还有多少要C/C++的?
95%的C++程序员早就忘记汇编是啥了。
avatar
g*o
83
为什么ds要自己写操作系统和新语言?

【在 j********p 的大作中提到】
: 你说的那几样,知道或者大致会就行了。
: 但如果要自己写操作系统或者新语言,就得用C/C++了,当然,懂汇编的话可以进行一
: 些代码性能优化。

avatar
h*7
84
c和汇编是可以相互对等转换的......本科一个主要课程实验就是用这个

【在 g*****o 的大作中提到】
: →_→
: 了解计算机真谛, 不应该把考研的那四本专业书都看了么, 计算机原理, 操作系统, 数
: 据结构, 网络原理
: 学个c算毛计算机真谛啊, 底下还有汇编和机器码啊, 起码也得学点补码运算和电路吧

avatar
h*7
85
统计和经济数学一样,最好去银行保险公司之类的,它们也叫data scientist,也还不
错,中国人没必要都往一处去,先站住各自的档口再互相帮忙,免得都被烙印占了。
学语言不用把自己搞得很痛苦,不如就定位成R expert。
另外C++自学事倍功半。我高中就参加竞赛,本科好几门课,从谭浩强再到面向对象程
序设计再到喉结再到essential C++再到effective C++再加上一堆考试逼出来的底子。
然后去大公司接触到产品设计理念,了解开发流程,频繁用stl和各类sdk才搞出来的。
也不敢说自己就是C++达人

有R

【在 l*****9 的大作中提到】
: 自己在读统计phd,爱好编程,愿意学。。。
: 暑假自己在Coursera上学了python,看了google 的python class, 零零碎碎。 然后
: 现在在看C++, 这是因为将来可能会用到R和C++ 混合跑MCMC。
: 自己将来想成为data scientist, 看版上好多人推荐JAVA,会java比会python要有用
: 。 我也似乎觉得自己日常使用,会R也就够了,python 做data analysis 我觉得没有R
: 顺手, 并且我估计也不会用python去开发什么。。我什么都愿意学,不抵制,甚至喜
: 欢编程,但是实在时间不够用,并且发现学多了以后真的好容易混淆,或者忘记,如果
: 不是每天用的话。
: 请问作为我这种情况,现阶段到底应该学什么呢?
: C++, python, java?

avatar
P*6
86
了解计算机底层,C 就可以了吧, 需要C++吗。 是真的征求意见。不知为什么我不喜
欢C++, 觉得Java好些, C 没有抵触, MCMC c 就够了

【在 j********p 的大作中提到】
: 你说的那些语言不都是C/C++写的,
: 了解一下C/C++有什么不好.
: 应付目前工作Python也许够了,
: 但要有时间的话,
: C/C++是一定要学的.
: 只有通过C/C++才能了解计算机的真谛.

avatar
j*p
87
我说的底层是指相对其他语言的底层,不一定直接对机器。
C++既有C的灵活性,也能OO编程,效率还是高些。

【在 P*****6 的大作中提到】
: 了解计算机底层,C 就可以了吧, 需要C++吗。 是真的征求意见。不知为什么我不喜
: 欢C++, 觉得Java好些, C 没有抵触, MCMC c 就够了

avatar
c*z
88
最近最火的是scala
avatar
c*g
89
Python就够了,你这半路出家的,没必要搞C++。
Python熟了,有必要的话再搞Scala,或Java。
avatar
l*9
90

恩, 谢谢~

【在 c******g 的大作中提到】
: Python就够了,你这半路出家的,没必要搞C++。
: Python熟了,有必要的话再搞Scala,或Java。

avatar
l*9
91

我也看过了,发现大多数data scientist要求 一个是统计的编程包,比如R SAS, 然
后要求会一种脚本语言,比如python,个别的比如ebay,他们要java。。。
还有什么stata sas 这种要c 或者 c++, 其他还真没见过。
关于金融的quant,只是听说要c++,但是好像看同学们就用用python就够了的样子

【在 g*****o 的大作中提到】
: 你直接去看你想去的公司其职位的要求不是更好?
: 其实对于cs的人来说, 同时会几门语言是很正常的

avatar
l*9
92

谢谢指点。我也觉得自己学效率好低,然后因为没有地方用,所以过两天又忘了。

【在 h*****7 的大作中提到】
: 统计和经济数学一样,最好去银行保险公司之类的,它们也叫data scientist,也还不
: 错,中国人没必要都往一处去,先站住各自的档口再互相帮忙,免得都被烙印占了。
: 学语言不用把自己搞得很痛苦,不如就定位成R expert。
: 另外C++自学事倍功半。我高中就参加竞赛,本科好几门课,从谭浩强再到面向对象程
: 序设计再到喉结再到essential C++再到effective C++再加上一堆考试逼出来的底子。
: 然后去大公司接触到产品设计理念,了解开发流程,频繁用stl和各类sdk才搞出来的。
: 也不敢说自己就是C++达人
:
: 有R

avatar
l*9
93

这个真是说对了。。。从开学到现在计算都拿R弄,python又忘了。好难。。

【在 j******4 的大作中提到】
: 没有使用需求的话很快就忘了
avatar
z*3
94
你一开始就从java开始的话
c/c++/python你一个都不学都没有问题
r用起来会比较痛苦,r是单线程,在工作中根本不能跑
哪怕套上wrapper也非常蛋疼,瓶颈往往会出现在r上
只能用来搞batch,现在通过scala来制作jvm上的r
这样就可以不修改r脚本,直接移植入生产环境
但是目前看,还非常遥远,一时半会搞不定,估计三年内都很难实现
一开始就走错了,从c开始,非常的痛苦,太底层了
你要把人家本科4年的东西全部补过去,而且中间还隔了一个软件专业
真正分布式,对于不同系统的封装,统一接口这些又都没接触到
跟真正干活的环境是两码事,ds至少说数据读取应该没啥问题
火热的hadoop你又没怎么接触过,如果你连读取数据都成问题的话
工作中会比较吃力,天天找码农来做
那蛋糕就这么大,你找别人来干活,自然就要付出一点东西
比如切一块蛋糕给码农,现在只能说把r强化下,把统计好好搞一搞
不要把鸡蛋放在一个篮子里,如果将来找工作,统计有岗位出来
也就从了吧,python其实是c的折中的解决方案
因为java强行要求跨平台,各种要求比较高,所以短时间内很多c和fortran的类库
做不到上jvm运行,又在短时间内找不到合适的人来完成这个项目
所以就上python做个warpper,然后就可以不需要接触垮平台就搞
当然这里面会有各种问题,单线程,垮平台,jit,gc带来的效率问题等等
都要自己去搞,那这个就难很多了,不仅对于干活的人来说,对于老板也是如此
不管怎样,目前看,除了本行以外,要想搞it
离你最近的就是python,还是把python搞搞吧
r就先别用太多了,工作中没有办法用r,单线程这个太蛋疼了,r只是toy
搞点spark吧,虽然东西少,而且python的接口也慢,但是多少意味着future
其实对于it来说,尤其是对于软件这个行当来说,java是绕不开的,jvm是必需的

有R

【在 l*****9 的大作中提到】
: 自己在读统计phd,爱好编程,愿意学。。。
: 暑假自己在Coursera上学了python,看了google 的python class, 零零碎碎。 然后
: 现在在看C++, 这是因为将来可能会用到R和C++ 混合跑MCMC。
: 自己将来想成为data scientist, 看版上好多人推荐JAVA,会java比会python要有用
: 。 我也似乎觉得自己日常使用,会R也就够了,python 做data analysis 我觉得没有R
: 顺手, 并且我估计也不会用python去开发什么。。我什么都愿意学,不抵制,甚至喜
: 欢编程,但是实在时间不够用,并且发现学多了以后真的好容易混淆,或者忘记,如果
: 不是每天用的话。
: 请问作为我这种情况,现阶段到底应该学什么呢?
: C++, python, java?

avatar
z*3
95
你搞research用r,只是能用,虽然很慢,嘎啦嘎啦跑半天
但是最后结果正确,但是工作中是不能这样搞的
因为r比python还要慢非常多,python已经很慢了
可以简单认为,r没有做任何的优化,python有做部分的优化,但是远远不够
对于海量数据,jvm虽然也不快,但是比起r和python,那已经是光速了
学c就意味着你要自己学会各种优化,乖乖,这个难度非常非常大
我觉得你投入20年,可能能有点小成
还有就是,python如果不想搞的话,可以看看scala
scala比java难,难很多,但是至少这样可以上jvm和spark这些
然后你再对比r,看看spark上的mllib少了什么,虽然我觉得这本身就不是一回事
ml和stat虽然有重叠,但是理论和应用,毕竟还是两回事
avatar
z*3
96
ebay不是个别
google是个别
因为google自己从c底层开始造
今天搞的c/c++/python这一套上来就是google用的方式
但是google有钱有人,你一个人这样搞,还要搞统计的phd
估计你没时间,其他公司都是hadoop,spark直接往上套了
r和sas是optional,因为会点统计的,多少都会点这两个之一不是?

【在 l*****9 的大作中提到】
:
: 这个真是说对了。。。从开学到现在计算都拿R弄,python又忘了。好难。。

avatar
z*3
97
学统计的用r,因为r不管实际情况,尤其不在乎it环境
它基本上的目标就是,验证一个方法是否正确
python则是google后来用的,因为google在做ml这套东西的时候
它没有其他人帮忙,它只能自己摸索,那因为历史上c和fortran的pkg比较多
用python比较容易做一个wrapper,那可以在不修改原来pkg的前提下
最快速度把这些东西引入并执行起来,然后google有人也有钱
去自行优化各种效率
其他公司,就都用开源的东西,这个时候都是jvm上的东西
因为大多数公司,没有办法去招募那么一批人,去优化什么
开源有啥就用啥,所以这个时候就都是java,当然现在scala也开始流行起来
基本逻辑就是idea抄google的,然后尽可能兼容各种不同的系统
使得抄袭google的产品能够最快地在各个公司中得到应用
所以一开始就上java的话,就直接跳过前两个,而进入真正的实战领域
avatar
h*7
98
“ml和stat虽然有重叠,但是理论和应用,毕竟还是两回事”
赞这句。

【在 z*******3 的大作中提到】
: 你搞research用r,只是能用,虽然很慢,嘎啦嘎啦跑半天
: 但是最后结果正确,但是工作中是不能这样搞的
: 因为r比python还要慢非常多,python已经很慢了
: 可以简单认为,r没有做任何的优化,python有做部分的优化,但是远远不够
: 对于海量数据,jvm虽然也不快,但是比起r和python,那已经是光速了
: 学c就意味着你要自己学会各种优化,乖乖,这个难度非常非常大
: 我觉得你投入20年,可能能有点小成
: 还有就是,python如果不想搞的话,可以看看scala
: scala比java难,难很多,但是至少这样可以上jvm和spark这些
: 然后你再对比r,看看spark上的mllib少了什么,虽然我觉得这本身就不是一回事

avatar
G*n
99
我觉得学统计的就不要凑CS的热闹了,那种C++的功夫不是你做几个题目看几遍书能搞
透的。用好R,最多学一门语言Python或者Java都可以,建议学Python,因为Java还是
太多CS方向的人用,而且不宜与Data处理或者ML。

有R

【在 l*****9 的大作中提到】
: 自己在读统计phd,爱好编程,愿意学。。。
: 暑假自己在Coursera上学了python,看了google 的python class, 零零碎碎。 然后
: 现在在看C++, 这是因为将来可能会用到R和C++ 混合跑MCMC。
: 自己将来想成为data scientist, 看版上好多人推荐JAVA,会java比会python要有用
: 。 我也似乎觉得自己日常使用,会R也就够了,python 做data analysis 我觉得没有R
: 顺手, 并且我估计也不会用python去开发什么。。我什么都愿意学,不抵制,甚至喜
: 欢编程,但是实在时间不够用,并且发现学多了以后真的好容易混淆,或者忘记,如果
: 不是每天用的话。
: 请问作为我这种情况,现阶段到底应该学什么呢?
: C++, python, java?

avatar
l*9
100

谢谢大哥的悉心指导,仔细看了两遍受益匪浅。
感觉自己现在离不开R,就算想学个handoop也是去看怎么拿R来连接。尽管平时作业了
什么我我知道python也都可以解决,但为了省时间都拿R来弄了。
我觉得我想要学python的话必须要用起来,尝试那python做做以前的作业。
谢谢大哥!

【在 z*******3 的大作中提到】
: 你一开始就从java开始的话
: c/c++/python你一个都不学都没有问题
: r用起来会比较痛苦,r是单线程,在工作中根本不能跑
: 哪怕套上wrapper也非常蛋疼,瓶颈往往会出现在r上
: 只能用来搞batch,现在通过scala来制作jvm上的r
: 这样就可以不修改r脚本,直接移植入生产环境
: 但是目前看,还非常遥远,一时半会搞不定,估计三年内都很难实现
: 一开始就走错了,从c开始,非常的痛苦,太底层了
: 你要把人家本科4年的东西全部补过去,而且中间还隔了一个软件专业
: 真正分布式,对于不同系统的封装,统一接口这些又都没接触到

avatar
l*9
101

谢谢回复。 我也觉得自己看C++弄的好累,就算想并入R一起用,自己学了半天也不知
道什么时候吧C++ 嵌入进去时有用的。。。
同意 理论和实际 的差别,发现工作中关心的就是结果能用就行。 也越来越觉得ML还
是学cs的搞比较好

【在 z*******3 的大作中提到】
: 你搞research用r,只是能用,虽然很慢,嘎啦嘎啦跑半天
: 但是最后结果正确,但是工作中是不能这样搞的
: 因为r比python还要慢非常多,python已经很慢了
: 可以简单认为,r没有做任何的优化,python有做部分的优化,但是远远不够
: 对于海量数据,jvm虽然也不快,但是比起r和python,那已经是光速了
: 学c就意味着你要自己学会各种优化,乖乖,这个难度非常非常大
: 我觉得你投入20年,可能能有点小成
: 还有就是,python如果不想搞的话,可以看看scala
: scala比java难,难很多,但是至少这样可以上jvm和spark这些
: 然后你再对比r,看看spark上的mllib少了什么,虽然我觉得这本身就不是一回事

avatar
l*9
102

谢谢回复~ 感觉想入哪一行都要极大的努力。。。

【在 z*******3 的大作中提到】
: ebay不是个别
: google是个别
: 因为google自己从c底层开始造
: 今天搞的c/c++/python这一套上来就是google用的方式
: 但是google有钱有人,你一个人这样搞,还要搞统计的phd
: 估计你没时间,其他公司都是hadoop,spark直接往上套了
: r和sas是optional,因为会点统计的,多少都会点这两个之一不是?

avatar
l*9
103

谢谢。 我会静下心先学好一个,再看其他的

【在 G***n 的大作中提到】
: 我觉得学统计的就不要凑CS的热闹了,那种C++的功夫不是你做几个题目看几遍书能搞
: 透的。用好R,最多学一门语言Python或者Java都可以,建议学Python,因为Java还是
: 太多CS方向的人用,而且不宜与Data处理或者ML。
:
: 有R

avatar
m*r
104
仁兄说的很对
我觉得DS这个东西是前景很好
但是现在风潮涌动
有水分
风投什么的投了很多钱
跟新和泡沫也来得很容易

【在 j********p 的大作中提到】
: DS也不简单,没有这几年的基础架构上的进步,
: 哪来现在的大好局面。
: 这在几年前都是想象不到的。
: 如果有余力的话,稍微了解一点底层的东西,对于将来的变化,肯定是有好处的。
: 我观察现在的大数据计算,还只是一个阶段,以后的新思想肯定还会层出不穷。
: 浮在上面的说哪天淘汰了也就淘汰了,而更新的东西,
: 还是会在底层上发展起来。

avatar
z*3
105
java不难,认真搞,也就2-3个月左右的事情
读arts的文科生都能学会
现在做data和ml都在jvm上搞
以后趋势就是jvm,分布式是future
python只是一个wrapper,开源的支持比较少
比较依赖c++程序员

【在 G***n 的大作中提到】
: 我觉得学统计的就不要凑CS的热闹了,那种C++的功夫不是你做几个题目看几遍书能搞
: 透的。用好R,最多学一门语言Python或者Java都可以,建议学Python,因为Java还是
: 太多CS方向的人用,而且不宜与Data处理或者ML。
:
: 有R

avatar
m*r
106
赞!!!!!

【在 z*******3 的大作中提到】
: 你一开始就从java开始的话
: c/c++/python你一个都不学都没有问题
: r用起来会比较痛苦,r是单线程,在工作中根本不能跑
: 哪怕套上wrapper也非常蛋疼,瓶颈往往会出现在r上
: 只能用来搞batch,现在通过scala来制作jvm上的r
: 这样就可以不修改r脚本,直接移植入生产环境
: 但是目前看,还非常遥远,一时半会搞不定,估计三年内都很难实现
: 一开始就走错了,从c开始,非常的痛苦,太底层了
: 你要把人家本科4年的东西全部补过去,而且中间还隔了一个软件专业
: 真正分布式,对于不同系统的封装,统一接口这些又都没接触到

avatar
P*6
107
老赵的最爱,本来我被他说的有点动心,准备偷偷脚踩python和scala两条船,但scala
在宝典版 被批的体无完肤啊。话说scala 真能跟java无缝连接吗

【在 c***z 的大作中提到】
: 最近最火的是scala
avatar
w*4
108
scala
avatar
g*o
109
学统计的本来就理论先行, 公式得推得出来
ml里面的很多东西, 放到统计里根本通不过检验→_→

【在 l*****9 的大作中提到】
:
: 谢谢。 我会静下心先学好一个,再看其他的

avatar
j*n
110
我觉得啊, 以后只要求 stat 的 DS 需求会越来越少。open source 的 lib 越来越多
,造轮子的机会越来越少, 不需要那么多数学背景的人来做理论,需要大量的码工来实
现 application 以及 large-scale implementation. 而且 会 stat 的码工越来越多
,只会stat 不会写正儿八经的 code 竞争力自然就弱了。
avatar
j*n
111
而且现在大部分公司里面真正 production 用的 lib 都是 java/scala/C++ 实现的.
MLlib 是个很好的例子. 只会R就只能做 PPT, 做个 story, 做不出产品的. 当然有些
岗位做 PPT, make up 一个 story 也就够了。

【在 j*****n 的大作中提到】
: 我觉得啊, 以后只要求 stat 的 DS 需求会越来越少。open source 的 lib 越来越多
: ,造轮子的机会越来越少, 不需要那么多数学背景的人来做理论,需要大量的码工来实
: 现 application 以及 large-scale implementation. 而且 会 stat 的码工越来越多
: ,只会stat 不会写正儿八经的 code 竞争力自然就弱了。

avatar
n*3
112
the problem is
once Milib/mahout becomes mature, there will be limited need for library
designer/writer?



【在 j*****n 的大作中提到】
: 而且现在大部分公司里面真正 production 用的 lib 都是 java/scala/C++ 实现的.
: MLlib 是个很好的例子. 只会R就只能做 PPT, 做个 story, 做不出产品的. 当然有些
: 岗位做 PPT, make up 一个 story 也就够了。

avatar
f*8
113
如果R和C++混合用可以吗,比如Rcpp?

【在 z*******3 的大作中提到】
: 你搞research用r,只是能用,虽然很慢,嘎啦嘎啦跑半天
: 但是最后结果正确,但是工作中是不能这样搞的
: 因为r比python还要慢非常多,python已经很慢了
: 可以简单认为,r没有做任何的优化,python有做部分的优化,但是远远不够
: 对于海量数据,jvm虽然也不快,但是比起r和python,那已经是光速了
: 学c就意味着你要自己学会各种优化,乖乖,这个难度非常非常大
: 我觉得你投入20年,可能能有点小成
: 还有就是,python如果不想搞的话,可以看看scala
: scala比java难,难很多,但是至少这样可以上jvm和spark这些
: 然后你再对比r,看看spark上的mllib少了什么,虽然我觉得这本身就不是一回事

avatar
w*y
114
rcpp. foreach. 并行计算又能解决loop 浪费时间的问题 而且选对了package 基本上
底层的代码都是Java c FORTRAN 这三个
速度秒杀python...

【在 f***8 的大作中提到】
: 如果R和C++混合用可以吗,比如Rcpp?
avatar
w*y
115
给个具体的概念,几千只股票 二十年数据 pairwise one year rolling correlation
我用R几十行代码 几分钟可以搞定

【在 w**********y 的大作中提到】
: rcpp. foreach. 并行计算又能解决loop 浪费时间的问题 而且选对了package 基本上
: 底层的代码都是Java c FORTRAN 这三个
: 速度秒杀python...

avatar
H*E
116
一个旁的问题。
这年头学machine learning 的就业市场究竟如何阿?除了阿里研发院, 和各大公司研
发院这种地方还有毛地方可去么?
avatar
H*E
117
yes, H2o. But it is so far away from complete, with the current limited
number of libraries there is not much can be done.

【在 n*****3 的大作中提到】
: the problem is
: once Milib/mahout becomes mature, there will be limited need for library
: designer/writer?
:
:

avatar
r*d
118
菜鸟回答一个,我非常看好(why? faith) ml的就业前景,非ml科班出身的也有机会。
应用范围太广了。

【在 H****E 的大作中提到】
: 一个旁的问题。
: 这年头学machine learning 的就业市场究竟如何阿?除了阿里研发院, 和各大公司研
: 发院这种地方还有毛地方可去么?

avatar
c*t
119
这贴怎么又爬上来了。这话题是赵老师的最爱,jvm打败c++, blahblah。归根结底这是
gpu派和cluster派的斗争。cluster派借着高大上公司们以及memory便宜推行hadoop,
spark,招揽一批ds。mllib主要是用python吧。cluster派最大的优势是不用自己重造
算法。cluster派最大的劣势是就算spark再翻个跟头,commodity server们的处理速度
也就那么回事儿。gpu派最大的困难是绝大多数现有算法,包括ml算法并没有给gpu那种
处理结构优化,那种结构本来就是设计来处理video和animation的。有资源的话发展出
什么gpu-spark也不是难事。谁战胜誰还是看资源再分配。
找工作嘛,尽快学好一个就行了。别觉着有啥便宜没占着会后悔,那就不会犹豫更不会
后悔
avatar
m*r
120
若问 :赵老师是谁?

【在 c****t 的大作中提到】
: 这贴怎么又爬上来了。这话题是赵老师的最爱,jvm打败c++, blahblah。归根结底这是
: gpu派和cluster派的斗争。cluster派借着高大上公司们以及memory便宜推行hadoop,
: spark,招揽一批ds。mllib主要是用python吧。cluster派最大的优势是不用自己重造
: 算法。cluster派最大的劣势是就算spark再翻个跟头,commodity server们的处理速度
: 也就那么回事儿。gpu派最大的困难是绝大多数现有算法,包括ml算法并没有给gpu那种
: 处理结构优化,那种结构本来就是设计来处理video和animation的。有资源的话发展出
: 什么gpu-spark也不是难事。谁战胜誰还是看资源再分配。
: 找工作嘛,尽快学好一个就行了。别觉着有啥便宜没占着会后悔,那就不会犹豫更不会
: 后悔

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。