Redian新闻
>
(回报贴)想撸AMEX ED 25k的戳
avatar
(回报贴)想撸AMEX ED 25k的戳# Money - 海外理财
z*e
1
找课程名里面的关键字
distributed,这个是基础,几乎是下面所有的基础
如果没有上过,一般不让上这些课
另外一个基础课是object oriented programming,就是java
下面大多数东西都是java为基础的延伸,都跑在jvm上
语言基本上是java为主,python为辅的结构
cluster
cloud,参考关键字aws
streaming,参考关键字,storm, spark这些
functional programming
declarative programming,这两个应该会凑到一块去
mobile,参考关键字android和ios
advanced database 这个比较含糊,容易搞成传统的db,打开syllabus找nosql
web service,参考关键字soap和rest
statistics,这个范围很广,想想学过数学分析没有,如果没有数学基础就不要死磕了
machine learning,参考关键字weka
hadoop,storm什么只是具体的产品和实现,原理都在上面这些里面
跟hr说hadoop这些,跟面官可以聊使用经验
但是说理论,就跟他们扯这些上课上的东西
学完了这些课都放到linkedin上去,对hr有一定吸引力
avatar
j*9
2
自己试了三天,各种浏览器,隐身模式,换设备,换地址,都没撸成25k(最多看到15k
的offer)
今天早上听了版上朋友的建议
手机lte共享热点,电脑连接,然后用chrome的隐身模式
就刷出来了
avatar
z*e
3
fp一般是白人上
nosql这些很容易遇到阿三老师
cloud这些一半对一半吧
纯理科的也不要妄自菲薄
现在web的大数据比起bio上的数据量来说
还是小很多的,而且有生物数据库,比如基因库的地方
往往会开这些课
还有统计对于现在大数据的应用将会很热门
avatar
z*e
4
贴几个参考的课程描述
统计和ml
With exponential increases in the amount of data becoming available in
fields such as finance and biology, and on the web, there is an ever-greater
need for methods to detect interesting patterns in that data, and classify
novel data points based on curated data sets. Statistical machine learning
and evolutionary computation provide the means to perform this analysis
automatically, and in doing so to enhance understanding of general processes
or to predict future events.
Topics covered will include: association rules, clustering, instance-based
learning, statistical learning, evolutionary algorithms, swarm intelligence,
neural networks, numeric prediction, weakly supervised classification,
discretisation, feature selection and classifier combination.
This subject is intended to introduce graduate students to machine learning
though a mixture of theoretical methods and hands-on practical experience in
applying those methods to real-world problems
dp
Declarative programming languages provide elegant and powerful programming
paradigms which every programmer should know. This subject presents
declarative programming languages and techniques.
nosql
Many applications require access to very large amounts of data. These
applications often require reliability (data must not be lost even in the
presence of hardware failures), and the ability to retrieve and process the
data very efficiently.
The subject will cover the technologies used in advanced database systems.
Topics covered will include: transactions, including concurrency,
reliability (the ACID properties) and performance; and indexing of both
structured and unstructured data. The subject will also cover additional
topics such as: uncertain data; Xquery; the Semantic Web and the Resource
Description Framework; dataspaces and data provenance; datacentres; and data
archiving.
cloud
The growing popularity of the Internet along with the availability of
powerful computers and high-speed networks as low-cost commodity components
are changing the way we do parallel and distributed computing (PDC). The PDC
on local-area-networks is called "cluster computing " and wide-area
networks is called "grid computing" . Clusters employ cost-effective
commodity components for building powerful computers within local-area
networks, and Grids allow to share and aggregate geographically distributed
resources. Recently, “cloud computing” emerged as the new paradigm for
delivery of computing as services in a pay-as-you-go-model via the Internet.
This revolutionary new paradigm has its roots, and therefore shares many
characteristics, with grids.
Some examples of scientific and industrial applications that use these
computing platforms are: system simulations, weather forecasting, climate
prediction, automobile modelling and design, high-energy physics, movie
rendering, business intelligence, bigdata computing, and delivering various
business and consumer applications on a pay-as-you-go basis.
This subject will enable students to understand these technologies, its
goals, characteristics, and limitations, and develop both middleware
supporting them and scalable applications supported by these platforms.
This subject is an elective subject in the Master of Information Technology
and a mandatory for the Distributed Computing Specialisation. It can also be
taken as an Advanced Elective subject in the Master of Engineering (
Software).
streaming
AIMS
With exponential growth in data generated from sensor data streams, search
engines, spam filters, medical services, online analysis of financial data
streams, and so forth, there is demand for fast monitoring and storage of
huge amounts of data in real-time. Traditional technologies were not aimed
to such fast streams of data. Usually they required data to be stored and
indexed before it could be processed.
Stream computing was created to tackle those problems that require
processing and classification of continuous, high volume of data streams. It
is highly used on applications such as Twitter, Facebook, High Frequency
Trading and so forth.
The Stream computing course will interest students who want to learn more
about real-time processing and its applications. It will be taught both from
atheoretical and practical point of view. The course will cover underlying
fundamentals of stream processing systems, particularly architectural issues
and algorithms for stream processing, mining and analysis. It will also
include tutorials on how to develop and deploy applications into platforms
such as IBM InfoSphere Streams®.
INDICATIVE CONTENT
Why stream processing is important
Data streams model
Data streams algorithms: Sampling, sketching, distinct items, frequent items
, etc.
Data streams synopses: Histograms, sketches, wavelets, etc.
Stream processing platforms: Infosphere Streams, Storm, Spark Streaming, etc.
Data streams mining: Classification, clustering, etc.
avatar
l*6
5
已经毕业了 请教一下有什么网上的distribute的open course 或者课件 比较好
avatar
g*4
6
多谢zhaoce大牛提供信息!!
这学期在上enterprise distributed system,课上的大项目就是建个订机票网站,然后
进行各种后台优化,小项目就是用web service跟JMS做e-commerce。下学期还有一门
advanced,是做rest。这2门课都是enterprise方向。
但是觉得学的都不够基础。大牛能否给指点个方向,网上我找了找,暂时没有发现
distributed system的open course。
下学期在cloud跟web data mining2门课之间犹豫不决,求大牛给个意见。
另外大牛能否给介绍下职业选择方向?目前ML,big data跟cloud比较火,能否跟
enterprise方向比较下?
个人背景:转专业,master第2学期,写过compiler跟file system,自觉编程能力还行。
问题比较多,先谢过大牛!

【在 z****e 的大作中提到】
: 找课程名里面的关键字
: distributed,这个是基础,几乎是下面所有的基础
: 如果没有上过,一般不让上这些课
: 另外一个基础课是object oriented programming,就是java
: 下面大多数东西都是java为基础的延伸,都跑在jvm上
: 语言基本上是java为主,python为辅的结构
: cluster
: cloud,参考关键字aws
: streaming,参考关键字,storm, spark这些
: functional programming

avatar
O*y
7
谢谢楼主,有人和我说工业界不怎麽用weka做data mining,是这样吗?unix script
programming是不是经常用在data mining 或者machine learning里?谢谢
avatar
R*t
8
Mark. Thanks for sharing
avatar
z*e
9
是不怎么用weka做data mining
data mining主要是有data warehouse相关产品,看用什么产品就用什么
weka是用来做ml的,ml和dm之间还是有区别的
unix script指什么?bash/shell那些主要是类unix平台上效率高
常见的grep效率高很多,尤其是server一般都不会有什么可视化的界面
所以command line就显得很重要,只能用这种方式去操作server
ml的话,工具是次要的,理论上用什么都可以,r和sas那些
但是python会用得多一点,主要是python即可以用来写script
也有一定的oo特性,还有就是python可读性也很强,bash shell那些命令行实在太蛋疼
那些命令很不直观,而如果要将这些逻辑转换成app的话,因为数据前面一层都是jvm
所以java就很容易用上,还有就是操作text等,perl就比较擅长
perl尤其擅长用来对付文本,文字各种操作,mariadb里面就有一部分是perl写的
github就是ruby搞的,因为ruby这种类perl脚本对于各种文字处理比较强大
不过这些都是工具,理论指导实践
理论更重要

【在 O*********y 的大作中提到】
: 谢谢楼主,有人和我说工业界不怎麽用weka做data mining,是这样吗?unix script
: programming是不是经常用在data mining 或者machine learning里?谢谢

avatar
z*e
10
这不是做得挺好的
这个distributed system的课还是比较负责的,jms, web service什么都教
所谓分布式以前发展最大的就是j2ee
jms就是j2ee的一个部分,理论上web那些java的东西,比j2ee要简单点
j2ee很多时候文绉绉的,不是那么便于理解
你下学期选什么,看你自己的背景
要做data什么叉叉没那么容易,要求相对高很多
如果是理科转行的话,比如从统计或者数学这样转过来
会比较合适做这块,有个相关学位的话会更适合做这一块,尤其是搞统计的
我从来都觉得统计是一个很好的专业,应用数学就是cs和统计
不过不仅这块门槛高,机会也不是那么多,不象开发那样多机会
选cloud就没有这个问题
ml和dm这一块,无非数据爆炸,然后如何萃取出数据
然后再分析再处理,这个过程中各个语言都有其优点
比如perl对于文本处理,python用来替换脚本,传统上r和sas的各种统计工具
java对于jvm的贴切,很难说用什么最好,随便你用,只要你知道自己在做什么
老师上课不会教你怎么用这些工具,会更侧重理论,然后课程中会做project
你自己觉得哪个语言顺手就操哪个上,不过多数人会选择java和python
如果用c++做的话,很容易出现连组队都找不到人组队的尴尬
还有就是data mining这行其实一直都存在
以前database时代,data mining就有一定的市场
这两个还是有点区别的

行。

【在 g**4 的大作中提到】
: 多谢zhaoce大牛提供信息!!
: 这学期在上enterprise distributed system,课上的大项目就是建个订机票网站,然后
: 进行各种后台优化,小项目就是用web service跟JMS做e-commerce。下学期还有一门
: advanced,是做rest。这2门课都是enterprise方向。
: 但是觉得学的都不够基础。大牛能否给指点个方向,网上我找了找,暂时没有发现
: distributed system的open course。
: 下学期在cloud跟web data mining2门课之间犹豫不决,求大牛给个意见。
: 另外大牛能否给介绍下职业选择方向?目前ML,big data跟cloud比较火,能否跟
: enterprise方向比较下?
: 个人背景:转专业,master第2学期,写过compiler跟file system,自觉编程能力还行。

avatar
z*e
11
distributed system开源的,jboss就是一个非常强大的工具
里面应有尽有,随便你折腾,只要你懂,不过这对于big data部分偏弱
big data部分就看hadoop和nosql那些
然后cloud自己找个cloud平台去玩去,aws吧,我用rhcloud
或者google computing engine,不过google的比较贵,三年折扣下来比aws贵三倍
而且小折腾,不舒服,还是aws吧,一年一百刀不到
不过如果你写过compiler的话,可能了解一下openstack这些,还有virtualisation这些
可能会更有前途,不过以后要做偏底层的工作,不知道你是否乐意酱紫

行。

【在 g**4 的大作中提到】
: 多谢zhaoce大牛提供信息!!
: 这学期在上enterprise distributed system,课上的大项目就是建个订机票网站,然后
: 进行各种后台优化,小项目就是用web service跟JMS做e-commerce。下学期还有一门
: advanced,是做rest。这2门课都是enterprise方向。
: 但是觉得学的都不够基础。大牛能否给指点个方向,网上我找了找,暂时没有发现
: distributed system的open course。
: 下学期在cloud跟web data mining2门课之间犹豫不决,求大牛给个意见。
: 另外大牛能否给介绍下职业选择方向?目前ML,big data跟cloud比较火,能否跟
: enterprise方向比较下?
: 个人背景:转专业,master第2学期,写过compiler跟file system,自觉编程能力还行。

avatar
z*e
12
coursera?
不过当地肯定有大学,随便找个大学的研究生课进去旁听也没啥问题
就是上课一般是白天,这个有点蛋疼,赚钱也在白天

【在 l******6 的大作中提到】
: 已经毕业了 请教一下有什么网上的distribute的open course 或者课件 比较好
avatar
z*e
13
dm侧重对于现有数据的分析
ml则侧重对于将来的预测
所以ml往往要做成application,而数据持久化前面一层多半就是jvm
这个时候要转换成java代码,要不然老板看不到
而java写复杂的数学算式太蛋疼了,所以这个时候一些clojure
还有scala就有一定优势,因为复杂数学公式本身就是fp擅长的领域
而java是oop,所以不是那么擅长,这里面还大有文章可以做
荒淫钓丝们做炮灰
avatar
g*4
14
解释的太棒了!大牛你太博学了!
确实准备开个AWS,把做完的东西都丢上去。底层的很喜欢,就怕机会没那么多。感觉
要学的、能学的、想学的实在是太多了,既担心又兴奋
还有个疑问,都说cloud computing可以理解是distributed computing的特殊情况,
enterprise方向又都用的是distributed system,那是不是cloud跟enterprise方向有
很多互通,可以双修双持?

这些

【在 z****e 的大作中提到】
: distributed system开源的,jboss就是一个非常强大的工具
: 里面应有尽有,随便你折腾,只要你懂,不过这对于big data部分偏弱
: big data部分就看hadoop和nosql那些
: 然后cloud自己找个cloud平台去玩去,aws吧,我用rhcloud
: 或者google computing engine,不过google的比较贵,三年折扣下来比aws贵三倍
: 而且小折腾,不舒服,还是aws吧,一年一百刀不到
: 不过如果你写过compiler的话,可能了解一下openstack这些,还有virtualisation这些
: 可能会更有前途,不过以后要做偏底层的工作,不知道你是否乐意酱紫
:
: 行。

avatar
z*e
15
企业应用比web应用的实效性安全性要求更高
可以模糊地认为就是private cloud
而一般意义上的cloud是public cloud
从cloud的眼光来看,企业应用就是或者说严谨一点,接近private cloud
反过来,从企业应用来看
public cloud就是用公网上的rpc替换传统内网rpc的distributed system
这两个互相之间没有太大的区别,这两个并不互相冲突
这也是为什么distributed system是cloud的prerequisite course的原因
可能有一个主要区别就是virtualisation,虚拟机技术
cloud用vm用得比较多,而一般企业的分布式则不用虚拟机去host guest os

【在 g**4 的大作中提到】
: 解释的太棒了!大牛你太博学了!
: 确实准备开个AWS,把做完的东西都丢上去。底层的很喜欢,就怕机会没那么多。感觉
: 要学的、能学的、想学的实在是太多了,既担心又兴奋
: 还有个疑问,都说cloud computing可以理解是distributed computing的特殊情况,
: enterprise方向又都用的是distributed system,那是不是cloud跟enterprise方向有
: 很多互通,可以双修双持?
:
: 这些

avatar
g*4
16
明白了!再次感谢zhaoce大牛!

【在 z****e 的大作中提到】
: 企业应用比web应用的实效性安全性要求更高
: 可以模糊地认为就是private cloud
: 而一般意义上的cloud是public cloud
: 从cloud的眼光来看,企业应用就是或者说严谨一点,接近private cloud
: 反过来,从企业应用来看
: public cloud就是用公网上的rpc替换传统内网rpc的distributed system
: 这两个互相之间没有太大的区别,这两个并不互相冲突
: 这也是为什么distributed system是cloud的prerequisite course的原因
: 可能有一个主要区别就是virtualisation,虚拟机技术
: cloud用vm用得比较多,而一般企业的分布式则不用虚拟机去host guest os

avatar
g*o
17
大牛说得太好了~~~
佩服!

【在 z****e 的大作中提到】
: 这不是做得挺好的
: 这个distributed system的课还是比较负责的,jms, web service什么都教
: 所谓分布式以前发展最大的就是j2ee
: jms就是j2ee的一个部分,理论上web那些java的东西,比j2ee要简单点
: j2ee很多时候文绉绉的,不是那么便于理解
: 你下学期选什么,看你自己的背景
: 要做data什么叉叉没那么容易,要求相对高很多
: 如果是理科转行的话,比如从统计或者数学这样转过来
: 会比较合适做这块,有个相关学位的话会更适合做这一块,尤其是搞统计的
: 我从来都觉得统计是一个很好的专业,应用数学就是cs和统计

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。