Redian新闻
>
围棋冠军没有打过智能机器
avatar
围棋冠军没有打过智能机器# MobileDevelopment - 移动开发
c*n
1
【 以下文字转载自 Piebridge 讨论区 】
发信人: notaprincess (not a princess), 信区: Piebridge
标 题: 女征男
发信站: BBS 未名空间站 (Sun Jan 11 21:35:47 2009)
我还有几个月就要26岁了。曾经有个人告诉我女人就像圣诞礼物,25号之前都很抢手,
过了25号就没人要买了。我也曾经相信过这些话,可是到了今天我更相信“做得好,嫁
得好,不如活得好”。我非常享受我现在的单身生活。如果缘分到来,拍拖结婚生子进
入人生另一个阶段也同样精彩。我觉得单身并不可怕,没有生活质量才是最可怕。可是
为了停止父母的唠叨,我决定要做一次网上征友,也希望真的能遇到对的人。不过无论
结果如何,从此以后我会坚持我守株待兔的原则,安静地等待属于我的缘分到来。
所在地(起码给出state): CA
职业情况(学生还是工作): 学生
简单的物理参数(身高cm/体重kg): 168cm/不轻
当前婚姻状态(从没结过婚/曾婚/丧偶): never married
联系方式(email/IM/站内): 站内/notaprincess200
avatar
l*0
2
更多的是一个工程问题。网络数据规模越来越大,而且很多是半结构,或非结构的数据
,或几种的混合。如何获取,存储,管理,分析,并提供有效的检索手段给用户,都涉
及到软件工程的问题。
对于 data scientist 来说,其实 big data 与其关系并不是太大。即使数据规模再大
,你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。给你
1G 的数据,你就会撑死。所以大数据时代,对 data engineer 的需求要远远大于
data scientist. 什么是 data engineer? 就是传统的 software engineer,但有机器
学习,统计或自然语言,信息检索的背景,并主要工作于网络数据处理的方方面面。
当然,数据规模大了,数据来源多样化了,对以数据分析和建模为主要工作内容的
data scientist/analyst 也提出了一些新的挑战。比如,如何采样数据?多大合适?
如何评估系统或模型? 如何干掉数据中的垃圾成分?等等
avatar
a*n
3
最近我自己在休闲的时候经常性的会去玩一些小的游戏,但是前些天的时候我看见了我
的一个好朋友。你可不能小看了我的这个朋友,他可是围棋界里面的冠军种子选手。基
本上是我们省内的冠军了,其实这个家伙一直都在学习如何的下象棋,但是我自己一直
没有看见过他下棋的样子。这不正巧的是,今天我遇见了他,而且他正在游戏厅里面做
着和智能机器比赛呢。我打了个招呼就开始看,结果你才怎么着,这个冠军基本上是下
了5盘棋最后只赢了一盘,我也是醉了。心中想着就你这样的还是围棋冠军?真不知道
你的头衔是哪一个二百五给你发的。其实我当时的想法是错误的,因为大多数的时候科
学家最后证明了其实人脑在很大的方面都会存在着一定的局限,不会像机器人的大脑一
样不用休息不用过多的思考。基本上智能机器人的每一步走法都是我们人类花了很长的
时间输入到其芯片里面的所以说这是一个全人类的智慧,我的小伙伴能输给这台智能的
机器人还是很正常的一件事情,而我则是大惊小怪了。
avatar
Y*e
4
可能是文学女青年
avatar
c*z
5
你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。
sorry, have to disagree
avatar
m*i
6
机器智能这么厉害了,怎么有种森森的危机感
avatar
f*s
7
流行的说法变了,女人35才一枝花
avatar
d*n
8
如何处理拿不到的数据呢?
例如我们不是NSA,拿不到所有人的家庭住址和电费帐单。但是如果我们有所有人的家
庭住址和电费帐单的话,建模就会容易一些...
所有的DS都有这样的困惑吧。拿到手的数据只是别人手里数据的千分之一,做起来都很
没劲。

【在 c***z 的大作中提到】
: 你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。
: sorry, have to disagree

avatar
B*y
9
机器人都能发帖再带回帖的,更厉害。。。

【在 m******i 的大作中提到】
: 机器智能这么厉害了,怎么有种森森的危机感
avatar
b*e
10
加油。。。。
avatar
c*z
11
That is exactly what we are doing in the bias correction project...

【在 d****n 的大作中提到】
: 如何处理拿不到的数据呢?
: 例如我们不是NSA,拿不到所有人的家庭住址和电费帐单。但是如果我们有所有人的家
: 庭住址和电费帐单的话,建模就会容易一些...
: 所有的DS都有这样的困惑吧。拿到手的数据只是别人手里数据的千分之一,做起来都很
: 没劲。

avatar
l*0
12
展开说说? 你最大用到多大的数据量

【在 c***z 的大作中提到】
: 你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。
: sorry, have to disagree

avatar
k*z
13
大数据对分析的人来说就是个噱头,就是大家找不到理由给自己加工资了,变个方式骗
资方骗老板骗自己。
avatar
d*n
14
数据库的话,一般都是1 bil以上吧
如果是文件数据的话,一般每个文件几个到几十个g,大概上千个文件吧
小于这个数都不好叫big data。当然你设计的时候可以先用比这些小100倍的东西试,
但是最后都要用大的set来测试的。
其实这都不是挑战的地方。挑战的地方在于分布存储,实时数据和历史数据结合等等,
所以最后要上map reduce,要把数据整合的过程前移。
当然很多olap不需要符合ACID,这点就好很多了。而要求ACID的数据库单个多数不大,
所以这就好多了。

【在 l******0 的大作中提到】
: 展开说说? 你最大用到多大的数据量
avatar
d*n
15
当然,我认为你说一个好的data engineer抵得上一个team的data scientist是对的。

【在 l******0 的大作中提到】
: 更多的是一个工程问题。网络数据规模越来越大,而且很多是半结构,或非结构的数据
: ,或几种的混合。如何获取,存储,管理,分析,并提供有效的检索手段给用户,都涉
: 及到软件工程的问题。
: 对于 data scientist 来说,其实 big data 与其关系并不是太大。即使数据规模再大
: ,你用来分析并建模的数据量还是相当小,只是其中一个微不足道的很小的子集。给你
: 1G 的数据,你就会撑死。所以大数据时代,对 data engineer 的需求要远远大于
: data scientist. 什么是 data engineer? 就是传统的 software engineer,但有机器
: 学习,统计或自然语言,信息检索的背景,并主要工作于网络数据处理的方方面面。
: 当然,数据规模大了,数据来源多样化了,对以数据分析和建模为主要工作内容的
: data scientist/analyst 也提出了一些新的挑战。比如,如何采样数据?多大合适?

avatar
l*0
16
big data 从量上来说,当然都是以 terabyte 计。但我说的是,作为分析建模的数据
,你能用得了多少,可能 work 的 case 不一样。通常机器学习的分类任务,要大规模
的标注好的数据,几乎不可能;即使可能,一般的机器学习算法,也用不着那么多数据
,也处理不了那么多数据。而且数据到一定量,再添加,对模型也没有什么帮助。数据
不在于量大,关键在于如何组织好一个很有代表性的小数据集用来学习,测试和评估。
举个例子,如果要根据 Twitter 上用户的发言(tweets),判断他的年龄段,或再粗
略一点,判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。
如果性能不好,原因可能不是由于数据量小。增加再多,也不一定有帮助。
能不能举个例子,需要多少个 G 或 T 的数据来做模型?交流,学习一下

【在 d****n 的大作中提到】
: 数据库的话,一般都是1 bil以上吧
: 如果是文件数据的话,一般每个文件几个到几十个g,大概上千个文件吧
: 小于这个数都不好叫big data。当然你设计的时候可以先用比这些小100倍的东西试,
: 但是最后都要用大的set来测试的。
: 其实这都不是挑战的地方。挑战的地方在于分布存储,实时数据和历史数据结合等等,
: 所以最后要上map reduce,要把数据整合的过程前移。
: 当然很多olap不需要符合ACID,这点就好很多了。而要求ACID的数据库单个多数不大,
: 所以这就好多了。

avatar
d*n
17
其实最开始的data set都不大,例如给你10万张不知道主题的图片,让你找出其中和其
他大部分不一样的图片。
但是几乎所有的算法里面都有个data enrichment和data association的过程。例如对
于图片分类的问题,最容易想到的方法就是计算两两之间的相似度,那就是50亿对相似
度了。
现在讲的big data,很多时候连要解决的问题本身都不清楚,所以连最基本的feature
extraction, categorizing/labelling之类的都失效了。

【在 l******0 的大作中提到】
: big data 从量上来说,当然都是以 terabyte 计。但我说的是,作为分析建模的数据
: ,你能用得了多少,可能 work 的 case 不一样。通常机器学习的分类任务,要大规模
: 的标注好的数据,几乎不可能;即使可能,一般的机器学习算法,也用不着那么多数据
: ,也处理不了那么多数据。而且数据到一定量,再添加,对模型也没有什么帮助。数据
: 不在于量大,关键在于如何组织好一个很有代表性的小数据集用来学习,测试和评估。
: 举个例子,如果要根据 Twitter 上用户的发言(tweets),判断他的年龄段,或再粗
: 略一点,判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。
: 如果性能不好,原因可能不是由于数据量小。增加再多,也不一定有帮助。
: 能不能举个例子,需要多少个 G 或 T 的数据来做模型?交流,学习一下

avatar
l*m
18
应该这样说如果数据十分dense,不用太多的samples。但是如果数据十分sparse,是
samples越多越好。比如netflix prize,矩阵就是电影数目x用户数。
我刚做了个model,2G个features, 0.5G个samples。samples数目比feature都少。如果
数据再多些,性能还会有提升。

【在 l******0 的大作中提到】
: big data 从量上来说,当然都是以 terabyte 计。但我说的是,作为分析建模的数据
: ,你能用得了多少,可能 work 的 case 不一样。通常机器学习的分类任务,要大规模
: 的标注好的数据,几乎不可能;即使可能,一般的机器学习算法,也用不着那么多数据
: ,也处理不了那么多数据。而且数据到一定量,再添加,对模型也没有什么帮助。数据
: 不在于量大,关键在于如何组织好一个很有代表性的小数据集用来学习,测试和评估。
: 举个例子,如果要根据 Twitter 上用户的发言(tweets),判断他的年龄段,或再粗
: 略一点,判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。
: 如果性能不好,原因可能不是由于数据量小。增加再多,也不一定有帮助。
: 能不能举个例子,需要多少个 G 或 T 的数据来做模型?交流,学习一下

avatar
B*4
19

我给你个例子。我们公司适时监控多伦多所有GSM手机的位置,一天就有1.5-2.0M个ID,
每个ID大概有平均20-30条记录。我们会保留大概一年的手机位置数据。

【在 l******0 的大作中提到】
: 展开说说? 你最大用到多大的数据量
avatar
l*n
20
有意思。知道各行各业的应用非常有意思。我也说说我接触的例子
某大石油公司的油井分布在世界各地,每个油井上有无数sensors,测量各种不同参数
,然后需要实时监控这些油田的状态,并且需要对肯能出现问题做出预警
某大公司给某国的航空管理做的系统,实时监控系统中所有机场的航班动态,根据所知
信息做合理预测,提供解决方案。
这2个都是巨大的工程,现在是大公司+startup一起在做。

ID,

【在 B********4 的大作中提到】
:
: 我给你个例子。我们公司适时监控多伦多所有GSM手机的位置,一天就有1.5-2.0M个ID,
: 每个ID大概有平均20-30条记录。我们会保留大概一年的手机位置数据。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。