围棋冠军没有打过智能机器 - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>MobileDevelopment - 移动开发

围棋冠军没有打过智能机器

围棋冠军没有打过智能机器# MobileDevelopment - 移动开发

c*n2016-01-29 08:01

1 楼

【以下文字转载自 Piebridge 讨论区】
发信人: notaprincess (not a princess), 信区: Piebridge
标题: 女征男
发信站: BBS 未名空间站 (Sun Jan 11 21:35:47 2009)
我还有几个月就要26岁了。曾经有个人告诉我女人就像圣诞礼物，25号之前都很抢手，
过了25号就没人要买了。我也曾经相信过这些话，可是到了今天我更相信“做得好，嫁
得好，不如活得好”。我非常享受我现在的单身生活。如果缘分到来，拍拖结婚生子进
入人生另一个阶段也同样精彩。我觉得单身并不可怕，没有生活质量才是最可怕。可是
为了停止父母的唠叨，我决定要做一次网上征友，也希望真的能遇到对的人。不过无论
结果如何，从此以后我会坚持我守株待兔的原则，安静地等待属于我的缘分到来。
所在地(起码给出state): CA
职业情况(学生还是工作): 学生
简单的物理参数(身高cm/体重kg): 168cm/不轻
当前婚姻状态(从没结过婚/曾婚/丧偶): never married
联系方式(email/IM/站内): 站内/notaprincess200

l*02016-01-29 08:01

2 楼

更多的是一个工程问题。网络数据规模越来越大，而且很多是半结构，或非结构的数据
，或几种的混合。如何获取，存储，管理，分析，并提供有效的检索手段给用户，都涉
及到软件工程的问题。
对于 data scientist 来说，其实 big data 与其关系并不是太大。即使数据规模再大
，你用来分析并建模的数据量还是相当小，只是其中一个微不足道的很小的子集。给你
1G 的数据，你就会撑死。所以大数据时代，对 data engineer 的需求要远远大于
data scientist. 什么是 data engineer？就是传统的 software engineer,但有机器
学习，统计或自然语言，信息检索的背景，并主要工作于网络数据处理的方方面面。
当然，数据规模大了，数据来源多样化了，对以数据分析和建模为主要工作内容的
data scientist/analyst 也提出了一些新的挑战。比如，如何采样数据？多大合适？
如何评估系统或模型？如何干掉数据中的垃圾成分？等等

a*n2016-01-29 08:01

3 楼

最近我自己在休闲的时候经常性的会去玩一些小的游戏，但是前些天的时候我看见了我
的一个好朋友。你可不能小看了我的这个朋友，他可是围棋界里面的冠军种子选手。基
本上是我们省内的冠军了，其实这个家伙一直都在学习如何的下象棋，但是我自己一直
没有看见过他下棋的样子。这不正巧的是，今天我遇见了他，而且他正在游戏厅里面做
着和智能机器比赛呢。我打了个招呼就开始看，结果你才怎么着，这个冠军基本上是下
了5盘棋最后只赢了一盘，我也是醉了。心中想着就你这样的还是围棋冠军？真不知道
你的头衔是哪一个二百五给你发的。其实我当时的想法是错误的，因为大多数的时候科
学家最后证明了其实人脑在很大的方面都会存在着一定的局限，不会像机器人的大脑一
样不用休息不用过多的思考。基本上智能机器人的每一步走法都是我们人类花了很长的
时间输入到其芯片里面的所以说这是一个全人类的智慧，我的小伙伴能输给这台智能的
机器人还是很正常的一件事情，而我则是大惊小怪了。

Y*e2016-01-29 08:01

4 楼

可能是文学女青年

c*z2016-01-29 08:01

5 楼

你用来分析并建模的数据量还是相当小，只是其中一个微不足道的很小的子集。
sorry, have to disagree

m*i2016-01-29 08:01

6 楼

机器智能这么厉害了，怎么有种森森的危机感

f*s2016-01-29 08:01

7 楼

流行的说法变了，女人35才一枝花

d*n2016-01-29 08:01

8 楼

如何处理拿不到的数据呢？
例如我们不是NSA，拿不到所有人的家庭住址和电费帐单。但是如果我们有所有人的家
庭住址和电费帐单的话，建模就会容易一些...
所有的DS都有这样的困惑吧。拿到手的数据只是别人手里数据的千分之一，做起来都很
没劲。

【在 c***z 的大作中提到】

: 你用来分析并建模的数据量还是相当小，只是其中一个微不足道的很小的子集。
: sorry, have to disagree

B*y2016-01-29 08:01

9 楼

机器人都能发帖再带回帖的，更厉害。。。

【在 m******i 的大作中提到】

: 机器智能这么厉害了，怎么有种森森的危机感

b*e2016-01-29 08:01

10 楼

加油。。。。

c*z2016-01-29 08:01

11 楼

That is exactly what we are doing in the bias correction project...

【在 d****n 的大作中提到】

: 如何处理拿不到的数据呢？
: 例如我们不是NSA，拿不到所有人的家庭住址和电费帐单。但是如果我们有所有人的家
: 庭住址和电费帐单的话，建模就会容易一些...
: 所有的DS都有这样的困惑吧。拿到手的数据只是别人手里数据的千分之一，做起来都很
: 没劲。

l*02016-01-29 08:01

12 楼

展开说说? 你最大用到多大的数据量

【在 c***z 的大作中提到】

: 你用来分析并建模的数据量还是相当小，只是其中一个微不足道的很小的子集。
: sorry, have to disagree

k*z2016-01-29 08:01

13 楼

大数据对分析的人来说就是个噱头，就是大家找不到理由给自己加工资了，变个方式骗
资方骗老板骗自己。

d*n2016-01-29 08:01

14 楼

数据库的话，一般都是1 bil以上吧
如果是文件数据的话，一般每个文件几个到几十个g，大概上千个文件吧
小于这个数都不好叫big data。当然你设计的时候可以先用比这些小100倍的东西试，
但是最后都要用大的set来测试的。
其实这都不是挑战的地方。挑战的地方在于分布存储，实时数据和历史数据结合等等，
所以最后要上map reduce，要把数据整合的过程前移。
当然很多olap不需要符合ACID，这点就好很多了。而要求ACID的数据库单个多数不大，
所以这就好多了。

【在 l******0 的大作中提到】

: 展开说说? 你最大用到多大的数据量

d*n2016-01-29 08:01

15 楼

当然，我认为你说一个好的data engineer抵得上一个team的data scientist是对的。

【在 l******0 的大作中提到】

: 更多的是一个工程问题。网络数据规模越来越大，而且很多是半结构，或非结构的数据
: ，或几种的混合。如何获取，存储，管理，分析，并提供有效的检索手段给用户，都涉
: 及到软件工程的问题。
: 对于 data scientist 来说，其实 big data 与其关系并不是太大。即使数据规模再大
: ，你用来分析并建模的数据量还是相当小，只是其中一个微不足道的很小的子集。给你
: 1G 的数据，你就会撑死。所以大数据时代，对 data engineer 的需求要远远大于
: data scientist. 什么是 data engineer？就是传统的 software engineer,但有机器
: 学习，统计或自然语言，信息检索的背景，并主要工作于网络数据处理的方方面面。
: 当然，数据规模大了，数据来源多样化了，对以数据分析和建模为主要工作内容的
: data scientist/analyst 也提出了一些新的挑战。比如，如何采样数据？多大合适？

l*02016-01-29 08:01

16 楼

big data 从量上来说，当然都是以 terabyte 计。但我说的是，作为分析建模的数据
，你能用得了多少，可能 work 的 case 不一样。通常机器学习的分类任务，要大规模
的标注好的数据，几乎不可能；即使可能，一般的机器学习算法，也用不着那么多数据
，也处理不了那么多数据。而且数据到一定量，再添加，对模型也没有什么帮助。数据
不在于量大，关键在于如何组织好一个很有代表性的小数据集用来学习，测试和评估。
举个例子，如果要根据 Twitter 上用户的发言（tweets），判断他的年龄段，或再粗
略一点，判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。
如果性能不好，原因可能不是由于数据量小。增加再多，也不一定有帮助。
能不能举个例子，需要多少个 G 或 T 的数据来做模型？交流，学习一下

【在 d****n 的大作中提到】

: 数据库的话，一般都是1 bil以上吧
: 如果是文件数据的话，一般每个文件几个到几十个g，大概上千个文件吧
: 小于这个数都不好叫big data。当然你设计的时候可以先用比这些小100倍的东西试，
: 但是最后都要用大的set来测试的。
: 其实这都不是挑战的地方。挑战的地方在于分布存储，实时数据和历史数据结合等等，
: 所以最后要上map reduce，要把数据整合的过程前移。
: 当然很多olap不需要符合ACID，这点就好很多了。而要求ACID的数据库单个多数不大，
: 所以这就好多了。

d*n2016-01-29 08:01

17 楼

其实最开始的data set都不大，例如给你10万张不知道主题的图片，让你找出其中和其
他大部分不一样的图片。
但是几乎所有的算法里面都有个data enrichment和data association的过程。例如对
于图片分类的问题，最容易想到的方法就是计算两两之间的相似度，那就是50亿对相似
度了。
现在讲的big data，很多时候连要解决的问题本身都不清楚，所以连最基本的feature
extraction, categorizing/labelling之类的都失效了。

【在 l******0 的大作中提到】

: big data 从量上来说，当然都是以 terabyte 计。但我说的是，作为分析建模的数据
: ，你能用得了多少，可能 work 的 case 不一样。通常机器学习的分类任务，要大规模
: 的标注好的数据，几乎不可能；即使可能，一般的机器学习算法，也用不着那么多数据
: ，也处理不了那么多数据。而且数据到一定量，再添加，对模型也没有什么帮助。数据
: 不在于量大，关键在于如何组织好一个很有代表性的小数据集用来学习，测试和评估。
: 举个例子，如果要根据 Twitter 上用户的发言（tweets），判断他的年龄段，或再粗
: 略一点，判断他是否已经退休。如果能有大约 1 万个 tweets 甚至几千,都可能够了。
: 如果性能不好，原因可能不是由于数据量小。增加再多，也不一定有帮助。
: 能不能举个例子，需要多少个 G 或 T 的数据来做模型？交流，学习一下

l*m2016-01-29 08:01

18 楼

应该这样说如果数据十分dense，不用太多的samples。但是如果数据十分sparse，是
samples越多越好。比如netflix prize，矩阵就是电影数目x用户数。
我刚做了个model，2G个features, 0.5G个samples。samples数目比feature都少。如果
数据再多些，性能还会有提升。

【在 l******0 的大作中提到】

B*42016-01-29 08:01

19 楼

我给你个例子。我们公司适时监控多伦多所有GSM手机的位置，一天就有1.5-2.0M个ID,
每个ID大概有平均20-30条记录。我们会保留大概一年的手机位置数据。

【在 l******0 的大作中提到】

: 展开说说? 你最大用到多大的数据量

l*n2016-01-29 08:01

20 楼

有意思。知道各行各业的应用非常有意思。我也说说我接触的例子
某大石油公司的油井分布在世界各地，每个油井上有无数sensors，测量各种不同参数
，然后需要实时监控这些油田的状态，并且需要对肯能出现问题做出预警
某大公司给某国的航空管理做的系统，实时监控系统中所有机场的航班动态，根据所知
信息做合理预测，提供解决方案。
这2个都是巨大的工程，现在是大公司+startup一起在做。

ID,

【在 B********4 的大作中提到】

:
: 我给你个例子。我们公司适时监控多伦多所有GSM手机的位置，一天就有1.5-2.0M个ID,
: 每个ID大概有平均20-30条记录。我们会保留大概一年的手机位置数据。