Redian新闻
>
ActivityBase database software suite
avatar
ActivityBase database software suite# Biology - 生物学
n*w
1
有两个表,很多记录实际上是一个东西。当列里的值可能不同,比如某行缺两个值。数
值值可能有少量出入。text字段写的有点不同,等等。
有没有可能用tensor flow 来做。也想借机会学习。
----------------
举个例子说明下细节。
两个数据分别从不同公司获得,假如说是房子信息。其中大约有80%的行有房主的身份
证号码,这些可以准确地找到两个表的对应记录。
剩下没身份证号的,举个例,
面积:一个表给的数字精确到十,一个精确到个位。810, 813
地址:一个给到街道或building,无号码,一个给到公寓号,但街道简写了。
建筑年代:一个给"80s",一个给"1987".
房主毕业信息: 一个给"北京电影学院90级3班",一个是"北电 1990-3".
等等,
人看到可以把这两个对应起来。
avatar
m*n
2
what's this? where to get a demo?
Thanks.
avatar
m*r
3
你太搞笑了。
这个其实很简单。 把每个表的metadata搞出来,然后看看多长,多宽,每列是什么名
字, 什么数据类型。
avatar
n*w
4
这个和meta无关。两个表schema都是一样的。只是值有少量出入或缺失。
row多一点计算量也是很大的。
avatar
w*g
5
杀鸡用牛刀啊.

【在 n*w 的大作中提到】
: 有两个表,很多记录实际上是一个东西。当列里的值可能不同,比如某行缺两个值。数
: 值值可能有少量出入。text字段写的有点不同,等等。
: 有没有可能用tensor flow 来做。也想借机会学习。
: ----------------
: 举个例子说明下细节。
: 两个数据分别从不同公司获得,假如说是房子信息。其中大约有80%的行有房主的身份
: 证号码,这些可以准确地找到两个表的对应记录。
: 剩下没身份证号的,举个例,
: 面积:一个表给的数字精确到十,一个精确到个位。810, 813
: 地址:一个给到街道或building,无号码,一个给到公寓号,但街道简写了。

avatar
n*w
6

:杀鸡用牛刀啊.

是的。目的是为了学习和buzz word
avatar
w*g
7
但是你用烤箱做红烧肉, 非要做的话也能想出办法来做,
但是我感觉既学不好烤箱也学不好红烧肉.

【在 n*w 的大作中提到】
:
: :杀鸡用牛刀啊.
: :
: 是的。目的是为了学习和buzz word

avatar
l*n
8
你想找相似的column吧?
我做过这个,用metadata就可以,然后考虑计算问题需要用到特殊的sampling
这个和dl一点关系都没有

【在 n*w 的大作中提到】
:
: :杀鸡用牛刀啊.
: :
: 是的。目的是为了学习和buzz word

avatar
m*r
9
那要不这样儿,每个列,算出p0, p50, p100
然后目测一下。
说实话,我不觉得比较metadata有什么不好;不过既然你有看法,我就换个蠢点的办法
。我在工作里也经常碰到这种情况,明明简单易行的办法,老板非这个那个,一开始我
还争辩。 现在也学乖了,你要怎么做,我就怎么做。你是老板,我是打工的。 上班拿
钱,下班走人。
avatar
h*c
10
把表打印出来,扫描,上tensorflow,大致就这意思,估计不会很慢,中间可以GPU
render
20伪币

【在 n*w 的大作中提到】
: 有两个表,很多记录实际上是一个东西。当列里的值可能不同,比如某行缺两个值。数
: 值值可能有少量出入。text字段写的有点不同,等等。
: 有没有可能用tensor flow 来做。也想借机会学习。
: ----------------
: 举个例子说明下细节。
: 两个数据分别从不同公司获得,假如说是房子信息。其中大约有80%的行有房主的身份
: 证号码,这些可以准确地找到两个表的对应记录。
: 剩下没身份证号的,举个例,
: 面积:一个表给的数字精确到十,一个精确到个位。810, 813
: 地址:一个给到街道或building,无号码,一个给到公寓号,但街道简写了。

avatar
n*w
11
举个例子说明下细节。
两个数据分别从不同公司获得,假如说是房子信息。其中大约有80%的行有房主的身份
证号码,这些可以准确地找到两个表的对应记录。
剩下没身份证号的,举个例,
面积:一个表给的数字精确到十,一个精确到个位。810, 813
地址:一个给到街道或building,无号码,一个给到公寓号,但街道简写了。
建筑年代:一个给"80s",一个给"1987".
房主毕业信息: 一个给"北京电影学院90级3班",一个是"北电 1990-3".
等等,
人看到可以把这两个对应起来。
avatar
g*t
12
找少量数据集训练下,dl识别出来错误pattern.
然后dl预测出来可能出现问题的部分,对这部分优先进行
Metadata比较。
Dl承担coarse 比较的任务。
这个思路怎么样?如果数据量很大的话可能会有使用价值的哦。很多问题第一层要想办
法把人的直觉装进去,然后第二层再细粒度解决。我现在觉得dl能把很多问题的第一层
都装起来


: 但是你用烤箱做红烧肉, 非要做的话也能想出办法来做,

: 但是我感觉既学不好烤箱也学不好红烧肉.



【在 w***g 的大作中提到】
: 但是你用烤箱做红烧肉, 非要做的话也能想出办法来做,
: 但是我感觉既学不好烤箱也学不好红烧肉.

avatar
c*r
13
这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课,专门讲了一个这样
的例子。 Stonebraker 的新公司在搞这个, 思路和 guvest 差不多, 基本是训练,
人工干预, 再训练,再干预, 知道最后大规模上达到机器基本做好,取代绝大部分
人工 -- 现在做不到完全取代,当然有的情况不需要完全取代, Coursera 上的例子就
是差不多就好。
avatar
g*t
14
数据库的东西不可能完全取代人的
更高效更强壮即可


: 这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课,专门
讲了一
个这样

: 的例子。 Stonebraker 的新公司在搞这个, 思路和 guvest 差不多,
基本是
训练,

: 人工干预, 再训练,再干预, 知道最后大规模上达到机器基本做好,
取代绝
大部分

: 人工 -- 现在做不到完全取代,当然有的情况不需要完全取代,
Coursera 上的
例子就

: 是差不多就好。



【在 c******r 的大作中提到】
: 这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课,专门讲了一个这样
: 的例子。 Stonebraker 的新公司在搞这个, 思路和 guvest 差不多, 基本是训练,
: 人工干预, 再训练,再干预, 知道最后大规模上达到机器基本做好,取代绝大部分
: 人工 -- 现在做不到完全取代,当然有的情况不需要完全取代, Coursera 上的例子就
: 是差不多就好。

avatar
n*w
15
不用完全取代人工。我这个在最后还是要人逐个批准。只要能减轻人工作量就可以了。

:这是个很头疼的东西。 Coursera 上 Jeff Ullman 的BigData 课,专门讲了一个这
样的例子。 Stonebraker 的新公司在搞这个, 思路和 guvest 差不多, 基本是训练
, 人工干预, 再训练,再干预, 知道最后大规模上达到机器基本做好,取代绝大部分
:人工 -- 现在做不到完全取代,当然有的情况不需要完全取代, Coursera 上的例子
就是差不多就好。
avatar
d*c
16
这实际是data cleaning,就你举得例子来看,这个问题很难。
地址的标准化就很难,美国地址算是非常规律的了,但是地区性差异很大。我读过usps
关于地址的manual,很多东西一般人不知道。
- 有两个州用坐标,也就是在xy轴上划区,然后每个地址都带个这种坐标,比如Q5,C3
- NY的地址最头疼,因为数字街名简写了以后很多时候很难区分。
- 有许多地址只有当地人才能解析
一般的办法也就是用正则表达式,模糊匹配,全是经验性的。
至于后面什么北电的例子,这种缩写也不容易。
说起来这种问题是适合ML/DL处理的,问题是DL全靠数据,你有足够大的训练集吗?标
记好的数据?
avatar
n*w
17
有很多组,有大有大有小。一般有80%可以很容易找出来,大概几十万对。可以用来
training。

:这实际是data cleaning,就你举得例子来看,这个问题很难。
avatar
w*g
18
这个分析牛!

usps
C3

【在 d******c 的大作中提到】
: 这实际是data cleaning,就你举得例子来看,这个问题很难。
: 地址的标准化就很难,美国地址算是非常规律的了,但是地区性差异很大。我读过usps
: 关于地址的manual,很多东西一般人不知道。
: - 有两个州用坐标,也就是在xy轴上划区,然后每个地址都带个这种坐标,比如Q5,C3
: - NY的地址最头疼,因为数字街名简写了以后很多时候很难区分。
: - 有许多地址只有当地人才能解析
: 一般的办法也就是用正则表达式,模糊匹配,全是经验性的。
: 至于后面什么北电的例子,这种缩写也不容易。
: 说起来这种问题是适合ML/DL处理的,问题是DL全靠数据,你有足够大的训练集吗?标
: 记好的数据?

avatar
d*c
19
有数据就可以用ML做,不一定要DL。
data cleaning的最大问题是太多样化。data cleaning里牵涉的东西很多,往往是很多
类问题,比如某些缩写用到一些常识。
但是数据究竟够不够,不好说。很多时候全是些特例,你的训练集实际cover不了。如
果人看一下子就能明白,能总结规律,问题是你不能指望人去总结。
如果有无限的训练集,DL肯定能把这个问题解决好。

【在 n*w 的大作中提到】
: 有很多组,有大有大有小。一般有80%可以很容易找出来,大概几十万对。可以用来
: training。
:
: :这实际是data cleaning,就你举得例子来看,这个问题很难。
: :

avatar
n*w
20
具体来说用哪个library来做比较合适?步骤?
tensor flow可以吗?

:有数据就可以用ML做,不一定要DL。
avatar
m*o
21
个人建议不要折腾ML。没有semantic similarly做record linkage效果还赶不上直接
rule based。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。