avatar
p*8
2
现在需要对数据库table里的数据的column进行分类,比如这个column是driver
license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
据column名字还有数据本身,有什么好的方法?regex
match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
NLP? 刚接触机器学习,请大
牛们看看。
avatar
g*u
3
pandas 可以处理表格数据
但是我没看明白你的问题
avatar
w*g
4
我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
大家都在研究ETL怎么自动化。
我也不知道怎么解。大概要靠大量的engineering吧。

encoder

【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。

avatar
s*y
5
这种情况 不管什么learning出来的结果 。不会比regex的结果好
avatar
p*8
6
大牛看看这个?https://aws.amazon.com/macie/?sc_channel=PS&sc_campaign=
acquisition_US&sc_publisher=google&sc_medium=macie_b&sc_content=macie_e&sc_
detail=amazon%20macie&sc_category=macie&sc_segment=223926053896&sc_matchtype
=e&sc_country=US&s_kwcid=AL!4422!3!223926053896!e!!g!!amazon%20macie&ef_id=
WDyyTQAABAgZ1yrC:20171219161951:s

【在 w***g 的大作中提到】
: 我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
: ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
: 大家都在研究ETL怎么自动化。
: 我也不知道怎么解。大概要靠大量的engineering吧。
:
: encoder

avatar
n*g
7
can you cache all the column headers?

encoder

【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。