p*8
2 楼
现在需要对数据库table里的数据的column进行分类,比如这个column是driver
license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
据column名字还有数据本身,有什么好的方法?regex
match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
NLP? 刚接触机器学习,请大
牛们看看。
license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
据column名字还有数据本身,有什么好的方法?regex
match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
NLP? 刚接触机器学习,请大
牛们看看。
g*u
3 楼
pandas 可以处理表格数据
但是我没看明白你的问题
但是我没看明白你的问题
w*g
4 楼
我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
大家都在研究ETL怎么自动化。
我也不知道怎么解。大概要靠大量的engineering吧。
encoder
【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
大家都在研究ETL怎么自动化。
我也不知道怎么解。大概要靠大量的engineering吧。
encoder
【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
s*y
5 楼
这种情况 不管什么learning出来的结果 。不会比regex的结果好
p*8
6 楼
大牛看看这个?https://aws.amazon.com/macie/?sc_channel=PS&sc_campaign=
acquisition_US&sc_publisher=google&sc_medium=macie_b&sc_content=macie_e&sc_
detail=amazon%20macie&sc_category=macie&sc_segment=223926053896&sc_matchtype
=e&sc_country=US&s_kwcid=AL!4422!3!223926053896!e!!g!!amazon%20macie&ef_id=
WDyyTQAABAgZ1yrC:20171219161951:s
【在 w***g 的大作中提到】
: 我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
: ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
: 大家都在研究ETL怎么自动化。
: 我也不知道怎么解。大概要靠大量的engineering吧。
:
: encoder
acquisition_US&sc_publisher=google&sc_medium=macie_b&sc_content=macie_e&sc_
detail=amazon%20macie&sc_category=macie&sc_segment=223926053896&sc_matchtype
=e&sc_country=US&s_kwcid=AL!4422!3!223926053896!e!!g!!amazon%20macie&ef_id=
WDyyTQAABAgZ1yrC:20171219161951:s
【在 w***g 的大作中提到】
: 我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
: ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
: 大家都在研究ETL怎么自动化。
: 我也不知道怎么解。大概要靠大量的engineering吧。
:
: encoder
n*g
7 楼
can you cache all the column headers?
encoder
【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
encoder
【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
相关阅读
C++编程问题:union inside struct请教:VBA 的 Text IE.Document.innerText 使用哪种 linux 支持 parallel programming?花了一个小时学习了pythonDefault function template argumentsAn algorithm question什么是Linux 上最好的C programming environment?google maps API other than Javascript?初级和中高级的C 语言教程有什么区别?定义的struct数组很大时,为什么会出现奇怪的大数字?怎样include一个函数多谢各位大侠数学和编程这里有搞矩阵计算的么?C 和 C++ code 在不同的机器上有多大不同?这道题贴过没有?repast 请进: python debian安装问题请问 C#除了作GUI开发,还有什么好处?请教, Perl里面如何知道执行文件的名字?Help: C complier