p*8
2 楼
现在需要对数据库table里的数据的column进行分类,比如这个column是driver
license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
据column名字还有数据本身,有什么好的方法?regex
match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
NLP? 刚接触机器学习,请大
牛们看看。
license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
据column名字还有数据本身,有什么好的方法?regex
match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
NLP? 刚接触机器学习,请大
牛们看看。
g*u
3 楼
pandas 可以处理表格数据
但是我没看明白你的问题
但是我没看明白你的问题
w*g
4 楼
我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
大家都在研究ETL怎么自动化。
我也不知道怎么解。大概要靠大量的engineering吧。
encoder
【在 p*******8 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
大家都在研究ETL怎么自动化。
我也不知道怎么解。大概要靠大量的engineering吧。
encoder
【在 p*******8 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
s*y
5 楼
这种情况 不管什么learning出来的结果 。不会比regex的结果好
p*8
6 楼
大牛看看这个?https://aws.amazon.com/macie/?sc_channel=PS&sc_campaign=
acquisition_US&sc_publisher=google&sc_medium=macie_b&sc_content=macie_e&sc_
detail=amazon%20macie&sc_category=macie&sc_segment=223926053896&sc_matchtype
=e&sc_country=US&s_kwcid=AL!4422!3!223926053896!e!!g!!amazon%20macie&ef_id=
WDyyTQAABAgZ1yrC:20171219161951:s
【在 w***g 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
: ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
: 大家都在研究ETL怎么自动化。
: 我也不知道怎么解。大概要靠大量的engineering吧。
:
: encoder
acquisition_US&sc_publisher=google&sc_medium=macie_b&sc_content=macie_e&sc_
detail=amazon%20macie&sc_category=macie&sc_segment=223926053896&sc_matchtype
=e&sc_country=US&s_kwcid=AL!4422!3!223926053896!e!!g!!amazon%20macie&ef_id=
WDyyTQAABAgZ1yrC:20171219161951:s
【在 w***g 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
: ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
: 大家都在研究ETL怎么自动化。
: 我也不知道怎么解。大概要靠大量的engineering吧。
:
: encoder
n*g
7 楼
can you cache all the column headers?
encoder
【在 p*******8 的大作中提到】![](/moin_static193/solenoid/img/up.png)
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
encoder
【在 p*******8 的大作中提到】
![](/moin_static193/solenoid/img/up.png)
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
相关阅读
大家用python GUI编程的时候都是用tkinter吗?Re: 不想再看到teacherwei在本版发帖的请进单线程测试结果出来了问魏老师个问题,跟赌约无关有人看懂赵老师的 100% 出票什么概念没有?古霸,只要你跟贴,你就是进了他们的套了沉默的大多数呢?这版本来还有些很好讨论的好虫和魏赌局见证这种情况怎么提高自己?请教一个hadoop问题技术贴来了12306有点兴趣想念个Evening/Weekend MBA (转载)咱们好像生活在两个世界里我来一个系统比老魏出票多。想permanently mount外置硬盘 (linux)怎么协议里面会有length?在jira里用红字加重某几个word比如not有问题吗? (转载)诚心找个男朋友I/O已经调通了,应该今天稍后放出ibm的老中被fbi抓了