p*8
2 楼
现在需要对数据库table里的数据的column进行分类,比如这个column是driver
license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
据column名字还有数据本身,有什么好的方法?regex
match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
NLP? 刚接触机器学习,请大
牛们看看。
license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
据column名字还有数据本身,有什么好的方法?regex
match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
NLP? 刚接触机器学习,请大
牛们看看。
g*u
3 楼
pandas 可以处理表格数据
但是我没看明白你的问题
但是我没看明白你的问题
w*g
4 楼
我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
大家都在研究ETL怎么自动化。
我也不知道怎么解。大概要靠大量的engineering吧。
encoder
【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
大家都在研究ETL怎么自动化。
我也不知道怎么解。大概要靠大量的engineering吧。
encoder
【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
s*y
5 楼
这种情况 不管什么learning出来的结果 。不会比regex的结果好
p*8
6 楼
大牛看看这个?https://aws.amazon.com/macie/?sc_channel=PS&sc_campaign=
acquisition_US&sc_publisher=google&sc_medium=macie_b&sc_content=macie_e&sc_
detail=amazon%20macie&sc_category=macie&sc_segment=223926053896&sc_matchtype
=e&sc_country=US&s_kwcid=AL!4422!3!223926053896!e!!g!!amazon%20macie&ef_id=
WDyyTQAABAgZ1yrC:20171219161951:s
【在 w***g 的大作中提到】
: 我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
: ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
: 大家都在研究ETL怎么自动化。
: 我也不知道怎么解。大概要靠大量的engineering吧。
:
: encoder
acquisition_US&sc_publisher=google&sc_medium=macie_b&sc_content=macie_e&sc_
detail=amazon%20macie&sc_category=macie&sc_segment=223926053896&sc_matchtype
=e&sc_country=US&s_kwcid=AL!4422!3!223926053896!e!!g!!amazon%20macie&ef_id=
WDyyTQAABAgZ1yrC:20171219161951:s
【在 w***g 的大作中提到】
: 我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
: ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
: 大家都在研究ETL怎么自动化。
: 我也不知道怎么解。大概要靠大量的engineering吧。
:
: encoder
n*g
7 楼
can you cache all the column headers?
encoder
【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
encoder
【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
相关阅读
Amex Blue Cash preferred 6% Cashback+$150bonus超市专用信用卡Amex SPG卡送25K points 免费送500刀现金 最佳酒店卡Google 的 Site Reliability Engineer这版快成动物园了《Linux Essentials》英文文字版急:问一个SQL的题目问问有什么书推荐学c#的请进c++ 里用到pointer 的地方我们尽可能用smart pointer吗?工欲善其事,必先正其名C++ primer上的advanced topic实用性强吗?国内现在能用google吗,不能用的话马工们怎么干活?IntelJ 打半折 Today ONLYC语言跟Java运行速度比较 (转载)看了那么多评论lambda的一个疑问c/c++程序员转java最好的一本书是什么?Amex SPG卡送25K points 免费送500刀现金 最佳酒店卡问个stl的问题VS2012太垃圾了