p*8
2 楼
现在需要对数据库table里的数据的column进行分类,比如这个column是driver
license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
据column名字还有数据本身,有什么好的方法?regex
match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
NLP? 刚接触机器学习,请大
牛们看看。
license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
据column名字还有数据本身,有什么好的方法?regex
match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
NLP? 刚接触机器学习,请大
牛们看看。
g*u
3 楼
pandas 可以处理表格数据
但是我没看明白你的问题
但是我没看明白你的问题
w*g
4 楼
我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
大家都在研究ETL怎么自动化。
我也不知道怎么解。大概要靠大量的engineering吧。
encoder
【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
大家都在研究ETL怎么自动化。
我也不知道怎么解。大概要靠大量的engineering吧。
encoder
【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
s*y
5 楼
这种情况 不管什么learning出来的结果 。不会比regex的结果好
p*8
6 楼
大牛看看这个?https://aws.amazon.com/macie/?sc_channel=PS&sc_campaign=
acquisition_US&sc_publisher=google&sc_medium=macie_b&sc_content=macie_e&sc_
detail=amazon%20macie&sc_category=macie&sc_segment=223926053896&sc_matchtype
=e&sc_country=US&s_kwcid=AL!4422!3!223926053896!e!!g!!amazon%20macie&ef_id=
WDyyTQAABAgZ1yrC:20171219161951:s
【在 w***g 的大作中提到】
: 我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
: ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
: 大家都在研究ETL怎么自动化。
: 我也不知道怎么解。大概要靠大量的engineering吧。
:
: encoder
acquisition_US&sc_publisher=google&sc_medium=macie_b&sc_content=macie_e&sc_
detail=amazon%20macie&sc_category=macie&sc_segment=223926053896&sc_matchtype
=e&sc_country=US&s_kwcid=AL!4422!3!223926053896!e!!g!!amazon%20macie&ef_id=
WDyyTQAABAgZ1yrC:20171219161951:s
【在 w***g 的大作中提到】
: 我也碰到了类似的问题。这个坑很大。我记得10年前有一阵
: ICDE这种二流数据库会尽是类似的paper。那是流行数据仓库,
: 大家都在研究ETL怎么自动化。
: 我也不知道怎么解。大概要靠大量的engineering吧。
:
: encoder
n*g
7 楼
can you cache all the column headers?
encoder
【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
encoder
【在 p*******8 的大作中提到】
: 现在需要对数据库table里的数据的column进行分类,比如这个column是driver
: license,那个column是地址,table很多,数据量很大,不能手动一个一个分,需要根
: 据column名字还有数据本身,有什么好的方法?regex
: match只能做固定format的类别,可以用self-taught learning做吗?用auto encoder
: 进行压缩和unsupervised训练,然后用svm做个supervised learning可行吗?还是要用
: NLP? 刚接触机器学习,请大
: 牛们看看。
相关阅读
“假如你用了我的工具效果不好,那肯定是你不会用” (转载)HAPI.js 大家有在大项目里用过没Java码农转data science行业,有没有一起的 (转载)学围棋的风险——差点害死 Google大选候选人里谁最反对outsource, 谁最反对进口印度阿三 ?alphaGo的胜利说明AI和码工一定崛起 (转载)懂deepmind得说说vecot<vecot<int>> p怎么 得到p的指针呢?搞开发太无聊了,整天就是被迫跟进各种新的轮子framework求教个quickbooks Oauth的问题问个树遍历的线程化问题怎么感觉杀毒软件一点用都不管boost vs C++11问问api gateway测试某进程耗用内存的最好办法?JAVA equals()和hashCode()请教。请大家推荐c#和Java的书谷歌机器人atlas的自动瞄准系统 (转载)标题党 Google Preps Angular 2 for Final Release学习前端的动力是什么?