Redian新闻
>
请教一个Big Data/Analysis 方面的设计问题
avatar
请教一个Big Data/Analysis 方面的设计问题# DataSciences - 数据科学
d*a
1
哎,美女从来不是稀缺资源,钱和权才是啊。。。。有了钱和地位,什么样的女的找不到啊。90岁都不愁年轻的伴儿
话说这女的心理素质够好的,怪不得都说女人往往能干出男人干不出的事。如果反过来一个年轻小伙,他绝对不会跟着一个90多的老太太,即使老太太有万贯家财……
avatar
s*s
2
本人在大数据方面是个小白, 公司里也没有人懂大数据, 所以想请各位大牛分析
一下我一个设想的可行性:
公司里积累了很多scanned image files,内容大致差不多但没有统一的格式。 比如
十几年内从上百个不同的供应商拿到的各种收据: 格式完全不一样但都包含着一些相
似的内容 (像日期,地址和总数额)
目前的想法是把图片上所有的数据全部 OCR成 JSON或 XML 格式, 然后把这些
unstructured data扔到一个Big Data系统里, 最后再找个人做分析。 目前担心是每
一个表格上都有很多无关内容, 如果储存前不些做处理的话后期会很难分析。 (比
如说日期: 有些叫 Invoice Date, 有些只有 Shipping Date, 也有可能会有好个几
不同的日期出现在一张收据里 )
想请教一下设计上思路,怎么储存数据更适合后期分析。 也求建议一些好用的工
具/软件(比如说OCR)
avatar
d*n
3
有了json就会容易一点。但是怎么ocr成json?这个好像是世界难题。
内容大致差不多就比较简单。分析一下json里面哪些key比较多,那就是重要的。例如
invoice date,有些可能叫receipt date,有些叫purchase date,等等,然后你决定
到底这些是不是一个东西,然后确定一个canonical的名称,然后就可以统一化成结构
化的数据了。当然纠错也要花很久。
基本上这两个工作就可以占据你数据分析90%的时间了。这两部做完了后面都是小菜一
碟。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。