求大侠指点大数据课题预算# DataSciences - 数据科学
f*h
1 楼
需要每天从大概2000个网站抓取关键词,关键词有300个左右。如果某网页中出现一个
关键词,那么就要抓取跟这个关键词相关的大概50个词。当然这50个词有些词可能并没
有出现。
把这些词存入数据库进行清理筛选分析建模(ML,或者统计),来预测某个事件的未来
一个月的发生率。
这种需要写出高效爬虫程序并要建立高效的大数据库,如果一个人做,需要大概多少小
时?在哪个阶段可以进行平行分工给几个人做?哪些阶段必须等前一阶段做完才能继续?
关键词,那么就要抓取跟这个关键词相关的大概50个词。当然这50个词有些词可能并没
有出现。
把这些词存入数据库进行清理筛选分析建模(ML,或者统计),来预测某个事件的未来
一个月的发生率。
这种需要写出高效爬虫程序并要建立高效的大数据库,如果一个人做,需要大概多少小
时?在哪个阶段可以进行平行分工给几个人做?哪些阶段必须等前一阶段做完才能继续?