对机器学习感兴趣?不如先来实践一下!|《纽约时报热点新闻预测模型》
PROGRAM
互联网信息发布的便利性使得大众每天都在面对爆炸性的信息冲击,大量文本在丰富大众生活的同时也给用户带来了困扰。人们在面对大量信息的时候往往希望获取特定领域的流行信息,大多数的互联网新闻都会给出订阅热门话题、热门新闻上首页等措施。以往的热门信息大多靠人工手动完成会耗费大量的时间成本与人工成本,并且也无法保证用户获取到实时的热门新闻。
本次项目将使用纽约时报历史新闻数据,根据文章的信息如:文章字数、主题信息、时间、新闻类型等维度进行热门新闻的预测。基于机器学习的方法完成网络热门新闻的预测,可以有效的减少新闻工作者的工作量,为用户快速聚焦社会生活中的热门新闻。
优秀学员报告节选展示(左右滑动,放大查看)
L同学对于机器学习算法掌握的还是很全面的,选择了逻辑回归、随机森林、XGBoost等算法完成预测模型构建,并且进行超参数调优确定了各种模型的最优参数,最终通过模型的精准率与实时性对多个模型进行优劣势对比,确定最终预测模型;
在特征工程部分也是完成的很好,由于原始数据特征过多所以分别使用了递归消除法与随机森林来进行特征的筛选,并且融合了两种方法进行判断最终确定了最优的特征工程方案为后续建模提供了不错的数据基础;
值得一说的是L同学还额外进行了各种的可视化探究,绘制了箱型图、柱状图、热力图、散点图等进行变量分析,并且发现了一些比较有趣的内容,为后续的分析建模提供了一些先验指导。
学习过程(点击放大)
报名信息
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章