对机器学习感兴趣？不如先来实践一下！｜《纽约时报热点新闻预测模型》

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>公众号

公众号新闻

2023-11-15 04:11

很多同学在留学准备前期都经常很迷茫，对申请目标，甚至未来职业发展方向都拿不定主意，不知道要如何选择。想提前通过实习来进行全方位的了解，但无奈实习试错机会少，而通过项目实战，却是个高性价选择。

通过精心设计的项目，可以了解业界常规的作业模式，进行类似实践，这对发现职业兴趣、提升相关技能、积累实操经历都非常有益。

数据科学专业，是利用科学方法、流程、算法和系统从数据中提取价值的跨学科领域。数据科学家综合利用一系列技能（包括统计学、计算机科学和业务知识）来分析从网络、智能手机、客户、传感器和其他来源收集的数据。

指南者的人工智能项目实战，就以机器学习方法为核心，引用热门项目实战，由指导老师带领学员，完成数据预处理、数据变换、特征工程、模型搭建与调参、模型评价、模型集成等，切实体验机器学习的实际应用。

我们一起来看看在《纽约时报热点新闻预测模型》项目中，同学们都做了什么。

PROGRAM

互联网信息发布的便利性使得大众每天都在面对爆炸性的信息冲击，大量文本在丰富大众生活的同时也给用户带来了困扰。人们在面对大量信息的时候往往希望获取特定领域的流行信息，大多数的互联网新闻都会给出订阅热门话题、热门新闻上首页等措施。以往的热门信息大多靠人工手动完成会耗费大量的时间成本与人工成本，并且也无法保证用户获取到实时的热门新闻。

本次项目将使用纽约时报历史新闻数据，根据文章的信息如：文章字数、主题信息、时间、新闻类型等维度进行热门新闻的预测。基于机器学习的方法完成网络热门新闻的预测，可以有效的减少新闻工作者的工作量，为用户快速聚焦社会生活中的热门新闻。

优秀学员报告节选展示（左右滑动，放大查看）

‍

该项目是一个含金量很高的机器学习应用项目，将机器学习应用到热门新闻预测中，从最后展示的报告来看，可以看到L同学对于python的熟练使用以及对于机器学习整体的应用流程都是很清晰的：

L同学对于机器学习算法掌握的还是很全面的，选择了逻辑回归、随机森林、XGBoost等算法完成预测模型构建，并且进行超参数调优确定了各种模型的最优参数，最终通过模型的精准率与实时性对多个模型进行优劣势对比，确定最终预测模型；
在特征工程部分也是完成的很好，由于原始数据特征过多所以分别使用了递归消除法与随机森林来进行特征的筛选，并且融合了两种方法进行判断最终确定了最优的特征工程方案为后续建模提供了不错的数据基础；
值得一说的是L同学还额外进行了各种的可视化探究，绘制了箱型图、柱状图、热力图、散点图等进行变量分析，并且发现了一些比较有趣的内容，为后续的分析建模提供了一些先验指导。