【手撕代码】当我让深度学习模型吃下一本医学书后,他竟学会了如何“看病”!
医学语料文件获取
step1: 将pdf格式的《临床药物治疗学》转换为txt格式并保存
这本《临床药物治疗学》是我在这个网站(https://github.com/scienceasdf/medical-books/releases/latest)下载的,感谢作者的辛勤付出,我也建议大家下载这个网站的其它教材玩一玩这个模型。
向上滑动阅览
向上滑动阅览
文档预处理
step2: 将每一行文本依次储存到一个list中
向上滑动阅览
step3: 去除数字,字母,标点符号,以及特殊字符
向上滑动阅览
文档分词
step4 停用词设置
停用词文档下载地址:https://github.com/goto456/stopwords
向上滑动阅览
step5.1 利用jieba进行文档分词
向上滑动阅览
结果显示
step5.2 利用pynlpir进行文档分词
向上滑动阅览
模型训练
step6 利用Geisum包进行模型训练
向上滑动阅览
模型参数
应用举例
step7 查找相似词
结果显示
结果显示
Step8 进行类比预测
通过词向量之间的运算来推测词语之间关系的方法被称为词向量类比。这种方法基于词向量的向量空间模型,将每个词语表示为一个向量,且保持词语之间的语义关系在向量空间中得到保留。
结果显示
训练结果可视化
Step9 t-SNE降维
向上滑动阅览
参考资料
END
撰文丨鑫 仔
排版丨顶 顶
往期推荐
微信扫码关注该文公众号作者
戳这里提交新闻线索和高质量文章给我们。
来源: qq
点击查看作者最近其他文章