Redian新闻
>
求问一道关于NLP的面试题
avatar
求问一道关于NLP的面试题# DataSciences - 数据科学
x*l
1
纽约摄影师 Bing Wright 的作品,很有创意的摄影手法。
avatar
s*h
2
表示是某IT的DS intern,已挂但还是想为了以后的面试认真准备下
假设我们用topic models(比如LDA)搞出了一些主题,如何evaluate topic quality?
如果我们打算用Precision & Recall来衡量,你怎么建metrics来计算topic的relevant
(我觉得是topic和我们文章的relevant)。
我已经咨询了本校的一些博士,但是没有能够给我一个比较validate的idea。
我个人有点疑惑的点在于:LDA原本是unsupervised(当然也有Supervised版本),这
么干的话需要有一些label data帮助你做evaluate。在我们的情况下(ie 奥观海政治
相关文本),那么我们是不是在知道background情况下找一些感觉相关(ie 奥观海其
他同阶段政治文本)的documents 做training sets,然后想办法build metrics 然后
在test set上检验? 这种在工业上是不是可行,有没有可能给个文本毫无任何
background那这样的话这套quality evaluation可行吗?
多谢!
avatar
l*s
3
好贴!
avatar
d*e
4
perplexity.

relevant

【在 s***h 的大作中提到】
: 表示是某IT的DS intern,已挂但还是想为了以后的面试认真准备下
: 假设我们用topic models(比如LDA)搞出了一些主题,如何evaluate topic quality?
: 如果我们打算用Precision & Recall来衡量,你怎么建metrics来计算topic的relevant
: (我觉得是topic和我们文章的relevant)。
: 我已经咨询了本校的一些博士,但是没有能够给我一个比较validate的idea。
: 我个人有点疑惑的点在于:LDA原本是unsupervised(当然也有Supervised版本),这
: 么干的话需要有一些label data帮助你做evaluate。在我们的情况下(ie 奥观海政治
: 相关文本),那么我们是不是在知道background情况下找一些感觉相关(ie 奥观海其
: 他同阶段政治文本)的documents 做training sets,然后想办法build metrics 然后
: 在test set上检验? 这种在工业上是不是可行,有没有可能给个文本毫无任何

avatar
w*e
5
不知道对焦到远景是啥效果。希望不是因为伊只自动对焦。
相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。