avatar
怎么计算距离比较好?# DataSciences - 数据科学
j*3
1
正在做一个项目要计算similarity,比如两个object,分别有一些feature,这些
feature都是set,怎么比较
比如,两个电影 m1, m2
m1有个feature是地点 [UK, USA, China], 而 m2 是[](empty set) 或者 m2 [
Austrilia, China]
怎么计算这个feature之间的距离?
avatar
c*z
2
Try Jaccard distance

【在 j**********3 的大作中提到】
: 正在做一个项目要计算similarity,比如两个object,分别有一些feature,这些
: feature都是set,怎么比较
: 比如,两个电影 m1, m2
: m1有个feature是地点 [UK, USA, China], 而 m2 是[](empty set) 或者 m2 [
: Austrilia, China]
: 怎么计算这个feature之间的距离?

avatar
j*3
3
终于有人理我了。。。我试了这个之后,还有后续问题,先试这个。。。
谢谢!

【在 c***z 的大作中提到】
: Try Jaccard distance
avatar
l*s
4
有不少方法,比如Euclidean distance,比如Cosine,比如Kullback–Leibler
建议用cosine,各种结果表明,是个不错的方法
另外可以试试KL,虽然是个asymmetric,但是不妨试试。
avatar
j*3
5
这个cosine要怎么做?set也可以用cosine么?

【在 l*******s 的大作中提到】
: 有不少方法,比如Euclidean distance,比如Cosine,比如Kullback–Leibler
: 建议用cosine,各种结果表明,是个不错的方法
: 另外可以试试KL,虽然是个asymmetric,但是不妨试试。

avatar
l*s
6
可以啊
把set当做vector处理呗

【在 j**********3 的大作中提到】
: 这个cosine要怎么做?set也可以用cosine么?
avatar
j*3
7
好像不是这个意思。。。我再想想再请教您, 先谢过

【在 l*******s 的大作中提到】
: 可以啊
: 把set当做vector处理呗

avatar
m*r
8
Jaccard distance 和consine都行
估计consine会好用一些 一般情况下
avatar
l*n
9
Collaborative filtering
把feature set当成 0/1 vector, 计算inner production 然后用两者feature总数最大
的归一。
归一的方法有非常多选择,找个效果最好的就行。

【在 j**********3 的大作中提到】
: 正在做一个项目要计算similarity,比如两个object,分别有一些feature,这些
: feature都是set,怎么比较
: 比如,两个电影 m1, m2
: m1有个feature是地点 [UK, USA, China], 而 m2 是[](empty set) 或者 m2 [
: Austrilia, China]
: 怎么计算这个feature之间的距离?

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。