avatar
请教一道比较funky的join# DataSciences - 数据科学
s*a
1
我join了两个table之后大概是这样子的:
ID_1 ID_2
10001 20005
10001 20006
10001 20007
10002 20005
10002 20008
10003 20005
10003 20008
10003 20009
10004 20005
. .
. .
. .
同一个ID_1会对着很多个ID_2,当然同一个ID_2也对着很多个ID_1。 我其实只要
unique combination如下:
ID_1 ID_2
10001 20006
10002 20008
10003 20009
10004 20005
. .
. .
Kick是ID_2就像一个pool。我拿出来了就不能放进去了,同时,我要发现as many
unique combination as possible。
我是在SAS下面写的。这是不是一个harsh的问题?要怎么写呢?
万分感谢
avatar
s*a
2
顶一下哦
avatar
E*g
3
我不做SAS,提个思路你看对不对:
先对ID_1做group, 得到字典1 {10001: {5,6,7}, 10002:{5,8}...}
再对ID_2做group count, 得到字典2{5:4,6:1,7:1,8:2...}
然后遍历字典1的值,以此为key,看字典2里的值是否大于1
大于1就不unique
BTW, 我写到着才发现你给的unique combination不make sense
20008对应多个ID_1值,怎么也是unique?
avatar
s*a
4
hey谢谢回复 。第一个table确实是一个科对应多个哦,第二个table要unique。而且要
争取所有的ID_1能找到一个对应的ID_2。我有一个思路是sort ID2 by decending of
the # of appearances. 当ID_2 appearance=1的时候,它直接接到ID_1上。然后把这一
行的两个ID 分别从ID_1和ID_2中delete掉。但是后面问题是,当appearance>=2的时候
,我怎么选一个出来?rand吗?然后难道我来个'bootstrap'个1000次,找出一组所有/
最多的ID_1能找到一个对应的ID_2。。。
。。我programming功底不是很好。
谢谢建议哦!!

【在 E*********g 的大作中提到】
: 我不做SAS,提个思路你看对不对:
: 先对ID_1做group, 得到字典1 {10001: {5,6,7}, 10002:{5,8}...}
: 再对ID_2做group count, 得到字典2{5:4,6:1,7:1,8:2...}
: 然后遍历字典1的值,以此为key,看字典2里的值是否大于1
: 大于1就不unique
: BTW, 我写到着才发现你给的unique combination不make sense
: 20008对应多个ID_1值,怎么也是unique?

avatar
E*g
5
大致明白你的意思了
一时还真的想不出合适的算法,估计这个没有唯一解

有/

【在 s*********a 的大作中提到】
: hey谢谢回复 。第一个table确实是一个科对应多个哦,第二个table要unique。而且要
: 争取所有的ID_1能找到一个对应的ID_2。我有一个思路是sort ID2 by decending of
: the # of appearances. 当ID_2 appearance=1的时候,它直接接到ID_1上。然后把这一
: 行的两个ID 分别从ID_1和ID_2中delete掉。但是后面问题是,当appearance>=2的时候
: ,我怎么选一个出来?rand吗?然后难道我来个'bootstrap'个1000次,找出一组所有/
: 最多的ID_1能找到一个对应的ID_2。。。
: 。。我programming功底不是很好。
: 谢谢建议哦!!

avatar
s*a
6
还是谢谢你哦!卡在Marco上了。。sigh...

【在 E*********g 的大作中提到】
: 大致明白你的意思了
: 一时还真的想不出合适的算法,估计这个没有唯一解
:
: 有/

avatar
c*z
7
没看懂题目

【在 s*********a 的大作中提到】
: 我join了两个table之后大概是这样子的:
: ID_1 ID_2
: 10001 20005
: 10001 20006
: 10001 20007
: 10002 20005
: 10002 20008
: 10003 20005
: 10003 20008
: 10003 20009

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。