14*16deck价格合理吗# Living
h*y
1 楼
假设一个数据源S,分别存到数据集A和B去,理论上A和B的数据是完全一致的,假设key
是event ID,1到10。
但是呢因为各种原因,存的过程中总有loss,实际上A和B只是1到10的一个某个子集,
于是总是有discrepancy,A和B可能大小一样,可能不一样,可能有overlap也可能没有。
我的问题是,怎么用机器学习的方法来找到最能区分A和B的field或者field的组合呢?
也就是什么导致了这个discrepancy。
这不是直接的feature selection,因为A和B可能有overlap。
是event ID,1到10。
但是呢因为各种原因,存的过程中总有loss,实际上A和B只是1到10的一个某个子集,
于是总是有discrepancy,A和B可能大小一样,可能不一样,可能有overlap也可能没有。
我的问题是,怎么用机器学习的方法来找到最能区分A和B的field或者field的组合呢?
也就是什么导致了这个discrepancy。
这不是直接的feature selection,因为A和B可能有overlap。