问一道大数据量面试题# JobHunting - 待字闺中
h*2
1 楼
有两台机器,每台10T数据, 数据中都是url,每行一个url, 他们只有万分之一的
diff, 要查找有这两台机器的url的差集, 需要一个准确的结果(不能用boolfilter)。
类似的一题是:也是两台各10T数据,一开始两边数据相同,后来可能两边有更改,如
果能够提供一个接口,快速的比较两边数据是否有diff, 如果有,diff的是哪些url。
diff, 要查找有这两台机器的url的差集, 需要一个准确的结果(不能用boolfilter)。
类似的一题是:也是两台各10T数据,一开始两边数据相同,后来可能两边有更改,如
果能够提供一个接口,快速的比较两边数据是否有diff, 如果有,diff的是哪些url。