Redian新闻
>
Re: Ask KE System (转载)
avatar
Re: Ask KE System (转载)# Stock
c*n
1
给一个file path,把里面所有相同的文件都放到一起,把路径用List>
输出出来。
相同的定义式byte对比。
相同文件的文件名不一定一样,里面可能还会有sub folder
# Question:
#
# Find files that have the exact same contents in a given directory. Write a
function that takes a path and returns a list of lists or sets. Each set
should contain files that have the same content.
#
# An example output is for the input "/foo/" is:
# [
# ["/foo/bar.png", "/foo/images/foo.png"],
# ["/foo/file.tmp", "/foo/other.temp", "/foo/temp/baz/that.foo"]
# ]
#
求大牛前辈们指点!非常感谢!
avatar
j*a
2
找自己review过的杂志、会议主编、或付主编。发了16封信。套近乎,附上自己简历。
一天了,没一个回复的,郁闷啊。都这么不喜欢帮忙啊。这能要到几封啊?
avatar
d*a
3
【 以下文字转载自 ChinaStock 讨论区 】
发信人: djinwa (djinwa), 信区: ChinaStock
标 题: Re: Ask KE System
发信站: BBS 未名空间站 (Mon Aug 30 23:13:53 2010, 美东)
Date SHE:002190 Trade Signals
8/2/2010 20.17
8/3/2010 20.45
8/4/2010 20.46
8/5/2010 21.83 buy
8/6/2010 24.53
8/9/2010 26.39
8/10/2010 26.27
8/11/2010 27.21 buy
8/12/2010 26.86
8/13/2010 26.68
8/16/2010 26.99
8/17/2010 28.58 buy
8/18/2010 31.40
8/19/2010 32.35
8/20/2010 33.
avatar
c*n
4
MD5 has as key, dump into hash map, 我经常做这个事情, 在我的 laptop 和
server 之间 sync file
我觉得出这个题对有经验的人来说是太照顾了

a

【在 c*****n 的大作中提到】
: 给一个file path,把里面所有相同的文件都放到一起,把路径用List>
: 输出出来。
: 相同的定义式byte对比。
: 相同文件的文件名不一定一样,里面可能还会有sub folder
: # Question:
: #
: # Find files that have the exact same contents in a given directory. Write a
: function that takes a path and returns a list of lists or sets. Each set
: should contain files that have the same content.
: #

avatar
l*n
5
才一天 着急啥
avatar
d*a
6
just one example

【在 d****a 的大作中提到】
: 【 以下文字转载自 ChinaStock 讨论区 】
: 发信人: djinwa (djinwa), 信区: ChinaStock
: 标 题: Re: Ask KE System
: 发信站: BBS 未名空间站 (Mon Aug 30 23:13:53 2010, 美东)
: Date SHE:002190 Trade Signals
: 8/2/2010 20.17
: 8/3/2010 20.45
: 8/4/2010 20.46
: 8/5/2010 21.83 buy
: 8/6/2010 24.53

avatar
k*r
7
我2年前他家店面就是这个。。。。。
avatar
j*a
8
能要到5封吗? 一般情况。

【在 l****n 的大作中提到】
: 才一天 着急啥
avatar
s*h
9
我给你的三个ticker是三种不同的走势。002190是单边上涨,如果你的系统只会买,而
不能说明什么时候卖就有问题。因为对这支股,最好的交易方式是hold
002389是平衡整理出货。这个考验你的系统分析买卖能力了
002347是下跌出货。你的系统要是光买不卖,就完蛋了。
所以请你提供这三个ticker的数据,谢谢
avatar
r*7
10
md5很容易conflict,现在都用sha了

【在 c******n 的大作中提到】
: MD5 has as key, dump into hash map, 我经常做这个事情, 在我的 laptop 和
: server 之间 sync file
: 我觉得出这个题对有经验的人来说是太照顾了
:
: a

avatar
j*a
11
现在还是没人回.

【在 l****n 的大作中提到】
: 才一天 着急啥
avatar
a*8
12
顶大金的系统!好东西。
avatar
p*6
13

在这种use case下不容易conflict, 我知道的MD5是容易人为造出来collision,请指教


【在 r****7 的大作中提到】
: md5很容易conflict,现在都用sha了
avatar
a*t
14
一封不就够了吗? 要这么多干嘛?
avatar
M*y
15
The market reading from my system:
date buySignal sellSignal actionBuy actionSell
2010-08-30 0 3 s
2010-08-27 0 3 s
2010-08-26 0 3 s
2010-08-25 0 3 s
2010-08-24 0 3 s
2010-08-23 0 3 s
2010-08-20 0 3 s
2010-08-19 0 3 s
2010-08-18
avatar
D*a
16
follow up question: what if the files are very big and md5 is too slow.

【在 c******n 的大作中提到】
: MD5 has as key, dump into hash map, 我经常做这个事情, 在我的 laptop 和
: server 之间 sync file
: 我觉得出这个题对有经验的人来说是太照顾了
:
: a

avatar
l*n
17
我觉得要到1-2封有可能
5封有点悬。。

【在 j******a 的大作中提到】
: 能要到5封吗? 一般情况。
avatar
b*e
18
Randomly sample parts of the file.

【在 D*******a 的大作中提到】
: follow up question: what if the files are very big and md5 is too slow.
avatar
j*a
19
自己公司出一封,PhD导师出一封,然后就想这样从review里找出出4-5封。我
citation很少,没法找。

【在 a******t 的大作中提到】
: 一封不就够了吗? 要这么多干嘛?
avatar
s*l
20
把文件 分成几个部分 并行 hash
hash function可以用其他lighter的 比如CRC16
行不?

【在 D*******a 的大作中提到】
: follow up question: what if the files are very big and md5 is too slow.
avatar
T*e
21
其实题本身就提示了。size then checksum.
avatar
c*n
22
感谢大家的思路!
avatar
c*n
23
在glassdoor上看到别人的解答,觉得思路挺好的,供大家参考。
Your solution needs to be tackle a couple of problems: obtaining a list of
all the files in the file system (e.g. via DFS), binning the lists into
possible matches, repeat via swappable heuristics until your certainty is
100%. (eg size 1st, md5 2nd, byte stream 3rd)

a

【在 c*****n 的大作中提到】
: 给一个file path,把里面所有相同的文件都放到一起,把路径用List>
: 输出出来。
: 相同的定义式byte对比。
: 相同文件的文件名不一定一样,里面可能还会有sub folder
: # Question:
: #
: # Find files that have the exact same contents in a given directory. Write a
: function that takes a path and returns a list of lists or sets. Each set
: should contain files that have the same content.
: #

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。