安猪机和避孕套# Apple - 家有苹果
s*a
1 楼
假设整个索引的不重复单词是10万
搜索S返回了1百万条句子。从这1百万句子里,能抽取出5百万个bi-gram stem。比分说
在"It is raining"里抽取"it be", "be rain"。
在这5百万个bi-gram里,关心的是重复次数最多的前50个,设为G_50。
现在的问题是,如果只在1百万个句子里随机返回1000个句子,这1000个句子中抽取的
bi-gram stem能有多少属于G_50。2000个句子呢?5000个呢?
搜索S返回了1百万条句子。从这1百万句子里,能抽取出5百万个bi-gram stem。比分说
在"It is raining"里抽取"it be", "be rain"。
在这5百万个bi-gram里,关心的是重复次数最多的前50个,设为G_50。
现在的问题是,如果只在1百万个句子里随机返回1000个句子,这1000个句子中抽取的
bi-gram stem能有多少属于G_50。2000个句子呢?5000个呢?