Redian新闻
>
请教一个ES问题。多谢!
avatar
请教一个ES问题。多谢!# JobHunting - 待字闺中
m*3
1
请教群里大拿们一个问题。如果方法可行,必有重谢!
给定 n 个词,要求搜索所有含有这 n 个词的文档,并且满足这 n 个词同时出现在长
度为 m 的窗口中,还有就是这 n 个词在文档中出现的次序和搜索时的次序一致。
比如,搜索词是:“明天 北京 上海 火车”,要求文档中匹配的窗口的大小是12个词。
文档1: 大概 明天 有 一辆 从 北京 开往 上海 的 火车 将 提速 10%
1 2 3 4 5 6 7 8 9 10 11 12
13
这个文档满足条件,2 6 8 10 正好次序和 “明天 北京 上海 火车“一致,并且这几
个词的跨度是8,小于要求的12窗口。
文档2: 大概 明天 有 一辆 从 上海 开往 北京 的 火车 将 提速 10%
1 2 3 4 5 6 7 8 9 10 11
12 13
这个不满足,因为“上海 北京”的次序不满足。
文档3: 大概 明天 上午 八点 左右 有 一辆 从 上海 开往 北京 的 混合 动力 的 火
车 将 提速 10%
1 2 3 4 5 6 7 8 9 10 11
12 13 14 15 16 17 18 19
这个不满足,2 9 11 16,这几个词的跨度是14,大于要求的12窗口。
avatar
d*b
2
对每一组词和每一个句子 进行最长公共子序列。最后的子序列应该是给定词组,最后
再看看首位的index的差。不难啊,还是我想简单了。
avatar
m*3
3
需要用Elastic Search实现。因为最近在用 Elastic Search 做项目,遇到了这样一个
需求,本以为 SpanNearQuery 能实现,发现不可以,因为 span_near 中定义的 slop
是两个邻近词之间的距离,而不是整个 query 所在的窗口的大小。


: 对每一组词和每一个句子 进行最长公共子序列。最后的子序列应该是给定词组
,最后

: 再看看首位的index的差。不难啊,还是我想简单了。



【在 d******b 的大作中提到】
: 对每一组词和每一个句子 进行最长公共子序列。最后的子序列应该是给定词组,最后
: 再看看首位的index的差。不难啊,还是我想简单了。

相关阅读
logo
联系我们隐私协议©2024 redian.news
Redian新闻
Redian.news刊载任何文章,不代表同意其说法或描述,仅为提供更多信息,也不构成任何建议。文章信息的合法性及真实性由其作者负责,与Redian.news及其运营公司无关。欢迎投稿,如发现稿件侵权,或作者不愿在本网发表文章,请版权拥有者通知本网处理。