请教一个ES问题。多谢！ - 未名空间MITBBS历史存档

国际科技财经博客移民网络热点娱乐民生时事公众号

Redian新闻

>未名空间

>JobHunting - 待字闺中

请教一个ES问题。多谢！

请教一个ES问题。多谢！# JobHunting - 待字闺中

m*32017-08-02 07:08

1 楼

请教群里大拿们一个问题。如果方法可行，必有重谢！
给定 n 个词，要求搜索所有含有这 n 个词的文档，并且满足这 n 个词同时出现在长
度为 m 的窗口中，还有就是这 n 个词在文档中出现的次序和搜索时的次序一致。
比如，搜索词是：“明天北京上海火车”，要求文档中匹配的窗口的大小是12个词。
文档1: 大概明天有一辆从北京开往上海的火车将提速 10%
1 2 3 4 5 6 7 8 9 10 11 12
13
这个文档满足条件，2 6 8 10 正好次序和 “明天北京上海火车“一致，并且这几
个词的跨度是8，小于要求的12窗口。
文档2: 大概明天有一辆从上海开往北京的火车将提速 10%
1 2 3 4 5 6 7 8 9 10 11
12 13
这个不满足，因为“上海北京”的次序不满足。
文档3: 大概明天上午八点左右有一辆从上海开往北京的混合动力的火
车将提速 10%
1 2 3 4 5 6 7 8 9 10 11
12 13 14 15 16 17 18 19
这个不满足，2 9 11 16，这几个词的跨度是14，大于要求的12窗口。

d*b2017-08-02 07:08

2 楼

对每一组词和每一个句子进行最长公共子序列。最后的子序列应该是给定词组，最后
再看看首位的index的差。不难啊，还是我想简单了。

m*32017-08-02 07:08

3 楼

需要用Elastic Search实现。因为最近在用 Elastic Search 做项目，遇到了这样一个
需求，本以为 SpanNearQuery 能实现，发现不可以，因为 span_near 中定义的 slop
是两个邻近词之间的距离，而不是整个 query 所在的窗口的大小。

: 对每一组词和每一个句子进行最长公共子序列。最后的子序列应该是给定词组
，最后

: 再看看首位的index的差。不难啊，还是我想简单了。

【在 d******b 的大作中提到】