只要有一个得到广泛承认的benchmark,分数一定会被刷上去(是否能满分另论)。
benchmark的设立本来是为了方便研究者比较算法表现的优劣的,研究者提出有意义有
创新性的模型/算法之后用公认的benchmark验证自己模型/算法的有效性,既能增强工
作的意义也能提高其他研究者对其的认同,这就像学校设立奖学金奖励学有所长的人。
但是由于benchmark第一带来的各种收益(或者说噱头?),也一定会有人去不断地刷
榜(并不是不是说这样不好),类比于深谙奖学金评奖规则而精准获奖的同学。我们不
能达到这样结果的模型/人不强,只是觉得其实际意义没有宣传的那么大。我预感会有
回答深度解析微软的R-Net(实际上R-Net出了一年了)和阿里的SLAQ,这两个模型确实
有精妙的地方,在attention层级结构的构造和实现中值得学习,可以说attention这个
简单又直观的机制自2015年以来在NLP领域发挥了突出的作用。
SLAQ模型结构
R-Net模型结构相比于越来越复杂的模型(见上图),我更期待有更简单直观的模型能
够再阅读理解中取得不错的成绩,并且为NLP提供一些新的火花。