QA任务最新排行榜
-
- Bert bsaed (50/89), top1 已超越人工
- 一问一答,同一段文章会有多个问题,但是每个问题之间没有联系
Rank | Model | EM | F1 |
---|---|---|---|
Human PerformanceStanford University(Rajpurkar & Jia et al. ‘18) | 86.831 | 89.452 | |
1Mar 20, 2019 | BERT + DAE + AoA (ensemble) Joint Laboratory of HIT and iFLYTEK Research | 87.147 | 89.474 |
-
- Bert bsaed (14/89), top1 已超越人工
- CoQA 数据集中的一个对话:包含一个问题(Qi),一个答案(Ai)和支持答案的理由(Ri)。CoQA侧重点与SQuAD评测不同。CoQA数据集中的问题不再是单轮的一问一答的形式,而是扩展到多轮的对话交互。几乎有一半的 CoQA 问题使用共指关系回溯到会话历史,并且很大一部分需要语用推理,这导致仅依赖词汇线索的模型更具挑战性。
Rank | Model | In-domain | Out-of-domain | Overall |
---|---|---|---|---|
Human PerformanceStanford University(Reddy & Chen et al. ‘18) | 89.4 | 87.4 | 88.8 | |
1Mar 29, 2019 | Google SQuAD 2.0 + MMFT (ensemble) MSRA + SDRG | 89.9 | 88.0 | 89.4 |
-
- Bert作为baseline
- 一问多答,同一段文章一个短答案和支持的长答案
-
- 话题引导的问答模式,在基于知识的情况下,引导对话顺着话题继续
baseline system | F1/BLEU1/BLEU2 | DISTINCT1/DISTINCT2 |
---|---|---|
retrieval-based | 31.72/0.291/0.156 | 0.118/0.373 |
generation-based | 32.65/0.300/0.168 | 0.062/0.128 |
-
- 阅读理解数据集,包含中学生和高中生英语考试两个子数据集
Model | Report Time | Institute | RACE | RACE-M | RACE-H |
---|---|---|---|---|---|
Human Ceiling Performance | Apr. 2017 | CMU | 94.5 | 95.4 | 94.2 |
Amazon Mechanical Turker | Apr. 2017 | CMU | 73.3 | 85.1 | 69.4 |
Dual Co-Matching Network (DCMN) (ensemble) | Mar. 2019 | SJTU & CloudWalk | 74.1 | 79.5 | 71.8 |
相关论文阅读
抽取式问答
该类任务的答案需要在原文中找到,所以模型都是预测原文中每一个词作为答案起始词和终止词的概率
- A BERT Baseline for the Natural Questions,标准bert框架解决NQ问题,Google NQ排行榜baseline
- SDN ET: C ONTEXTUALIZED ATTENTION - BASED D EEP N ETWORK FOR C ONVERSATIONAL Q UESTION A N -SWERING,MSRA,BERT预训练作为上游任务,CoQA当前排行11,唯一一个开源的
- COMPETITION ON KNOWLEDGE DRIVEN DIALOGUE,百度,知识驱动对话数据集生成式模型baseline(非Bert模型)
- Data Augmentation for BERT Fine-Tuning in Open-Domain Question Answering. 基于数据增强来微调Bert模型
非抽取式问答,多项选择阅读理解
非抽取问题相较于抽取问题,答案很多时候不是原文中句子,而且还要面临各种复杂情况,比如数学题,摘要,逻辑,情感等,更多时候采用的是匹配匹配模型,即每个选项同原文的相似度等。
- Improving Machine Reading Comprehension with General Reading Strategies,制定了三种能有效提升机器阅读理解的策略
- Option Comparison Network for Multiple-choice Reading Comprehension,期望机器模仿人类阅读过程,比较选项答案之间的微妙不同
- Convolutional Spatial Attention Model for Reading Comprehension with Multiple-Choice Questions,捕捉原文、问题、选项之间的关系,并采用卷积空间层3D融合各个注意力
- Improving Question Answering with External Knowledge,基于外部知识,实体抽取和链接
- Dual Co-Matching Network for Multi-choice Reading Comprehension,原文、实体、选项之间,两两双向建模融合信息
阅读理解任务使用的技巧总结
这里简单总结了上述文章中在QA任务中的一些技巧或者优化手段
上游语言模型
这里就是从词向量角度出发,考虑使用更好的预训练的语言模型来提升模型性能,目前来说有以下
- Bert:各种语言模型中收益最大的,基本提升都在5%-10%以上
- GPT
- EMLo
- GloVe:base词向量
除了直接替换词向量为bert以外,还有人把词向量(上下文无关),Bert等(上下文相关)拼接起来,目前也有很多工作会再拼接一些特征向量pos等,效果都有提升
下游模型
这里就是通过改模型来提升之前QA的性能,目前来说收益比较大的策略如下
Bert基本框架拿来使用
- QA数据集,使用QA框架
- MRC数据集,使用Matching框架
在Bert的基础上更改
- 标准QA中Bert输入的顺序,如[p,q&o],改成[q,p&o]等等
- Bert输出层更改,加权平均Bert的隐含层表示
数据处理上改进
- 启用外部知识,增强原文,比如通过实体挖掘和链接扩充原文
- 数据增强,提升正样本和样本的质量,相对于随机采样来说
三元组关系建模
在QA任务中更好构建原文p,问题q和选项o之间的建模
- 关系建模,p-q,p-o,q-o之间的关系,单项或者双向建模都有
- 信息融合
- 拼接
- 注意力
- 3D注意力
- 多种特征组合
各种策略
高亮策略HL,增强原文中在问题和选项中出现的词
自我评估SA,使模型学会从数据中提取关键信息的能力