Bert在QA上新应用小结

QA任务最新排行榜

  • SQuAD 2.0

    • Bert bsaed (50/89), top1 已超越人工
    • 一问一答,同一段文章会有多个问题,但是每个问题之间没有联系
Rank Model EM F1
Human PerformanceStanford University(Rajpurkar & Jia et al. ‘18) 86.831 89.452
1Mar 20, 2019 BERT + DAE + AoA (ensemble) Joint Laboratory of HIT and iFLYTEK Research 87.147 89.474
  • CoQA

    • Bert bsaed (14/89), top1 已超越人工
    • CoQA 数据集中的一个对话:包含一个问题(Qi),一个答案(Ai)和支持答案的理由(Ri)。CoQA侧重点与SQuAD评测不同。CoQA数据集中的问题不再是单轮的一问一答的形式,而是扩展到多轮的对话交互。几乎有一半的 CoQA 问题使用共指关系回溯到会话历史,并且很大一部分需要语用推理,这导致仅依赖词汇线索的模型更具挑战性。
Rank Model In-domain Out-of-domain Overall
Human PerformanceStanford University(Reddy & Chen et al. ‘18) 89.4 87.4 88.8
1Mar 29, 2019 Google SQuAD 2.0 + MMFT (ensemble) MSRA + SDRG 89.9 88.0 89.4
  • Google NQ

    • Bert作为baseline
    • 一问多答,同一段文章一个短答案和支持的长答案
baseline system F1/BLEU1/BLEU2 DISTINCT1/DISTINCT2
retrieval-based 31.72/0.291/0.156 0.118/0.373
generation-based 32.65/0.300/0.168 0.062/0.128
  • RACE

    • 阅读理解数据集,包含中学生和高中生英语考试两个子数据集
Model Report Time Institute RACE RACE-M RACE-H
Human Ceiling Performance Apr. 2017 CMU 94.5 95.4 94.2
Amazon Mechanical Turker Apr. 2017 CMU 73.3 85.1 69.4
Dual Co-Matching Network (DCMN) (ensemble) Mar. 2019 SJTU & CloudWalk 74.1 79.5 71.8

相关论文阅读

抽取式问答

该类任务的答案需要在原文中找到,所以模型都是预测原文中每一个词作为答案起始词和终止词的概率

  1. A BERT Baseline for the Natural Questions,标准bert框架解决NQ问题,Google NQ排行榜baseline
  2. SDN ET: C ONTEXTUALIZED ATTENTION - BASED D EEP N ETWORK FOR C ONVERSATIONAL Q UESTION A N -SWERING,MSRA,BERT预训练作为上游任务,CoQA当前排行11,唯一一个开源的
  3. COMPETITION ON KNOWLEDGE DRIVEN DIALOGUE,百度,知识驱动对话数据集生成式模型baseline(非Bert模型)
  4. Data Augmentation for BERT Fine-Tuning in Open-Domain Question Answering. 基于数据增强来微调Bert模型

非抽取式问答,多项选择阅读理解

非抽取问题相较于抽取问题,答案很多时候不是原文中句子,而且还要面临各种复杂情况,比如数学题,摘要,逻辑,情感等,更多时候采用的是匹配匹配模型,即每个选项同原文的相似度等。

  1. Improving Machine Reading Comprehension with General Reading Strategies,制定了三种能有效提升机器阅读理解的策略
  2. Option Comparison Network for Multiple-choice Reading Comprehension,期望机器模仿人类阅读过程,比较选项答案之间的微妙不同
  3. Convolutional Spatial Attention Model for Reading Comprehension with Multiple-Choice Questions,捕捉原文、问题、选项之间的关系,并采用卷积空间层3D融合各个注意力
  4. Improving Question Answering with External Knowledge,基于外部知识,实体抽取和链接
  5. Dual Co-Matching Network for Multi-choice Reading Comprehension,原文、实体、选项之间,两两双向建模融合信息

阅读理解任务使用的技巧总结

这里简单总结了上述文章中在QA任务中的一些技巧或者优化手段

  1. 上游语言模型

    这里就是从词向量角度出发,考虑使用更好的预训练的语言模型来提升模型性能,目前来说有以下

    • Bert:各种语言模型中收益最大的,基本提升都在5%-10%以上
    • GPT
    • EMLo
    • GloVe:base词向量

    除了直接替换词向量为bert以外,还有人把词向量(上下文无关),Bert等(上下文相关)拼接起来,目前也有很多工作会再拼接一些特征向量pos等,效果都有提升

  2. 下游模型

    这里就是通过改模型来提升之前QA的性能,目前来说收益比较大的策略如下

    • Bert基本框架拿来使用

      • QA数据集,使用QA框架
      • MRC数据集,使用Matching框架
    • 在Bert的基础上更改

      • 标准QA中Bert输入的顺序,如[p,q&o],改成[q,p&o]等等
      • Bert输出层更改,加权平均Bert的隐含层表示
    • 数据处理上改进

      • 启用外部知识,增强原文,比如通过实体挖掘和链接扩充原文
      • 数据增强,提升正样本和样本的质量,相对于随机采样来说
    • 三元组关系建模

      在QA任务中更好构建原文p,问题q和选项o之间的建模

      • 关系建模,p-q,p-o,q-o之间的关系,单项或者双向建模都有
      • 信息融合
        • 拼接
        • 注意力
        • 3D注意力
        • 多种特征组合
    • 各种策略

      • 高亮策略HL,增强原文中在问题和选项中出现的词

      • 自我评估SA,使模型学会从数据中提取关键信息的能力

商业问答系统介绍对比

  1. 小冰
  2. Siri
  3. Google Now、Cortana和Siri对比
  4. 小蜜
  5. 阿里小蜜技术整理
  6. 对话系统原理和实践-来也
-------------本文结束感谢您的阅读-------------