追一科技获得CMRC机器阅读理解冠军

2018-09-20 追一科技

从判断、选择到填空、问答，人类认知一直是进阶之路。阅读理解等语言认知能力，一直被视为人工智能的皇冠钻石，无数AI研发者的梦想。

在顶级专业的语言类挑战赛中，英文阅读理解SQUAD吸引了世界上几乎所有AI公司参加挑战刷榜。中国中文信息学会计算语言学专业委员自2017年起举办机器阅读理解大赛，其专业的数据以及完全复制SQUAD的竞赛模式也使其成为中文领域内认知评选标杆。近日，备受瞩目的CMRC 2018阅读理解比赛结果出炉，经过激烈角逐，追一科技团队提交的Z-reader模型，凭借优异的表现斩获冠军。

CMRC2018由中国中文信息学会计算语言学专业委员会（CIPS-CL）主办，哈工大讯飞联合实验室（HFL）承办，旨在进一步促进中文机器阅读理解研究及发展，并且为相关领域学者提供一个良好的沟通平台。本次比赛中除了有上届冠亚军参赛，还吸引了多家著名高校队伍前来参赛，包括清华大学，复旦大学，北京邮电大学，北京信息科技大学等。

值得注意的是，在认知突破上，基于篇章片段抽取的阅读理解成为今年CMRC的聚焦点，进一步突破以往的填空型阅读理解任务。本届中文机器阅读理解评测开放首个人工标注的中文篇章片段抽取型阅读理解数据集，参赛选手需要对篇章、问题进行建模，并从篇章中抽取出连续片段作为答案。

在评测竞赛中，追一科技参赛团队提交的Z-Reader模型得到了81.608的平均分，遥遥领先第二名组合模型方案的79.147分，以大比分领先夺冠。Z-Reader模型是微软R-NET模型的变体模型，特别在注意力机制上有所改进，输入特征采用了基于语言模型的上下文敏感词向量、POS还有词语共现等人工设计的特征。

除了前沿技术上的突破外，阅读理解的应用场景更让人期待。

目前在阅读理解技术上，除了模型算法突破外，追一科技已在同步推进商业应用的尝试，比如直接帮顾客从文档集中找到答案的阅读理解机器人。基于更深层次的认知技术突破，在企业服务场景中，交互的方式、体验，企业知识库的构建，内部信息和知识的沉淀与价值转化形态，都有望进一步突破。

而作为聚焦研发与落地应用的A公司，追一科技除了在前沿核心技术的突破外，还在不断探索AI技术与能力的应用场景，使之更好地服务与行业与企业。