4月12日,由科大讯飞承建的我国首个认知智能国家重点实验室,以76.06%的成绩登顶常识推理挑战赛CommonsenseQA 2.0,刷新世界纪录,在让机器“能理解、会思考”上迈出一大步!
CommonsenseQA 2.0是艾伦人工智能研究院于2021年主导发布的国际常识推理评测数据集,旨在评估机器对常识知识的理解及掌握水平,吸引了包括谷歌、华盛顿大学等众多国际顶尖机构参与挑战。科大讯飞首次参赛,即创新性地提出ACROSS模型,以全新深度学习算法绝对优势,刷新机器常识推理水平世界纪录。
常识推理是神经语言程序学最重要的研究方向之一,其目的是帮助计算机学习常识知识,并利用所掌握的知识进行深层次的理解及推理。该领域的进展及技术突破中,对人工智能发展具有重要意义。当前,典型的阅读理解模型所关注的问题类型主要是事实类问题,这一类型的问题答案往往能直接在原文中找到。然而,如何基于常识和背景知识进行推理以获得答案,对计算机仍旧是一个巨大的挑战。
在CommonsenseQA 2.0这项颇具挑战的常识推理评测任务上,业界主流的中等大小预训练模型方法也只能取得55%的水平,略高于随机猜测平均水平。此前国际上该任务的最优方法,通过1750亿级参数量大小的GPT3模型生成针对CommonsenseQA 2.0常识推理问题的相关知识,取得了73%的准确率。
本次科大讯飞认知智能国家重点实验室团队,创新提出的面向常识知识推理的ACROSS模型,实现了统一语义空间下外部知识的有效融合,显著改进了超大规模预训练模型所存在的问题,在CommonsenseQA 2.0任务上取得76%的准确率。
人工智能技术的下一步发展,必须要突破常识推理这一瓶颈,才能在教育、医疗、养老等国计民生场景中,让人工智能产品更具备实用价值。“让机器能听会说、能理解会思考,是清晰可预见的未来。 ”科大讯飞有关负责人表示。(记者 汪永安)