总平均分91.3分!京东探索研究院织女模型登GLUE榜首

11次阅读

别人造车,百度造「房」?

第三空间智能座舱,有何打法?

在近日公布的全球自然语言处理领域顶级测试GLUE中,京东探索研究院联合悉尼大学、武汉大学以及北京航空航天大学组成梦之队(JDExplore Dream Team, d-team)参与其中,其提出的织女模型Vega v1以总平均分91.3分荣登榜首夺冠,再次刷新自然语言理解技术世界纪录,超越同场竞技的微软、Facebook、斯坦福大学等企业和高校团队。

 

值得提及的是,测试中织女模型在九个子任务中的四个单项任务,即情感分类任务SST-2(The Stanford Sentiment Treebank)、语义相似度任务MRPC (Microsoft Research Paraphrase Corpus)、问句语义等价任务QQP(The Quora Question Pairs)和指代消解任务WNLI(winograd NLI)中均位列第一。尤其在情感分析任务SST 和指代消解任务WNLI 中首次超越人类智能水平。

谷歌等揭露「AI任务疑难」:存在局限的ImageNet等基准,就像无法代表「整个世界」的博物馆

当「基准」越来越「不基准」时,「基准」该何去何从?

据了解,本次夺冠的织女模型Vega v1采用了“预训练-微调”范式,依托于多个重要预训练的技术创新实现突破,例如采用了高效节能的并行化训练框架以及数据利用方法,使用了数十亿参数量的创新模型架构、更好的自监督信号以及多粒度句子级表征等。

 雷峰网(公众号:雷峰网)

雷峰网版权文章,未经授权禁止转载。详情见转载须知。

中文语言能力评测基准「智源指数」问世:覆盖17种主流任务,19个代表性数据集,更全面、更均衡

「智源指数」不仅要测计算机的语言能力,更重要的是能够指出计算机的语言能力的发展方向。

正文完
 
admin
版权声明:本站原创文章,由 admin 2022-01-05发表,共计732字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。