模型 - AIGC宇宙

增大模型依然有用，DeepMind用2800亿参数的Gopher，测试语言系统极限

DeepMind 连发三篇论文，全面阐述大规模语言模型依然在进展之中，能力也在继续增强。近年来，国内外各大 AI 巨头的大规模语言模型（large language model，LLM）一波接着一波，如 OpenAI 的 GPT-3、智源研究院的悟道 2.0 等。大模型已然成为社区势不可挡的发展趋势。然而，当前语言模型存在着一些问题，比如逻辑推理较弱。那么，我们是否可以仅通过添加更多数据和算力的情况下改进这些问题呢？或者，我们已经达到了语言模型相关技术范式的极限？今日，DeepMind「一口气」发表了三篇论文，目的

归一化提高预训练、缓解梯度不匹配，Facebook的模型超越GPT-3

来自 Facebook AI 的研究者提出了 NormFormer，该模型能够更快地达到目标预训练的困惑度，更好地实现预训练困惑度和下游任务性能。

5300亿参数的「威震天-图灵」，微软、英伟达合力造出超大语言模型

在微软和英伟达的共同努力下， Turing NLG 17B 和 Megatron-LM 模型的继承者诞生了：5300 亿参数，天生强大，它的名字叫做「Megatron-Turing」。

每月1万美元，OpenAI提供资助和导师，这些年轻学者在研究什么？

半年来，9 位「毕业生」完成了从转行、入门到精通的研究旅程。

专访唐杰 | 我国首个超大智能模型「悟道」发布，迎接基于模型的AI云时代

唐杰认为，超大规模预训练模型的出现，很可能改变信息产业格局，继基于数据的互联网时代、基于算力的云计算时代之后，接下来可能将进入基于模型的 AI 时代。智源研究院致力于成为这样一个时代的引领者，集聚各方资源力量，构建一个超大规模智能模型技术生态和开放平台，供北京乃至全国的研究人员、开发者和企业使用。

27亿参数的「野生版」GPT-3开源，GitHub项目2.9K Star量

OpenAI 著名的语言模型 GPT-3 可以懂数学、翻译文字，还能写论文拿到及格成绩，这样的 AI 什么时候才能开源呢？现在已有了一个差不多的项目。

百分点认知智能实验室：基于不完全标注样本集的信息抽取实践

编者按信息抽取是从文本数据中抽取特定信息的一种技术，命名实体识别（Named Entity Recognition, NER）是信息抽取的基础任务之一，其目标是抽取文本中具有基本语义的实体单元，在知识图谱构建、信息抽取、信息检索、机器翻译、智能问答等系统中都有广泛应用。基于监督学习的NER系统通常需要大规模的细粒度、高精度标注数据集，一旦数据标注质量下降，模型的表现也会急剧下降。利用不完全标注的数据进行NER系统的建立，越来越受到专家学者们的关注。第九届国际自然语言处理与中文计算会议（NLPCC 2020）针对此业

如何防止我的模型过拟合？这篇文章给出了6大必备方法

正如巴菲特所言：「近似的正确好过精确的错误。」

模型