Creator 面对面 | 大模型的最后一公里路“不太平”

自 2018 年谷歌推出 BERT 以来,语言模型就开始朝着「大模型」的方向演进。21 年诸如华为联合鹏城实验室 2000 亿参数的盘古、谷歌 1.6 万亿参数的 Switch Transfomer、智源研究院 1.75 万亿参数的的悟道 2.0 等相继产出。

在即将到来的一年里,在大规模预训练模型的跨界之路上,又将出现哪些变数?

「基础模型(Foundation Model)」是否将成为下一个 AI 范式?

「基础模型(Foundation Model)」的出现是否意味着距离实现「通用模型」只剩最后一公里的路程的?

  针对细分应用领域,例如生化领域等,搞「专用模型」是否还有未来价值?「专用模型」又有哪些不一样的玩法?

2022 年 1 月,ICCV 2021 马尔奖(最佳论文奖)Swin Transformer 作者、微软亚洲研究院(MSRA)视觉计算组的主任研究员胡瀚博士,循环智能资深算法总监陈虞君,Autodesk AI Lab 研究科学家、Daily arXiv Radiostation 主持人楚航做客机器之心「2021-2022 年度 AI 技术趋势洞察」的「模型专场」直播间,共同探讨了通用(大)模型的最后一公里」这一主题。

图片

模型架构当前发展情况

在 2021 年模型架构方面的工作中,最让您印象深刻的是哪个?为什么?

首先是胡瀚博士的回答,他提到他所从事的计算机视觉领域 2021 年的主旋律是 Transformer,但就更本质的影响而言,他会选择 Open AI 的 CLIP 和 DALL·E。他认为,过去 10 年,视觉领域的研究员都主要关注表征学习,希望预训练一个很强的表征,然后再用这个表征去某个具体任务上做微调(fine-tuning),而 CLIP 和 DALL·E 打开了一个新的维度,让预训练不仅可以学习表征还可以连接几乎所有语义,这对视觉领域将是一个很本质的变化。另外他还提到他在微软亚研的同事提出的 BEiT,这一模型有望将掩码图像建模的自监督预训练方法推向主流,将领域的研究重点从以 MOCO 为代表的对比学习方法,向和 NLP 更类似的预测建模方法靠齐。另外,他觉得稀疏 MoE 大模型方面的进展也很鼓舞人心,这一和人脑运行机制更像的稀疏模型正在变得真正 Work 起来。

之后,陈虞君博士谈到自己比较关注工业落地,像 Google 的 FLAN  和 Hugging Face 的 T0 这种在 NLP 领域利用更多的有监督学习的数据去做 zero shot 对比实际的任务去做 zero shot 的这种形式非常有意思。因为相比于大部分预训练的模型,BERT 和 GPT 都是使用通用的文本做预训练,然后使用 mlm loss 作为训练目标。但对实际的任务,依然需要进行 fine tune,这个 pipeline 会非常消耗算力和存储资源。此外,他还提到 Open AI 和 Github 发布的 Copilot, 印象深刻点和有趣点在于这个模型可以非常显著的提升大家的编程效率,并且这个方向也是非常有意思和值得思考的,大多时候人们会考虑如何用 AI 去替代人,但如何用 AI 去提升人的能力,这种增强智能在未来可能是一个很好的发展方向。

最后,楚航博士同样觉得 Open AI 的一系列工作是最让人印象深刻的,比如 CLIP、DALL·E 和 GLIDE,他认为这种把语义、多模态和图像这块的融合是非常有意义的,这种多模态的模型对现在和将来都会起到一个非常大的 enabling 的作用。另外他还提到比较感兴趣和印象深刻的是 Google 提出的 Pathways,这更像是一个对之后模型架构的一个愿望清单,包括多感知的、多任务的、稀疏性的,这也是他比较认可的一个大的方向。

通用(大)模型的最后一公里

用大模型还是小模型?为什么?大模型是否存在一些局限性?为什么在实际工作中一些场景没考虑用过?

陈虞君博士首先承认大模型在实际使用的时候的确存在局限性,预训练的训练目标和实际的落地任务之间存在 gap,在工业实际生产的时候,就依然会陷入先进行 pretrain 再进行 fine tune 的这样一个循环,如果模型越来越大,那么它的 fine tune 的速度就会变慢且需要非常大的资源,如果不进行 fine tune,它就可能无法直接处理下游的任务。

楚航博士则根据自己 Autodesk 的经验分享道,当有新的大模型出现,自己都会第一时间去测试并进行使用,但他发现他们少有在具体应用中使用到大模型,并总结了两点原因:第一,他们更偏向小巧精快的模型,尤其对于 Autodesk 的一些主要产品包括软件产品,并且在传统模式上可能需要在端上部署,虽然可以云端化,但部署成本过高。第二,目前 AI 应用还处于一个早期的摸索阶段,现阶段的急迫性在于从无到有,把业务跑通比把业务跑顺更为重要。

最近有些工作表明卷积的方法在采用适当的模型整体架构和数据增强技术后效果也能同样的好,例如 Meta 的 ConvNeXt,您对未来卷积和 Transformer 在视觉领域的未来有什么看法?除了 NLP 和视觉,您怎么看其他领域应用 Transformer 模型架构的前景?例如科学、因果推理等等?

胡瀚博士回答道:卷积和 Transformer 都挺好,关键是要满足能被 scale up 这个性质,能够通过扩大模型容量持续地给各种任务带来帮助。 Transformer 这方面的能力已经被证明,NLP 领域大模型例子很多了,在 CV 领域,他们组发布的 30 亿参数的 Swin V2 模型就是一个 Transformer 可以扩展容量的例子。 CNN 目前还没有工作去证明它的可扩展性,当然这不能说明卷积网络就不可以。当然,现在大家普遍还是更看好 Transformer 一点,但这倒不是一个谁就一定更好的科学问题,而更是一个生态问题。整个学界和产业界的生态会导致前进的方向会有所偏向,目前看来,Transformer  还是更有可能一些,刚才提到的可扩展性是一方面的原因,Transformer 在扩展容量方面有先发优势,另一个原因是它更通用一点,因为 CNN 主要适用网格化的数据,而 Transformer 能适应更广泛的数据特点。

基于通用性的优点,他认为 Transformer 除了在 NLP 和 CV 里的应用外,也有机会应用于 AI for science 和因果推断方面。关于这两个领域,他认为 Transformer 应用于 AI for science 是更直接和容易的,并且已经有了一些实际工作;对因果推断来说,目前还需要克服一些困难,因为目前的学习范式主要是在建模相关性而不是因果性。当然他也简要展开讲了讲最近他对因果推断的思考,他觉得也许和大家想的不一样,因果性并不一定是迈向通用人工智能过程中的重要问题,因为其实直到最近几百年,普通人才能理解稍微深刻一点的逻辑,“白马非马”这一自然语言带来的悖论很长一段时间大家都搞不清楚,但也不妨碍大家活得好好的。他提到也许通用智能的本质还在于相关性本身,人之所以能适应环境,在于适应和相关性自洽,而不是掌握了因果性。

NLP 大模型已经到了万亿参数规模,而 CV 大模型目前才到几十亿的规模,是什么原因,CV 大模型和NLP 大模型有什么异同之处,您对于 CV 大模型的未来有什么观点?

胡瀚博士提到,首先 NLP 的起步更早,过去的两三年里大家都在想如何去把模型变大,但现在 CV 的架构或是学习方法都逐渐与 NLP 相似,因此在未来达到更大的规模是比较容易的。之所以目前没有达到,他认为原因之一是 CV 领域的一些基础还没有准备好。例如 CV 领域的数据量还不是很支持训练很大的模型,谷歌训练 18 亿参数的视觉大模型就要依赖 30 亿的标注数据,而他们组的工作 Swin V2 通过自监督学习,将对数据量的需求降低了 40 倍,但还是用了近 7000 万标注数据才能做到那么好的效果。

另一个问题是,更大规模的 CV 大模型,例如达到上万亿参数规模的 CV 大模型,是否真正能对应用产生,如果不能带来全新的应用或者赋能从 0 到 1 的事情,而仅仅是某些任务里 80% 到 85% 的提升可能意义就不是很大了,但如果能催生出一个全新的应用或者全新的能力,那将会更有价值。当然大模型有望实现的极限精度提升对于无人驾驶这样对精度要求非常高的领域也许是一个好的技术路线,如果大模型能真正解决达到小数点后 4 个 9 的识别精度,那无人驾驶也许就真的就实现了。

顺着大模型的路线走下去,是否有可能走完通用模型的最后一公里?专用模型是否还有存在的必要?

陈虞君博士认为通用模型距离落地的最后一公里是将预训练和它实际应用的 gap 弥补起来。通过自己的一些实验,其实也验证了在预训练的阶段加入大量有监督的学习的文本,然后在下游的任务实际应用的时候,其实有很多时候是能够达到比较好的效果的,甚至有一些会媲美利用监督学习得到的结果。顺着大模型目前这个路线,如果模型的容量足够大,就有可能预训练的任务就可以包含了更广泛的下游任务。因此,从这个角度看,他认为走完通用模型的最后一公里是非常有希望的。

对于专用模型是否还有存在的必要,他认为对于某些实际业务可能与大模型存在非常大的差异,这时专有模型就可以体现出它的价值。尤其是在新领域,起初数据较少,那么用少量的标注数据得到在新领域的合适的模型。并且这是一个迭代的过程,先通过专用模型处理新领域的问题,然后将新领域的数据收集起来再喂给大模型。

胡瀚博士则补充到,大模型的“大”这个路线很可能是对的,通过最近几年的观察,大家发现这个“大”确实能够 不断地提升模型性能,这些通过提升模型容量带来的提升往往比改进模型设计本身更显著,也更可持续。这个性质是非常令人振奋的。而在具体“大”到什么程度方面,我们现在大概到了万亿的参数规模,如果我们对应人脑的 100 万亿参数也就是连接的话,目前还有一些差距,但看起来很快就能达到。但即使参数到达了人脑的规模,学习方法上还需要突破,所以我们讲“最后一公里”,也许还很遥远,所谓“行百里者半九十”也许最后一公里所花的时间远超我们想象,还有很多基本问题和很困难的问题需要去探索和解决。

模型架构发展趋势未来展望

您认为在通用模型领域,下面进一步发展,存在的主要瓶颈是什么?以及下一年在通用模型方面,可能会有较大进展与突破的方向是什么?有没有您认为比较值得关注和跟踪的团队或者项目?

陈虞君博士个人比较关注 NLP 的通用模型,他认为该模型的瓶颈之一是资源,该模型训练的成本非常高;除此之外还有数据的成本,通用模型在落地的时候往往面对海量的下游任务,它往往只预测见过的任务,因此面对海量的实际任务如果每一个任务都需要去 fine tune 和做标注,这时候的数据成本将非常的昂贵。那么如何利用尽可能少的数据量获得最优的模型,将是一个非常大的瓶颈,也是未来值得研究的一个方向。另外,大模型的复杂描述方式如何在特定领域上对特定任务有一个理想的效果也是一大瓶颈。最后陈虞君博士谈到自己比较关注例如 Google、微软、百度和 Open AI 这类的团队,他们会致力于把大模型应用到实际的问题上。

楚航博士则将通用模型存在的瓶颈分为三类:第一类是应用瓶颈,思考大模型的用处和如何具体的去赋能;第二类是数据上的瓶颈,大量的数据难找,高质量的数据更加难找 ,针对特定场景的应用数据也是非常的昂贵;第三类是算法上的瓶颈,在比较 noisy 的数据上如何高效的学习是一个需要突破的地方。对于未来一年的可能会有较大进展与突破的方向,他提到了自监督和半监督的方面研究,此外他还比较期待一个“一统江湖”的多模态的终极数据库。另外关于值得跟踪和关注的项目,他提到了 Open AI 、Google 和 Facebook 等。

最后,胡瀚博士补充了一点在 CV 方向上的主要瓶颈,他认为目前 CV 较 NLP 来说还是落后较多的,还没有把不同的 CV 任务统一起来。此外,他还推荐关注神经科学方面的进展。

图片

相关资讯

摩尔线程开源 OpenCV-MUSA:支持绝大部分 cv::cuda 命名空间下数据结构及 API

感谢摩尔线程宣布其自研统一系统架构 MUSA 已完成与开源计算机视觉库 OpenCV 的适配,并正式发布 OpenCV-MUSA 开源项目。OpenCV 作为计算机视觉领域最重要的开源库之一,为图像和视频处理的开发者和研究人员提供了强大且灵活的工具。OpenCV 在自动驾驶、医疗影像、安防监控、机器人视觉、增强现实和图像识别等多个领域得到广泛应用。在现有 OpenCV 代码的基础上,摩尔线程新增了 MUSA 设备后端,并为多个算法模块提供了 MUSA 加速支持,同时对编译脚本也进行了适配。目前 OpenCV-MUS

AI 产业繁荣缩影:Hugging Face 平台托管模型数量破 100 万

AI 托管平台 Hugging Face 于本周四宣布,该平台收录的 AI 模型数量突破 100 万个,是 AI 领域快速发展的一个重要缩影。AI在线注:Hugging Face 成立于 2016 年,是一个旨在推动自然语言处理(NLP)技术和工具发展的开源社区和公司。团队致力于提供各种 NLP 任务中的最新技术、模型和工具,以及为开发者提供便捷的方式来使用、微调和部署这些技术。Hugging Face 首席执行官克莱门特・德朗格(Clément Delangue)在 X 上发表的一篇文章中写道,其公司托管了许多备

直接扩展到无限长,谷歌Infini-Transformer终结上下文长度之争

不知 Gemini 1.5 Pro 是否用到了这项技术。谷歌又放大招了,发布下一代 Transformer 模型 Infini-Transformer。Infini-Transformer 引入了一种有效的方法,可以将基于 Transformer 的大型语言模型 (LLM) 扩展到无限长输入,而不增加内存和计算需求。使用该技术,研究者成功将一个 1B 的模型上下文长度提高到 100 万;应用到 8B 模型上,模型能处理 500K 的书籍摘要任务。自 2017 年开创性研究论文《Attention is All Yo