南大周志华:百万模型进入学件基座系统,很多我们没预期过的事也有可能实现 | MEET 2025

大模型时代,全世界AI从业者追赶OpenAI GPT系列的脚步仍未停歇,但也有人,坚持深耕在国产原创的另一条大模型之路上。 南京大学副校长、国际人工智能联合会理事会主席周志华教授,就是其中代表。 他提出的“学件范式”,旨在从数据隐私角度着手,通过模型 规约的方式构建基座系统,让用户的需求能被自动匹配到合适的模型、模型组合上,安全、可靠地复用他人开发的模型工具。

大模型时代,全世界AI从业者追赶OpenAI GPT系列的脚步仍未停歇,但也有人,坚持深耕在国产原创的另一条大模型之路上。

南京大学副校长、国际人工智能联合会理事会主席周志华教授,就是其中代表。他提出的“学件范式”,旨在从数据隐私角度着手,通过模型+规约的方式构建基座系统,让用户的需求能被自动匹配到合适的模型、模型组合上,安全、可靠地复用他人开发的模型工具。

用户只需要提出需求,学件基座系统就会根据需求,从无数学件中去找出一个或者若干个学件,甚至把它们组装起来解决问题。

在MEET 2025智能未来大会上,周志华教授从宏观角度和技术角度详细为我们分享了学件范式的最新进展。

图片

为了完整体现周志华教授的观点,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。

MEET 2025智能未来大会是由量子位主办的行业峰会,20余位产业代表与会讨论。线下参会观众1000+,线上直播观众320万+,获得了主流媒体的广泛关注与报道。

核心观点

  • 学件=模型+规约。规约通过对模型进行刻画,可以使模型在不知道开发者数据的情况下被复用。
  • 用户只需要提出需求,学件基座系统就会根据需求,从无数学件中去找出一个或者若干个学件,甚至把它们组装起来解决问题。
  • 学件基座系统可以看作异构大模型,随着更多的模型被提交,它会长大、重组,未来提供服务的时候一定程度还提供了可解释性,和现在常见的大模型不同。

(以下为周志华教授演讲全文)

学件=模型+规约

大家好,很高兴跟大家做交流,我的题目叫作《学件和异构大模型》。

大模型大家都很清楚是什么,那么学件是什么?

我们知道计算机里有硬件,有软件。大概在9年前,那时候还没有大模型,深度神经网络也刚刚开始被大家注意,那时候我们发表了一个东西,向大家公开我们的预期,说机器学习这样发展下去会不会产生一种形态,我们命名为学件(Learnware)。学件从这个词从概念,再到研究体系,都是我们完全原创的。

我今天主要跟大家介绍一下这条路线在做什么事。

因为考虑到今天这个场合大家主要需要一些宏观理解,而不是技术细节,所以我们先思考这几个问题。

第一个问题:未来机器学习解决世界上的问题,是会用一个模型解决一切,还是用很多模型协作?我想大家都会有自己的回答,我们的回答是B——可能我们需要很多模型协作。

第二个问题:这些模型是会由一位开发者开发,还是很多开发者各自开发?我们认为这个答案应该也是B。

第三个问题:这么多来自世界各地的开发者,他们开发的模型都有自己的数据,他们会把数据都公开吗?我们认为答案很可能是不公开。

第四个问题:数以百万计的模型,是不是能一次性全部产生,还是陆陆续续的,今天有一些,明天有一些,后天有一些?我想这个答案肯定是B。

第五个问题:对未来某位人工智能用户,全世界数以百万计的模型都对他有用吗?还是只有少量甚至个别模型有用?答案还是B。

第六个问题:对于用户来说,这些已经存在的模型中,一定有某个模型能解决他的任务吗?还是未必有?说不定我们可以通过组装一些模型来解决这个任务。我们认为答案还是B。

有了这么多问题之后,归结起来就是这么一个问题:在拿不到开发者的训练数据,甚至用户也不愿意公开自己数据的情况下,我们如何知道数以百万计、全世界各个开发者开发的模型中,哪个或者哪些经过组装之后对用户是有帮助的?我们如何能够对来自不同的开发者、针对不同任务的模型进行组装复用,或者就像大家都在谈的,大小模型协同。

学件这条路线就是在往这个方向努力。

学件是什么呢?学件=模型+规约。为了便于理解,我们举一个类比,假设现在世界上有很多开发者做出他们的模型,他们愿意分享他们的模型,在这个图上,每一把刀、每一个锤子、每一把斧头都是一个机器学习模型。

图片

模型大家都清楚,规约是什么?就是对模型进行某种刻画,使得系统在不知道开发者数据的情况,能够根据未来用户的需求被找出来复用。

容纳这些模型的地方,一开始我们把它叫作“学件市场”,好比一个超市。后来有专家跟我们讨论,说“市场”给大家感觉是要做交易。其实未来确实是可以做交易,比方说被用得很多的学件,可以收费,收费之后再回报给开发者。但在现在,我们主要关注其中的科学技术问题,所以我们现在也把它叫学件基座系统

有了这个基座系统之后,未来用户想要开发自己的AI任务,就不需要从头开始。今天当我们要做一个自己的机器学习应用的时候,我们要搜集数据,要训练模型,要调参数,但是在别的领域不是这样的,比如说要买一把切肉的刀,我绝对不会说自己再去采矿打铁,我会到超市上看一看,有没有这样的刀。就算没有,我找一把西瓜刀拿回家,用我自己的数据打磨打磨,说不定就能用了。

所以我们希望未来的用户只需要提出需求,然后学件基座系统根据用户需求,在学件基座系统所容纳的无数学件中去找出一个或者若干个,甚至组装起来解决你的问题。注意,在整个过程中,开发者的数据不披露给学件基座系统,甚至用户的数据也不需要披露给学件基座系统。

这个事情2016年发表了第一篇论文提出这件事,后来的七年时间里面,我们没有发表论文,一直在解决这里面的关键科学技术问题,目前这些问题有了初步的解决方案。在讲技术方案之前,我们先宏观地来看,和以往有什么不同。

图片

经典的机器学习范式,是针对某个任务做一个模型解决它。

大模型范式,是汇集很多数据去训练一个模型。汇集数据的过程实际上是希望数据相关方要放弃隐私和所有权,这对对话、视频这样的任务是比较容易做到的,但对生产生活中的很多任务其实不太容易。比方说,哪怕是同一个类型的企业,往往也不愿意把数据分享出来给你收集起来训练模型,许多企业认为,一旦把数据分享出去,通过大模型,就等于技术优势分享给同行了。但如果只能用企业内部数据,往往又不够大模型训练。

学件这个范式的关键,是不收集你的数据,只是汇集起不同的模型。这些模型可以是为很私有的任务开发的,你不需要披露你的训练数据。另外,模型的黑箱性一般认为是个坏事,而在这里却能够起到正面作用。有了这些模型之后,大家容易想到,可以为未来的很多任务提供服务,它们不必须是同一大类的。这很容易理解,比如有天气预报的模型,以后当然可以做天气预报,有地震预测模型,以后当然可以做地震预测。但是需要认识到,对某些我们从来没有考虑过的任务,也有可能通过把若干个模型拼装起来解决它。

举个例子,假设我们要考虑A和D分类,从来没有开发者做过这种模型,但有人做过A和B,有人做过B和C,有人做过C和D,就有可能把它们组装起来解决A和D的分类任务。

所以这是一条和一般大模型不同的路。第一假设所有模型都潜在有用,即便对开发者不太好的模型,对别的用户说不定是有用的。第二可能很多小模型汇集在一起之后,能够做一些今天我们认为只有大模型才能做的事,当然大小模型协作都可以在其中完成,而且不存在灾难性遗忘,因为一个模型只要放在基座系统中,除非它的能力被完全替代,否则就一直在哪里,天然在进行终身学习,而且不必披露开发者和用户数据。另外,开发者提交的模型,在未来适用的时候可能超越开发者原本的意图,用于解决他完全没考虑过的任务。

从哲学方法论上来说,如果说大模型是几个大英雄打天下的话,学件则是认为“力量蕴藏在人民群众”中。我们预期,学件基座系统容纳了数以百万计的模型之后,这条路线的力量会更加涌现出来,很多我们原来没想过的事都有可能做。

学件基座系统可视作异构大模型

回到技术问题上。

规约是什么?它需要对模型进行适当刻画。大概是什么做法,涉及到两方面,一个是学件基座系统,一个是模型开发者。

首先学件基座系统给开发者发送两个信息k和n,k是某个函数,n是规约大小。模型开发者用自己的数据训练模型,基于基座系统提供的k和n生成规约。他提交模型的时候,把规约和模型一起提交。

图片

我们可以看到,所有的训练数据一直在模型开发者手上,基座系统是不接触数据的,碰到的只有提交的模型和规约。大家要问了,这个规约是基于你给我的k和n生成的,你有没有可能根据这个把我的训练数据破解出来?

我们最近做了一个理论证明,首先,规约不会包含开发者训练数据,第二,即便对信息安全中强大的推断攻击和链接攻击,并且是针对确定性算法最强的暴力搜索这样的攻击,仍然可以有效地保护开发者的数据。而且有了这个结果之后,我们就可以得到关于规约大小设置的理论指导,通过设置为合适的大小,既能起到数据保护作用,还能支持模型复用。

图片

为用户提供服务的时候,学件基座系统有可能是反馈最好的某个模型,也可能是多个模型的结合,例如简单的集成,或者加权结合,其实最近大模型经常用的MoE就是加权结合的特例,学件还可以做链式结合、树形结合等等很多种模型的结合方式。这里面还有很多探索空间。

进一步来说,随着学件基座系统中容纳的学件不断增长,学件规约能否成长,使其能容纳越来越多的模型,且对模型的刻画能力有所增强?

另外,我们还研究了如何使得规约能够成长,以及学件基座系统如何随着收到更多的模型而成长,这里用到了规约索引树、稀疏哈希等技术,有很多模型不断接收进来,多到一定程度之后,内部会重新组织,这样得到一个可成长、可演化的基座系统。

从这个角度可以看到,如果把整个学件基座系统看做一个异构大模型,它和现在各种大模型不太一样,是一个可成长可演化的大模型,宏观上可以理解为人民群众组成集体是超级大模型。

我们最近开源了北冥坞学件基座系统,欢迎大家来使用,这是一个科研原型系统。现在许多老师同学感觉,大模型时代,在高校院所里面因为算力不够,难以开展科研工作了。大家可以跟企业合作开展大模型方面的研究,另一方面,学件这条路线的研究目前还不需要多大算力,并且我们目前做的都是非常粗浅的解决方案,对学件这条路线感兴趣的老师同学,如果要做研究,要做实验,那么就可以在这个基座系统中做实验,大家应该能做出更聪明的解决方案。

另一方面,这个基座系统里面现在容纳模型还不多,还不能提供服务,欢迎大家有模型提交上来,未来模型很多之后可望能提供服务。现在国际上也出现机器学习模型平台,相比而言,学件2016年就提出了,里面的构想要精巧得多,能力会强得多,并且未来还有很大潜力发展空间。但我们作为高校师生开发的系统,工程化能力肯定是短板,如果有企业希望基于这个开发自己学件基座系统,我们也欢迎大家来合作。谢谢!

谢谢!

相关资讯

OpenAI公布「官方爬虫」:GPT-5靠它训练,有需要可以屏蔽

众所周知,OpenAI 从 GPT-4 开始就已经对技术细节完全保密了,最初只用一份 Tech Report 来展示基准测试结果,而闭口不谈训练数据和模型参数。尽管后来有网友各种爆料,OpenAI 也从未回应。

你的自拍和聊天记录,正被硅谷大厂砸数十亿美元疯抢

新智元报道  编辑:Aeneas 好困【新智元导读】2026 年的数据荒越来越近,硅谷大厂们已经为 AI 训练数据抢疯了!它们纷纷豪掷十数亿美元,希望把犄角旮旯里的照片、视频、聊天记录都给挖出来。不过,如果有一天 AI 忽然吐出了我们的自拍照或者隐私聊天,该怎么办?谁能想到,我们多年前的聊天记录、社交媒体上的陈年照片,忽然变得价值连城,被大科技公司争相疯抢。现在,硅谷大厂们已经纷纷出动,买下所有能购买版权的互联网数据,这架势简直要抢破头了!图像托管网站 Photobucket 的陈年旧数据,本来已经多年无人问津,但

美国加州通过人工智能训练数据透明度法案,要求企业披露 AI 模型数据来源

今日,美国加州立法机构通过了一项颇具争议的法案 —— 人工智能训练数据透明度法案,该法案将提交给州长加文・纽瑟姆,但其尚未对此法案表态。图源 Pexels该法案旨在要求人工智能公司在开发和训练模型时,对其使用的数据集进行更加透明的披露。AI在线注意到,这项由议员雅克・欧文提出的法案(AB 2013)原本适用范围更广,但在 8 月 20 日范围缩小至仅适用于生成式人工智能,即能生成文本、图像和类似内容的人工智能,例如 Open AI 的 ChatGPT 这类。该法案要求人工智能公司公开其训练模型的关键信息,如数据来源