2023年1月6日,由稀土掘金技术社区与 Intel 联合发起的第一届「掘金未来大会」在北京成功举行。
大会上,澜舟科技合伙人、首席产品官李京梅介绍了澜舟科技的孟子轻量化预训练模型,及其已经在 GitHub、 Hugging Face 以及 ModelScope 等多个社区开源,提供近 20 个模型,涉及阅读理解、文本生成、多模态、金融等等各个方面,企业均可以下载使用。
此外,李京梅通过营销文案写作、文学辅助写作、基于情节配图三大场景进一步展现基于预训练模型的 AIGC 技术的实践应用。她表示,人类应持续提升创造力,AI 将通过提升产业效率的方式来帮助人类更好地创造价值。
以下为澜舟科技合伙人、首席产品官李京梅演讲全文:
预训练模型标志着 NLP 进入了工业化实施阶段
澜舟科技正式成立于 2021 年 6 月,是一家初创企业,基于预训练模型做 NLP 的技术创新,驱动在各个垂直领域落地。今天也将重点聚焦泛互联网领域,尤其是现在较火的 AIGC,看看大模型在具体领域中可以做哪些事情。
技术发展之上是一个简单的时间轴。80 年代,是一个基于符号、统计等等相关模型的时代,到了 2010 年,开始进入深度学习时代。在 NLP 自然语言处理的领域中,一个最大的技术突破是 2017 年谷歌出现了 Transformer 技术,一切就开始变得不一样了。再到 2019 年,阅读理解 AI 第一次超越人类,以及后来出现的一些大模型,包括目前广泛应用的 OpenAI GPT-3,以及预期 2023 年 GPT-4 什么时候会出现等等。
从最早的运算智能,如大数据、云计算等等都属于刚需了,以及感知智能,像视觉、语音都已经非常成熟。但现在为什么又谈认知智能?认知智能,是你看到了,听到了,有没有懂?有没有理解?是不是能够思考?能够做决策?......如今,谈到 AIGC ,就是 AI 创作内容,你能不能看到了,听懂了,也理解了,更能创造内容了。因此,现在是从感知智能演变到认知智能,甚至是创造智能的阶段。
此次提到的大模型是一个预训练模型。什么是预训练?就是对互联网公开的、海量的数据去做无监督的训练,从而让模型对特定任务的学习变得轻松。而不是传统的靠人去做标注。好处在于,模型的水平已经提得很高,落地时就会基于某一个垂直领域的数据,或者某一客户的数据,只需做微调,落地就非常敏捷了,这时候客户要提供的数据比传统机器学习从 0 开始做一个模式要更快。也就是说,预训练模型标志着 NLP 进入了工业化实施阶段,可以核算成本,也可以作为生意,客户也能看到价值。
澜舟科技有一个技术品牌叫孟子,专注于中国的客户、市场以及中文,在基础模型上,自研了一个孟子轻量化预训练模型。简单来讲,做了三件事:
一是模型优化。在模型的架构上做了性能优化、任务构造等等;二是知识增强。虽然是个预训练,但在不同的领域需要具备一定的领域的知识,因此基于知识图谱、语言学等方面做知识增强;三是数据增强。虽然这是一个通用预训练,但还是会有一些任务,比如阅读理解、分类、长短文本理解等等,还是会在一定的大范围内做相关的数据增强。因此,孟子轻量化预训练模型不仅是一个模型,还是一系列的若干模型。2022年,孟子轻量化技术迈上新台阶:登顶 ZeroCLUE 和 FewCLUE 榜单,这使得孟子预训练模型是轻量化的,真正落地的体积要求的数据量都会小,经济且快速地适配。
除此之外,孟子轻量化多任务模型已经在 GitHub、 Hugging Face 以及 ModelScope 等多个社区开源,提供近 20 个模型,涉及阅读理解、生成、多模态、金融等等各个方面,企业均可以下载使用。
面向三大场景的 AIGC 应用
虽然澜舟科技有大模型、NLP 等相关技术,但却十分注重在垂直领域或是场景化的前提下进行落地。此次分享则聚焦营销文案写作、文学辅助写作、基于情节配图这 3 个场景展开 AIGC 应用:
1、文学辅助写作场景。澜舟与中文在线、17K 小说等网文平台合作过程中听到许多实际的需求,为此,澜舟也提供了 4 类服务:
续写。用户开头写前文,机器往下续写,这是一种很常见的交互式写作;基于关键字生成。比如用户语文不太好,但想出了许多辞藻,一定要放到作文中,却串不成句子,那么基于关键词就可以让 AI 帮助润色,语法也十分通顺;实体渲染。这是网文创作中刚需的需求,这里的实体指的是一个人物、物体等等,比如,现代男性、古代美女、或者一种法器,基于关键词描写实体;自定义模板。基于用户自定义模板做完型填空、填词造句。实际上,澜舟所提供的能力已经在中文在线和 17K 小说平台落地实现,赋能平台作者写作能力。比如,澜舟的能力开放在 17K 小说的作者写作界面中,是一个非常跨界的应用,都是基于孟子预训练模型中的文本生成的能力,以及利用网文的相关语料的落地,同时,交付也非常轻,就是一个接口,然后集成到 17K 的作者平台上。
澜舟还做了一个 To C 的小程序,叫熊猫小说家,实际上就是故事接龙。用户作为一个发起者先要创建故事,构思情节给到一个故事梗概,然后再给出一些关键词,就可以随机生成文字。如果用户属于社牛型,还可以把小说公开到广场,谁想来一起往下写都可以。可以说,澜舟在文学辅助写作上的 AIGC 的能力放到了小程序中,有兴趣的都可以试一试。
2、营销文案写作场景。营销文案其实是澜舟做得较早的一个落地应用,目前聚集美妆和汽车领域。用户可以从两个领域中进行选择,系统中有写内容、生成题目、改写等等方面,但都需要用户给到一定的关键字。到这里,大家会发现对于模型、技术而言,写什么都比较类似,关键在于在不同领域中,澜舟有不同的数据,所以关键词不一样,也就很快能适配到不同的应用的领域,但背后的技术是相通的,不用重新做一个完全不同的技术体系。比如,汽车领域中,可能涉及到一些专业的知识图谱,有品牌、有款型等等,当然,这只是一个体验,依然有不足指出,但如果有定制合作的需求,效果肯定比线上的试用 demo 更好。
一年前,澜舟与数说故事开展合作,数说故事做前台,澜舟做背后的引擎,打造了一款自动化写作产品,名为 http://content-note.com 智能文案,分成 “选择模板-输入关键词-生成结果” 三个步骤走。此外,还有澜舟论文助写(LPA),主要是基于用户提供的关键词生成完整的句子,以及根据前文生成下一个句子供作者参考,现在澜舟还将其拓展到人工智能的英文论文写作,参加 NLP 、 ACL 等领域顶会的研究人员使用,与 ChatGPT 相比,写出的内容更具论文范。
以上两个场景都是文本生成类应用,可以看到澜舟科技作为一个平台,它的底层是大模型以及算法、技术和数据等等,在具体领域中落地时,会有不同垂直领域的数据,这时候就出现了分支,还有一些针对文本生成相关的句子,最后都会归纳成澜舟文本生成平台。
同时,整个文本生成引擎功能有 6个特点:
多属性可控文本生成,通过关键字、主题、完型填空、实体渲染等控制属性达成 AI 可控性的目的;多样化的文本生成形式,基于已有文本的续写,以及基于关键词、标题、表格数据的文本扩写,使用更加灵活;基于知识图谱的文本生成,用户可以自定义知识图谱,提高生成内容的事实正确性;内容和风格定制化,基于用户数据构建专属文本生成引擎;文本自动评测系统,可以评测文本正确性、逻辑连贯性等等;多行业领域支持,比如营销、金融、新闻、医疗、教育等众多行业。3、基于情节配图。虽然澜舟科技主打不是做图,但文、图有很多相通性,尤其是在模型底层向量化之后,无论是文字、语音还是图片,可比性和相似度变得非常的容易。澜舟科技在 文-图生成模型 Stable Diffusion 基础上进一步做垂直领域的落地,这里面分了几个模型,有图像编码、解码以及中间去噪的一个模型。如下图所示,左边是一个飞马,右边一个飞着的斑马,中间加的字就是飞在天上的斑马,最后飞马身长多出来“黑色条纹”变成了斑马,因此,文字进来也会进行编码,进去到去噪的模型中,大概就是这么一个原理。
那么,澜舟科技具体在 Stable Diffusion 基础上做了什么?首先是文到图生成,比如,给小说中的一段话配图;其次是以图生图,比如,一位小朋友想要画这样一幅画:一只蜗牛,背上背着一栋房子,天上有彩虹。但小朋友画不好,那么,基于小朋友的画可能有不同画风的 AI 生图;最后是以文控图,比如,先生成一张“一个穿裙子的小女孩”的图片,在此基础上,还可以是在唱歌、在跳舞、在拉小提琴等等,通过文字再次控制原图片生成。
以上都是 Stable Diffusion 已经开源的模型以及常见的一些场景,其中还有在产品化、工具化以及标准化方面需要澜舟科技发力的地方,而且已经有许多场景接近于可以对公众发布。
那么,澜舟 AI 文图生成技术主要有几个特点:
中文优化更可控;智能提示生成,众所周知,Stable Diffusion 基于 prompt (提示),而普通用户只会讲自然语言,如何把它翻译成更好的模型,可以理解的 prompt ,以及可能会适当添加用户并没有输入的内容,这些都是澜舟需要做工作之一;概念构建一致性,这里的概念可能是一个小说里的人物、法器或者其他的物件等等,让它们在一个小说故事中保持一致性,也是一个挺大的挑战;个性化定制训练,AI 不能随机定制,比如小说故事中的人物,AI 定制的人物形象从始至终必须保持一直;推理加速提升体验,包括降低成本,毕竟商业化付费时对业务是有价值的。目前,澜舟科技也有一些初步的研究成果,比如可控的文图生成的风格控制,举个例子,生成一种国画风,也是用到 Stable Diffusion,但中间也会做一些训练进行反哺,就是有一个 Discriminator 判别器,中间有人员参与挑选生成的图片,然后告知模型生成的图片中有哪些是符合国画风的,哪些是不符合的,即把正确的结果再反哺给 Stable Diffusion ,如此训练出来的模型再去推理时,效果就会接近想要的风格。再比如,一张女孩子的图片,还可以指定风格生成二次元、国画、赛博朋克等不同风格的需求。
再拿形象控制来说,比如小说故事中的人物必须长成描述的样子,给定目标形象,但训练时也怕会出现拟合,需要把一些泛化的形象塞到模型中。为此,澜舟采用的是 DreamBooth 的方法,即拿一个字符去代表某一种男孩的形象进行训练,当进行推理时,只要告诉模型要推理这个字符形象的男孩,就能得到想要的效果。比如,一个男生走进便利店,他会出现在询问店员、拿商品以及结账等场景中,当然现在还会有一些瑕疵需要后续不断完善。
最后,澜舟科技未来能做的事情还有很多,也十分看重应用场景的切实落地,过程中还有许多问题亟待解决:一是长文本生成的可控性,AI 写几百字的文本还可以,但如果是上千字,可控性就没有那么强;二是篇章和上下文一致性,比如熊猫小说中的故事接龙,涉及上千篇章或节,以及将前面的摘要融合到上一篇或者上一节内容,都是需要去探索的地方;三是常识与事实合理性,这方面可能就要引入知识图谱,比如让机器晓知天文地理,对时间地点、人物关系等合理性描述;四是,个性化敏捷定制,比如,用户有一个固定的人物形象或是一个插画,究竟如何去做个性化定制都需要后续探索。
总而言之,在 AIGC 领域,人类应该持续提升创造力,不要停止,不要因为有了 AI 就不去创造了,而 AI 也将通过提升整个产业效率的方式来帮助人类更好地创造价值。