在不太遥远的未来,GenAI将使企业软件领域以往无法实现或成本过高的功能成为可能。
GenAI,尤其是大型语言模型(LLM),正在改变公司开发和交付软件的方式。从聊天机器人和简单自动化工具开始的这一进程,正在发展成为功能更为强大的AI系统——这些系统与软件架构深度融合,并影响从后端流程到用户界面的方方面面。
聊天机器人浪潮:短期趋势
公司目前正在专注于为各种问题开发聊天机器人和定制化的GPT,这些基于AI的工具在两个领域尤其有用:使内部知识易于获取和自动化客户服务。聊天机器人用于构建响应系统,使员工能够快速访问广泛的内部知识库,打破信息孤岛。
尽管这些工具很有用,但由于缺乏创新或差异化,其价值正在逐渐降低。此外,由于缺乏解决某些问题的更好替代方案的知识,聊天机器人往往并不是合适的用户界面。
未来的特点将是更深入的AI能力,这些能力将无缝融入软件产品中,而终端用户甚至不会察觉到。
无处不在的GenAI技术
在未来几年,AI将从一种需要直接用户交互的明确、不透明的工具,演变成功能集中无缝集成的一个组件。GenAI将实现动态内容创建、智能决策和实时个性化等功能,而用户无需直接与它们交互。这将从根本上改变用户界面(UI)设计和软件的使用方式。用户将越来越能够通过自然语言描述他们的需求,而不是手动输入特定参数。
这一趋势的一个显著例子已经可以在Adobe Photoshop等工具中看到。“生成式填充”功能不再需要手动调整多个参数,相反,用户只需描述他们想要填充图像选定区域的内容,这种向自然语言输入发展的趋势将在应用程序中普及,使用户体验(UX)更加直观,不再受传统UI元素的限制。
未来的挑战将不再是稀缺性,而是丰富性:识别并优先考虑最有前景的机遇。
LLM相较于专用机器学习模型的商品化效应
GenAI给IT领域带来的最显著变革之一,是AI能力的民主化。在LLM和扩散模型出现之前,企业需要投入大量的时间、精力和资源来开发定制的机器学习模型,以解决难题,这需要专门的角色和团队来收集特定领域的数据、准备特征、标注数据、重新训练和管理模型的整个生命周期。
如今,LLM正在改变公司解决算法上难以或无法解决的问题的方式,尽管“大型语言模型”中的“语言”一词具有误导性,这些自回归模型最终可以处理任何可以轻松分解为标记的内容:图像、视频、声音甚至蛋白质。公司可以使用检索增强生成(RAG)架构,用自己的数据来丰富这些多功能工具,这使得它们广泛的能力得以被利用。
在许多情况下,这消除了对专门团队、大量数据标注和复杂机器学习管道的需求。LLM广泛的预训练知识使它们能够有效地处理和解释甚至是非结构化数据。
这种民主化的一个重要方面是,LLM可以通过易于使用的应用程序编程接口(API)获得。如今,几乎每个开发人员都知道如何使用基于API的服务,这使得将这些模型无缝集成到现有的软件生态系统中成为可能,这使公司能够受益于强大的模型,而无需担心底层基础设施,或者,如果有特定的安全或数据保护要求,也可以在本地运行多个模型,然而,这将牺牲前沿领先模型提供的一些优势。
以一款用于记录和管理差旅费用的应用程序为例。传统上,这样的应用程序可能会使用专门训练的机器学习模型,将上传的收据分类到会计类别中,如DATEV。这需要专用的基础设施,理想情况下还需要一个完整的MLOps管道(用于模型训练、部署和监控)来管理数据收集、训练和模型更新。
如今,这样的机器学习模型可以很容易地被一个LLM所取代,该LLM利用其世界知识与良好的提示相结合,进行文档分类。LLM的多模态能力也在许多情况下消除了对光学字符识别(OCR)的需求,极大地简化了技术栈。收据中的数据是否还需要包括净价和毛价或税率?LLM也能做到。
以往不可能实现的AI功能
GenAI使各种功能成为可能,这些功能以往对大多数企业来说过于复杂、成本过高或完全遥不可及,因为它们需要投资于定制的机器学习解决方案或复杂算法。让我们来看一些具体的例子。
基于情绪和上下文的搜索:超越关键词
基于氛围的搜索代表了相对于传统基于关键词的搜索系统的重大进步。
它允许用户用自然语言表达他们的意图,不仅捕获特定术语,还捕获查询的完整上下文和“氛围”。
例如:
传统关键词搜索:“柏林最好的餐厅”
基于情绪和上下文的搜索:“我是一个挑剔的鉴赏家,喜欢既提供酒水也提供食物的酒吧,最好是用当地食材,推荐柏林米特区和克罗伊茨贝格区的餐厅,请不要推荐教条式的自然酒吧。”
在基于情绪和上下文的搜索中,LLM可以理解和处理以下内容:
• 自我介绍为“挑剔的鉴赏家”
• 偏好提供食物的酒吧
• 希望使用当地食材
• 特定的社区偏好(米特区和克罗伊茨贝格区)
• 区分普通酒吧和“教条式的自然酒吧”
这种细微差别和上下文理解水平使搜索功能能够提供高度个性化和相关的结果,而不仅仅是匹配关键词。
实施基于情感和上下文的搜索可以显著提升各种应用中的用户体验:
• 内部知识库:员工可以使用自然语言查询来查找描述其特定情况或需求的信息。
• 电子商务平台:客户可以用自己的语言描述产品,即使他们不知道确切的术语。
• 客户服务系统:用户可以详细描述他们的问题,然后,系统会为他们提供更精确的解决方案或将他们转接给合适的支持人员。
• 内容管理系统:内容编辑可以使用描述性语言搜索资产或内容,而无需依赖大量的标签或元数据。
智能数据和内容分析
情感分析
让我们看一个实际例子:一个内部系统允许员工发布关于他们工作的简短状态消息,一位经理想要评估团队在特定一周内的整体情绪。在过去,使用定制化的机器学习(ML)模型对这些帖子进行情感分析是具有挑战性的,而有了大型语言模型(LLM),这种复杂性就简化为了一个简单的API调用。
结果甚至不需要以人类可读的语言输出,它可以作为结构化的JSON提供,系统处理该数据以显示匹配的图标或图形,或者,LLM可以简单地输出表情符号来代表情绪,当然,这样的功能只有在员工同意的情况下才会实施。
从复杂数据中获取洞察
另一个例子展示了LLM在分析复杂数据方面的强大能力,即冷却系统的智能报警管理。
传统上,这些系统侧重于:
• 具有实时数据和警报的图形化报警仪表板
• 复杂、可过滤的时间序列数据的表格表示
这些功能很有用,但往往需要大量的人工解释才能获得有意义的洞察,而LLM可以通过将原始数据转化为零样本基础上的可行动洞察,来扩展系统的能力,无需专门的机器学习模型,具体包括:
• 自动报告:LLM可以分析时间序列数据,并用自然语言生成详细报告,这些报告可以突出趋势、异常和关键绩效指标,对技术人员和管理人员都很有价值。例如,一份总结上周报警的报告,识别出重复出现的问题,并提出改进建议。
• 深入分析:LLM可以超越简单的数据呈现,识别并解释数据中的复杂模式。例如,它们可以识别表明系统重大问题的报警序列——这些洞察在传统表格视图或图表中可能会被忽略。
• 预测性洞察:通过分析历史数据,LLM可以预测系统未来的状态,这能够实现主动维护,并帮助预防潜在故障。
• 结构化输出:除了自然语言报告外,LLM还可以输出结构化数据(如JSON),这使得创建动态、图形化的用户界面成为可能,以直观表示复杂信息。
• 自然语言查询:工程师可以用自然语言向系统提问,如“未来几周内哪些设备可能切换到故障转移模式?”并立即收到相关答案和可视化展示,这大大降低了数据评估和解释的门槛,这一功能现在也可以通过OpenAI的实时API获得。
多模态黑箱:书写、说话、观看和听觉
多模态极大地扩展了LLM的能力,能够处理文本、图像、声音和语音的模型实现了复杂的功能组合。一个例子是这样的应用程序,它帮助用户处理复杂的视觉内容,并将其以文本或语音的形式准备出来。
可能的使用案例范围非常广泛:一段扫过书架的视频将识别出的书名填入数据库,鸡舍监控视频中出现的不熟悉的动物被识别出来,一位苏格兰女性在德国租来的汽车的导航系统中用语音说出街道名称。
技术限制和解决方案
LLM存在一定的技术限制,其中最显著的是上下文窗口——即语言模型在一次处理中能够处理的文本量(更准确地说,是token的数量)。
大多数LLM的上下文窗口有限,通常在几千到几十万token之间。例如,GPT-4的上下文窗口是128000个token,而Gemini 1.5 Pro可以处理多达2,000,000个token。虽然这看起来相当可观,但在处理书籍或长视频等输入集时,很快就会成为瓶颈。
幸运的是,有几种策略可以绕过这一限制:
• 分块(分割)和总结:将大文档分割成更小、或适合上下文窗口的片段。每个片段单独处理,然后合并结果。
• 检索增强生成(RAG):不是仅依赖模型(极其广泛)的知识,而是从单独的数据源中检索相关信息,并将其纳入提示中。
• 域适应:将精心的提示工程与领域特定的知识库相结合,可以在不限制模型通用性的情况下提供专业知识。
• 滑动窗口技术:滑动窗口可用于分析长文本序列,如时间序列数据或长文档。模型在遍历整个文档时保留一些上下文。
• 多阶段推理:将复杂问题分解为一系列较小的步骤。每个步骤在上下文窗口限制内使用LLM,之前步骤的结果为后续步骤提供信息。
• 混合方法:传统的信息检索方法(如TF-IDF和BM25)可以预过滤相关的文本段落。这显著减少了后续LLM分析的数据量,从而提高了整个系统的效率。
GenAI作为企业软件的标准组件
公司需要认识到GenAI的本质:它是一种影响一切的通用技术,它将成为标准软件开发栈的一部分,以及新功能或现有功能不可或缺的推动者。确保软件开发未来的可行性,不仅需要获取用于软件开发的AI工具,还需要为AI日益增长的影响力准备基础设施、设计模式和运营。
随着这一趋势的发展,软件架构师、开发人员和产品设计师的角色也将发生变化。他们需要开发设计AI功能、处理非确定性输出以及与各种企业系统无缝集成的新技能和策略。随着纯粹的硬技能变得越来越便宜且更容易自动化,软技能以及技术角色和非技术角色之间的协作将变得比以往任何时候都更加重要。