AIGC宇宙 AIGC宇宙

大型语言模型是否解决了搜索问题?

作者: 李睿
2025-03-13 12:09
译者 | 李睿审校 | 重楼尽管LLM在内容生成方面表现出色,但需要采用语义分块和向量嵌入等技术来解决复杂数据环境中的搜索问题。 大型语言模型(LLM)的涌现推动了信息检索和人机交互的范式转变。 这些模型在大量的文本语料库上进行训练,并针对预测语言任务进行了优化,在响应查询、总结文本内容和生成上下文相关信息方面展现出了显著成效。

大型语言模型是否解决了搜索问题?

译者 | 李睿

审校 | 重楼

尽管LLM在内容生成方面表现出色,但需要采用语义分块和向量嵌入等技术来解决复杂数据环境中的搜索问题。

大型语言模型(LLM)的涌现推动了信息检索和人机交互的范式转变。这些模型在大量的文本语料库上进行训练,并针对预测语言任务进行了优化,在响应查询、总结文本内容和生成上下文相关信息方面展现出了显著成效。

然而,尽管LLM具有令人印象深刻的生成能力,但它们并不能从本质上解决结构化和非结构化数据环境中搜索和检索的复杂性。与其相反,它们需要使用语义分块、向量嵌入和上下文感知个性化等先进技术进行增强,以提高优化精度和召回率。

本文探讨了LLM在解决搜索问题方面的固有局限性,强调了内容生成和检索效率之间的脱节。本文探讨了通过复杂的索引、排序和上下文过滤方法来增强它们在搜索架构中效用的策略,并采用案例研究的方法来揭示LLM在信息检索过程中的幕后操作。

案例研究:餐馆老板的查询

以华盛顿州西雅图的一位餐馆老板为例,这名用户正在研究在纽约开设餐厅的政策,并寻求有关薪酬、工作时间和许可要求的信息。现在,想象一下开发一个基于LLM的聊天机器人为美国各地的餐馆老板提供帮助,这需要了解美国各州县的政策细节。

内容生成与检索之间的差异

企业搜索系统的一个主要挑战是内容创建和以用户为中心的信息检索之间的不对称性。技术文档、公司政策和特定领域的知识库通常以异构的、非结构化的格式存在,使得高效检索变得困难。虽然LLM可以从这些语料库中提取和综合见解,但它们依赖于概率令牌排序的依赖而不是确定性索引机制,导致了结果精度存在可变性和不一致性。

传统的搜索架构利用元数据驱动的索引、基于关键字的检索启发式和相关性排序算法来增强文档的可发现性。相比之下,LLM优先考虑流畅性和上下文连贯性,而不是严格的事实检索,这常常导致幻觉——虽然在语法上看似合理,但在事实上可能不准确,或者在语义上与用户意图不一致。

LLM本质上是无状态的设计

LLM的一个关键方面是它们的无状态特性:除了单一的输入-输出交换之外,它们不会保留过去交互的记忆。除非在输入提示符中明确地提供会话上下文,否则每个查询都是独立处理的。

然而,像ChatGPT和Claude这样的应用程序似乎记住了上下文。这是通过应用程序层的技术实现的,例如:

  • 对话历史记录。在提示符中传递先前的交互以维护上下文。
  • 外部API。集成实时数据源以更新信息。
  • 基于对话的架构。实现跟踪和管理对话的逻辑。
  • 个性化。存储用户属性以定制响应。

从本质上来说,LLM本身并不保留过去的对话。与其相反,应用程序必须在每个提示符中提供相关的历史上下文。各种优化可以提高效率,例如总结之前的对话而不是包括整个历史记录。目前可以假设应用程序所有者将三个主要输入传递给LLM:

  • 最新用户查询。
  • 通过用户属性对用户进行个性化设置。
  • 对话历史。

大型语言模型是否解决了搜索问题?

走向搜索:RAG如何在搜索中变得相关

在上述设计中,如果只传递三个输入(用户查询、用户属性和对话历史),则LLM仅依赖其预训练的知识进行回应,其中可能不包括最新的策略更新。为了解决这个问题,需要第四个输入——相关的政策文件。这就是检索增强生成(RAG)发挥重要作用的地方:

  • 检索。从AWS S3或数据库等源获取最新的策略文档。
  • 增强。将检索到的内容合并到提示符中。
  • 生成。使用增强提示来生成响应,确保LLM优先考虑实时和准确的信息而不是预先训练的知识。

RAG的关键方面是指导LLM依赖检索到的文档而不是过时的训练数据,从而显著提高响应的相关性和准确性。

在当前的设计中,如果仅传递用户查询、用户属性和对话历史这三个输入,LLM将完全依赖于其预训练的知识。尽管它可能在训练过程中遇到过相关政策,但其回应存在过时甚至错误的风险,因为这些回应反映的是训练时的政策状态,而不是实时更新的政策状态。

为了确保准确性,必须引入第四种输入——相关的政策文件。由于LLM是无状态的,它们在会话之后不会保留先前的知识。为了整合实时策略,系统必须在将文档传递到提示符之前下载、解析和格式化文档。这种结构化的方法确保响应是基于当前的政策,而不是过时的训练数据。

通过明确地指导LLM依赖于检索的文档,RAG弥合了搜索和生成之间的差距,将LLM转换为动态的实时知识系统,而不是静态的信息存储库。以下显示了更新后的提示,其中包括将政策文档作为LLM的另一个输入。

大型语言模型是否解决了搜索问题?

LLM的上下文窗口的硬件限制是什么?

由于计算和内存限制,LLM具有固定的上下文长度。LLM的上下文窗口指的是模型在单个输入提示符中可以处理的令牌(单词、子词或字符,具体取决于模型)的最大数量。这包括输入文本和生成的输出。上下文窗口的大小是模型构施加的硬件限制;例如,GPT-4有128K的限制,而Claude Sonnet有200K的限制。

如果输入超过这一限制,则必须使用以下技术截断或处理:

  • 滑动窗口。保留最近的令牌并丢弃旧的令牌。
  • 摘要。压缩过去的互动以适应限制。
  • 内存增加。使用外部存储(例如矢量数据库)动态地检索相关的过去交互。
  • 挑选相关的文档。当使用RAG时,技巧是从文档中挑选最相关的部分以适应上下文长度。

当组合大小超过文档上下文窗口时,如何跨文档搜索

必须将几种高级方法集成到检索管道中,以解决LLM在为RAG场景搜索大量文档时的局限性。

在主要的企业级聊天机器人应用中,遵循以下架构来解决这个问题:

大型语言模型是否解决了搜索问题?

1.多格式数据提取的高级解析

企业知识库通常包括各种文档格式,包括纯文本(.txt)、标记(.md、.html)、结构化数据(.csv、.xlsx)、格式化报告(.pdf、.docx),有时甚至是图像形式。必须采用强大的解析技术来提取和规范这些格式的数据,以促进无缝检索。

例如,如果想让图像信息成为搜索的一部分,LLM也用于对文档进行语义解析以从图像中获取信息。混合解析方法将基于规则的提取与人工智能驱动的文本结构相结合,可以显著提高文档的可访问性。

2.上下文粒度的分块处理

将广泛的语篇语料库分解为语义有意义的单元,提高了可检索性和语境一致性。各种分块方法包括:

  • 固定长度分段。按预定义的令牌阈值拆分文本(例如300个令牌),以确保统一的可检索性。
  • 重叠分块。保持一定程度的内容重叠,以保持连续块之间的上下文连续性。
  • 分层分块。文本结构化为嵌套段,以促进多层级检索粒度。
  • 语义聚类。基于词汇相似性和概念一致性的文本聚合,而不是任意的令牌限制。

3.向量嵌入和高维搜索优化

LLM可以生成文本数据的密集向量表示,通过高维向量搜索方法实现基于相似性的检索。主要优势包括:

  • 增强查询与相关文档的语义匹配。
  • 通过神经相关性评分的搜索结果的上下文感知排名。
  • 基于用户特定交互历史的自适应个性化。
  • 多模态检索,集成文本和非文本数据源。

4.精度优化的重新排序机制

为了确保检索结果与用户意图一致,必须采用复杂的重新排序策略。有效的重新排序方法包括:

  • TF-IDF和BM25评分。优先考虑术语相关性的统计加权技术。
  • 神经关联模型。基于机器学习的自适应优化搜索输出排序的排序机制。
  • 混合检索架构。将关键字索引与基于向量的检索相结合,以实现全面的排名优化。

5.通过用户分析实现上下文个性化

结合特定于用户的属性(例如角色、位置和访问级别),可以提高搜索结果的准确性。系统检索最相关的文档,并根据用户特定的属性对它们进行排序,以确保与访问权限的相关性和遵从性。LLM可以通过利用动态用户分析来根据个人用户的上下文框架定制响应,从而提高搜索效率。

走向混合搜索框架:LLM与传统检索系统的融合

为了充分利用LLM在搜索中的能力,将语义向量索引与人工智能驱动的排名模型集成在一起的混合检索架构势在必行。以下增强是改进这种混合范式的关键:

  • 特定领域的微调。针对专门语料库的定制LLM培训,以提高特定领域的准确性。
  • 动态搜索过滤器。上下文感知过滤,根据用户意图和元数据参数调整检索约束。
  • 多模式集成。将搜索功能扩展到文本之外,以包含结构化数据、表格内容和可视化信息。

提示优化策略。实现缓存、响应路由和查询预处理,以最大限度地减少生成延迟和幻觉风险。

用于改进语义搜索的其他模式

结合以下先进技术,以提高基于RAG检索系统的检索阶段。通过结合这些策略,基于RAG的搜索系统提高了检索准确性、上下文相关性和响应效率,使它们在实际应用程序中更加可靠。

特定领域的嵌入

通用嵌入可能无法捕捉诸如医学、法律或金融等专业领域的细微差别。通过在特定领域的语料库上训练嵌入,可以确保向量表示与相关术语、上下文和语义更紧密地一致。这提高了基于相似度的检索的准确性,使搜索结果更精确,更符合上下文。

高级解析

许多企业知识库包含各种文档格式,例如PDF、电子表格、HTML页面和扫描图像。从这些格式中提取结构化信息需要人工智能支持的解析技术,包括扫描文档的光学字符识别(OCR)、表格数据的基于规则的提取以及非结构化文本的基于NLP的结构化。正确的解析确保信息无论格式如何,都可以访问和搜索。

动态过滤器

通过应用基于元数据、用户意图和上下文约束的动态过滤机制,可以显著提高搜索精度。例如,可以根据用户的位置、日期范围、文档类型或访问权限应用过滤器,从而确保检索的结果高度相关和个性化。这些过滤器可以优化搜索输出并减少结果中的噪声。

表格数据和图像处理

传统的搜索系统难以处理非文本数据,例如表格、图表和图像。将表格数据转换为结构化嵌入允许检索模型识别数据点内的模式和关系。同样,图像到文本模型和多模式嵌入使搜索系统能够处理和检索相关的视觉内容,从而将搜索功能扩展到传统的基于文本的方法之外。

排序和重新排序

一旦检索到文档,就必须对它们进行排序,以优先考虑最相关的文档。将BM25和TF-IDF等传统排序技术与神经重新排序模型相结合,改进了结果排序。混合排名策略确保搜索结果与语义意图保持一致,减少了对关键字匹配的依赖,并提高了复杂搜索查询的准确性。

提示缓存和路由

为类似的请求反复查询LLM的效率很低。提示缓存是LLM框架中的一项新技术,用于存储经常使用的查询和响应,从而显著降低计算成本和延迟。此外,提示路由通过最合适的检索管道引导查询,从而优化资源使用并缩短响应时间。这可以确保用户在保持效率的同时获得更快、更相关的结果。

结论

虽然LLM在搜索能力方面带来了革命性的进步,但它们还没有消除结构化检索框架的必要性。语义分块、基于向量的索引、动态用户分析以及复杂的排序启发式的集成对于提高搜索精度仍然至关重要。寻求利用LLM进行企业搜索的组织必须采用多种方法,将人工智能的生成优势与传统搜索方法的确定性和严谨性相结合。

最终,搜索的发展可能会趋同于一种混合范式——在这种范式中,LLM会增强而不是取代现有的检索技术。通过持续的改进和战略增强,可以有效地利用LLM来创建更直观、上下文感知和准确的搜索体验,减轻其固有的局限性,并开辟信息检索的新领域。原文标题:Have LLMs Solved the Search Problem?,作者:Avi Dubey

相关资讯

2025年的五大AI趋势:智能体、开源和多模型

随着AI技术的飞速发展,2025年的AI领域将迎来前所未有的变革。 从开源AI的崛起,到多模态AI的普及,再到本地AI的蓬勃发展,以及AI成本的显著降低和智能体的广泛应用,这五大趋势将深刻影响企业和个人的未来发展。 2025年,AI领域不再仅仅局限于大型语言模型(LLM),而是聚焦于更智能、更廉价、更专业和更本地的AI解决方案,这些方案能够处理多种数据类型,并实现自主行动。
3/3/2025 11:16:18 AM
Sol Rashidi

有望重新定义语言生成技术的扩散模型——LLaDA​

译者 | 朱先忠审校 | 重楼简介如果我们能让语言模型更像人类一样思考,结果会怎样? 如果它们不是一次写一个字,而是先勾勒出自己的想法,然后逐渐完善,结果又会怎样? 这正是大型语言扩散模型(LLaDA)所引入的:一种与大型语言模型(LLM)中当前使用的文本生成不同的方法。
3/17/2025 11:35:36 AM
朱先忠

基于DeepSeek推理的文本聚类

译者 | 李睿审校 | 重楼开发人员需要开发和理解一种新的文本聚类方法,并使用DeepSeek推理模型解释推理结果。 本文将探索大型语言模型(LLM)中的推理领域,并介绍DeepSeek这款优秀工具,它能帮助人们解释推论结果,构建能让终端用户更加信赖的机器学习系统。 在默认情况下,机器学习模型是一种黑盒,不会为决策提供开箱即用的解释(XAI)。
3/31/2025 8:28:24 AM
李睿