您正在搜索 llm-agent-pptagent-ppt-zi-dong-sheng-cheng-agent-kuang-jia

AMD把o1炼成了实验室助手，自动科研经费节省84%

芯片强者AMD最新推出科研AI，o1-preview竟成天选打工人？注意看，只需将科研idea和相关笔记一股脑丢给AI，研究报告甚至是代码就能立马出炉了。这个AI系统代号“Agent Laboratory”，全程由LLM（大语言模型）驱动完成文献综述、实验，以及报告，一站式搞定科学研究。

企业软件是否已告别“太贵”时代？

在不太遥远的未来，GenAI将使企业软件领域以往无法实现或成本过高的功能成为可能。 GenAI，尤其是大型语言模型(LLM)，正在改变公司开发和交付软件的方式。从聊天机器人和简单自动化工具开始的这一进程，正在发展成为功能更为强大的AI系统——这些系统与软件架构深度融合，并影响从后端流程到用户界面的方方面面。

NaViT概述NaViT利用序列打包训练，处理任意分辨率和长宽比的输入，在大规模监督和对比图像文本预训练中提高了训练效率，可以用于图像和视频分类、目标检测和语义分割，并在鲁棒性和公平性基准测试中取得了改进的结果。图片下面对NaViT在数据处理、模型架构和训练策略方面的优化总结：数据预处理：如上图展示了NaViT在处理任意分辨率的方法，将不同分辨率的图像分割成补丁（patches），然后应用令牌丢弃（token drop）操作，类似于dropout，以加速训练过程。预处理后，将三张图像生成的补丁展平为一个序列，不足的部分用填充（padding）补充。

如何使用Ollama在个人计算机上运行开源LLM

译者 | 刘涛审校 | 重楼如今，AI工具已变得司空见惯，你可能每天都在使用它们。保护你的个人和商业机密数据的关键途径之一，就是在自己的基础配置上运行自己的AI。本指南将向你介绍如何在自己的计算机上托管一个开源大语言模型（LLM）。

Science子刊 | GPT4、Llama等LLM可以调节粒子加速器？仅50%性能优化，未来可期

编辑 | 萝卜皮粒子加速器的自主调节是一个活跃且具有挑战性的研究领域，其目标是实现先进的加速器技术和尖端的高影响力应用，例如物理发现、癌症研究和材料科学。但是，自主加速器调节仍然严重依赖经验丰富的熟练操作员的手动操作。德国亥姆霍兹协会旗下 DESY（Deutsches Elektronen Synchrotron）的研究人员建议使用大型语言模型（LLM）来调整粒子加速器。

别再将LLM当成数据库了

译者 | 布加迪审校 | 重楼想象一下，你戴着耳机驾驶一辆汽车，每五分钟才更新一次路况信息，而不是持续不断地提供当前位置情况的视频流。过不了多久，你就会撞车。虽然这种类型的批处理在现实世界中并不适用，却是当今许多系统运行的方式。

上交大揭露大模型审稿风险：一句话就能让论文评分飞升

大语言模型（LLMs）正以前所未有的方式，深刻影响着学术同行评审的格局。同行评审作为科学研究的基石，其重要性毋庸置疑。然而，随着大语言模型逐渐渗透到这一核心过程，我们是否已经准备好面对它可能带来的深远影响？

减少LLM幻觉的五大技巧和方法

译者 | 布加迪审校 | 重楼本文介绍了使用LangGraph减少LLM幻觉的简单技巧。如果你使用过LLM，就知道它们有时会产生幻觉。这意味着它们生成的文本要么毫无意义，要么与输入数据相矛盾。

2024年优秀Web开发工具发展趋势总结

译者 | 陈峻审校 | 重楼在科技领域我们经常会看到，某一项技术的兴起和受到关注，往往会为其他相关领域的蓬勃发展创造广阔的空间和资源。例如，在大量涌现的LLM（大语言模型）领域，入场的玩家和资本产生了蝴蝶效应，为其他技术稍逊、但小众必要的软件项目，提供了更多的发展可能性与应用空间。它们虽然并不处在技术迭代的第一线，但是确实能让项目本身、以及用户从中受益。

基于谷歌Gemini多模态模型实现PDF文档自动化处理

译者 | 朱先忠审校 | 重楼引言近年来，自动化文档处理成为ChatGPT革命的最大赢家之一，因为LLM能够在零样本设置中处理广泛的主题和任务，这意味着无需域内标记的训练数据。这使得构建AI驱动的应用程序来处理、解析和自动理解任意文档变得更加容易。虽然使用LLM的简单方法仍然受到非文本上下文（例如图形、图像和表格）的阻碍，但是这正是我们将在本文中尝试解决的问题，而且我们特别关注PDF文件格式。

Cursor 深度评测：革命性提效工具还是过誉的玩具？

最近 Cursor 很火，火到我身边的程序员们已经不聊河北彩花，LOL，黑猴等，而是在各种场合讨论这个 Cursor 的辅助编程能力。各类内容平台也在以惊人的速度，迭代出了许多相关教学视频：图片我试用了一段时间，第一感觉确实很惊艳，能帮我解决很多基础问题，实打实地提升开发效率，印象比较深的，包括：Codebase Indexing、@symbol 等功能带来的更强的上下文索引能力，而这极大提升最终 LLM 生成的代码效果；Cursor Composer 功能提供了一个注意力非常聚焦的编程面板，相比于过往 GPT 等产品的即聊即抛的模式，更容易做好跨文件的编辑开发，而这更符合专业开发者的模块化编程习惯。但是，我觉得，至少在当下阶段，这类产品的定位只能是“辅助编程”，虽然能极大提升效率，但还只是编程活动中的辅助客体，俗称打下手；程序员本体 —— 人类智能依然是主体地位，有点类似于掌柜的吧。

Bolt.new vs Cursor ，怎么选？

大家好，我是汤师爷~这篇聊聊 Bolt.new 和 Cursor 的对比。图片Bolt.new 是一款基于 SaaS 的 AI 编码平台。它由 LLM 驱动的智能体作为底层，并结合 WebContainers 技术，让用户可以直接在浏览器中进行编码和运行。

TurboAttention：基于多项式近似和渐进式量化的高效注意力机制优化方案，降低LLM计算成本70%

随着大型语言模型(LLMs)在AI应用领域持续发展，其计算成本也呈现显著上升趋势。数据分析表明，GPT-4的运行成本约为700美元/小时，2023年各企业在LLM推理方面的总支出超过50亿美元。这一挑战的核心在于注意力机制——该机制作为模型处理和关联信息的计算核心，同时也构成了主要的性能瓶颈。

腾讯云 ES：一站式 RAG 方案，开启智能搜索新时代

在大型语言模型（LLM）引领的革命浪潮中，搜索与大模型的紧密结合已成为推动知识进步的关键要素。作为开源搜索引擎排名第一的 Elasticsearch（ES），结合沉淀多年的文本搜索能力和强大的向量检索能力实现混合搜索，使搜索变得更准、更全、更智能。腾讯云 ES 多年来持续对开源 ES 的性能、成本、稳定性以及分布式架构进行深度增强优化，并在海量规模的云业务中接受考验。

USENIX Sec'25 | LLM提示词注入攻击如何防？UC伯克利、Meta最新研究来了

本文介绍对 LLM 提示词注入攻击（prompt injection）的通用防御框架。首篇论文已被安全顶会 USENIX Security 2025 接收，第一作者陈思哲是 UC Berkeley 计算机系博士生，Meta FAIR 访问研究员，研究兴趣为真实场景下的 AI 安全。他的导师是 David Wagner (UCB), 郭川 (Meta), Nicholas Carlini (Google)。

为多模态LLM引入ControlNet理念，开源插件解决灾难性遗忘

多模态大模型内嵌语言模型总是出现灾难性遗忘怎么办？像文生图那样有ControlNet即可解决。这就是由360人工智能研究院提出的IAA的核心思路。

本地构建Llama 3.2-Vision多模态LLM聊天应用实战

译者 | 朱先忠审校 | 重楼本文将以实战案例探讨如何在类似聊天的模式下从本地构建Llama3.2-Vision模型，并在Colab笔记本上探索其多模态技能。简介视觉功能与大型语言模型（LLM）的集成正在通过多模态LLM（MLLM）彻底改变计算机视觉领域。这些模型结合了文本和视觉输入，在图像理解和推理方面表现出令人印象深刻的能力。

图像领域再次与LLM一拍即合！idea撞车OpenAI强化微调，西湖大学发布图像链CoT

OpenAI最近推出了在大语言模型LLM上的强化微调（Reinforcement Finetuning，ReFT），能够让模型利用CoT进行多步推理之后，通过强化学习让最终输出符合人类偏好。无独有偶，齐国君教授领导的MAPLE实验室在OpenAI发布会一周前公布的工作中也发现了图像生成领域的主打方法扩散模型和流模型中也存在类似的过程：模型从高斯噪声开始的多步去噪过程也类似一个思维链，逐步「思考」怎样生成一张高质量图像，是一种图像生成领域的「图像链CoT」。与OpenAI不谋而和的是，机器学习与感知（MAPLE）实验室认为强化学习微调方法同样可以用于优化多步去噪的图像生成过程，论文指出利用与人类奖励对齐的强化学习监督训练，能够让扩散模型和流匹配模型自适应地调整推理过程中噪声强度，用更少的步数生成高质量图像内容。

llm-agent-pptagent-ppt-zi-dong-sheng-cheng-agent-kuang-jia 的搜索结果