大模型

腾讯微信正式发布多模态大模型 POINTS 1.5

据官方介绍，这一代 POINTS 模型，不仅兼顾了 POINTS1.0 中所坚持的效率优先的思想，同时极大了增强了模型的性能。

12/14/2024 7:02:05 PM

问舟

阶跃星辰推出国内首个千亿参数端到端语音大模型“ Step-1o”

Step-1o 支持语音、文本等混合形式的输入和输出，可以快速反应并随时打断，它也能深度理解和模仿音色、韵律、方言、个性化的口语表达习惯等声音特征。

12/14/2024 5:44:41 PM

浩渺

使用小型视觉语言模型（VLM）进行物体识别与计数

今天的重点是一个具有无数实际应用的功能：在边缘设备（如智能手机、物联网设备和嵌入式系统）上运行小型视觉语言模型（VLM）。这些模型在识别和指出物体方面越来越出色。具体来说，它们在检测制造缺陷、计数可用停车位或发现癌细胞方面表现优异。

12/13/2024 3:53:58 PM

二旺

微软出招！新模型数学超GPT-4o编程胜Llama3.3，训练新范式引热议：midtraining

OpenAI谷歌天天刷流量，微软也坐不住了，推出最新小模型Phi-4。参数量仅14B，MMLU性能就和Llama 3.3/ Qwen2.5等70B级别大模型坐一桌。数学能力上，Phi-4在美国数学竞赛AMC 10/12上超过了GPT-4o等一众大模型，分数冲上90。

12/13/2024 2:03:44 PM

量子位

扩散模型=流匹配？谷歌DeepMind博客深度详解这种惊人的等价性

扩散模型和流匹配实际上是同一个概念的两种不同表达方式吗？从表面上看，这两种方法似乎各有侧重：扩散模型专注于通过迭代的方式逐步去除噪声，将数据还原成清晰的样本。而流匹配则侧重于构建可逆变换系统，目标是学习如何将简单的基础分布精确地映射到真实数据分布。

12/13/2024 12:07:15 PM

机器之心

自2022年11月30日OpenAI发布ChatGPT以来，大模型技术掀起了新一轮人工智能浪潮。 ChatGPT在各个领域（如人机对话、文本摘要、内容生成、问题解答、识图、数学计算、代码编写等）取得了比之前算法好得多的成绩，很多方面都超越了人类专家的水平，特别是人机对话具备了一定的共情能力，这让AI领域的工作者和普通大众都相信AGI（Artificial General Intelligence，通用人工智能）时代马上就要来临了。大模型除了对话能力达到了跟真正互动的水准，更厉害的是当模型参数规模达到一定量（100B ，这里B是billion，十亿的意思）时，会涌现出新的能力，即大模型具备举一反三、任务分解、逻辑推理、解决未知任务的能力，这在之前的机器学习范式中是从没见到过的。

12/13/2024 8:54:42 AM

刘强

为什么ETL和AI不是竞争对手，而是数据未来的合作伙伴

译者 | 晶颜审校 | 重楼去年，大模型经历了爆炸式增长，进一步完善了人工智能解决问题的能力。今年，随着炒作的热度消退，大模型进入了更深层次的阶段，旨在重塑各行业的基础逻辑。在大数据处理中，大模型与传统ETL （即提取Extract、转换Transform、加载Load）过程之间的冲突引发了新的争论。

12/13/2024 8:00:00 AM

晶颜

专治大模型“套壳”！上海AI实验室等给LLM做“指纹识别”，模型剪枝、合并等也无所遁形

大模型“套壳”事件防不胜防，有没有方法可以检测套壳行为呢？来自上海AI实验室、中科院、人大和上交大的学者们，提出了一种大模型的“指纹识别”方法——REEF（Representation Encoding Fingerprints）。在不改变模型性能的前提下，利用REEF就可以精准识别未经授权的后续开发行为。

12/13/2024 7:39:22 AM

容联云举办数智金融应用论坛，探索AI能力落地金融“营销服”

12月12日，容联云举办“步进·新金融”2024数智金融应用论坛。大会聚焦运营、营销、服务等金融业务应用场景，共同探讨金融行业数智化转型的最佳实践和大模型应用创新成果。现场嘉宾通过真实的案例与数据呈现金融行业数智化转型带来的实际成效，与生态伙伴共同推动数智金融的高质量发展。

12/12/2024 7:53:00 PM

新闻助手

谷歌：“AI 概览”功能计划明年面向更多国家、更多语言开放

谷歌首席执行官桑达尔·皮查伊表示，会将Gemini 2.0的高级推理能力融入AI Overviews（AI概览），未来将能够处理“更复杂的主题”以及“多模态”和“多步骤”的搜索，包括高级数学问题和编程问题。

12/12/2024 10:57:08 AM

清源

豆包 Marscode 优秀实践

毫无疑问，Marscode 能解决非常多基础问题，特别对于编程新手而言，它能相对准确地生成各种代码，完成编程任务，但其底层并不神秘，本质上就是在传统 IDE 基础上，搭配足够好的交互与足够好的 LLM，从而超越传统 IDE。交互方面，它在 VS Code 基础上，补充提供了：提供了几乎毫无门槛的代码自动补全能力，并且支持多行编辑，这在一些场景，如修改变量名时，非常好用。行内、独立问答面板，可用于快速解答问题。

12/12/2024 9:02:35 AM

范文杰

谷歌测试 Gemini AI 游戏助手：实时分析屏幕以提供游戏建议

谷歌今日发布了 Gemini 2.0，并透露正在探索如何利用该模型构建 AI 游戏助手来理解视频游戏规则，从而为用户提供帮助。谷歌 DeepMind 首席执行官 Demis Hassabis 和首席技术官 Koray Kavukcuoglu 在一篇博文中表示，这些 AI 助手能够“仅基于屏幕上的画面对游戏进行推理，并通过实时对话为玩家提供后续操作建议。”他们还提到，这些助手还可以“利用谷歌搜索，将玩家与网络上丰富的游戏知识连接起来。”

12/12/2024 9:02:04 AM

远洋

如何在安卓手机上本地安装和运行LLM?

译者 | 布加迪审校 | 重楼了解如何将AI的力量径直带入到你的安卓手机上：没有云，没有互联网，只有纯粹的设备端智能！在安卓手机上本地运行大语言模型（LLM）意味着你可以在不依赖云服务器或互联网连接的情况下访问人工智能（AI）模型。这种本地环境通过确保数据安全、并在设备端来确保隐私。

12/12/2024 8:26:50 AM

布加迪

谷歌深夜炸场：Gemini 2.0 正式发布，号称迄今智能体时代最有能力的 AI 模型

谷歌正式发布Gemini 2.0，号称迄今为止为智能体时代最有能力的AI模型，带来了增强的性能、更多的多模态性和新的原生工具使用。

12/11/2024 11:55:14 PM

问舟

NeurIPS 2024 | LLM智能体真能模拟人类行为吗？答案有了

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

12/11/2024 8:49:00 PM

机器之心

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

在人工智能领域，我们一直以为顶尖的多模态大模型已经无所不能，GPT-4o在ASR（音频转文字）任务上已经达到了97%的正确率，更是凸显了强大的音频理解能力。然而，最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小！下面是一个例子：结果让人难以置信：这些顶尖的AI模型都未能准确判断出音量的差异！

12/11/2024 1:30:00 PM

新智元

YouTube 自动配音功能推广至更多知识类频道，借助 AI 生成视频多语言配音

YouTube当地时间周二宣布，其自动配音功能已开始推广至更多的频道，创作者可为其视频生成多种语言的翻译音频。此前，这项功能仅限于少数创作者进行测试。

12/11/2024 11:21:50 AM

清源

面壁智能获新一轮数亿元融资，高效端侧智能持续引领行业发展

近日，面壁智能完成新一轮数亿元融资，本轮融资由龙芯创投、鼎晖百孚、中关村科学城基金和赛富基金联合领投，北京市人工智能产业投资基金与清科创投跟投，万甲资本担任本轮独家财务顾问。本轮融资完成后，面壁智能将进一步提速以端侧AI为代表的高效大模型商业化布局，以同等参数、更高性能、更低能耗、更快速度的高效大模型深度服务行业，为用户创造具体可感知的价值。面壁智能是以「高效为第一性原理」的大模型公司。

12/11/2024 9:17:00 AM