文章列表

分类

标签

谷歌测试 Gemini AI 游戏助手：实时分析屏幕以提供游戏建议

谷歌今日发布了 Gemini 2.0，并透露正在探索如何利用该模型构建 AI 游戏助手来理解视频游戏规则，从而为用户提供帮助。谷歌 DeepMind 首席执行官 Demis Hassabis 和首席技术官 Koray Kavukcuoglu 在一篇博文中表示，这些 AI 助手能够“仅基于屏幕上的画面对游戏进行推理，并通过实时对话为玩家提供后续操作建议。”他们还提到，这些助手还可以“利用谷歌搜索，将玩家与网络上丰富的游戏知识连接起来。”

12/12/2024 9:02:04 AM

远洋

如何在安卓手机上本地安装和运行LLM?

译者 | 布加迪审校 | 重楼了解如何将AI的力量径直带入到你的安卓手机上：没有云，没有互联网，只有纯粹的设备端智能！在安卓手机上本地运行大语言模型（LLM）意味着你可以在不依赖云服务器或互联网连接的情况下访问人工智能（AI）模型。这种本地环境通过确保数据安全、并在设备端来确保隐私。

12/12/2024 8:26:50 AM

布加迪

OpenAI下一代模型突遭泄露！「半GPT-5」旗舰模型猎户座要来了？

OpenAI的新模型，竟被意外泄露了？圣诞马拉松第四天，网友们从OpenAI研究员Karina Nguyen介绍Canvas功能的帖子里，发现了蛛丝马迹。一个名叫「ChatGPT ε」的模型，现身了。

12/12/2024 12:40:07 AM

新智元

谷歌深夜炸场：Gemini 2.0 正式发布，号称迄今智能体时代最有能力的 AI 模型

谷歌正式发布Gemini 2.0，号称迄今为止为智能体时代最有能力的AI模型，带来了增强的性能、更多的多模态性和新的原生工具使用。

12/11/2024 11:55:14 PM

问舟

NeurIPS 2024 | LLM智能体真能模拟人类行为吗？答案有了

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

12/11/2024 8:49:00 PM

机器之心

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

在人工智能领域，我们一直以为顶尖的多模态大模型已经无所不能，GPT-4o在ASR（音频转文字）任务上已经达到了97%的正确率，更是凸显了强大的音频理解能力。然而，最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小！下面是一个例子：结果让人难以置信：这些顶尖的AI模型都未能准确判断出音量的差异！

12/11/2024 1:30:00 PM

新智元

DeepSeek V2 系列 AI 模型收官，联网搜索上线

DeepSeek 官方公众号昨日（12 月 10 日）发布博文，宣布 DeepSeek V2 系列收官，推出 DeepSeek V2.5 的最终版微调模型 DeepSeek-V2.5-1210，主要支持联网搜索功能，全面提升各项能力。

12/11/2024 11:53:59 AM

故渊

YouTube 自动配音功能推广至更多知识类频道，借助 AI 生成视频多语言配音

YouTube当地时间周二宣布，其自动配音功能已开始推广至更多的频道，创作者可为其视频生成多种语言的翻译音频。此前，这项功能仅限于少数创作者进行测试。

12/11/2024 11:21:50 AM

清源

OpenAI员工意外泄露下一代ChatGPT！网友：故意的还是不小心的？

OpenAI员工发推介绍今天发布的新功能，结果意外泄露了未发布的模型？在Reddit上，被列文虎克附体的网友发现，OpenAI研究员Karina Nguyen展示的新功能界面中出现了一个陌生的名字——ChatGPT ε（第五个希腊字母，读作Epsilon）。这名网友猜测，这极可能就是之前被传出的下一代模型“猎户座”。

12/11/2024 10:11:02 AM

面壁智能获新一轮数亿元融资，高效端侧智能持续引领行业发展

近日，面壁智能完成新一轮数亿元融资，本轮融资由龙芯创投、鼎晖百孚、中关村科学城基金和赛富基金联合领投，北京市人工智能产业投资基金与清科创投跟投，万甲资本担任本轮独家财务顾问。本轮融资完成后，面壁智能将进一步提速以端侧AI为代表的高效大模型商业化布局，以同等参数、更高性能、更低能耗、更快速度的高效大模型深度服务行业，为用户创造具体可感知的价值。面壁智能是以「高效为第一性原理」的大模型公司。

12/11/2024 9:17:00 AM

新闻助手

今天，ChatGPT升级为生产力工具：Canvas全量开放，人+AI协作模式启动

这就是大模型最好的应用方式？今天是 OpenAI 十二天连更的第四天，OpenAI 准备革新的是生产力。是的，就是 OpenAI 在 10 月份宣布的「ChatGPT 写作和编程新方式」，Canvas。

12/11/2024 8:53:00 AM

机器之心

OpenAI 首席财务官：向企业收取每月数千美元订阅费是合理的，能更好体现技术价值

据彭博社报道，OpenAI 首席财务官 Sarah Friar 表示，为其AI软件向企业用户每月收取数千美元的费用是合理的，因为这能更好地体现技术为企业提供的价值。

12/11/2024 8:21:12 AM

清源

RARE: 提升LLM推理准确性和事实完整性的检索增强框架思路浅尝

MCTS & rStar蒙特卡洛树搜索（MCTS）蒙特卡洛树搜索（MCTS）是一种用于解决复杂决策问题的算法，常用于游戏等领域。它的基本思想是通过构建一棵搜索树并模拟各种可能的行动来估计每个行动的价值。 MCTS的过程可以分为四个主要步骤：选择（Selection）：从根节点开始，根据某种策略（如UCT）遍历子节点，直到找到一个叶节点。

12/11/2024 8:12:24 AM

余俊晖

谷歌被曝向美国 FTC 施压：要求解除微软云对 OpenAI 技术的独家托管

据The Information援引知情人士消息称，谷歌近期已向美国联邦贸易委员会（IT之家注：简称FTC）施压，要求解除微软在其云服务器上托管OpenAI技术的独家协议。

12/11/2024 8:10:11 AM

清源

OpenAI 开放 Canvas 效率神器：让 ChatGPT AI 更懂你，可执行代码、风格化写作

OpenAI 公司今天（12 月 11 日）宣布，将面向所有 ChatGPT 用户，开放 Canvas 功能，重点提升用户写作和编码项目的效率。

12/11/2024 6:43:22 AM

故渊

看3.2亿帧视频学会3D生成，智源开源See3D：只需单图即可生成3D场景

近日，著名AI学者、斯坦福大学教授李飞飞团队WorldLabs推出首个「空间智能」模型，仅输入单张图片，即可生成一个逼真的3D世界，这被认为是迈向空间智能的第一步。几乎同时，国内智源研究院推出了首个利用大规模无标注的互联网视频学习的3D生成模型See3D—See Video, Get 3D。 △See3D支持从文本、单视图和稀疏视图到3D的生成，同时还可支持3D编辑与高斯渲染不同于传统依赖相机参数（pose-condition）的3D生成模型，See3D采用全新的视觉条件（visual-condition）技术，仅依赖视频中的视觉线索，生成相机方向可控且几何一致的多视角图像。

12/10/2024 3:17:11 PM

量子位

ChatGPT 高级语音模式主创“自立门户”：新公司估值达 2 亿美元，打造有情感的 AI 语音交互

前 OpenAI 研究员 Alexis Conneau 最新创立 WaveForms AI，目前已获 a16z 4000 万美元种子轮融资，剑指音频 AI 交互领域。

12/10/2024 2:29:43 PM

故渊

LLM很难变成AGI？科学家：创造AGI理论上可行

今年9月份OpenAI对外宣称，AI能力达到新等级，相比之前的LLM，新AI更接近人类的思考能力。 OpenAI的断言引起争论：到底还要等多久机器才能具备人类大脑一样的认知能力?大家争论的智能就是所谓的AGI，它可以帮助人类解决复杂问题，比如气候变化、大流行、癌症治疗等等。 AGI充满不确定，它也会给人类带来风险。

12/10/2024 10:16:26 AM

小刀

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 OpenAI发布34页智能体实践指南：从网络搜索到代码编写别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体 OpenAI发布GPT-4.1指令提示工程指南 Midjourney图像编辑器迎来重大更新：全新UI、图层功能与智能工具上线

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测人形机器人伟达 Transformer 百度深度学习 AI视频苹果模态 xAI 字节跳动驾驶文本搜索大语言模型具身智能 Claude Copilot 神器推荐 LLaMA 算力安全应用视频生成视觉科技亚马逊大型语言模型干货合集特斯拉 2024 AGI 训练