大模型

Adobe 预告安卓版 Acrobat 新功能：本地调用 Gemini Nano 汇总 PDF 文档内容

开发者米沙尔・拉赫曼（Mishaal Rahman）昨日发布博文，表示 Adobe 公司将充分利用 Gemini Nano 模型，计划在安卓新版 Acrobat 中实现汇总文档内容等 AI 功能。谷歌推出了名为 AICore 的全新工具，可以让应用开发者调用 Gemini Nano 本地模型。谷歌基本解决所有的技术问题，因开发人员可以专注于为他们的应用程序构建新功能。IT之家从报道中获悉，在谷歌 I / O 主题演讲中，Adobe 表示已着手利用该工具改造 Acrobat 应用程序，实现快速总结 PDF 文件内容，

5/23/2024 8:34:01 AM

故渊

三句不离 AI：谷歌 2024 I / O 开发者大会一文汇总，Gemini、Veo、Imagen 大模型深夜炸场

2024 年谷歌 I / O 开发者大会在公司总部附近的海岸线圆形剧场如期召开。此次大会上出现频率最高的词便是 AI，据谷歌 Gemini AI 模型的统计，整个演说中 AI 一词被提到了 121 次，但实际上可能远不止于此。在这场开发者大会上，谷歌推出了多个引人注目的大模型和 AI 新功能。1、Gemini AI 系列模型在本次开发者大会上发布了包括 Gemini 1.5 Pro、轻量级 Gemini 1.5 Flash 和 Gemini Nano 在内新版本的 Gemini AI 系列模型。Gemini 1.5

5/21/2024 9:59:37 AM

满河（实习）

声称“媲美人类专家”，谷歌 Gemini 1.5 Pro 数学版“提智”：MATH 基准准确率 91.1%

谷歌公司上周发布技术报告，表示 Gemini 1.5 Pro 模型在经过专门的数学领域训练之后，大幅提高了数学成绩，并成功解决了国际数学奥林匹克竞赛的部分问题。谷歌针对数学场景有针对性地训练 Gemini 1.5 Pro 模型，并通过 MATH 基准、美国数学邀请考试（ AIME) 和谷歌内部的 HiddenMath 基准进行测试。根据谷歌的数据，数学型 Gemini 1.5 Pro 在数学基准测试中的表现“与人类专家的表现相当”，与标准的非数学型 Gemini 1.5 Pro 相比，数学型 Gemini 1.5

5/21/2024 9:03:42 AM

故渊

绕过直接数值模拟或实验，生成扩散模型用于湍流研究

编辑 | 绿罗了解湍流平流粒子的统计和几何特性是一个具有挑战性的问题，对于许多应用的建模、预测和控制至关重要。例如燃烧、工业混合、污染物扩散、量子流体、原行星盘吸积和云形成等。尽管过去 30 年在理论、数值和实验方面做出了很多努力，但现有模型还不能很好地再现湍流中粒子轨迹所表现出的统计和拓扑特性。近日，意大利罗马第二大学（University of Rome Tor Vergata）的研究人员，提出了一种基于最先进的扩散模型的机器学习方法，可以在高雷诺数的三维湍流中生成单粒子轨迹，从而绕过直接数值模拟或实验来获得可

5/20/2024 4:54:00 PM

ScienceAI

为确保训练数据公开透明，英国政府将加快制定人工智能相关规则

据《金融时报》报道，近日，英国政府文化大臣露西・弗雷泽宣布将加快制定有关人工智能透明度的规则，以帮助保护内容创作者。她表示，这些规则的出台将意味着 AI 公司必须更加公开、透明地披露训练模型所用的数据情况，用户也可以自己选择哪些数据可被 AI 公司用来训练，作品被用于训练模型的创作者也将获得报酬。图源 Pexels不仅仅是英国，欧盟当前也正在根据其人工智能法案制定类似的规则。根据该法案，AI 开发者将需要提供一份足够详细的培训内容概要，并实施相关政策，以确保自身操作符合欧盟版权法的规定。作为回应的一部分，OpenA

5/19/2024 3:56:16 PM

清源

谷歌联合创始人谢尔盖・布林称谷歌眼镜问世“过早”，在 AI 时代将是完美选择

感谢综合 Business Insider、CNET 报道，谷歌联合创始人谢尔盖・布林在今年的谷歌 I / O 大会结束后，接受采访时谈到了智能眼镜相关话题。谢尔盖・布林表示，此次展示的神秘眼镜产品 Project Astra 是 AI 眼镜的“完美硬件”。“这很有趣，因为它就像完美的硬件，它就像十年之后的杀手级应用。”IT之家注：谢尔盖・布林在 2012 年谷歌 I / O 大会上首次展示了谷歌眼镜（Google Glass），2013 年向部分测试者提供，2014 年开始大范围销售，售价 1500 美元。这款眼

5/17/2024 10:45:13 PM

清源

索尼音乐集团警告 AI 公司不得使用自家资产进行模型训练

感谢根据彭博社的一份新报告，索尼音乐集团正在通知各大 AI 公司不得“未经授权使用公司旗下的资产进行模型训练”。IT之家获悉，索尼音乐目前已经向 700 多家公司发送了信件，以保护其知识产权，索尼提到，任何 AI 公司未经明确许可，不得使用索尼旗下的专辑封面艺术、音乐作品和歌词等内容。在 AI 模型的训练上，版权一直是一项令人“头大”的问题，如今业界举着牌子声称“某某模型侵犯原始作者版权”的事件已经屡见不鲜，参考IT之家此前报道，今年 4 月美国众议员 Adam Schiff 提出了一项新的法案，建议 AI 公司应

5/17/2024 6:59:44 AM

漾仔

对话零一万物：大模型产品要找到 TC-PMF

上次零一万物（以下简称“零一”）开发布会还是在 2023 年 11 月，宣布成立后的模型首秀：发布中英双语大模型“Yi”，并将其开源。这一次，时隔半年，零一不仅将基座模型卷到千亿量级，甚至还直接拿出一款 C 端新品“万知”，零一万物创始人李开复称其为“AI-First 版 office”。在模型层，零一发布了千亿参数的 Yi-Large 闭源模型，在第三方评测基准斯坦福大学的英语排行 AlpacaEval 2.0上，Yi-Large 可与 GPT-4 比肩（如下图所示）；并全面升级了开源模型系列 Yi-1.5，分为 34B、9B、6B三个版本，且提供了 Yi-1.5-Chat 微调模型可供开发者选择。

5/16/2024 3:54:00 PM

张进

谷歌 2 小时复仇硬刚 GPT-4o：Gemini 颠覆搜索，视频 AI 对抗 Sora

【新智元导读】被 OpenAI 提前截胡的谷歌，昨天不甘示弱地开启反击！大杀器 Project Astra 效果不输 GPT-4o，文生视频模型 Veo 硬刚 Sora，用 AI 彻底颠覆谷歌搜索，Gemini 1.5 Pro 达到 200 万 token 上下文…… 谷歌轰出一连串武器，对 OpenAI 贴脸开大。谷歌 I / O 2024 如期来了，眼花缭乱地发布了一堆更新。跟 OpenAI 半小时的「小而美」发布会相比，谷歌显然准备得更加充分，当然，时间也相当之长……▲ 2 个多小时的发布会也是挑战着观众们的

5/16/2024 1:24:48 PM

汪淼

谷歌 AI 视频搜索功能演示又翻车，Gemini 给出错误维修建议

在今天的谷歌 I / O 大会上，谷歌大肆宣传其名为 Gemini 的人工智能将接管搜索引擎领域。然而，在其炫酷的演示环节中，Gemini 却再次暴露了所有大型语言模型至今为止都存在的致命缺陷：自信满满地给出错误答案。在 “Gemini 时代下的搜索” 演示片段中，谷歌展示了其视频搜索功能，用户可以通过拍摄短视频并用语音提问进行搜索。演示的例子是一个卡住的胶片相机过片杆，用户询问“为什么扳杆无法移动到底”，Gemini 则识别出问题并提供了维修建议。然而问题在于，Gemini 给出的答案整体而言令人啼笑皆非。谷歌

5/15/2024 4:28:24 PM

远洋

多功能RNA分析，百度团队基于Transformer的RNA语言模型登Nature子刊

编辑 | 萝卜芯预训练语言模型在分析核苷酸序列方面显示出了良好的前景，但使用单个预训练权重集在不同任务中表现出色的多功能模型仍然存在挑战。百度大数据实验室（Big Data Lab，BDL）和上海交通大学团队开发了 RNAErnie，一种基于 Transformer 架构，以 RNA 为中心的预训练模型。研究人员用七个数据集和五个任务评估了模型，证明了 RNAErnie 在监督和无监督学习方面的优越性。RNAErnie 超越了基线，分类准确率提高了 1.8%，交互预测准确率提高了 2.2%，结构预测 F1 得分提高

5/15/2024 3:59:00 PM

ScienceAI

字节跳动发布豆包大模型，主力模型比行业价格低99.3%

5月15日，字节跳动豆包大模型在火山引擎原动力大会上正式发布。火山引擎总裁谭待介绍，经过一年时间的迭代和市场验证，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一，目前日均处理1200亿Tokens文本，生成3000万张图片。 “大的使用量，才能打磨出好模型，也能大幅降低模型推理的单位成本。

5/15/2024 11:15:00 AM

代聪飞

谷歌 Calendar、Tasks 和 Keep 等服务将集成 Gemini

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布在 Google Calendar、Tasks 和 Keep 应用中整合 Gemini 模型，为用户带来更丰富的 AI 功能。谷歌在开发者大会上表示，Gemini 聊天机器人支持网页或者移动 App 中上传图片操作，IT之家附上谷歌官方例子如下，拍一张学校活动列表的照片，然后让 Gemini 把它们添加到你的个人 Google Calendar 中。谷歌提供的另一个例子是让 Gemini 将食谱中的项目添加到谷歌 Keep 购物清单中。Gemini 负责

5/15/2024 4:06:11 AM

故渊

谷歌 Workspace 办公套件整合 Gemini：可总结邮件内容、梳理会议要点等

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布 Google Workspace 将进一步整合 Gemini，在侧面板中将推出基于 Gemini 1.5 Pro 的诸多技能。谷歌表示 Workspace 整合 Gemini 的作用，是为用户节省从多个应用程序中挖掘文件、电子邮件和其他数据的时间和精力。谷歌 Workspace 副总裁阿帕纳・帕普（Aparna Pappu）在会上说：“Gemini 时代的 Workspace 将开启完成工作的新方式”。IT之家注：谷歌 Workspace 的 Gmai

5/15/2024 3:45:19 AM

故渊

谷歌 Gemini 解锁旅行规划技能，几秒内帮你妥当安排行程

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布为 Gemini 引入旅行规划功能，结合个人信息和公共出行信息，帮用户规划预订航班、酒店等等。谷歌表示 Gemini 可以基于用户的提示，挖掘航班时间和酒店预订等具体细节，在几秒钟内制定出合适的度假行程。谷歌副总裁兼 Gemini 总经理 Sissie Hsiao 表示，用户手动规划一次旅行可能需要数小时、数天甚至数周的时间，而 Gemini 几乎可以瞬间完成。Hsiao 表示 Gemini 的规划是动态的，用户可以根据后期提示和其它要求进一步调整规划。

5/15/2024 3:28:56 AM

故渊

你的助手你决定，谷歌推出 Gems 功能：由用户定制 Gemini 角色

谷歌公司在今天召开的 I / O 2024 开发者大会上，宣布为 Gemini 推出名为“Gems”的个性化选项，可以让用户定制 Gemini 助手角色。Gems 功能可以让用户迭代的聊天机器人，在保留指定特征的情况下帮助你完成某些任务。Gems 感觉类似于 OpenAI 的 GPT Store，可以让你制作定制的 ChatGPT 聊天机器人。该功能也有点像在 Character.AI 中创建自己的机器人，Character.AI 可以让你与虚拟的流行人物和名人甚至假冒的心理医生交谈。谷歌表示，用户通过 Gems

5/15/2024 3:12:28 AM

故渊

谷歌 Gemini 家族添 Flash 新成员：平衡规模和能力、支持多模态，单次可分析 3 万行代码

谷歌公司今天扩充 Gemini 家族成员，推出了全新的 Gemini 1.5 Flash 模型，重点优化了该模型的速度和效率。谷歌 DeepMind 首席执行官德米斯・哈萨比斯（Demis Hassabis）在一篇博客文章中写道：Gemini 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。哈萨比斯补充说，谷歌之所以创建 Gemini 1.5 Flash，是因为开发人员需要一个比谷歌今年 2 月发布的 Gemini 1.5 Pro 更轻便、更便宜的模型。IT之家注：Gemini

5/15/2024 1:47:17 AM

故渊

AI 聊天机器人大战升温：谷歌 Gemini 预告片展示惊艳语音视频交互能力

人工智能聊天机器人领域烽烟再起，谷歌和 OpenAI 之间激烈的竞争态势愈演愈烈。就在谷歌一年一度的 I / O 开发者大会召开前夕，这家科技巨头发布了一段视频，展示了疑似经过升级的 Gemini 聊天机器人。视频中，Gemini 可以同时实时处理来自视频和语音的输入。这段视频貌似是在 I / O 大会搭建现场拍摄的，视频展示了 Gemini 在一台 Pixel 手机上流畅地处理实时视频和语音提问，并准确地提供信息。当被问到正在进行的布置工作时，Gemini 正确识别出这是为一个重要活动做的准备。整个对话过程自然

5/14/2024 6:06:23 PM

远洋

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 OpenAI发布34页智能体实践指南：从网络搜索到代码编写 OpenAI 新规：组织想要用未来 AI 模型需先“验明正身”

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型