大模型

「创新落地，生态共赢」，2024澜舟科技大模型技术和产品发布会圆满举办

2024 年将是大模型落地元年。

3/18/2024 10:11:00 PM

机器之心

OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora，然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详，无法明确说明 Sora 的训练数据来源。在采访中，记者直接询问 Murati 关于 Sora 训练数据来源时，她仅以含糊的官方话术搪塞：“我们使用的是公开可用数据和许可数据。”当记者追问具体来源是否包含 YouTube 视频时，Murati 竟然表示“我实际上并不确定（I'm actually not sure about that）”，并拒绝回答有关 In

3/18/2024 4:07:57 PM

远洋

全球首个类 Sora 开源复现方案来了！全面公开所有训练细节和模型权重

全球首个开源的类 Sora 架构视频生成模型，来了！整个训练流程，包括数据处理、所有训练细节和模型权重，全部开放。这就是刚刚发布的 Open-Sora 1.0。它带来的实际效果如下，能生成繁华都市夜景中的车水马龙。还能用航拍视角，展现悬崖海岸边，海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自 Sora 发布以来，由于效果惊艳但技术细节寥寥，揭秘、复现 Sora 成为了开发社区最热议话题之一。比如 Colossal-AI 团队推出成本直降 46% 的 Sora 训练推理复现流程。短短两周时间后，该团队再次发布最

3/18/2024 2:58:56 PM

清源

对话南佛罗里达大学孙宇教授：当大语言模型用于机器人任务规划丨IJAIRR

现代化社会，哪些工作场景最需要机器人的帮助？在工业领域，有著名的机器人“四大家族”——发那科、ABB、安川、库卡，经过百余年的发展技术越发成熟，在工业场景已经得到深入而广泛的应用。相比之下，生活场景中的服务型机器人历史则短得多。

3/15/2024 4:03:00 PM

乔燕薇

智谱AI狂飙：与商业化博弈的一年

2023 年 12 月 AI 科技评论在搜狐网络大厦见到智谱AI COO 张帆时，张帆如是说。张帆在 2023 年 3 月加入中国大模型领域“当红炸子鸡”智谱负责商业化，他感慨：“大模型不仅把知识给压缩了，还把时间给压缩了。 ”最直接的体现是，在过去的 9 个月，张帆以每个月见大约 100 家客户的速度在推进智谱的大模型商业化，2023 年结束时，张帆团队已拜访了上千家客户。

3/15/2024 3:36:00 PM

张进

AI4Science与LLM的碰撞：生物分子+文本的联合建模，人大高瓴、微软、华科、中科大团队最新综述

作者 | 裴启智随着大模型和 AI4Science 的蓬勃发展，越来越多的工作开始关注生物分子（Biomolecule）与自然语言（Language）的联合建模。这种方法利用文本数据中所包含的生物分子的丰富、多方面的描述，增强模型对其的理解，提高生物分子属性预测等下游任务的效果，为全面表示和分析生物分子开辟了新的途径。近日，人大高瓴联合微软、华科、中科大等机构发布了综述文章：《Leveraging Biomolecule and Natural Language through Multi-Modal Learni

3/14/2024 4:30:00 PM

ScienceAI

因使用受版权保护书籍训练 AI 平台，英伟达被三名作者起诉

感谢据美国福克斯电视台北京时间今日报道，科技巨头英伟达已被三名作者起诉，因为英伟达在训练其 AI 平台 NeMo 时，未经许可使用了他们受到版权保护的书籍。三名作者 Brian Keene、Abdi Nazemian 和 Stewart O'Nan 声称，自己的作品被收录在一个包含约 196640 本书籍的数据集内，这些书籍帮助训练 NeMo 模拟普通书面语言，但这个数据集因“被举报侵犯版权”在去年 10 月被撤下。（IT之家注：该数据集原本被托管在 Hugging Face 网站上）作者们在 3 月 8 日晚提交

3/11/2024 4:46:10 PM

清源

Gemini 修 bug 神了！录网页视频把代码库甩给它就行，网友想要访问权限

谷歌 Gemini 修改 bug 让网友大开眼界！X 一小伙分享，为测试 Gemini 1.5 Pro，自己在编写一个网页的代码时故意留了 3 个 bug，并分别录制了网页 bug 视频。接着把代码库打包成文件连同视频一起输给了 Gemini 1.5 Pro，提示它找到并修复代码中的所有 bug，且要提供一个简要指南以及所做更改的说明。没想到，Gemini 1.5 Pro 还真就分分钟正确识别并修复了每一个 bug。小伙将这种玩法 po 出来后热度不断攀升，网友们纷纷一键三连，转赞收藏量过万。其本人还在评论区强调，

3/10/2024 2:30:22 PM

清源

谷歌确认 Gemini Nano 本地大模型不会上线 Pixel 8 手机

谷歌官方表示，由于硬件限制，AI 语言大模型 Gemini Nano 不会上线谷歌 Pixel 8 手机，但未来会出现在其他高端设备上。IT之家获悉，Gemini 的前身是谷歌在 2023 年 2 月发布的聊天机器人 Bard，后者在 2024 年 2 月 8 日更名为 Gemini。谷歌计划将 Gemini 整合进旗下所有产品，并加入 Google One 订阅中。Gemini Nano 作为谷歌为移动设备推出的 Gemini 大模型版本，能够处理不需要连接外部服务器的本地任务，仅支持谷歌 Pixel 8 Pro

3/8/2024 5:56:25 PM

归泷（实习）

谷歌优化 Gemini：可重新生成、缩短、扩充指定聊天内容

谷歌近日升级了 Gemini 聊天机器人，用户和其聊天过程中，可以指定部分聊天内容，进行修改、缩短、扩充等操作。谷歌近日更新了 Gemini，让用户只需点击几下，就能修改回复的特定部分。过去，用户必须重新生成整个回复，但现在不再需要这样做了。只需选择要修改的回复部分，然后单击铅笔图标即可进行编辑。IT之家附上截图如下：用户点击该图标之后，可以要求 Gemini 基于指定内容执行重新生成、缩短、扩充、移除操作。用户还可以对所选文本应用提示并进行相应更改。当然，恢复更改也同样简单，只需单击一下即可。

3/8/2024 9:02:24 AM

故渊

「还是谷歌好」，离职创业一年，我才发现训练大模型有这么多坑

Karpathy：中肯的，一针见血的。如何在不到一年的时间里创办一家公司、筹集资金、购买芯片，并搭建出追赶 Gemini pro/GPT 3.5 的 LLM？很多人都对构建基础架构和训练大语言模型和多模态模型感到好奇，但真正走完「从零开始」这一流程的人很少。我们普遍认为，储备技术人才是前提，掌握核心算法是关键，但实际上，工程实践中冒出来的挑战，也实在令人头疼。一年前，乘着大模型的热潮，Yi Tay 离开了工作 3 年多的谷歌，参与创办了一家名为 Reka 的公司并担任首席科学家，主攻大型语言模型。在谷歌时，Yi T

3/7/2024 3:14:00 PM

机器之心

Pieter Abbeel 新工作“大世界模型”：轻松玩转1小时长视频，一对一QA视频内容细节

作者：赖文昕编辑：陈彩娴自3天前Sora发布以来，由图灵奖得主、Meta首席科学家Yann LeCun提出的“世界模型”又一次引起了广泛关注。 “世界模型”作为Sora的一大核心亮点，被OpenAI写在技术报告中。但Sora是否真的如Open AI所说，是一个世界模型，却引起了行业内的争论。

3/7/2024 3:13:00 PM

赖文昕

谷歌被曝翻车内幕：内部群龙无首，生图机制过分“多元化”

感谢IT之家网友 rolan6 的线索投递！谷歌 Gemini 文生图风波还未平，更劲爆的内幕消息又被曝出来了。Pirate Wires 爆料，Gemini 这次的翻车，谷歌内部此前并不是毫不知情，翻车甚至是“故意”导致的。具体来说，谷歌设置了一个“安全”架构，Gemini 要生成一张图实际上要经过三个模型。大概来说，流程是这样的：用户在聊天界面请求 Gemini 生成一张图片，Gemini 收到请求后，会把请求发送给一个较小的模型。这个较小的模型的作用是根据公司的“多元化”政策重写用户的提示。为做到这一点，这个较

3/7/2024 3:07:36 PM

清源

全面超越ViT，美团、浙大等提出视觉任务统一架构VisionLLAMA

半年多来，Meta 开源的 LLaMA 架构在 LLM 中经受了考验并大获成功（训练稳定、容易做 scaling）。沿袭 ViT 的研究思路，我们能否借助创新性的 LLaMA 架构，真正实现语言和图像的架构统一？在这一命题上，最近的一项研究 VisionLLaMA 取得了进展。VisionLLaMA 在图像生成（包含 Sora 依赖的底层的 DIT）和理解（分类、分割、检测、自监督）等多个主流任务上相较于原 ViT 类方法提升显著。论文标题：VisionLLaMA: A Unified LLaMA Interfac

3/7/2024 2:53:00 PM

机器之心

“国家队”评测30个大模型数学能力，九章、文心、星火位列前三

去年ChatGPT横空出世后，我国也迎来“百模大战”，大模型能力测评成为业界前沿课题。近日，大模型数学能力权威测评基准MathEval围绕数学能力，对国内外30个大模型（含同一模型的不同版本）开展测评。根据测评结果，学而思九章、百度文心一言4.0、讯飞星火V3.5摘得前三名。其中，学而思旗下九章大模型在整体表现和中文、英文、各学段子榜单中，都具备领先优势。数据显示，截至去年10月，国内累计发布大模型超200个。大模型越来越多地被运用到数学应用领域，包括数学问题解决、数据分析、学术研究、学习辅导等。目前，通用或垂类

3/1/2024 6:01:00 PM

新闻助手

拿下微软合作、旗舰模型对标GPT-4，认识一下「欧洲版 OpenAI」

机器之能报道编辑：SiaMistral 目前法国科技界的骄傲和喜悦，也是开源力量的代表。它的初期成功要归功于能巧妙地将AI技术与政治结合起来。问题是Mistral能否将这种诱人的技术与政治混合优势转化为实实在在的利润。这家法国 AI 初创的崛起就像西北风一样轻快，这也是它名字 Mistral 的由来。Mistral 翻译过来是密史脱拉风，法国南部罗纳河谷一带特有的强风，干寒强烈，持续时间长。据说，梵高和高更的决裂也与普罗旺斯刮起的密史脱拉风有关。Mistral位于巴黎的办公室，它们也是法国目前最有前途的大模型初创公

2/29/2024 8:14:00 PM

机器之能

仅用 53 秒，商汤办公小浣熊就能助你化身高级打工人

作者丨郭思编辑丨陈彩娴继推出ChatGPT后，龙年伊始，OpenAI公司又推出了最新人工智能文生视频大模型Sora，其火爆效果被誉为即将重塑视频内容创作的未来。而无论是ChatGPT还是Sora，众多身处职场的「男工女工」都在一边期待一边害怕，工作方式被彻底颠覆。这一切都是因为AI可以通过现有的网络、数据、资料、知识，展示出超出一般人类的记忆、逻辑、分析、综合能力，如果它能够突破与人交互的界面（语言也是一种界面），那这种能力不仅会超过人类，而且超过几万倍，能较大限度地提高生产效率，也可能会取代部分传统工种。

2/28/2024 10:44:00 AM

郭思

优刻得为智谱AI构建千卡推理集群，助力全球用户畅享大模型智能生活

时光倒回到 2021 年的那个夜晚。一位妈妈灵感枯竭，无法继续她的小说创作；一旁的爸爸正忙碌于代码的世界，他想要在工作之余开发一款小游戏，却困于代码调试；而他们的孩子，正眉头紧锁地趴在书桌上，为一道奥数题苦思冥想。2024 年的今天，AI 大模型的出现让这一切发生改变。在「智谱清言」的助力下，妈妈的小说创作焕发新生，她只需将自己的创意和构思输入给大模型，就可以生成自然生动的故事情节和对话；爸爸用大模型进行代码编程和调试，通过分析代码逻辑，大大减少了开发的繁琐流程，减轻了一大半的⼯作量；大模型也成为了小朋友学习上的得

2/28/2024 10:05:00 AM

新闻助手

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 OpenAI发布34页智能体实践指南：从网络搜索到代码编写 OpenAI 新规：组织想要用未来 AI 模型需先“验明正身”

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型