AIGC宇宙 AIGC宇宙

文章列表

感谢 DeepSeek,春节后中国 AI 创企融资井喷

DeepSeek 在人工智能领域取得的突破性进展正在中国风投界掀起波澜,结束了连续三年的下滑趋势。
3/13/2025 11:20:46 PM
小小

OpenAI 向美国政府提议:企业上交模型,换取州法规豁免

=人工智能公司 OpenAI 在其发布的 15 页政策建议中,向特朗普政府提出请求,希望政府能够为自愿向联邦政府提供模型的人工智能企业提供保护,使其免受各州日益增多的监管法规的影响。
3/13/2025 9:52:06 PM
远洋

阶跃星辰与智元机器人达成合作 探索大模型+具身机器人应用

上海阶跃星辰智能科技有限公司与智元机器人正式签署深度战略合作协议,双方将在基座大模型和机器人研发领域展开深度合作,共同探索“大模型 具身机器人”的技术突破与应用创新。 此次合作涉及世界模型技术研发、具身智能领域数据合作以及新零售等应用场景的落地,旨在推动具身智能技术在家庭服务、新零售、智能制造等领域的规模化应用。 阶跃星辰与智元机器人的合作内容涵盖了模型研发、行业解决方案以及数据体系建设等多个方面。
3/13/2025 5:31:00 PM
AI在线

调查:52%美国成年人使用过AI聊天机器人

美国埃隆大学的一项调查显示,52%的美国成年人都曾使用过像ChatGPT、Gemini、Claude这样的AI大语言模型。 这项由北卡罗来纳州埃隆大学“想象数字未来中心”在1月份开展的调查,选取了500名受访者。 结果发现,在使用过AI的人群中,34%的人表示至少每天会使用一次大语言模型。
3/13/2025 5:00:41 PM
AI在线

DeepSeek 3FS 架构分析和思考(上篇)

2025 年 2 月28 日,DeepSeek 在其开源周最后一天压轴发布了自研的并行文件系统 Fire-Flyer File System,简称 3FS。 该系统支撑了 DeepSeek V3&R1 模型训练、推理的全流程,在数据预处理、数据集加载、CheckPoint、KVCache 等场景发挥了重要作用。 项目一经发布,就获得了存储领域的广泛关注。
3/13/2025 1:51:46 PM
火山引擎存储团队

人工智能代理不是玩具,而是工人

为什么必须像评估劳动力一样评估LLM代理,而不仅仅是评估软件。 如果组织仅通过代码行数或聊天完成度等指标来衡量 AI 代理,则可能会低估其最具变革性的价值。 在许多方面,AI 代理更像员工,而不是传统的软件程序:它们可以学习、适应,甚至与人类团队合作。
3/13/2025 1:29:32 PM
佚名

DeepSeek玩家能提前拿苹果新品!只要15万元,在家跑满血版R1

号称地表最强的M3 Ultra,本地跑满血版DeepSeek R1,效果到底如何? 其实,有些DeepSeek玩家们已经提前拿到手做过实测了。 例如这位Alex老哥就是其中之一:他提前拿到了两台搭载M3 Ultra的Mac Studio,配置是这样的:M3 Ultra(32 核中央处理器、80 核图形处理器和 32 核神经网络引擎)512G统一内存1TB固态硬盘具体来说,Alex老哥用配备Thunderbolt 5互连技术(传输速率为 80Gbps)的EXO Labs设备,来运行完整的DeepSeek R1模型(671B、8-bit)。
3/13/2025 12:41:37 PM
量子位

RAG(三)GraphRAG进阶:GraphReader-- 基于图的Agent,让大模型“读懂”长文本

上一篇论文介绍了GraphRAG,今天来看一篇算是其进阶版的方法--GraphReader。 对于其研究动机,简单来说,LLMs具有强大的规划和反思能力,但在解决复杂任务时,如函数调用或知识图谱问答(KGQA),以及面对需要多次推理步骤的问题时,仍然面临困难。 特别是当涉及到长文本或多文档的处理时,现有的方法往往难以充分利用这些模型的能力来捕捉全局信息,并有效地进行决策。
3/13/2025 12:24:34 PM
Glodma

DeepSeek 开源 EPLB,世界上从来没有什么腾空出世!

deepseek开源DualPipe的同一天,还开源了EPLB。 今天来简单聊聊EPLB,包懂。 EPLB是干嘛的?
3/13/2025 10:31:20 AM
架构师之路

迈向视觉大一统:UnifiedReward,多模态生成与理解的通用奖励模型

本篇文章来自公众号粉丝投稿,论文提出了一个视觉领域通用的奖励模型UnifiedReward,能够对图像/视频的生成与理解进行pairwise(成对比较)或 pointwise(单样本打分)评估,可用于视觉各领域的直接偏好优化 (DPO),提升各类视觉模型的表现。 论文介绍近年来,大模型时代的多模态生成与理解技术取得了飞跃式发展。 然而,如何让AI真正“看懂”世界,并更好地对齐人类偏好,仍是一个核心挑战。
3/13/2025 10:18:42 AM
Yibin Wang

14B 小模型逆袭翻译赛道,论文财报实测超Claude,不信试试“我命由我不由天”

都说通用大模型轻松拿捏翻译,结果有人来掀桌了。 来自网易有道的14B翻译小模型,测试达行业第一,翻译质量超越一众国内外主流通用大模型。 它就是子曰翻译大模型2.0(下文简称子曰2.0),在英译中方面轻松超越Claude 3.5 Sonnet等12个主流通用大模型,中译英也和Claude 3.5 Sonnet达到同等水平。
3/13/2025 10:04:06 AM
量子位

大模型长文推理迎来“核弹级”提速!清华APBB框架狂飙10倍,Flash Attention直接被秒

还在为大模型处理长文本“龟速”而抓狂?别急!清华大学祭出“王炸”技术——APB 序列并行推理框架,直接给大模型装上“涡轮增压”引擎!实测显示,这项黑科技在处理超长文本时,速度竟比肩 Flash Attention 快10倍!没错,你没听错,是10倍!要知道,随着 ChatGPT 等大模型的爆火,AI 们“阅读”能力也水涨船高,动辄处理十几万字的长文不在话下。 然而,面对海量信息,传统大模型的“大脑”却有点卡壳—— Transformer 架构虽强,但其核心的注意力机制就像一个“超级扫描仪”,文本越长,扫描范围呈指数级膨胀,速度自然就慢了下来。 为了解决这个“卡脖子”难题,清华大学的科学家们联合多家研究机构和科技巨头,另辟蹊径,推出了 APB 框架。
3/13/2025 9:50:00 AM
AI在线

字节Trae接入硅基流动SiliconCloud 支持DeepSeek多款模型API

硅基流动官方宣布,由字节跳动推出的首个 AI 原生集成开发环境(AI IDE)——Trae接入硅基流动(SiliconCloud)平台,旨在为开发者提供更高效的编程体验。 Trae 现在集成了硅基流动的多款模型,用户只需通过 API 密钥即可接入 DeepSeek-R1、V3、QWQ-32B、Qwen2.5-Coder 等多种编码模型。 这种灵活的选择满足了开发者对不同模型的使用需求。
3/13/2025 9:21:00 AM
AI在线

Midjourney隐藏黑科技!4 种 Sref 代码实现100%风格复刻

大家好,我是竹子,竹笋集视觉创始人,同时也是一名设计师。 很高兴成为优设 AI 特邀专栏作者,未来我将与大家分享 AI 绘画的心得与实践经验。 随着 AI 工具的兴起,绘画的门槛正在迅速降低。
3/13/2025 8:26:32 AM
竹笋集

DeepSeek-R1的方法迁移到多模态大模型-开源Vision-R1实现方法思路

刚开始琢磨使用DeepSeek-R1风格训练多模态R1模型,就看到这个工作,本文一起看看,供参考。 先提出问题,仅靠 RL 是否足以激励 MLLM 的推理能力? 结论:不能,因为如果 RL 能有效激励推理能力,Vision-R1-Zero 应该表现出生成复杂 CoT 的能力,并在基准测试中提升准确率。
3/13/2025 8:13:47 AM
余俊晖

不需要 AI 和数学知识背景,这篇文章带你学会大模型应用开发

作者 | ronaldo最近几年,大模型在技术领域的火热程度属于一骑绝尘遥遥领先,不论是各种技术论坛还是开源项目,大多都围绕着大模型展开。 大模型的长期目标是实现AGI,这可能还有挺长的路要走,但是眼下它已经深刻地影响了“编程”领域。 各种copilot显著地提升了开发者的效率,但与此同时,开发者也变得非常地焦虑。
3/13/2025 8:00:00 AM
腾讯技术工程

用AI把PDF一键变成能玩的可视化网页,这不比PPT酷多了?

前几天,看到好基友歸藏在 X 上发了一个帖子:还挺爆,一天半的时间过去,已经有 17.3 万的阅读了。 这个东西,简单点说,就是用一个 Prompt,把一些非常难以阅读的文字报告,一键转成更舒服更易读的可视化网页。 甚至,还是能交互的那种。
3/13/2025 6:53:33 AM
数字生命卡兹克

谷歌 DeepMind 推出新 AI 模型,机器人未经训练也能执行现实任务

北京时间今晚,谷歌 DeepMind 推出两款新型 AI 模型,旨在帮助机器人完成更多现实世界中的任务。
3/12/2025 11:22:56 PM
清源