AIGC宇宙 AIGC宇宙

代码

从思考到行动:大模型自主工具调用能力的深度实现

本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导,博士生韩槿一,硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。 GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力:理解上下文关联、拆解多步骤问题、甚至通过思维链(Chain - of - Thought)进行自我验证、自我反思等推理过程。 但是,多数主流模型仍在基础问题上犯错,复杂四则运算计算失误,简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。
4/17/2025 10:43:00 AM
机器之心

DeepSeek再度升级,厉害了!

当代的程序员,避免不了各种AI工具打交道,可以说,这些AI工具早已成为我们生活和工作的一部分。 从之前的ChatGpt,到今年年初开源的DeepSeek爆火,国产新锐 DeepSeek 犹如一匹黑马,将中国的 AI 技术从“追赶者”转变为“引领者”。 现在各个大厂也都纷纷部署了DeepSeek,我也把重心从国外的产品转向了国内 AI。
4/3/2025 1:25:00 AM
刘欣

DeepSeek V3深夜低调升级,代码进化令人震惊,网友实测可媲美Claude 3.5/3.7 Sonnet

昨夜,DeepSeek V3 毫无征兆地来了一波更新,升级到了「DeepSeek-V3-0324」版本。 目前,新版本在 Hugging Face 上可以下载并部署。 Hugging Face 地址:,DeepSeek-V3-0324 没有公布详细的模型卡。
3/25/2025 9:48:22 AM
机器之心

陶哲轩:o3-mini纠正了我一个数学错误,十分钟解决原本一小时才能完成的题目

大模型持续震惊科学家! 以往一小时才能完成的代码,现在十分钟就能实现「生成、测试到得出结果」。 “大模型推广大神”陶哲轩又来分享他的亲测体验了。
3/18/2025 9:19:26 AM
量子位

OpenAI 更新 macOS 版 ChatGPT:可在 IDE 中直接编辑代码

近日,OpenAI 宣布 macOS 版 ChatGPT 新增重磅功能:用户可在 IDE 中直接编辑代码,目前仅限 Plus、Pro 和 Team 订阅用户使用。 根据 X 平台推文,这一更新将 ChatGPT 从对话工具升级为开发者生产力助手。 OpenAI 在 X 上透露:“适用于 macOS 的 ChatGPT 现在可在 IDE 中直接编辑代码。
3/7/2025 10:02:00 AM
AI在线

DeepSeek开源第三弹:惊人的300行代码驱动R1和V3的训练与推理,超越各种专家内核

DeepSeek开源周第三弹! DeepSeek-AI 重磅发布高效FP8 GEMM库 DeepGEMM:极致性能,代码精简,助力V3/R1模型训练与推理! 简单来说这是由 DeepSeek-AI 团队精心打造的 FP8 通用矩阵乘法 (GEMM) 加速库,专为追求极致性能和代码简洁而生我们一起来扒一扒:Hopper GPU 上狂飙 1350 FP8 TFLOPS!
2/26/2025 10:11:01 AM
AI寒武纪

ChatGPT 写 C# 代码翻车现场:这五个坑只有老司机才懂

在AI技术飞速发展的当下,像ChatGPT这样的AI编程工具给开发者带来了便利,输入需求就能快速生成代码。 但它并非完美无缺,在生成C#代码时,会出现不少问题,一些隐患只有经验丰富的老程序员才能洞察。 接下来,就让我们一起看看那些容易翻车的场景。
2/24/2025 10:10:20 AM
conan

如何用DeepSeek来变现?90%的人都不知道

大家好,我是程序员小灰。 DeepSeek-R1模型发布已经快一个月了,但是热度丝毫不减。 在这个风口上,许多比较敏感的朋友已经靠着DeepSeek赚到了第一桶金。
2/18/2025 12:05:00 AM
小灰

在 DeepSeek 的帮助下,我在 GitHub “战绩区”涂鸦

在每个人的 GitHub 的主页上,有一块儿区域特别显眼,就是 Contributions 日历图,也就是下面这个绿色的小方格子部分。 image.pngGitHub 会记录你每天是否有提交代码,提交了多少代码。 哪年比较勤劳,哪年偷懒了,一眼就能看出来。
2/11/2025 3:53:29 PM
风筝

DeepSeek 颠覆 Excel?这次 AI 真的要革新办公了!

2025年的开端,技术圈再次被DeepSeek引爆。 DeepSeek凭借极低的训练成本,实现了与ChatGPT相媲美的性能,对全球科技界带来了极大的冲击。 不少开发者对DeepSeek的实际应用产生了浓厚兴趣,纷纷询问如何快速上手。
2/11/2025 7:44:09 AM
编程疏影

你的提示词根本只是在浪费算力,如何让Deepseek发挥极限潜能 - 多跳推理

最近几周自学deepseek原理 应用 实践,一些成果,和大家分享。 对于deepseek的流弊:小部分人会关心,deepseek为什么这么流弊;大部分人会关心,提示词要怎么写;今天和大家聊聊,deepseek的核心机制之一的多跳推理,以及如何优化我们的提示词,使得deepseek能够最大化发挥其多跳推理的潜力。 什么是多跳推理?
2/8/2025 8:30:00 AM
58沈剑

DeepSeek正在杀死程序员?不,它杀死的是一整个时代

——从“人肉编码”到“AI工程化”,中国软件行业的范式革命已至导语:当技术革命的枪声响起2023年GitHub统计显示,中国开发者平均每天写300行代码,其中270行是重复性业务逻辑。 而在DeepSeek等AI编码工具冲击下,这种“人肉堆代码”的模式正在崩塌——某跨国IT服务商已裁撤40%初级Java岗位,同时开出百万年薪急招AI工程师。 这不是简单的工具替代,而是一场关乎行业生死存亡的认知革命。
2/7/2025 8:30:37 AM
斯巴达人

不停PUA大模型「写更好点」,无需其它花哨技术就能让AI代码水平暴增

AI 的编程能力已经得到了证明,但还并不完美。 近日,BuzzFeed 的资深数据科学家 Max Woolf 发现,如果通过提示词不断要求模型写更好的代码(write better code),AI 模型还真能写出更好的代码! 这篇文章在网络上引发了热议,著名 AI 科学家在看完这篇文章中更是发出了 matters 三连:迭代很重要,提示词设计很重要,代码执行能力很重要。
1/11/2025 3:37:00 PM
机器之心

宇树机器人强化学习代码全面开源,还有训练到仿真和实操手把手教学

9.9万元起,还能够大规模量产的国产人形机器人,表现得实在是太6了:而且还走上了开源路线,就在刚刚,宇树机器人开源的强化学习代码又更新了! 更新之后不再是只能训练——不仅能够仿真运行,还能部署到实体机器,整个过程所有代码全部开放。 一开始,宇树开源的是英伟达Issac Gym平台上的训练代码,这次新增了对MuJoCo模拟仿真的支持。
12/17/2024 1:00:00 PM
量子位

最真实大模型编程评估!字节开源FullStack Bench,首次全覆盖超11类现实编程场景

代码大模型越来越卷,评估AI编程水平的“考卷”也被迫升级。 12月5日,字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench,在业界首次囊括编程全栈技术中超11类真实场景,覆盖16种编程语言,包含3374个问题,相比此前基准,可以更有效地评估大模型在现实世界中的代码开发能力。 代码评估基准是衡量大模型编程能力的标准工具,也是推动模型优化的关键驱动力。
12/5/2024 3:46:00 PM
新闻助手

ChatGPT深夜更新:Mac版支持“读屏编程”,Windows版全员可用了

ChatGPT客户端,支持“读屏编程”了。 即日起,Mac端的Plus用户,可以直接让ChatGPT客户端读取开发工具中的代码。 目前,包括常用的Xcode和VS Code在内,该功能一共支持五款编程工具。
11/15/2024 1:06:25 PM
量子位

OpenAI 推出全新写作、编码工具 ChatGPT Canvas,将免费开放

感谢OpenAI 今日宣布推出全新写作、编码工具 Canvas,这是一个与 ChatGPT 合作编写和编码项目的新界面,超越了简单的聊天。AI在线从官方介绍获悉,ChatGPT Canvas 可以更好地了解任务的上下文,用户可以突出显示特定部分,以准确表明希望 ChatGPT 关注的内容。用户也可以直接编辑文本或代码,要求 ChatGPT 调整写入长度、调试代码并快速执行其他操作,并且提供后退按钮来恢复作品的先前版本。写作功能包括:建议编辑:ChatGPT 提供建议和反馈。调整文章长度:将文档长度编辑为更短或更长。
10/4/2024 10:05:56 AM
浩渺

明确了:文本数据中加点代码,训练出的大模型更强、更通用

代码知识原来这么重要。如今说起大语言模型(LLM),写代码能力恐怕是「君子六艺」必不可少的一项。在预训练数据集中包含代码,即使对于并非专门为代码设计的大模型来说,也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用,但分析代码对非代码任务的精确影响的工作却非常有限。在最近由 Cohere 等机构提交的一项工作中,研究者系统地研究了代码数据对通用大模型性能的影响。论文链接:「预训练中使用的代码数据对代码生成以外的各种下游任务有何影响」。作者对范围广泛的自然语言推理任务、世界知识任
8/22/2024 6:20:00 PM
机器之心