代码

从思考到行动：大模型自主工具调用能力的深度实现

本项目由复旦大学知识工场实验室肖仰华教授、梁家卿青年副研究员领导，博士生韩槿一，硕士生李廷云、熊程元、姜子上、王昕奕等同学共同参与完成。 GPT - 4o、Deepseek - R1 等高级模型已展现出令人惊叹的「深度思考」能力：理解上下文关联、拆解多步骤问题、甚至通过思维链（Chain - of - Thought）进行自我验证、自我反思等推理过程。但是，多数主流模型仍在基础问题上犯错，复杂四则运算计算失误，简单「两个小数比大小」出错、甚至连数清楚 strawberry 里有几个「r」都能翻车……即使提示像 R1 这样具备深度思考能力的大模型也要消耗大量的 token 才能勉强答对。

4/17/2025 10:43:00 AM

机器之心

DeepSeek再度升级，厉害了！

当代的程序员，避免不了各种AI工具打交道，可以说，这些AI工具早已成为我们生活和工作的一部分。从之前的ChatGpt，到今年年初开源的DeepSeek爆火，国产新锐 DeepSeek 犹如一匹黑马，将中国的 AI 技术从“追赶者”转变为“引领者”。现在各个大厂也都纷纷部署了DeepSeek，我也把重心从国外的产品转向了国内 AI。

4/3/2025 1:25:00 AM

刘欣

DeepSeek V3深夜低调升级，代码进化令人震惊，网友实测可媲美Claude 3.5/3.7 Sonnet

昨夜，DeepSeek V3 毫无征兆地来了一波更新，升级到了「DeepSeek-V3-0324」版本。目前，新版本在 Hugging Face 上可以下载并部署。 Hugging Face 地址：，DeepSeek-V3-0324 没有公布详细的模型卡。

3/25/2025 9:48:22 AM

机器之心

陶哲轩：o3-mini纠正了我一个数学错误，十分钟解决原本一小时才能完成的题目

大模型持续震惊科学家！以往一小时才能完成的代码，现在十分钟就能实现「生成、测试到得出结果」。 “大模型推广大神”陶哲轩又来分享他的亲测体验了。

3/18/2025 9:19:26 AM

量子位

OpenAI 更新 macOS 版 ChatGPT:可在 IDE 中直接编辑代码

近日，OpenAI 宣布 macOS 版 ChatGPT 新增重磅功能:用户可在 IDE 中直接编辑代码，目前仅限 Plus、Pro 和 Team 订阅用户使用。根据 X 平台推文，这一更新将 ChatGPT 从对话工具升级为开发者生产力助手。 OpenAI 在 X 上透露:“适用于 macOS 的 ChatGPT 现在可在 IDE 中直接编辑代码。

3/7/2025 10:02:00 AM

AI在线

DeepSeek开源第三弹：惊人的300行代码驱动R1和V3的训练与推理，超越各种专家内核

DeepSeek开源周第三弹！ DeepSeek-AI 重磅发布高效FP8 GEMM库 DeepGEMM：极致性能，代码精简，助力V3/R1模型训练与推理！简单来说这是由 DeepSeek-AI 团队精心打造的 FP8 通用矩阵乘法 (GEMM) 加速库，专为追求极致性能和代码简洁而生我们一起来扒一扒：Hopper GPU 上狂飙 1350 FP8 TFLOPS！

2/26/2025 10:11:01 AM

AI寒武纪

ChatGPT 写 C# 代码翻车现场：这五个坑只有老司机才懂

在AI技术飞速发展的当下，像ChatGPT这样的AI编程工具给开发者带来了便利，输入需求就能快速生成代码。但它并非完美无缺，在生成C#代码时，会出现不少问题，一些隐患只有经验丰富的老程序员才能洞察。接下来，就让我们一起看看那些容易翻车的场景。

2/24/2025 10:10:20 AM

conan

如何用DeepSeek来变现？90%的人都不知道

大家好，我是程序员小灰。 DeepSeek-R1模型发布已经快一个月了，但是热度丝毫不减。在这个风口上，许多比较敏感的朋友已经靠着DeepSeek赚到了第一桶金。

2/18/2025 12:05:00 AM

小灰

在 DeepSeek 的帮助下，我在 GitHub “战绩区”涂鸦

在每个人的 GitHub 的主页上，有一块儿区域特别显眼，就是 Contributions 日历图，也就是下面这个绿色的小方格子部分。 image.pngGitHub 会记录你每天是否有提交代码，提交了多少代码。哪年比较勤劳，哪年偷懒了，一眼就能看出来。

2/11/2025 3:53:29 PM

风筝

DeepSeek 颠覆 Excel？这次 AI 真的要革新办公了！

2025年的开端，技术圈再次被DeepSeek引爆。 DeepSeek凭借极低的训练成本，实现了与ChatGPT相媲美的性能，对全球科技界带来了极大的冲击。不少开发者对DeepSeek的实际应用产生了浓厚兴趣，纷纷询问如何快速上手。

2/11/2025 7:44:09 AM

编程疏影

你的提示词根本只是在浪费算力，如何让Deepseek发挥极限潜能 - 多跳推理

最近几周自学deepseek原理应用实践，一些成果，和大家分享。对于deepseek的流弊：小部分人会关心，deepseek为什么这么流弊；大部分人会关心，提示词要怎么写；今天和大家聊聊，deepseek的核心机制之一的多跳推理，以及如何优化我们的提示词，使得deepseek能够最大化发挥其多跳推理的潜力。什么是多跳推理？

2/8/2025 8:30:00 AM

58沈剑

DeepSeek正在杀死程序员？不，它杀死的是一整个时代

——从“人肉编码”到“AI工程化”，中国软件行业的范式革命已至导语：当技术革命的枪声响起2023年GitHub统计显示，中国开发者平均每天写300行代码，其中270行是重复性业务逻辑。而在DeepSeek等AI编码工具冲击下，这种“人肉堆代码”的模式正在崩塌——某跨国IT服务商已裁撤40%初级Java岗位，同时开出百万年薪急招AI工程师。这不是简单的工具替代，而是一场关乎行业生死存亡的认知革命。

2/7/2025 8:30:37 AM

斯巴达人

不停PUA大模型「写更好点」，无需其它花哨技术就能让AI代码水平暴增

AI 的编程能力已经得到了证明，但还并不完美。近日，BuzzFeed 的资深数据科学家 Max Woolf 发现，如果通过提示词不断要求模型写更好的代码（write better code），AI 模型还真能写出更好的代码！这篇文章在网络上引发了热议，著名 AI 科学家在看完这篇文章中更是发出了 matters 三连：迭代很重要，提示词设计很重要，代码执行能力很重要。

1/11/2025 3:37:00 PM

机器之心

宇树机器人强化学习代码全面开源，还有训练到仿真和实操手把手教学

9.9万元起，还能够大规模量产的国产人形机器人，表现得实在是太6了：而且还走上了开源路线，就在刚刚，宇树机器人开源的强化学习代码又更新了！更新之后不再是只能训练——不仅能够仿真运行，还能部署到实体机器，整个过程所有代码全部开放。一开始，宇树开源的是英伟达Issac Gym平台上的训练代码，这次新增了对MuJoCo模拟仿真的支持。

12/17/2024 1:00:00 PM

量子位

最真实大模型编程评估！字节开源FullStack Bench，首次全覆盖超11类现实编程场景

代码大模型越来越卷，评估AI编程水平的“考卷”也被迫升级。 12月5日，字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench，在业界首次囊括编程全栈技术中超11类真实场景，覆盖16种编程语言，包含3374个问题，相比此前基准，可以更有效地评估大模型在现实世界中的代码开发能力。代码评估基准是衡量大模型编程能力的标准工具，也是推动模型优化的关键驱动力。

12/5/2024 3:46:00 PM

新闻助手

ChatGPT深夜更新：Mac版支持“读屏编程”，Windows版全员可用了

ChatGPT客户端，支持“读屏编程”了。即日起，Mac端的Plus用户，可以直接让ChatGPT客户端读取开发工具中的代码。目前，包括常用的Xcode和VS Code在内，该功能一共支持五款编程工具。

11/15/2024 1:06:25 PM

量子位

OpenAI 推出全新写作、编码工具 ChatGPT Canvas，将免费开放

感谢OpenAI 今日宣布推出全新写作、编码工具 Canvas，这是一个与 ChatGPT 合作编写和编码项目的新界面，超越了简单的聊天。AI在线从官方介绍获悉，ChatGPT Canvas 可以更好地了解任务的上下文，用户可以突出显示特定部分，以准确表明希望 ChatGPT 关注的内容。用户也可以直接编辑文本或代码，要求 ChatGPT 调整写入长度、调试代码并快速执行其他操作，并且提供后退按钮来恢复作品的先前版本。写作功能包括：建议编辑：ChatGPT 提供建议和反馈。调整文章长度：将文档长度编辑为更短或更长。

10/4/2024 10:05:56 AM

浩渺

明确了：文本数据中加点代码，训练出的大模型更强、更通用

代码知识原来这么重要。如今说起大语言模型（LLM），写代码能力恐怕是「君子六艺」必不可少的一项。在预训练数据集中包含代码，即使对于并非专门为代码设计的大模型来说，也已是必不可少的事。虽然从业者们普遍认为代码数据在通用 LLM 的性能中起着至关重要的作用，但分析代码对非代码任务的精确影响的工作却非常有限。在最近由 Cohere 等机构提交的一项工作中，研究者系统地研究了代码数据对通用大模型性能的影响。论文链接：「预训练中使用的代码数据对代码生成以外的各种下游任务有何影响」。作者对范围广泛的自然语言推理任务、世界知识任

8/22/2024 6:20:00 PM

机器之心

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源）韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 OpenAI发布34页智能体实践指南：从网络搜索到代码编写 OpenAI 新规：组织想要用未来 AI 模型需先“验明正身”

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果人形机器人深度学习 AI视频模态 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型