编程

o3全网震撼实测：AGI真来了？最强氛围编程秒杀人类，却被曝捏造事实

昨夜o3的发布，让人不尽感慨：打了这么久嘴炮的OpenAI，这回终于实实在在拿出了点真东西。史上首次，模型能够用图像思考，视觉推理达到巅峰。许多网友实测后，大感惊艳。

4/17/2025 2:09:52 PM

新智元

我用 Claude Sonnet 和 DeepSeek R1 开发一个同样的工具，看谁更厉害！

先给 DeepSeek 泼一盆冷水，DeepSeek 在编程能力上和 Claude Sonnet 还是差了一大截的。下面有使用 Sonnet 3.5 和 DeepSeek R1 配合 Trae 实现一个推文生成图片卡片小插件的过程，功能虽小，但还是能看出差距的。这两天 Trae 不是推出了国内版吗（），搭载豆包和 DeepSeek 大模型，因为之前 Trae 国际版是支持 Claude Sonnet 的，最开始是 3.5，后来 Claude 升级了 3.7，隔了一天 Trae 就跟进了，而且也是完全免费的。

3/6/2025 12:22:00 AM

风筝

GPT-4.5智商测试94，登上LLM竞技场榜首！网友质疑黑幕，实测结果惊人

GPT-4.5，口碑又意外反转了？经过3千多轮比较，GPT-4.5在全部类别拿下第一，位居LLM竞技场首位！「不看智商看情商」的GPT-4.5，不是推理模型，此前的基准测试中基本都是全班垫底，惨不忍睹。

3/5/2025 9:32:00 AM

新智元

中国团队首次夺魁！无问芯穹FlightVGM获FPGA'25最佳论文，峰值算力超GPU21倍

国际可重构计算领域顶级会议 ——FPGA 2025 在落幕之时传来消息，今年的最佳论文颁发给了无问芯穹和上交、清华共同提出的视频生成大模型推理 IP 工作 FlightVGM，这是 FPGA 会议首次将该奖项授予完全由中国大陆科研团队主导的研究工作，同时也是亚太国家团队首次获此殊荣。这项工作首次在 FPGA 上实现了视频生成模型（Video Generation Models, VGMs）的高效推理，也是该团队继去年在 FPGA 上加速大语言模型 FlightLLM（FPGA’24）后的最新系列工作。与 NVIDIA 3090 GPU 相比，FlightVGM 在 AMD V80 FPGA 上实现了 1.30 倍的性能提升与 4.49 倍的能效提升（峰值算力差距超过 21 倍）。

3/3/2025 12:16:48 PM

机器之心

OpenAI掀「百万美金」编程大战！Claude 3.5 Sonnet狂赚40万拿下第一

昨天马斯克刚刚发布了号称「地表最聪明」的Grok 3模型，抢走了所有关注。这边OpenAI就开始坐不住了，立刻扔出了SWE-Lancer（AI编码测试基准），看一下AI到底能在现实任务中挣到多少钱。 SWE-Lance是一个全新的、更贴近现实的基准测试，用于评估AI模型的编码性能。

2/19/2025 4:01:37 PM

新智元

返老还童，OpenAI做到了？首个逆龄AI将登场，人类寿命可延长10年

超级智能要来了？人类「长生不老」有希望了？外媒称，OpenAI开发出了首款用于「长寿」的AI模型 ——GPT-4b micro，预计将人类寿命延长10年。

1/20/2025 9:13:00 AM

新智元

最真实大模型编程评估！字节开源FullStack Bench，首次全覆盖超11类现实编程场景

代码大模型越来越卷，评估AI编程水平的“考卷”也被迫升级。 12月5日，字节豆包大模型团队开源最新代码大模型评估基准FullStack Bench，在业界首次囊括编程全栈技术中超11类真实场景，覆盖16种编程语言，包含3374个问题，相比此前基准，可以更有效地评估大模型在现实世界中的代码开发能力。代码评估基准是衡量大模型编程能力的标准工具，也是推动模型优化的关键驱动力。

12/5/2024 3:46:00 PM

新闻助手