理论 - AIGC宇宙

2024年优秀Web开发工具发展趋势总结

译者 | 陈峻审校 | 重楼在科技领域我们经常会看到，某一项技术的兴起和受到关注，往往会为其他相关领域的蓬勃发展创造广阔的空间和资源。例如，在大量涌现的LLM（大语言模型）领域，入场的玩家和资本产生了蝴蝶效应，为其他技术稍逊、但小众必要的软件项目，提供了更多的发展可能性与应用空间。它们虽然并不处在技术迭代的第一线，但是确实能让项目本身、以及用户从中受益。

OpenAI研究员首次提出「AGI时间」进化论！o1数学已达「分钟级AGI」

随着AI不断刷新各项基准测试，关于AI的发展各方也态度不一。早在本月5日，「泛化的未知未来」研讨会上，众多知名研究员就相关话题展开了一场针锋相对的辩论。此次辩题是「当今的LLM沿着既有路线持续发展是否就足以实现真正的AGI」。

DeepSeek V3“报错家门”：我是ChatGPT

要说这两天大模型圈的顶流话题，那绝对是非DeepSeek V3莫属了。不过在网友们纷纷测试之际，有个bug也成了热议的焦点——只是少了一个问号，DeepSeek V3竟然称自己是ChatGPT。甚至让它讲个笑话，生成的结果也是跟ChatGPT一样：加之DeepSeek V3这次爆火的一个亮点，就是训练只花了557.6万美元的成本。

超越ControlNet++！腾讯优图提出动态条件选择新架构

超越ControlNet ，让文生图更可控的新框架来了！腾讯优图、南洋理工、浙大等研究机构联合推出DynamicControl，直接将多模态大语言模型（MLLM）的推理能力集成到文本生成图像（T2I)）任务中。而且还提出了一种新颖、高效的多控制适配器，可以自适应地选择不同的条件，从而实现动态多控制对齐。

数势科技研发的数据资产和数据分析相关产品，主要面向零售和金融企业，帮助其进行业务语义层资产构建，为企业提供基于大模型增强的数据分析 AI Agent、智能指标平台、智能标签平台及智能营销平台，从而助力企业提升数字化决策能力，推动企业数字化升级。本文将分享如何基于大模型能力，叠加指标和标签平台能力，构建企业内智能数据分析产品。一、企业经营分析的难点和挑战企业内部的数据分析涉及到诸多方面，包括：加工制作报表；基于数据发现异常因素，开发人员需要通过 SQL 或算法去做多维异常检测；进一步挖掘异常背后的原因，又需要因果推断或者归因洞察等算法；分析之后还需要撰写数据分析报告。

基于谷歌Gemini多模态模型实现PDF文档自动化处理

译者 | 朱先忠审校 | 重楼引言近年来，自动化文档处理成为ChatGPT革命的最大赢家之一，因为LLM能够在零样本设置中处理广泛的主题和任务，这意味着无需域内标记的训练数据。这使得构建AI驱动的应用程序来处理、解析和自动理解任意文档变得更加容易。虽然使用LLM的简单方法仍然受到非文本上下文（例如图形、图像和表格）的阻碍，但是这正是我们将在本文中尝试解决的问题，而且我们特别关注PDF文件格式。

CPO薪资倒挂CEO，创业公司薪酬情况大起底

初创公司里，平均薪酬最高的不是CEO？你还真别说，事实上，CEO薪酬不仅远远落后CPO（首席产品官，Chief Product Officer）。甚至COO（首席运营官，Chief Operating Officer）、CTO（首席技术官，Chief Technology Officer）都比CEO要高。

OpenAI的停机事件教会我们要构建更具弹性的系统

译者 | 李睿审校 | 重楼2024年12月11日， OpenAI公司提供的服务由于新部署的遥测服务出现问题而遭遇重大停机。此次事件影响了API、ChatGPT和Sora服务，导致持续数小时的服务中断。作为一家致力于提供准确高效的人工智能解决方案的供应商，OpenAI公司为此发布一份详细的事后分析报告，公开地讨论了出现问题的原因，以及他们如何计划防止在未来发生类似事件。

吹哨人之死：26岁OpenAI举报人离奇自杀，母亲心碎曝出惊人内幕！

举报人去世整整一个月后，沉默许久的OpenAI终于给出了官方回应。他们发布了一篇公告，解答了公众对于「前队友」的种种疑问。我们得知这一悲痛的消息后深感震惊，并已与Suchir的家人取得联系，在这个困难时期向他们提供全力支持。

协议曝光！原来微软OpenAI这样定义AGI

AGI的定义，微软和OpenAI早就悄悄谋定了。主要评判维度不看技术，而是收益。 The Information爆料，2023年双方达成秘密协定——OpenAI需要研发出能够带来1000亿美元收益的AI系统，才能被视为实现AGI。

国产之光DeepSeek把AI大佬全炸出来了！671B大模型训练只需此前算力1/10，细节全公开

DeepSeek新版模型正式发布，技术大佬们都转疯了！延续便宜大碗特点的基础之上，DeepSeek V3发布即完全开源，直接用了53页论文把训练细节和盘托出的那种。怎么说呢，QLoRA一作的一个词评价就是：优雅。

北大开源首个针对视频编辑的新指标，与人类感知高度对齐｜AAAI25

视频生成模型卷得热火朝天，配套的视频评价标准自然也不能落后。现在，北京大学MMCAL团队开发了首个用于视频编辑质量评估的新指标——VE-Bench，相关代码与预训练权重均已开源。它重点关注了AI视频编辑中最常见的一个场景：视频编辑前后结果与原始视频之间的联系。

中国MoE一夜爆火！大模型新王暴打GPT-4o，训练成本仅600万美元

一夜之间，来自中国的大模型刷屏全网。 DeepSeek-V3，一个拥有671B参数的MoE模型，吞吐量每秒高达60 token，比上一代V2直接飙升3倍。在多项基准测试中，V3性能直接与Claude 3.5 Sonnet、GPT-4o相匹敌。

突发！ChatGPT、Sora、API发生重大错误，宕机数小时

今天凌晨5点，OpenAI宣布，ChatGPT、Sora和API产生了重大错误，大部分已经宕机了几个小时。但已经确定了问题所在，并已开始着手恢复。不过这下可让Sam Altman难看了，前几天他还特意发文送出圣诞节特别奖励——无限使用Sora。

Cursor 深度评测：革命性提效工具还是过誉的玩具？

最近 Cursor 很火，火到我身边的程序员们已经不聊河北彩花，LOL，黑猴等，而是在各种场合讨论这个 Cursor 的辅助编程能力。各类内容平台也在以惊人的速度，迭代出了许多相关教学视频：图片我试用了一段时间，第一感觉确实很惊艳，能帮我解决很多基础问题，实打实地提升开发效率，印象比较深的，包括：Codebase Indexing、@symbol 等功能带来的更强的上下文索引能力，而这极大提升最终 LLM 生成的代码效果；Cursor Composer 功能提供了一个注意力非常聚焦的编程面板，相比于过往 GPT 等产品的即聊即抛的模式，更容易做好跨文件的编辑开发，而这更符合专业开发者的模块化编程习惯。但是，我觉得，至少在当下阶段，这类产品的定位只能是“辅助编程”，虽然能极大提升效率，但还只是编程活动中的辅助客体，俗称打下手；程序员本体 —— 人类智能依然是主体地位，有点类似于掌柜的吧。

理论