日本AI专家评DeepSeek:中国AI新星崛起,技术实力接近OpenAI

中国初创企业DeepSeek(深度求索)开发的高性能、低成本生成式AI大规模语言模型(LLM)近日引发全球关注。 日本AI研究领域的权威、东京大学教授松尾丰在接受日本经济新闻采访时,对DeepSeek的技术水平、开源战略及其对日本企业的影响进行了深入分析。   松尾丰表示,DeepSeek的技术非常出色,其性能与美国OpenAI开发的ChatGPT接近。

中国初创企业DeepSeek(深度求索)开发的高性能、低成本生成式AI大规模语言模型(LLM)近日引发全球关注。日本AI研究领域的权威、东京大学教授松尾丰在接受日本经济新闻采访时,对DeepSeek的技术水平、开源战略及其对日本企业的影响进行了深入分析。  

松尾丰表示,DeepSeek的技术非常出色,其性能与美国OpenAI开发的ChatGPT接近。他指出,DeepSeek每次发布新模型时都会发布详细的技术论文,展示其在模型优化方面的创新之处。例如,今年1月发布的最新模型“R1”通过强化学习提升了推理能力,达到了与OpenAI“o1”模型相当的水平。  

DeepSeek

松尾丰认为,中国的AI开发水平已经与美国比肩,甚至在某些方面超越了美国。他指出,中国不仅有阿里巴巴、腾讯、百度等科技巨头,还拥有大量优秀工程师,形成了活跃的AI生态系统。DeepSeek在这样的环境中崛起并不令人意外,并可能进一步改变全球AI竞争的势力格局。  

松尾丰强调,DeepSeek的成功为日本初创企业提供了重要启示。作为一家非大型科技企业,DeepSeek凭借扎实的技术开发实现了世界领先的精度。这表明,即便在日本,只要专注于技术创新,企业同样有机会在AI领域取得突破。  

DeepSeek采取了开源战略,这一做法与Meta和阿里巴巴等企业类似。松尾丰指出,开源模型为全球开发者提供了强大的基础,使追加学习和性能提升变得更加容易。他认为,DeepSeek的出现增强了开源势力的影响力,尽管非公开模型(如OpenAI和谷歌的产品)仍具备竞争优势,但开源模型在特定场景下同样能够实现卓越性能。  

关于AI模型的安全风险,松尾丰表示,风险因使用方式而异。开源模型可以在本地运行,避免了数据外泄的风险;而使用在线服务时,数据会发送到服务器进行处理。他强调,无论是DeepSeek还是OpenAI,用户都需要对服务提供方保持信任,因为数据的使用和学习难以完全排除。  

相关资讯

DeepSeek开源第四天发布并行策略升级:DualPipe与EPLB技术推动大模型训练革命

今日,国内人工智能领军企业DeepSeek正式公开其开源计划的第四日成果——Optimized Parallelism Strategies(优化并行策略),重点推出双向管道并行算法DualPipe、专家并行负载均衡器EPLB,以及对计算-通信重叠机制的深度优化。 此次技术升级直击大规模语言模型训练的核心痛点,为超万卡级集群的高效运行提供了全新解决方案。 DualPipe:双向管道并行算法作为本次升级的核心技术之一,DualPipe专为V3/R1架构设计,通过创新的双向数据流管道,实现计算与通信的高度重叠。

从模型、数据和框架三个视角出发,这里有份54页的高效大语言模型综述

大规模语言模型(LLMs)在很多关键任务中展现出显著的能力,比如自然语言理解、语言生成和复杂推理,并对社会产生深远的影响。然而,这些卓越的能力伴随着对庞大训练资源的需求(如下图左)和较长推理时延(如下图右)。因此,研究者们需要开发出有效的技术手段去解决其效率问题。同时,我们从图右还可以看出,近来较为火热的高效 LLMs,例如 Mistral-7B,在确保和 LLaMA1-33B 相近的准确度的情况下可以大大减少推理内存和降低推理时延,可见已有部分可行的高效手段被成功应用于 LLMs 的设计和部署中。在本综述中,来自

AI在这方面存在致命缺陷!专家:AI不应用于重要应用

在当前的技术环境下,人工智能(AI)引发了广泛的讨论。 德蒙特福特大学的网络安全教授 Eerke Boiten 对此表示,现有的 AI 系统在管理和可靠性方面存在根本性缺陷,因此不应被用于重要应用。 Boiten 教授指出,当前的 AI 系统大多依赖于大型神经网络,尤其是生成式 AI 和大型语言模型(如 ChatGPT)。