您正在搜索 gpt-5-yao-deng-dao-ming-nian-openai-ceo-jin-nian-wu-fa-tong-shi-fa-bu-nei-me-duo-dong-xi

《自然》杂志研究：AI 追踪他人心理状态能力与人类相当或超越人类

在本月下旬最新一期的《自然-人类行为》期刊上，刊登了一篇关于 AI 的研究论文，其中提到，在测试追踪他人心理状态能力的任务中，两类 AI 大语言模型在特定情况下，具备与人类相似甚至超越人类的表现。图源 Pixabay作为人类沟通交流、产生共鸣的关键，心理状态能力（也称心智理论）对人类的社交互动来说非常重要。该论文的第一作者 —— 德国汉堡-埃彭多夫大学医学中心的 James W. A. Strachan 与同事及合作者一起，选择能测试心理理论不同方面的任务，包括发现错误想法、理解间接言语以及识别失礼等。IT之家注：

科大讯飞刘庆峰：今年 6、7 月就能赶上 GPT-4 目前水平

在澳门举行的 BEYOND 国际科技创新博览会上，科大讯飞董事长刘庆峰表示，中美在通用大模型底座上的差距，是半年到一年半之间的动态追赶，不会被甩开，“我们与 GPT-4 的差距在半年之内，今年 6、7 月前后就能赶上 GPT-4 目前水平。一旦 GPT-5 发布后，差距可能会被拉到约一年，但我们会再次赶上。”刘庆峰表示，GPT-4o 的底层逻辑还是 GPT-4，科大讯飞能在今年 6-7 月赶上，中美在 AI 大模型差距是半年时间，在这个基础上有可能在垂直领域比美国做的更好。因为中国互联网领域基础设施、创新模式比美国

微软 CEO 纳德拉：Azure AI Studio 已支持提供 OpenAI GPT-4o API

感谢IT之家网友我抢了台的线索投递！5 月 22 日凌晨，微软 Build 2024 开发者大会于在美国西雅图召开，据微软公司 CEO、董事长萨提亚・纳德拉介绍，由 OpeanAI 开发的最新旗舰模型 GPT-4o，现已在 Azure AI Studio 中提供，并作为 API 提供。该多模态模型集成了文本、图像和音频处理能力，带来了全新的生成式和对话式 AI 体验。此外，由微软开发的 Phi-3 列 AI 小型语言模型（SLM）中的一种新型多模态模型 Phi-3-vision 现已在 Azure 中推出。

通义千问GPT-4级主力模型降价97%，1块钱200万tokens

5月21日，阿里云抛出重磅炸弹：通义千问GPT-4级主力模型Qwen-Long，API输入价格从0.02元/千tokens降至0.0005元/千tokens，直降97%。这意味着，1块钱可以买200万tokens，相当于5本《新华字典》的文字量。这款模型最高支持1千万tokens长文本输入，降价后约为GPT-4价格的1/400，击穿全球底价。Qwen-Long是通义千问的长文本增强版模型，性能对标GPT-4，上下文长度最高达1千万。除了输入价格降至0.0005元/千tokens，Qwen-Long输出价格也直降90

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5，支持 30 种语言，宣称可实现：最强端侧多模态综合性能：超越 Gemini Pro 、GPT-4VOCR 能力 SOTA（IT之家注：State-of-the-Art）：9 倍像素更清晰，难图长图长文本精准识别图像编码快 150 倍：首次端侧系统级多模态加速▲ OpenCompass 模型量级对比MiniCPM-Llama3-V 2.5 总参数量为 8B，多模态综合性能超越 GPT-4V-1106、Ge

通义千问宣布“GPT-4 级”主力模型 Qwen-Long 降价 97%，一元 200 万 tokens

字节跳动 5 月 15 日正式发布了豆包大模型，宣布大模型价格进入“厘时代”，号称“比行业便宜 99.3%”。今日，阿里云紧随其后抛出重磅炸弹：通义千问 GPT-4 级主力模型 Qwen-Long 宣布降价，API 输入价格从 0.02 元 / 千 tokens 降至 0.0005 元 / 千 tokens，降幅 97%。简单来说，1 块钱可以买 200 万 tokens，相当于 5 本《新华字典》的文字量。这款模型最高支持 1 千万 tokens 长文本输入，降价后约为 GPT-4 价格的 1/400。参考IT之

Meta 首发「变色龙」挑战 GPT-4o，34B 参数引领多模态革命！10 万亿 token 训练刷新 SOTA

【新智元导读】GPT-4o 发布不到一周，首个敢于挑战王者的新模型诞生！最近，Meta 团队发布了「混合模态」Chameleon，可以在单一神经网络无缝处理文本和图像。10 万亿 token 训练的 34B 参数模型性能接近 GPT-4V，刷新 SOTA。GPT-4o 的横空出世，再次创立了一个多模态模型发展的新范式！为什么这么说？OpenAI 将其称为「首个『原生』多模态」模型，意味着 GPT-4o 与以往所有的模型，都不尽相同。传统的多模态基础模型，通常为每种模态采用特定的「编码器」或「解码器」，将不同的模态分

从人机交互角度，聊聊最近爆火的ChatGPT-4o

近日 ChatGPT-4o 的发布会应该是未来几天 AI 圈子最有热度的话题了，其中几条更新其实可以从人机交互的角度解读一下。首先我们还是先来看看 GPT-4o 更新的主要内容（只关注交互角度解读可跳过）：多模态交互能力：ChatGPT 4.0 支持图像和文本输入，并能输出文本，具备多模态交互的能力。这意味着它可以理解图像内容，并生成字幕、分类和分析等操作。自然语言理解能力提升：在自然语言理解方面有显著提升，这使得 ChatGPT 4.0 能够更好地理解用户的输入，并根据用户的语境提供更准确的回答。上下文长度增

我们上手实测GPT-4o：速度快到飞起，还能直出板书，但视频分析逊色

机器之能原创作者：山茶花 Cardina作为 OpenAI 有史以来最好的模型， GPT-4o 究竟强在哪里？你要知道，它是一个原生的多模态大模型，可以跨文本、音频和视频进行实时推理——能听、能说、能看、零延时、可打断，还会「看人脸色」。更重要的是，它还免费！赶紧薅一把，你会知道什么是真・科幻照进现实！实测 GPT-4o：速度飞快，视觉能力惊艳打开 ChatGPT 官网，就会收到 GPT-4o 的试用邀请，点击「立即试用」即可进入对话页面。如果没有收到邀请，可能是灰度测试阶段，稍等一会再重新进入。然后，直接在下方的

人机交互大迈步，OpenAI GPT-4o 演示视频引热议：AI 之间也能聊天

OpenAI 昨日凌晨发布 GPT-4o 模型，可以视为 GPT-4 的升级版本，可以实时推理处理音频、视觉和文本内容，而且能更加无缝地和 ChatGPT 交互。OpenAI 总裁兼联合创始人格雷格・布罗克曼（Greg Brockman）随后发布了上手演示，让两台运行 GPT-4o 的设备进行语音或视频交互。布罗克曼在演示开始之前，表达了自己的期望：让两台 AI 聊天机器人互相交流。布罗克曼向其中 A 聊天机器人讲述了他的期望，并让 B 聊天机器人可以调用摄像头观察周围世界。B 聊天机器人会调用前置摄像头，并清晰地

OpenAI 曾秘密测试 GPT-4o，力压群雄登顶聊天机器人竞技场排行榜

OpenAI 员工 William Fedus 周一在社交平台 X 证实，近期在 LMSYS 聊天机器人竞技场 (Chatbot Arena) 上表现优异的神秘聊天机器人“gpt-chatbot”，正是他们刚刚发布的全新人工智能模型 GPT-4o。Fedus 还透露，GPT-4o 在测试中登顶了竞技场排行榜，取得了有史以来的最高分。“GPT-4o 是我们最先进的尖端模型，”Fedus 在推特上写道，“我们一直在竞技场使用‘im-also-a-good-gpt2-chatbot’的名称测试该模型的一个版本。”聊天机器

GPT-4 化身黑客搞破坏，成功率 87%！OpenAI 要求保密提示词，网友复现 ing

91 行代码、1056 个 token，GPT-4 化身黑客搞破坏！测试成功率达 87%，单次成本仅 8.8 美元（折合人民币约 63 元）。这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架，研究了包括 GPT-4、GPT-3.5 和众多开源模型在内的 10 个模型。结果发现只有 GPT-4 能够在阅读 CVE 漏洞描述后，学会利用漏洞攻击，而其它模型成功率为 0。研究人员表示，OpenAI 已要求他们不要向公众发布该研究的提示词。网友们立马赶来围观了，有人还搞起了复现。这是怎么一回

开启智能座舱AI时代，蔚来NOMI GPT端云多模态大模型正式上线

4月12日，蔚来宣布NOMI GPT正式开启推送。此次推送的更新是基于全新技术架构，为NOMI量身打造NOMI GPT端云多模态大模型。NOMI GPT包含自研多模态感知、自研认知中枢、情感引擎、多专家Agent，实现蔚来产品、服务、社区的全域贯通，提供更高效、愉悦的AI服务。升级NOMI GPT功能后，用户可以体验到大模型百科、无限趣聊、魔法氛围、趣玩表情、用车问答、AI场景生成在内的多项全新交互体验，享受智能AI赋能下的全新出行。此次NOMI GPT上线将同步陆续推送给搭载Banyan·榕智能系统的车型。自发布

为什么要纯C语言手搓GPT-2，Karpathy回应网友质疑

Karpathy：for fun.几天前，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」。llm.c 旨在让大模型（LM）训练变得简单 —— 使用纯 C 语言 / CUDA，不需要 245MB 的 PyTorch 或 107MB 的 cPython。例如，训练 GPT-2（CPU、fp32）仅需要单个文件中的大约 1000 行干净代码（clean code），可以立即编

苹果研究人员称其设备端模型 ReALM 性能优于 GPT-4，可大幅提升 Siri 智能程度

虽然目前 Siri 可以尝试描述信息中的图像，但效果并不稳定。不过，苹果公司并没有放弃人工智能领域的探索。在最近的一篇研究论文中，苹果的人工智能团队描述了一种可以显著提升 Siri 智能的模型，而且他们认为这个名为 ReALM 的模型在测试中优于 OpenAI 的知名语言模型 GPT-4.0。IT之家注意到，ReALM 的特别之处在于，它可以同时理解用户屏幕上的内容和正在进行的操作。论文将信息分为以下三种类型：屏幕实体：指的是当前显示在用户屏幕上的内容。对话实体：指的是与对话相关的内容。例如，用户说“打电话给妈妈”

优于人类专家，GPT-4 准确注释单细胞类型，成本低且稳健

编辑 | 萝卜皮GPT-4 是一种专为语音理解和生成而设计的大型语言模型。哥伦比亚大学梅尔曼公共卫生学院（Columbia University Mailman School of Public Health）的 Wenpin Hou 和杜克大学医学院（Duke University School of Medicine）的 Zhicheng Ji 证明，大语言模型 GPT-4 可以在单细胞 RNA 测序分析中使用标记基因信息准确注释细胞类型。「注释单个细胞的细胞类型的过程通常非常耗时，需要人类专家比较跨细胞簇的基

和 GPT-4 并列第一，LMSYS 基准测试显示 Claude-3 模型表现优异

根据 LMSYS Org 公布的最新基准测试报告，Claude-3 得分以微弱优势超越 GPT-4，成为该平台“最佳”大语言模型。IT之家首先介绍下 LMSYS Org，该机构是由加州大学伯克利分校、加州大学圣地亚哥分校和卡内基梅隆大学合作创立的研究组织。该机构推出 Chatbot Arena，这是一个针对大型语言模型（LLM）的基准平台，以众包方式匿名、随机对抗测评大模型产品，其评级基于国际象棋等竞技游戏中广泛使用的 Elo 评分系统。评分结果通过用户投票产生，系统每次会随机选择两个不同的大模型机器人和用户聊天

强如 GPT-4，也未通过伯克利与斯坦福共同设计的这项“剧本杀”测试

编译 | 赖文昕编辑 | 陈彩娴语言大模型能依据人类设定的规则生成内容吗？这背后关乎人类用户使用大模型的安全问题。例如，AI 科技评论想使用 GPT-4 制作一张包含对话框的图片，但没有针对目标生成对话的内容给予明确指示，而 GPT-4 生成的图文效果便如下，显示文本逻辑混乱、字不成章，还有部分“重影”：语言大模型能否遵循人类指示生成合格内容，是人类能否操控人工智能的重要评测标准之一。

gpt-5-yao-deng-dao-ming-nian-openai-ceo-jin-nian-wu-fa-tong-shi-fa-bu-nei-me-duo-dong-xi 的搜索结果