您正在搜索 gpt-4o-zai-xiu-shen-cao-zuo-fu-xian-openai-zong-cai-jiang-ke-wang-you-dang-zhen-le

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

感谢IT之家网友刺客的线索投递！在基准测试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，研究机构 LAION 的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题，揭示了 LLM 基准测试的盲区。一道简单的逻辑问题，竟让几乎所有的 LLM 全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的测试并不算很难 ——「爱丽丝有 N 个兄弟，她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹？」只需稍加思考，答案显而易见：M 1。（爱丽丝拥有的姐妹数量，再加上爱丽

成功率达 53%，研究显示 GPT-4 可自主利用“零日”漏洞攻破网站

据 NewAtlas 报道，研究人员利用自主协作的 GPT-4 机器人小组成功入侵了一半以上的测试网站，这些机器人可以自主协调行动并根据需要生成新的“帮手”。更令人吃惊的是，他们利用的是以前未知的、现实世界中从未公开的“零日”漏洞（zero-day vulnerabilities）。图源 Pexels早在几个月前，同一批研究人员就发表了一篇论文，声称他们能够使用 GPT-4 自动利用“N day”漏洞，即业界已知但尚未修复的漏洞。实验中，GPT-4 仅凭已知的常见漏洞和披露列表 (CVE)，就能自主利用其中 87%

科大讯飞：讯飞星火 V4.0 正在训练中，对标 GPT-4o 的产品也在研发

科大讯飞在“深交所互动易”平台回复网友提问时透露，对标 GPT-4 当前能力的讯飞星火 V4.0 正在训练中，预计在 2024 年 6 月底发布，对标 GPT-4o 的产品正在研发中。科大讯飞方面表示，公司将紧密结合人工智能的演进和突破，把成果持续应用到智慧教育的每个产品中，不断提升产品的用户体验和客户渗透率。而在今年 4 月，科大讯飞董事长刘庆峰曾透露，今年 6 月 27 日，讯飞星火 V4.0 将正式发布。刘庆峰当时表示，星火大模型（IT之家注：讯飞星火大模型 V3.5）的通用长文本能力，包括长文档信息抽取、长

研究：GPT-4 在预测公司盈利方面超越人类分析师

芝加哥大学的一项新研究表明，大型语言模型 GPT-4 在预测公司未来盈利增长方面能够胜过人类分析师，而且该人工智能模型仅使用了公司的财务报表，并没有额外的信息辅助。图源 Pexels以往，财务分析师依靠专业知识和经验来评估公司财务状况并预测未来盈利。然而这项研究表明，人工智能模型能够同样出色地完成这项任务，甚至做得更好。据IT之家了解，研究人员向模型提供了匿名化的财务数据，包括资产负债表和损益表，并要求其预测未来盈利增长情况。即使没有任何额外的信息，GPT-4 也能够实现 60% 的准确率，而人类分析师的典型准确率

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票分析师要下岗？AI 大牛质疑数据污染

【新智元导读】GPT-4 在为人类选股时，表现竟然超越了大部分人类分析师，和针对金融训练的专业模型？在没有任何上下文的情况下，它们直接就成功分析了财务报表，这一发现让许多业内大咖震惊了。然而好景不长，有 AI 大牛指出研究中的 bug：之所以会这样，很可能是训练数据被污染了。最近，各位业内大咖都被芝大的一篇论文震惊了。研究者发现，由 GPT-4 帮忙选择的股票，直接击败了人类！同时也 pk 掉了许多其他针对金融训练的机器学习模型。最让他们震惊的是，LLM 可以在没有任何叙述上下文的情况下，就成功分析财务报表中的数字

《自然》杂志研究：AI 追踪他人心理状态能力与人类相当或超越人类

在本月下旬最新一期的《自然-人类行为》期刊上，刊登了一篇关于 AI 的研究论文，其中提到，在测试追踪他人心理状态能力的任务中，两类 AI 大语言模型在特定情况下，具备与人类相似甚至超越人类的表现。图源 Pixabay作为人类沟通交流、产生共鸣的关键，心理状态能力（也称心智理论）对人类的社交互动来说非常重要。该论文的第一作者 —— 德国汉堡-埃彭多夫大学医学中心的 James W. A. Strachan 与同事及合作者一起，选择能测试心理理论不同方面的任务，包括发现错误想法、理解间接言语以及识别失礼等。IT之家注：

科大讯飞刘庆峰：今年 6、7 月就能赶上 GPT-4 目前水平

在澳门举行的 BEYOND 国际科技创新博览会上，科大讯飞董事长刘庆峰表示，中美在通用大模型底座上的差距，是半年到一年半之间的动态追赶，不会被甩开，“我们与 GPT-4 的差距在半年之内，今年 6、7 月前后就能赶上 GPT-4 目前水平。一旦 GPT-5 发布后，差距可能会被拉到约一年，但我们会再次赶上。”刘庆峰表示，GPT-4o 的底层逻辑还是 GPT-4，科大讯飞能在今年 6-7 月赶上，中美在 AI 大模型差距是半年时间，在这个基础上有可能在垂直领域比美国做的更好。因为中国互联网领域基础设施、创新模式比美国

微软 CEO 纳德拉：Azure AI Studio 已支持提供 OpenAI GPT-4o API

感谢IT之家网友我抢了台的线索投递！5 月 22 日凌晨，微软 Build 2024 开发者大会于在美国西雅图召开，据微软公司 CEO、董事长萨提亚・纳德拉介绍，由 OpeanAI 开发的最新旗舰模型 GPT-4o，现已在 Azure AI Studio 中提供，并作为 API 提供。该多模态模型集成了文本、图像和音频处理能力，带来了全新的生成式和对话式 AI 体验。此外，由微软开发的 Phi-3 列 AI 小型语言模型（SLM）中的一种新型多模态模型 Phi-3-vision 现已在 Azure 中推出。

通义千问GPT-4级主力模型降价97%，1块钱200万tokens

5月21日，阿里云抛出重磅炸弹：通义千问GPT-4级主力模型Qwen-Long，API输入价格从0.02元/千tokens降至0.0005元/千tokens，直降97%。这意味着，1块钱可以买200万tokens，相当于5本《新华字典》的文字量。这款模型最高支持1千万tokens长文本输入，降价后约为GPT-4价格的1/400，击穿全球底价。Qwen-Long是通义千问的长文本增强版模型，性能对标GPT-4，上下文长度最高达1千万。除了输入价格降至0.0005元/千tokens，Qwen-Long输出价格也直降90

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5，支持 30 种语言，宣称可实现：最强端侧多模态综合性能：超越 Gemini Pro 、GPT-4VOCR 能力 SOTA（IT之家注：State-of-the-Art）：9 倍像素更清晰，难图长图长文本精准识别图像编码快 150 倍：首次端侧系统级多模态加速▲ OpenCompass 模型量级对比MiniCPM-Llama3-V 2.5 总参数量为 8B，多模态综合性能超越 GPT-4V-1106、Ge

通义千问宣布“GPT-4 级”主力模型 Qwen-Long 降价 97%，一元 200 万 tokens

字节跳动 5 月 15 日正式发布了豆包大模型，宣布大模型价格进入“厘时代”，号称“比行业便宜 99.3%”。今日，阿里云紧随其后抛出重磅炸弹：通义千问 GPT-4 级主力模型 Qwen-Long 宣布降价，API 输入价格从 0.02 元 / 千 tokens 降至 0.0005 元 / 千 tokens，降幅 97%。简单来说，1 块钱可以买 200 万 tokens，相当于 5 本《新华字典》的文字量。这款模型最高支持 1 千万 tokens 长文本输入，降价后约为 GPT-4 价格的 1/400。参考IT之

Meta 首发「变色龙」挑战 GPT-4o，34B 参数引领多模态革命！10 万亿 token 训练刷新 SOTA

【新智元导读】GPT-4o 发布不到一周，首个敢于挑战王者的新模型诞生！最近，Meta 团队发布了「混合模态」Chameleon，可以在单一神经网络无缝处理文本和图像。10 万亿 token 训练的 34B 参数模型性能接近 GPT-4V，刷新 SOTA。GPT-4o 的横空出世，再次创立了一个多模态模型发展的新范式！为什么这么说？OpenAI 将其称为「首个『原生』多模态」模型，意味着 GPT-4o 与以往所有的模型，都不尽相同。传统的多模态基础模型，通常为每种模态采用特定的「编码器」或「解码器」，将不同的模态分

人机交互大迈步，OpenAI GPT-4o 演示视频引热议：AI 之间也能聊天

OpenAI 昨日凌晨发布 GPT-4o 模型，可以视为 GPT-4 的升级版本，可以实时推理处理音频、视觉和文本内容，而且能更加无缝地和 ChatGPT 交互。OpenAI 总裁兼联合创始人格雷格・布罗克曼（Greg Brockman）随后发布了上手演示，让两台运行 GPT-4o 的设备进行语音或视频交互。布罗克曼在演示开始之前，表达了自己的期望：让两台 AI 聊天机器人互相交流。布罗克曼向其中 A 聊天机器人讲述了他的期望，并让 B 聊天机器人可以调用摄像头观察周围世界。B 聊天机器人会调用前置摄像头，并清晰地

OpenAI 曾秘密测试 GPT-4o，力压群雄登顶聊天机器人竞技场排行榜

OpenAI 员工 William Fedus 周一在社交平台 X 证实，近期在 LMSYS 聊天机器人竞技场 (Chatbot Arena) 上表现优异的神秘聊天机器人“gpt-chatbot”，正是他们刚刚发布的全新人工智能模型 GPT-4o。Fedus 还透露，GPT-4o 在测试中登顶了竞技场排行榜，取得了有史以来的最高分。“GPT-4o 是我们最先进的尖端模型，”Fedus 在推特上写道，“我们一直在竞技场使用‘im-also-a-good-gpt2-chatbot’的名称测试该模型的一个版本。”聊天机器

GPT-4 化身黑客搞破坏，成功率 87%！OpenAI 要求保密提示词，网友复现 ing

91 行代码、1056 个 token，GPT-4 化身黑客搞破坏！测试成功率达 87%，单次成本仅 8.8 美元（折合人民币约 63 元）。这就是来自伊利诺伊大学香槟分校研究团队的最新研究。他们设计了一个黑客智能体框架，研究了包括 GPT-4、GPT-3.5 和众多开源模型在内的 10 个模型。结果发现只有 GPT-4 能够在阅读 CVE 漏洞描述后，学会利用漏洞攻击，而其它模型成功率为 0。研究人员表示，OpenAI 已要求他们不要向公众发布该研究的提示词。网友们立马赶来围观了，有人还搞起了复现。这是怎么一回

开启智能座舱AI时代，蔚来NOMI GPT端云多模态大模型正式上线

4月12日，蔚来宣布NOMI GPT正式开启推送。此次推送的更新是基于全新技术架构，为NOMI量身打造NOMI GPT端云多模态大模型。NOMI GPT包含自研多模态感知、自研认知中枢、情感引擎、多专家Agent，实现蔚来产品、服务、社区的全域贯通，提供更高效、愉悦的AI服务。升级NOMI GPT功能后，用户可以体验到大模型百科、无限趣聊、魔法氛围、趣玩表情、用车问答、AI场景生成在内的多项全新交互体验，享受智能AI赋能下的全新出行。此次NOMI GPT上线将同步陆续推送给搭载Banyan·榕智能系统的车型。自发布

为什么要纯C语言手搓GPT-2，Karpathy回应网友质疑

Karpathy：for fun.几天前，前特斯拉 Autopilot 负责人、OpenAI 科学家 Andrej Karpathy 发布了一个仅用 1000 行代码即可在 CPU/fp32 上实现 GPT-2 训练的项目「llm.c」。llm.c 旨在让大模型（LM）训练变得简单 —— 使用纯 C 语言 / CUDA，不需要 245MB 的 PyTorch 或 107MB 的 cPython。例如，训练 GPT-2（CPU、fp32）仅需要单个文件中的大约 1000 行干净代码（clean code），可以立即编

苹果研究人员称其设备端模型 ReALM 性能优于 GPT-4，可大幅提升 Siri 智能程度

虽然目前 Siri 可以尝试描述信息中的图像，但效果并不稳定。不过，苹果公司并没有放弃人工智能领域的探索。在最近的一篇研究论文中，苹果的人工智能团队描述了一种可以显著提升 Siri 智能的模型，而且他们认为这个名为 ReALM 的模型在测试中优于 OpenAI 的知名语言模型 GPT-4.0。IT之家注意到，ReALM 的特别之处在于，它可以同时理解用户屏幕上的内容和正在进行的操作。论文将信息分为以下三种类型：屏幕实体：指的是当前显示在用户屏幕上的内容。对话实体：指的是与对话相关的内容。例如，用户说“打电话给妈妈”

gpt-4o-zai-xiu-shen-cao-zuo-fu-xian-openai-zong-cai-jiang-ke-wang-you-dang-zhen-le 的搜索结果