您正在搜索 gpt-4o-zai-bao-lu-ruo-zhi-que-xian-da-mo-xing-wu-yi-xing-mian-gang-zhong-wen-deng-fa-bu-shi-jue-ting-jue-ji-zhun-av-odyssey-26-ge-ren-wu-zhi-zhi-si-jiao-wen-ti

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

感谢上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍，2024 年全国高考甫一结束，该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。评测采用全国新课标 I 卷，参与评测的所有开源模型开源时间均早于高考，确保评测“闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。该机构表示，Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲

智源更新大模型排行榜：豆包大模型“客观评测”排名国产第一

6月中旬，智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单：在有标准答案的“客观评测”中，GPT-4 以76.11分在闭源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同时也是得分最高的国产大模型；其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在开放问答等“主观评测”中，Doubao-Pro 同样排名第二，得分超过 GPT-4o 和 GPT-4。图：豆包大模型在 FlagEval 客观评测中获综合评分第二（2024年6月）FlagEval 大

研究称 GPT-4 通过了图灵测试，54% 的人将其误认为真人

感谢最新研究称，越来越多的人难以在图灵测试中区分 GPT-4 和人类。图源 Pexels据IT之家了解，“图灵测试”由计算机科学家艾伦・图灵在 1950 年提出，又被称为“模仿游戏”。测试的标准是机器能否像人类一样进行对话，让对方误以为其是真人。加州大学圣地亚哥分校的研究人员招募了 500 名参与者，让他们与四位“对话者”进行五分钟的交流，这四位“对话者”分别是真人、上世纪 60 年代的初代聊天机器人 ELIZA、以及驱动聊天机器人 ChatGPT 的 GPT-3.5 和 GPT-4。参与者在对话结束后需判断对方是

预测准确率达95.7%，ChatMOF利用LLM预测和生成金属有机框架

编辑 | X金属有机框架（MOF）因其孔隙率大、表面积大和出色的可调性而用于许多化学应用。然而，在利用 AI 深入探索 MOF 设计与性能优化的研究征途中，科学家们正面临着前所未有的挑战。去年 3 月，韩国科学技术院（Korea Advanced Institute of Science and Technology，KAIST）的研究人员提出的 MOFTransformer 模型经过一百万个假设的 MOF 的预训练，在预测各种属性方面表现出色。近日，KAIST 团队提出了一种 AI 系统——ChatMOF，用于预

Copilot Pro 订阅魅力下降，微软 7 月 10 日下线用户自建 GPT 服务

微软今天发布公告，宣布 Copilot Pro 服务将移除 GPT Builder，意味着订阅用户无法继续创建自己的 Copilot GPT。GPT Builder 也称为 Copilot GPT，订阅 Copilot Pro 的用户可以使用文档、外部或内部资源以及自定义指令创建自己的 Copilot GPT。Copilot Pro 是售价 20 美元的 Microsoft Copilot 订阅版本，具有一些附加功能，如 GPT 生成器和 Copilot 在 Word、Excel、PowerPoint 和 Outl

Karpathy最新四小时视频教程：从零复现GPT-2，通宵运行即搞定

这是Karpathy「Neural Networks：zero to hero」系列视频的最新内容。AI 大牛 Andrej Karpathy 又「上新」了，这次一口气放出了长达四个小时的视频。视频主题为「让我们来复现 GPT-2（1.24 亿参数）」。Karpathy 表示，此次视频之所以这么长，是因为它很全面：从空文件开始，最后得到一个 GPT-2（124M）模型。具体实现步骤包括如下：首先构建 GPT-2 网络。然后对其进行优化，以便快速训练。然后通过参考 GPT-2 和 GPT-3 论文来设置训练运行优化和

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

感谢IT之家网友刺客的线索投递！在基准测试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，研究机构 LAION 的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题，揭示了 LLM 基准测试的盲区。一道简单的逻辑问题，竟让几乎所有的 LLM 全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的测试并不算很难 ——「爱丽丝有 N 个兄弟，她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹？」只需稍加思考，答案显而易见：M 1。（爱丽丝拥有的姐妹数量，再加上爱丽

成功率达 53%，研究显示 GPT-4 可自主利用“零日”漏洞攻破网站

据 NewAtlas 报道，研究人员利用自主协作的 GPT-4 机器人小组成功入侵了一半以上的测试网站，这些机器人可以自主协调行动并根据需要生成新的“帮手”。更令人吃惊的是，他们利用的是以前未知的、现实世界中从未公开的“零日”漏洞（zero-day vulnerabilities）。图源 Pexels早在几个月前，同一批研究人员就发表了一篇论文，声称他们能够使用 GPT-4 自动利用“N day”漏洞，即业界已知但尚未修复的漏洞。实验中，GPT-4 仅凭已知的常见漏洞和披露列表 (CVE)，就能自主利用其中 87%

科大讯飞：讯飞星火 V4.0 正在训练中，对标 GPT-4o 的产品也在研发

科大讯飞在“深交所互动易”平台回复网友提问时透露，对标 GPT-4 当前能力的讯飞星火 V4.0 正在训练中，预计在 2024 年 6 月底发布，对标 GPT-4o 的产品正在研发中。科大讯飞方面表示，公司将紧密结合人工智能的演进和突破，把成果持续应用到智慧教育的每个产品中，不断提升产品的用户体验和客户渗透率。而在今年 4 月，科大讯飞董事长刘庆峰曾透露，今年 6 月 27 日，讯飞星火 V4.0 将正式发布。刘庆峰当时表示，星火大模型（IT之家注：讯飞星火大模型 V3.5）的通用长文本能力，包括长文档信息抽取、长

解锁 GPT-4o，“上帝”版 ChatGPT 绕过 OpenAI 防护栏：能回答制作汽油弹等问题

网名为 Pliny the Prompter 的用户 5 月 30 日发布推文，表示已成功越狱 GPT-4o 模型，新推出的上帝模式“GODMODE”可以在 ChatGPT 挣脱安全措施，让用户尽情展开 AI 聊天。Pliny the Prompter 自称是网络白帽和红队（主要为攻击测试），推文中表示：“请负责任地使用，并尽情享受！”IT之家附上相关截图如下：Pliny 分享了一些截图，证明已经绕过 OpenAI 的“防护栏”，其中一张截图 AI 为 Pliny 提供了如何“用家用物品制作凝固汽油弹”教程。科技媒

研究：GPT-4 在预测公司盈利方面超越人类分析师

芝加哥大学的一项新研究表明，大型语言模型 GPT-4 在预测公司未来盈利增长方面能够胜过人类分析师，而且该人工智能模型仅使用了公司的财务报表，并没有额外的信息辅助。图源 Pexels以往，财务分析师依靠专业知识和经验来评估公司财务状况并预测未来盈利。然而这项研究表明，人工智能模型能够同样出色地完成这项任务，甚至做得更好。据IT之家了解，研究人员向模型提供了匿名化的财务数据，包括资产负债表和损益表，并要求其预测未来盈利增长情况。即使没有任何额外的信息，GPT-4 也能够实现 60% 的准确率，而人类分析师的典型准确率

芝大论文证明 GPT-4 选股准确率高达 60%，人类股票分析师要下岗？AI 大牛质疑数据污染

【新智元导读】GPT-4 在为人类选股时，表现竟然超越了大部分人类分析师，和针对金融训练的专业模型？在没有任何上下文的情况下，它们直接就成功分析了财务报表，这一发现让许多业内大咖震惊了。然而好景不长，有 AI 大牛指出研究中的 bug：之所以会这样，很可能是训练数据被污染了。最近，各位业内大咖都被芝大的一篇论文震惊了。研究者发现，由 GPT-4 帮忙选择的股票，直接击败了人类！同时也 pk 掉了许多其他针对金融训练的机器学习模型。最让他们震惊的是，LLM 可以在没有任何叙述上下文的情况下，就成功分析财务报表中的数字

《自然》杂志研究：AI 追踪他人心理状态能力与人类相当或超越人类

在本月下旬最新一期的《自然-人类行为》期刊上，刊登了一篇关于 AI 的研究论文，其中提到，在测试追踪他人心理状态能力的任务中，两类 AI 大语言模型在特定情况下，具备与人类相似甚至超越人类的表现。图源 Pixabay作为人类沟通交流、产生共鸣的关键，心理状态能力（也称心智理论）对人类的社交互动来说非常重要。该论文的第一作者 —— 德国汉堡-埃彭多夫大学医学中心的 James W. A. Strachan 与同事及合作者一起，选择能测试心理理论不同方面的任务，包括发现错误想法、理解间接言语以及识别失礼等。IT之家注：

科大讯飞刘庆峰：今年 6、7 月就能赶上 GPT-4 目前水平

在澳门举行的 BEYOND 国际科技创新博览会上，科大讯飞董事长刘庆峰表示，中美在通用大模型底座上的差距，是半年到一年半之间的动态追赶，不会被甩开，“我们与 GPT-4 的差距在半年之内，今年 6、7 月前后就能赶上 GPT-4 目前水平。一旦 GPT-5 发布后，差距可能会被拉到约一年，但我们会再次赶上。”刘庆峰表示，GPT-4o 的底层逻辑还是 GPT-4，科大讯飞能在今年 6-7 月赶上，中美在 AI 大模型差距是半年时间，在这个基础上有可能在垂直领域比美国做的更好。因为中国互联网领域基础设施、创新模式比美国

微软 CEO 纳德拉：Azure AI Studio 已支持提供 OpenAI GPT-4o API

感谢IT之家网友我抢了台的线索投递！5 月 22 日凌晨，微软 Build 2024 开发者大会于在美国西雅图召开，据微软公司 CEO、董事长萨提亚・纳德拉介绍，由 OpeanAI 开发的最新旗舰模型 GPT-4o，现已在 Azure AI Studio 中提供，并作为 API 提供。该多模态模型集成了文本、图像和音频处理能力，带来了全新的生成式和对话式 AI 体验。此外，由微软开发的 Phi-3 列 AI 小型语言模型（SLM）中的一种新型多模态模型 Phi-3-vision 现已在 Azure 中推出。

通义千问GPT-4级主力模型降价97%，1块钱200万tokens

5月21日，阿里云抛出重磅炸弹：通义千问GPT-4级主力模型Qwen-Long，API输入价格从0.02元/千tokens降至0.0005元/千tokens，直降97%。这意味着，1块钱可以买200万tokens，相当于5本《新华字典》的文字量。这款模型最高支持1千万tokens长文本输入，降价后约为GPT-4价格的1/400，击穿全球底价。Qwen-Long是通义千问的长文本增强版模型，性能对标GPT-4，上下文长度最高达1千万。除了输入价格降至0.0005元/千tokens，Qwen-Long输出价格也直降90

面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型：8B 参数、高效部署手机

感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5，支持 30 种语言，宣称可实现：最强端侧多模态综合性能：超越 Gemini Pro 、GPT-4VOCR 能力 SOTA（IT之家注：State-of-the-Art）：9 倍像素更清晰，难图长图长文本精准识别图像编码快 150 倍：首次端侧系统级多模态加速▲ OpenCompass 模型量级对比MiniCPM-Llama3-V 2.5 总参数量为 8B，多模态综合性能超越 GPT-4V-1106、Ge

通义千问宣布“GPT-4 级”主力模型 Qwen-Long 降价 97%，一元 200 万 tokens

字节跳动 5 月 15 日正式发布了豆包大模型，宣布大模型价格进入“厘时代”，号称“比行业便宜 99.3%”。今日，阿里云紧随其后抛出重磅炸弹：通义千问 GPT-4 级主力模型 Qwen-Long 宣布降价，API 输入价格从 0.02 元 / 千 tokens 降至 0.0005 元 / 千 tokens，降幅 97%。简单来说，1 块钱可以买 200 万 tokens，相当于 5 本《新华字典》的文字量。这款模型最高支持 1 千万 tokens 长文本输入，降价后约为 GPT-4 价格的 1/400。参考IT之

gpt-4o-zai-bao-lu-ruo-zhi-que-xian-da-mo-xing-wu-yi-xing-mian-gang-zhong-wen-deng-fa-bu-shi-jue-ting-jue-ji-zhun-av-odyssey-26-ge-ren-wu-zhi-zhi-si-jiao-wen-ti 的搜索结果