您正在搜索 gpt-4-hua-shen-hei-ke-gao-po-huai-cheng-gong-lv-87-openai-yao-qiu-bao-mi-ti-shi-ci-wang-you-fu-xian-ing

15 个 AI 模型只有 3 个得分超 50%，SIUO 跑分被提出：评估多模态 AI 模型的安全性

最新发表在 arXiv 的研究论文指出，包括 GPT-4V、GPT-4o 和 Gemini 1.5 在内的大部分主流多模态 AI 模型，处理用户的多模态输入（例如一起输入图片和文本内容）之后，输出结果并不安全。这项研究标题为《跨模态安全调整》（Cross-Modality Safety Alignment），提出了一个全新的“安全输入但不安全输出”（SIUO），涉及道德、危险行为、自残、侵犯隐私、信息误读、宗教信仰、歧视和刻板印象、争议性话题以及非法活动和犯罪等 9 个安全领域。研究人员说，大型视觉语言模型（LVL

研究发现，OpenAI 的 GPT-4o 道德推理能力胜过人类专家

近期的一项研究表明，OpenAI 最新的聊天机器人 GPT-4o 能够提供道德方面的解释和建议，且质量优于“公认的”道德专家所提供的建议。据 The Decoder 当地时间周六报道，美国北卡罗莱纳大学教堂山分校和艾伦 AI 研究所的研究人员进行了两项研究，将 GPT 模型与人类的道德推理能力进行比较，以探讨大语言模型是否可被视为“道德专家”。IT之家汇总研究内容如下：研究一501 名美国成年人对比了 GPT-3.5-turbo 模型和其他人类参与者的道德解释。结果表明，人们认为 GPT 的解释比人类参与者的解释更

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

斯坦福大学基础模型研究中心（CRFM）6 月 11 日发布了大规模多任务语言理解能力评估（Massive Multitask Language Understanding on HELM）排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商，分别是阿里巴巴的 Qwen2 Instruct（72B）和零一万物的 Yi Large（Preview）。据悉大规模多任务语言理解能力评估（MMLU on HELM）采用了 Dan Hendrycks 等人提出的一种测试方法，用于衡量文本模型在多任务学习中的准确性。这个测试

OpenAI 首席技术官：GPT-5 将在一年半后发布，部分领域智能达到“博士”级别

美国达特茅斯工程学院本周四公布了对 OpenAI 首席技术官米拉・穆拉蒂的采访。穆拉蒂把 GPT-4 到 GPT-5 的飞跃描述为从高中生到博士生的成长。图源 Pexels“如果你看一下（GPT）进化的轨迹，像 GPT-3 这样的系统可能只有幼儿智力水平，而像 GPT-4 这样的系统则更像是聪明的高中生智力水平，在接下来的几年里，我们期待在特定任务上达到博士的智力水平。事情正在飞速变化、改善。”穆拉蒂强调“博士级”的智能仅适用于某些任务。“这些系统在特定任务中已经达到了人类水平（Human-level），当然，在许

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

机器之能报道编辑：杨文玩梗、看病、耍心眼、做数学题，「新王」Claude 3.5能力真那么玄乎？它来了，它来了，它带着 Claude 3.5 Sonnet 走来了！蛰伏三个月，就在昨晚，OpenAI 的「劲敌」Anthropic 上新了，推出新一代模型 ——Claude 3.5 Sonnet！这款大模型有啥独到之处？首先，它更能把握住细微差别、幽默和复杂指令，并且书写语气更自然、亲切。它还是Anthropic最强的视觉模型，擅长解释图表、图形或者从不完美的图像中转录文本等任务。此外，它在推理、阅读理解、数学、科学和

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

感谢上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍，2024 年全国高考甫一结束，该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。评测采用全国新课标 I 卷，参与评测的所有开源模型开源时间均早于高考，确保评测“闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。该机构表示，Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲

智源更新大模型排行榜：豆包大模型“客观评测”排名国产第一

6月中旬，智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单：在有标准答案的“客观评测”中，GPT-4 以76.11分在闭源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同时也是得分最高的国产大模型；其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在开放问答等“主观评测”中，Doubao-Pro 同样排名第二，得分超过 GPT-4o 和 GPT-4。图：豆包大模型在 FlagEval 客观评测中获综合评分第二（2024年6月）FlagEval 大

研究称 GPT-4 通过了图灵测试，54% 的人将其误认为真人

感谢最新研究称，越来越多的人难以在图灵测试中区分 GPT-4 和人类。图源 Pexels据IT之家了解，“图灵测试”由计算机科学家艾伦・图灵在 1950 年提出，又被称为“模仿游戏”。测试的标准是机器能否像人类一样进行对话，让对方误以为其是真人。加州大学圣地亚哥分校的研究人员招募了 500 名参与者，让他们与四位“对话者”进行五分钟的交流，这四位“对话者”分别是真人、上世纪 60 年代的初代聊天机器人 ELIZA、以及驱动聊天机器人 ChatGPT 的 GPT-3.5 和 GPT-4。参与者在对话结束后需判断对方是

GPT-4o 更容易越狱？北航 & 南洋理工上万次测试给出详细分析

GPT-4o，比上一代更容易被越狱攻击了？来自北航和南洋理工的研究人员，通过上万次的 API 查询，对 GPT-4o 各种模态的安全性进行了详细测试。结果发现，GPT-4o 新引入的语音模态带来了新的攻击面，而且多模态整体安全性不敌 GPT-4V。具体来说，研究人员针对 4 个常用的基准测试，对 GPT-4o 支持的三种模态（文本、图像、音频）进行了测试。测试一共涉及到 4000 初始文本查询的优化，8000 响应判断，16000 次 OpenAI 的 API 查询。基于此，研究人员撰写了详细的报告，给

预测准确率达95.7%，ChatMOF利用LLM预测和生成金属有机框架

编辑 | X金属有机框架（MOF）因其孔隙率大、表面积大和出色的可调性而用于许多化学应用。然而，在利用 AI 深入探索 MOF 设计与性能优化的研究征途中，科学家们正面临着前所未有的挑战。去年 3 月，韩国科学技术院（Korea Advanced Institute of Science and Technology，KAIST）的研究人员提出的 MOFTransformer 模型经过一百万个假设的 MOF 的预训练，在预测各种属性方面表现出色。近日，KAIST 团队提出了一种 AI 系统——ChatMOF，用于预

Copilot Pro 订阅魅力下降，微软 7 月 10 日下线用户自建 GPT 服务

微软今天发布公告，宣布 Copilot Pro 服务将移除 GPT Builder，意味着订阅用户无法继续创建自己的 Copilot GPT。GPT Builder 也称为 Copilot GPT，订阅 Copilot Pro 的用户可以使用文档、外部或内部资源以及自定义指令创建自己的 Copilot GPT。Copilot Pro 是售价 20 美元的 Microsoft Copilot 订阅版本，具有一些附加功能，如 GPT 生成器和 Copilot 在 Word、Excel、PowerPoint 和 Outl

Karpathy最新四小时视频教程：从零复现GPT-2，通宵运行即搞定

这是Karpathy「Neural Networks：zero to hero」系列视频的最新内容。AI 大牛 Andrej Karpathy 又「上新」了，这次一口气放出了长达四个小时的视频。视频主题为「让我们来复现 GPT-2（1.24 亿参数）」。Karpathy 表示，此次视频之所以这么长，是因为它很全面：从空文件开始，最后得到一个 GPT-2（124M）模型。具体实现步骤包括如下：首先构建 GPT-2 网络。然后对其进行优化，以便快速训练。然后通过参考 GPT-2 和 GPT-3 论文来设置训练运行优化和

两句话，让 LLM 逻辑推理瞬间崩溃！最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷

感谢IT之家网友刺客的线索投递！在基准测试上频频屠榜的大模型们，竟然被一道简单的逻辑推理题打得全军覆没？最近，研究机构 LAION 的几位作者共同发表了一篇文章，以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题，揭示了 LLM 基准测试的盲区。一道简单的逻辑问题，竟让几乎所有的 LLM 全军覆没？对于人类来说，这个名为「爱丽丝梦游仙境」（AIW）的测试并不算很难 ——「爱丽丝有 N 个兄弟，她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹？」只需稍加思考，答案显而易见：M 1。（爱丽丝拥有的姐妹数量，再加上爱丽

成功率达 53%，研究显示 GPT-4 可自主利用“零日”漏洞攻破网站

据 NewAtlas 报道，研究人员利用自主协作的 GPT-4 机器人小组成功入侵了一半以上的测试网站，这些机器人可以自主协调行动并根据需要生成新的“帮手”。更令人吃惊的是，他们利用的是以前未知的、现实世界中从未公开的“零日”漏洞（zero-day vulnerabilities）。图源 Pexels早在几个月前，同一批研究人员就发表了一篇论文，声称他们能够使用 GPT-4 自动利用“N day”漏洞，即业界已知但尚未修复的漏洞。实验中，GPT-4 仅凭已知的常见漏洞和披露列表 (CVE)，就能自主利用其中 87%

科大讯飞：讯飞星火 V4.0 正在训练中，对标 GPT-4o 的产品也在研发

科大讯飞在“深交所互动易”平台回复网友提问时透露，对标 GPT-4 当前能力的讯飞星火 V4.0 正在训练中，预计在 2024 年 6 月底发布，对标 GPT-4o 的产品正在研发中。科大讯飞方面表示，公司将紧密结合人工智能的演进和突破，把成果持续应用到智慧教育的每个产品中，不断提升产品的用户体验和客户渗透率。而在今年 4 月，科大讯飞董事长刘庆峰曾透露，今年 6 月 27 日，讯飞星火 V4.0 将正式发布。刘庆峰当时表示，星火大模型（IT之家注：讯飞星火大模型 V3.5）的通用长文本能力，包括长文档信息抽取、长

解锁 GPT-4o，“上帝”版 ChatGPT 绕过 OpenAI 防护栏：能回答制作汽油弹等问题

网名为 Pliny the Prompter 的用户 5 月 30 日发布推文，表示已成功越狱 GPT-4o 模型，新推出的上帝模式“GODMODE”可以在 ChatGPT 挣脱安全措施，让用户尽情展开 AI 聊天。Pliny the Prompter 自称是网络白帽和红队（主要为攻击测试），推文中表示：“请负责任地使用，并尽情享受！”IT之家附上相关截图如下：Pliny 分享了一些截图，证明已经绕过 OpenAI 的“防护栏”，其中一张截图 AI 为 Pliny 提供了如何“用家用物品制作凝固汽油弹”教程。科技媒

OpenAI 推出为大学开发的 ChatGPT Edu 教育版，对话和数据不用于训练模型

感谢OpenAI 在 5 月 30 日宣布推出 ChatGPT Edu，该版本专为大学设计，面向学生、教职员工、研究人员和校园运营部署 AI，同时该版本的对话和数据不会用于训练 OpenAI 模型。ChatGPT Edu 由 GPT-4o 驱动，能够在文本和视觉之间进行推理，并使用数据分析等高级工具。这个新产品包括企业级的安全性和管理，OpenAI 称价格对教育机构来说比较实惠。OpenAI 表示，ChatGPT 可以帮助完成校园内的各种任务，例如为学生提供个性化辅导和审阅简历，帮助研究人员撰写资助申请，并协助教师

研究：GPT-4 在预测公司盈利方面超越人类分析师

芝加哥大学的一项新研究表明，大型语言模型 GPT-4 在预测公司未来盈利增长方面能够胜过人类分析师，而且该人工智能模型仅使用了公司的财务报表，并没有额外的信息辅助。图源 Pexels以往，财务分析师依靠专业知识和经验来评估公司财务状况并预测未来盈利。然而这项研究表明，人工智能模型能够同样出色地完成这项任务，甚至做得更好。据IT之家了解，研究人员向模型提供了匿名化的财务数据，包括资产负债表和损益表，并要求其预测未来盈利增长情况。即使没有任何额外的信息，GPT-4 也能够实现 60% 的准确率，而人类分析师的典型准确率

gpt-4-hua-shen-hei-ke-gao-po-huai-cheng-gong-lv-87-openai-yao-qiu-bao-mi-ti-shi-ci-wang-you-fu-xian-ing 的搜索结果