GPT
两句话,让 LLM 逻辑推理瞬间崩溃!最新「爱丽丝梦游仙境」曝出 GPT、Claude 等重大缺陷
感谢IT之家网友 刺客 的线索投递!在基准测试上频频屠榜的大模型们,竟然被一道简单的逻辑推理题打得全军覆没?最近,研究机构 LAION 的几位作者共同发表了一篇文章,以「爱丽丝梦游仙境」为启发涉及了一系列简单的推理问题,揭示了 LLM 基准测试的盲区。一道简单的逻辑问题,竟让几乎所有的 LLM 全军覆没?对于人类来说,这个名为「爱丽丝梦游仙境」(AIW)的测试并不算很难 ——「爱丽丝有 N 个兄弟,她还有 M 个姐妹。爱丽丝的兄弟有多少个姐妹?」只需稍加思考,答案显而易见:M 1。(爱丽丝拥有的姐妹数量,再加上爱丽
成功率达 53%,研究显示 GPT-4 可自主利用“零日”漏洞攻破网站
据 NewAtlas 报道,研究人员利用自主协作的 GPT-4 机器人小组成功入侵了一半以上的测试网站,这些机器人可以自主协调行动并根据需要生成新的“帮手”。更令人吃惊的是,他们利用的是以前未知的、现实世界中从未公开的“零日”漏洞(zero-day vulnerabilities)。图源 Pexels早在几个月前,同一批研究人员就发表了一篇论文,声称他们能够使用 GPT-4 自动利用“N day”漏洞,即业界已知但尚未修复的漏洞。实验中,GPT-4 仅凭已知的常见漏洞和披露列表 (CVE),就能自主利用其中 87%
科大讯飞:讯飞星火 V4.0 正在训练中,对标 GPT-4o 的产品也在研发
科大讯飞在“深交所互动易”平台回复网友提问时透露,对标 GPT-4 当前能力的讯飞星火 V4.0 正在训练中,预计在 2024 年 6 月底发布,对标 GPT-4o 的产品正在研发中。科大讯飞方面表示,公司将紧密结合人工智能的演进和突破,把成果持续应用到智慧教育的每个产品中,不断提升产品的用户体验和客户渗透率。而在今年 4 月,科大讯飞董事长刘庆峰曾透露,今年 6 月 27 日,讯飞星火 V4.0 将正式发布。刘庆峰当时表示,星火大模型(IT之家注:讯飞星火大模型 V3.5)的通用长文本能力,包括长文档信息抽取、长
解锁 GPT-4o,“上帝”版 ChatGPT 绕过 OpenAI 防护栏:能回答制作汽油弹等问题
网名为 Pliny the Prompter 的用户 5 月 30 日发布推文,表示已成功越狱 GPT-4o 模型,新推出的上帝模式“GODMODE”可以在 ChatGPT 挣脱安全措施,让用户尽情展开 AI 聊天。Pliny the Prompter 自称是网络白帽和红队(主要为攻击测试),推文中表示:“请负责任地使用,并尽情享受!”IT之家附上相关截图如下:Pliny 分享了一些截图,证明已经绕过 OpenAI 的“防护栏”,其中一张截图 AI 为 Pliny 提供了如何“用家用物品制作凝固汽油弹”教程。科技媒
OpenAI 推出为大学开发的 ChatGPT Edu 教育版,对话和数据不用于训练模型
感谢OpenAI 在 5 月 30 日宣布推出 ChatGPT Edu,该版本专为大学设计,面向学生、教职员工、研究人员和校园运营部署 AI,同时该版本的对话和数据不会用于训练 OpenAI 模型。ChatGPT Edu 由 GPT-4o 驱动,能够在文本和视觉之间进行推理,并使用数据分析等高级工具。这个新产品包括企业级的安全性和管理,OpenAI 称价格对教育机构来说比较实惠。OpenAI 表示,ChatGPT 可以帮助完成校园内的各种任务,例如为学生提供个性化辅导和审阅简历,帮助研究人员撰写资助申请,并协助教师
研究:GPT-4 在预测公司盈利方面超越人类分析师
芝加哥大学的一项新研究表明,大型语言模型 GPT-4 在预测公司未来盈利增长方面能够胜过人类分析师,而且该人工智能模型仅使用了公司的财务报表,并没有额外的信息辅助。图源 Pexels以往,财务分析师依靠专业知识和经验来评估公司财务状况并预测未来盈利。然而这项研究表明,人工智能模型能够同样出色地完成这项任务,甚至做得更好。据IT之家了解,研究人员向模型提供了匿名化的财务数据,包括资产负债表和损益表,并要求其预测未来盈利增长情况。即使没有任何额外的信息,GPT-4 也能够实现 60% 的准确率,而人类分析师的典型准确率
芝大论文证明 GPT-4 选股准确率高达 60%,人类股票分析师要下岗?AI 大牛质疑数据污染
【新智元导读】GPT-4 在为人类选股时,表现竟然超越了大部分人类分析师,和针对金融训练的专业模型?在没有任何上下文的情况下,它们直接就成功分析了财务报表,这一发现让许多业内大咖震惊了。然而好景不长,有 AI 大牛指出研究中的 bug:之所以会这样,很可能是训练数据被污染了。最近,各位业内大咖都被芝大的一篇论文震惊了。研究者发现,由 GPT-4 帮忙选择的股票,直接击败了人类!同时也 pk 掉了许多其他针对金融训练的机器学习模型。最让他们震惊的是,LLM 可以在没有任何叙述上下文的情况下,就成功分析财务报表中的数字
《自然》杂志研究:AI 追踪他人心理状态能力与人类相当或超越人类
在本月下旬最新一期的《自然-人类行为》期刊上,刊登了一篇关于 AI 的研究论文,其中提到,在测试追踪他人心理状态能力的任务中,两类 AI 大语言模型在特定情况下,具备与人类相似甚至超越人类的表现。图源 Pixabay作为人类沟通交流、产生共鸣的关键,心理状态能力(也称心智理论)对人类的社交互动来说非常重要。该论文的第一作者 —— 德国汉堡-埃彭多夫大学医学中心的 James W. A. Strachan 与同事及合作者一起,选择能测试心理理论不同方面的任务,包括发现错误想法、理解间接言语以及识别失礼等。IT之家注:
科大讯飞刘庆峰:今年 6、7 月就能赶上 GPT-4 目前水平
在澳门举行的 BEYOND 国际科技创新博览会上,科大讯飞董事长刘庆峰表示,中美在通用大模型底座上的差距,是半年到一年半之间的动态追赶,不会被甩开,“我们与 GPT-4 的差距在半年之内,今年 6、7 月前后就能赶上 GPT-4 目前水平。一旦 GPT-5 发布后,差距可能会被拉到约一年,但我们会再次赶上。”刘庆峰表示,GPT-4o 的底层逻辑还是 GPT-4,科大讯飞能在今年 6-7 月赶上,中美在 AI 大模型差距是半年时间,在这个基础上有可能在垂直领域比美国做的更好。因为中国互联网领域基础设施、创新模式比美国
微软 CEO 纳德拉:Azure AI Studio 已支持提供 OpenAI GPT-4o API
感谢IT之家网友 我抢了台 的线索投递!5 月 22 日凌晨,微软 Build 2024 开发者大会于在美国西雅图召开,据微软公司 CEO、董事长萨提亚・纳德拉介绍,由 OpeanAI 开发的最新旗舰模型 GPT-4o,现已在 Azure AI Studio 中提供,并作为 API 提供。该多模态模型集成了文本、图像和音频处理能力,带来了全新的生成式和对话式 AI 体验。此外,由微软开发的 Phi-3 列 AI 小型语言模型 (SLM) 中的一种新型多模态模型 Phi-3-vision 现已在 Azure 中推出。
通义千问GPT-4级主力模型降价97%,1块钱200万tokens
5月21日,阿里云抛出重磅炸弹:通义千问GPT-4级主力模型Qwen-Long,API输入价格从0.02元/千tokens降至0.0005元/千tokens,直降97%。这意味着,1块钱可以买200万tokens,相当于5本《新华字典》的文字量。这款模型最高支持1千万tokens长文本输入,降价后约为GPT-4价格的1/400,击穿全球底价。Qwen-Long是通义千问的长文本增强版模型,性能对标GPT-4,上下文长度最高达1千万。除了输入价格降至0.0005元/千tokens,Qwen-Long输出价格也直降90
面壁智能推出 MiniCPM-Llama3-V 2.5 开源端侧多模态模型:8B 参数、高效部署手机
感谢面壁智能昨晚推出并开源 MiniCPM 系列最新的端侧多模态模型 MiniCPM-Llama3-V 2.5,支持 30 种语言,宣称可实现:最强端侧多模态综合性能:超越 Gemini Pro 、GPT-4VOCR 能力 SOTA(IT之家注:State-of-the-Art):9 倍像素更清晰,难图长图长文本精准识别图像编码快 150 倍:首次端侧系统级多模态加速▲ OpenCompass 模型量级对比MiniCPM-Llama3-V 2.5 总参数量为 8B,多模态综合性能超越 GPT-4V-1106、Ge
通义千问宣布“GPT-4 级”主力模型 Qwen-Long 降价 97%,一元 200 万 tokens
字节跳动 5 月 15 日正式发布了豆包大模型,宣布大模型价格进入“厘时代”,号称“比行业便宜 99.3%”。今日,阿里云紧随其后抛出重磅炸弹:通义千问 GPT-4 级主力模型 Qwen-Long 宣布降价,API 输入价格从 0.02 元 / 千 tokens 降至 0.0005 元 / 千 tokens,降幅 97%。简单来说,1 块钱可以买 200 万 tokens,相当于 5 本《新华字典》的文字量。这款模型最高支持 1 千万 tokens 长文本输入,降价后约为 GPT-4 价格的 1/400。参考IT之
Meta 首发「变色龙」挑战 GPT-4o,34B 参数引领多模态革命!10 万亿 token 训练刷新 SOTA
【新智元导读】GPT-4o 发布不到一周,首个敢于挑战王者的新模型诞生!最近,Meta 团队发布了「混合模态」Chameleon,可以在单一神经网络无缝处理文本和图像。10 万亿 token 训练的 34B 参数模型性能接近 GPT-4V,刷新 SOTA。GPT-4o 的横空出世,再次创立了一个多模态模型发展的新范式!为什么这么说?OpenAI 将其称为「首个『原生』多模态」模型,意味着 GPT-4o 与以往所有的模型,都不尽相同。传统的多模态基础模型,通常为每种模态采用特定的「编码器」或「解码器」,将不同的模态分
ChatGPT 可以实时互动分析 Excel 数据了,网友挖出背后新模型
【新智元导读】GPT-4o 之后,ChatGPT 又迎来更新。这次,数据分析能力再上一个新台阶,将支持谷歌、微软在线文档上传,并实时交互,自定义图表。更重要的是,网友已经灰度测试到背后的新模型了。ChatGPT 更强了...刚刚,OpenAI 再次放出大招 ——ChatGPT 可以直接打开线上数据文件,完成实时数据分析。全新的增强功能,具体包括:- 直接从 Google Drive 和 Microsoft OneDrive 上传最新版本的文件- 在新的可扩展视图中与表格和图表进行交互- 自定义并下载图表,用于演示文
OpenAI 阿尔特曼谈 GPT-5:功能或类似“虚拟大脑”,将是一种特别尝试
当地时间 16 日,OpenAI 首席执行官阿尔特曼接受了硅谷风险投资公司 Redpoint 的董事兼总经理 Logan Bartlett 的专访,谈到了前不久发布的 GPT-4o 和未来将发布的 GPT-5。阿尔特曼表示,人工智能的兴起将使人们渴望人与人之间的联系,其认为在未来 12 个月内编程领域“最有前途”。当被问及 GPT-5 的更多信息时,阿尔特曼表示,待该产品发布时可能会换一种叫法,它会“很特别”—— 功能与现在的(产品)有很大不同。“比如说从 GPT-1 到 GPT-4,从叫法和功能来看都比较偏传统。
我们上手实测GPT-4o:速度快到飞起,还能直出板书,但视频分析逊色
机器之能原创作者:山茶花 Cardina作为 OpenAI 有史以来最好的模型, GPT-4o 究竟强在哪里?你要知道,它是一个原生的多模态大模型,可以跨文本、音频和视频进行实时推理——能听、能说、能看、零延时、可打断,还会「看人脸色」。更重要的是,它还免费!赶紧薅一把,你会知道什么是真・科幻照进现实!实测 GPT-4o:速度飞快,视觉能力惊艳打开 ChatGPT 官网,就会收到 GPT-4o 的试用邀请,点击「立即试用」即可进入对话页面。如果没有收到邀请,可能是灰度测试阶段,稍等一会再重新进入。然后,直接在下方的
GPT-4o 再秀神操作,“复现”OpenAI 总裁讲课,网友当真了
OpenAI 总裁兼联合创始人 Greg 再次大秀 GPT-4o 操作,结果网友直接缅怀 DALL-E。直接看效果。文本拼写达到惊人的一致!手部细节、光照全都有,甚至后背上的 Logo 也完全正确。有网友表示:恍惚间还以为真的是本人在讲课。也有人感叹图像生成技术发展的飞跃:Holy Cow!从完全破碎的文本到风格一致、拼写正确的写作,只用了一次迭代。GPT-4o 让网友直接缅怀 DALL-EGPT-4o 发布以来,简直就被玩儿疯了,尤其是图像生成这块。比如有网友发现,GPT-4o 在组合任意图像上面就像是打通了任督