测试

OpenAI o1是真有实力！港大权威AB测试，国家队奥数题照样拿下

国际奥数题手到擒来，OpenAI o1是靠死记硬背还是真的实力超群？近日，来自港大的研究人员对o1进行了严格的AB测试：论文地址：？考两张卷子：一张是有可能提前背题的，另一张是不太可能提前背题的，两张卷子难度一致。

12/23/2024 8:40:00 AM

新智元

GPT-4o再暴露「弱智」缺陷，大模型无一幸免！港中文等发布「视觉听觉」基准AV-Odyssey：26个任务直指死角问题

在人工智能领域，我们一直以为顶尖的多模态大模型已经无所不能，GPT-4o在ASR（音频转文字）任务上已经达到了97%的正确率，更是凸显了强大的音频理解能力。然而，最近一项来自香港中文大学、斯坦福大学、伯克利大学和耶鲁大学的研究成果却彻底颠覆了这一认知——GPT-4o、Gemini 1.5 Pro、Reka Core等最先进的多模态大模型居然无法正确分辨明显不同的声音大小！下面是一个例子：结果让人难以置信：这些顶尖的AI模型都未能准确判断出音量的差异！

12/11/2024 1:30:00 PM

新智元

首批万人测试已招满，OpenAI 关闭 SearchGPT 候补名单

OpenAI 公司已经关闭 SearchGPT 候选名单，仅邀请 10000 人参与测试，并已经开始向未被选中参与测试的用户发送通知邮件。AI在线于 7 月也同样提交了候选申请，于 8 月 17 日收到来自 OpenAI 的邮件，表示感谢报名参加 SearchGPT，目前无法发出邀请，后续会进一步扩大邀请测试规模。SearchGPT 目前仅向少量用户开放，官方介绍为：“全新搜索功能原型，利用我们人工智能模型的优势，为您提供清晰、相关的快速答案”。SearchGPT 可以让用户用自然语言提问，并获得详细、易懂的答案，

8/20/2024 12:19:30 PM

故渊

菲尔兹奖得主亲测 GPT-4o，经典过河难题破解失败

编辑：桃子乔杨【新智元导读】LLM 能否解决「狼-山羊-卷心菜」经典过河难题？最近，菲尔兹奖得主 Timothy Gowers 分享了实测 GPT-4o 的过程，模型在最简单的题目上竟然做错了，甚至网友们发现，就连 Claude 3.5 也无法幸免。在经典的「狼-山羊-卷心菜」过河问题上，如今所有的 LLM 都失败了！几天前，菲尔兹奖得主、剑桥大学研究主任 Timothy Gowers 直接拿 GPT-4o 开刀，去解决动物过河难题。在此，他给出了一个新的基准 —— 废话比率（crapness ratio），即 L

6/30/2024 2:15:14 PM

远洋

研究称 GPT-4 通过了图灵测试，54% 的人将其误认为真人

感谢最新研究称，越来越多的人难以在图灵测试中区分 GPT-4 和人类。图源 Pexels据IT之家了解，“图灵测试”由计算机科学家艾伦・图灵在 1950 年提出，又被称为“模仿游戏”。测试的标准是机器能否像人类一样进行对话，让对方误以为其是真人。加州大学圣地亚哥分校的研究人员招募了 500 名参与者，让他们与四位“对话者”进行五分钟的交流，这四位“对话者”分别是真人、上世纪 60 年代的初代聊天机器人 ELIZA、以及驱动聊天机器人 ChatGPT 的 GPT-3.5 和 GPT-4。参与者在对话结束后需判断对方是

6/17/2024 2:51:16 PM

远洋

资讯热榜

本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 GPT-4o提效神器！8种王炸用法让小白秒变大神（附提示词模版）斯坦福 AI 指数报告发布：2024年美国 AI 私人投资约为中国的 12 倍、GPT3.5 级别模型推理成本下降 280 倍如何用AI做好情感化设计？来看大厂的实战案例！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练