chatgpt

如何判断AI的输出是否正确？三个办法搞定！

在生成式 AI 工具如 ChatGPT 逐渐融入日常工作和生活的今天，很多人都在依赖 AI 来完成各种任务：撰写文案、编程、生成分析报告，甚至是做生活规划。虽然 AI 的应用场景越来越广泛，但它的输出并非每次都能符合预期。很多人在使用 AI 时会碰到这样的问题：AI 生成的内容到底靠不靠谱？它的输出是否可以完全信赖？如何判断 AI 给出的答案是正确的？作为一名 AI 产品设计师，我也经常需要依赖 AI 工具来完成日常工作。经过无数次与 AI 的互动，我逐渐摸索出了三个简单有效的办法，可以帮助我们快速判断 AI 的

9/14/2024 7:50:39 AM

小普

GPT未竟的革命，由o1接棒：或是LLM研究最重要的发现

天下武功唯快不破，但 OpenAI 不走寻常路，新出的 o1 系列宣告天下：我们更慢，但更强了。 o1 要花更多的时间思考问题，再做出反应，但在复杂推理层面直接窜了几个档位。在国际数学奥林匹克 (IMO) 资格考试中，GPT-4o 仅正确解决了 13% 的问题，而 o1 得分为 83%。

9/13/2024 3:50:00 PM

刘洁

OpenAI o1深夜炸场，核心贡献者有哪些？我们看到了大量华人的名字

这篇文章系统梳理了 OpenAI o1模型背后的核心人才。今天凌晨，OpenAI 震撼发布 o1 大模型，酝酿已久的「草莓」终于面世。新模型能够进行复杂推理，具备真正的通用推理能力，可解决比以往的科学、代码和数学模型所能处理的更难的问题。它在一系列高难基准测试中展现出了超强实力，相比 GPT-4o 有巨大提升，甚至能在博士级别的科学问答环节上超越人类专家（详情请参见《刚刚，OpenAI 震撼发布 o1 大模型！强化学习突破 LLM 推理极限》）。虽然 o1 很强，但有趣的是，它并不会尝试去推理和解答「黎曼猜想」这类

9/13/2024 1:06:00 PM

机器之心

刚刚，OpenAI震撼发布o1大模型！强化学习突破LLM推理极限

大模型领域的技术发展，今天起再次「从 1 开始」了。大语言模型还能向上突破，OpenAI 再次证明了自己的实力。北京时间 9 月 13 日午夜，OpenAI 正式公开一系列全新 AI 大模型，旨在专门解决难题。这是一个重大突破，新模型可以实现复杂推理，一个通用模型解决比此前的科学、代码和数学模型能做到的更难的问题。OpenAI 称，今天在 ChatGPT 和大模型 API 中新发布的是该系列中的第一款模型，而且还只是预览版 ——o1-preview。除了 o1，OpenAI 还展示了目前正在开发的下次更新的评估。o

9/13/2024 8:47:00 AM

机器之心

OpenAI o1 模型登场：开启 AI 通用复杂推理新篇章，国际奥数正确率 83%

感谢OpenAI 传闻中的“草莓”（Strawberry）AI 模型现已面世，正式名称为“o1”，是该公司首款具备“推理”能力的模型。o1 和 o1-miniOpenAI 表示对该模型进行特殊训练，能够比人类更快地回答更复杂的问题。与之同时发布的还有 o1-mini，一个更小、成本更低的版本。OpenAI 表示 o1 模型的发布，是其迈向类人 AI 宏伟目标的关键一步。AI在线注：o1 模型目前处于“预览”阶段，官方强调该模型相关开发尚处于初期阶段，相比较 GPT-4o 模型，使用成本更高且速度更慢，但在编写代码和

9/13/2024 6:56:28 AM

故渊

刚刚，GPT-4o关键人物离职创业！曾在OpenAI最早提出构建「Her」

OpenAI 最早提出构建「Her」的那个人，刚刚宣布离职创业了。今年 5 月份，OpenAI 发布了震惊世界的 GPT-4o。这个模型可以跨越文本、视觉和音频，以一种非常自然的形式和人类语音对话，延迟低到与人类在对话中的响应时间相似。而且，它允许用户随时打断，并能感知和回应用户的情绪。因此，该模型发布后，很多人说科幻电影《Her》中的场景照进了现实。此次离职的 Alexis Conneau 就是 GPT-4o 项目的关键人物之一。离职前，他是 OpenAI 音频 AGI 研究负责人，也是 OpenAI 最早提出

9/12/2024 6:55:00 PM

机器之心

摩根士丹利策略师迈克・威尔逊：美股投资者对 AI 主题的追捧“过头了”

AI 热潮曾在今年早些时候推动标普 500 指数创下新高，但如今却显现出“退潮”迹象，因此股市若要重拾上涨势头，便需要新的“催化剂”。北京时间今晚，据彭博社报道，摩根士丹利首席美股策略师迈克・威尔逊表示，尽管 AI 可能会随着时间的推移彻底改变生产力，但那些试图因为 AI 的短期潜力而推高股价的做法就显得“太急切”了。迈克・威尔逊补充说，这种情形已经反映在芯片股的挣扎中，不仅是身为“代表性企业”的英伟达的近期波动，费城半导体指数本月也下跌了 8.5%。“AI 的光环已稍显减弱之势，我们对整个 AI 主题的追逐有点过

9/11/2024 11:13:57 PM

清源

OpenAI「草莓」两周内发布？网传不是多模态，反应慢了10多秒

ChatGPT 要进化了？传说中的「草莓」可能真的要来了，就在这两周。据科技媒体 The Information 报道，两位测试过该模型的人士表示，OpenAI 计划在未来两周内将「草莓」（Strawberry ）作为 ChatGPT 服务的一部分发布。当然，这个时间不是绝对准确，随时可能发生变化。虽然「草莓」作为 ChatGPT 服务的一部分，但它是一个独立的产品。具体如何向用户提供尚不清楚，一种可能的选择是将「草莓」纳入客户可以选择的 AI 模型下拉菜单中，以支持 ChatGPT。

9/11/2024 2:37:00 PM

机器之心

DeepMind 危，OpenAI 押注成立六个月 AI 药物发现公司；四川具身人形机器人科技公司成立，彭倍教授牵头丨AI情报局

今日融资快报OpenAI 和 Thrive Capital 投资成立六个月的AI药物发现公司Chai Discovery Chai Discovery 是一家成立六个月的人工智能生物初创公司，已从重量级风投机构Thrive Capital和OpenAI筹集了近 3000 万美元，将人工智能用于药物发现。公司的基础模型旨在与谷歌 DeepMind 竞争。刚发布了分子结构预测的基础模型开源模型 Chai-1 及技术报告。

9/11/2024 10:47:00 AM

我在思考中

会话是AI产品的理想交互形式吗？听听总监的分析！

Story｜AI 的故事，大家深信不疑 ChatGPT 和 Copilot 构建了人们对大语言模型 AI 产品的基本认知。到目前为止，似乎没有人有信心可以在原有的业务模式中做出来一个 AI native 的产品，退而求其次，大家觉得能在原来的产品中做一个“ AI”的功能就很好了。从 2023 年开始，很多人对大模型产品化的认知是要在 AI 产品的的某个地方添加一个聊天窗口，或者这个 AI 产品就是一个聊天窗口。GPTs 也让大家自然的认为 CUI 形式的对话框就是 AI 产品的终极形态。但，真的是这样吗？Is

9/11/2024 12:20:06 AM

柴林

研究发现，生成式 AI 可提升软件开发的学习效果

韩国东洋未来大学的研究人员在 arXiv 上发表了一篇新论文，探讨了 ChatGPT 在计算机科学领域的教育影响。研究结果支持了这样一种观点，即生成式 AI（gen AI）能够帮助学生提升学习效果，尽管有些人担心这种技术会被作弊者滥用。图源 Pexels据AI在线了解，在这项研究中，研究人员孙熙焕、金裕度和李熙珍选取了 36 名计算机科学专业的学生，进行了为期四周的软件开发竞赛，学生们可以在竞赛中使用 ChatGPT。在第一轮中，根据代码质量、创新性和项目要求的遵守情况等绩效指标对所有 36 名学生进行评估。得分最

9/9/2024 10:41:34 PM

远洋

AIGCRank：2024年8月全球AI网站流量排行榜

AI在线发布 2024年8月全球和国内AI网站流量排行榜、全球AI网站增长率排行榜，并联合哥飞的朋友们出海社群发布出海AI网站流量排行榜！

9/9/2024 6:01:56 PM

OpenAI 一年亏 50 亿美元，高盛报告乌龙引 AI 股“地震”

刚刚，外媒曝出：Sora 陷入了研究困境！背后原因，就是安全风险以及与好莱坞的合作。另外，最近高盛的报告错误解读了 ChatGPT 流量下降，直接引爆市场的恐慌情绪，导致 AI 股票纷纷被抛售。Sora 深陷研究困境？Sora 在今年二月发布后，至今还是「期货」，为何迟迟不开放呢？就在最近，外媒 CNBC 曝出，OpenAI 的 Sora 模型之所以鸽了这么久，原因在于「和政策制定者的对话」。早在 2 月底，彭博社就曾报道，考虑到今年的美国大选，OpenAI 希望竭力避免安全风险。此外还有一个原因，就是当时的 So

9/9/2024 5:21:53 PM

清源

从零到AI高手：用OpenAI API极速打造智能应用！

像我之前也提到过，AI 的发展愈发迅猛这是无可置疑的，但很多人知道 AI 好，却不会引进实际的业务中去。无论是市面上常见的文本生成工具，还是智能 Copilot，这些应用都展示了 AI 的强大能力。面对这些新技术，许多设计师可能会好奇：如何才能将这些能力运用到自己的项目中？其实你能用且会用 AI 工具做端外提效已经超过 80%的人了，但如何将能力接入端内？实实在在的给项目提效，而非个人。有些底层逻辑你还是要懂的。 OpenAI 的 GPT 模型是当前自然语言处理领域的核心技术之一。它不仅功能强大，而且极具灵活性，能

9/9/2024 5:45:47 AM

小普

不好用不收钱，这家AI公司破天荒按结果收费，要卷死同行？

一种新的人工智能商业模式。近两天，关于 OpenAI 提高付费版模型价格的消息满天飞，有消息称订阅价格最高可达每月 2000 美元。尽管最终价格尚未确定，但现在个人每月 20 美元、企业每人每月 25 美元的订阅费也让大家苦不堪言。或许，这一个月你用了没几次，又或许订阅的服务根本没能解决问题，用户还是需要支付全部的费用。而这种付费模式，也是当前很多企业都在采用的。不过，这种方式正在被一家 AI 公司摒除。上个月，这家位于美国旧金山的 AI 公司 Zendesk 决定以一种大胆的新方式销售其产品。他们改变了传统的产品

9/8/2024 1:18:00 PM

机器之心

2024 TIME 100位最具影响力AI人物刚刚公布：姚期智、梁汝波、王小川等人入选

刚刚，《时代》周刊公布了 2024 年度 AI 领域最具影响力的 100 人名单。在这份名单中，我们看到了很多熟悉的学者和企业家。「领导者」部分，OpenAI CEO Sam Altman、英伟达 CEO 黄仁勋再次上榜，我们还看到了包括字节跳动联合创始人兼 CEO 梁汝波、百川智能创始人兼 CEO 王小川在内的新面孔。在「创新者」部分有我们熟悉的 AMD CEO 苏姿丰、Groq CEO Jonathan Ross、OpenAI 首席技术官 Mira Murati、Cerebras Systems CEO 兼创始

9/6/2024 2:37:00 PM

机器之心

万人测试 OpenAI 搜索引擎：活动规划等表现出色，存在“幻觉”等不足

华盛顿邮报昨日（9 月 4 日）发布博文，表示从初期 1 万名用户反馈来看，被很多人视为“谷歌杀手”、来自 OpenAI 的 SearchGPT 搜索引擎虽然有很多亮点功能，但要撼动谷歌搜索地位仍有很长的路要走。部分功能非常优秀AI在线注：SearchGPT 并非通过搜索结果列表，而是通过提供简洁、有条理的回答，简化用户的搜索体验。SearchGPT 利用必应和其他来源的数据编制答案，OpenAI 将其视为用户搜索信息的综合资源。SearchGPT 初期用户反馈褒贬不一，在规划活动、编程、总结信息等特定查询方面，S

9/5/2024 9:13:07 AM

故渊

OpenAI 今年启动 GPT Next 计划：AI 性能百倍级跃升，Orion 有望接棒 GPT-4

OpenAI Japan 出席 KDDI 峰会，介绍了公司即将推出的下一代 AI 模型，并宣布将在 2024 年启动 GPT Next 计划，有望在 AI 功能上实现大幅飞跃。图源：itmediaOpenAI Japan 首席执行官长崎忠雄（Tadao Nagasaki）表示，虽然 GPT-3 和 GPT-4 的性能比较接近，但 GPT Next 预计会有更大的飞跃，性能将提高 100 倍。长崎忠雄于 2024 年 4 月成为 OpenAI Japan 的掌舵者，他在会上强调相比较传统软件，AI 技术正以指数级速度

9/4/2024 10:05:55 AM

故渊

资讯热榜

OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OpenAI 发布“智能体构建实战指南”实用性文档（附文档资源） OpenAI发布34页智能体实践指南：从网络搜索到代码编写 AI视频用哪个？6个知名的AI视频工具使用测评报告韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发别再只玩ChatGPT了！OpenAI悄悄发布《构建 Agent 实战指南》手把手教你打造智能体

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉大型语言模型训练