GPT

【IT之家评测室】讯飞星火大模型 V4.0 体验:全面进化,体验不输 GPT-4o

在 6 月 27 日举办的讯飞星火 V4.0 发布会上,科大讯飞发布了讯飞星火大模型 V4.0,以及在医疗、教育、商业等多个领域的人工智能应用。讯飞星火大模型 V4.0 基于全国首个国产万卡算力集群“飞星一号”训练而成,全面提升了大模型底座的七大核心能力。整体超越 GPT-4 Turbo,特别是针对复杂指令、复杂逻辑推理、空间推理、数学、基于逻辑关系的多模理解等方面有着显著的提升。同时科大讯飞还带来了全新升级的讯飞星火 App / Desk,发布“个人空间”,打造每个人的 AI 助手。为了进一步了解讯飞星火大模型

OpenAI CEO 阿尔特曼:GPT-5 将带来“巨大飞跃”

OpenAI 公司的 GPT-5 模型一直备受关注,许多用户期待该公司会在春季更新活动中发布这款人工智能模型。然而,OpenAI 推出了新款旗舰产品 GPT-4o,该公司首席执行官山姆・阿尔特曼(Sam Altman)将其描述为“神奇”。根据 Aspen Ideas Festival 上的一次访谈,阿尔特曼提到,开发“GPT-5”还需要一些时间。“我们目前持乐观态度,但还有很多工作要做。”阿尔特曼表示。目前尚不清楚 GPT-5 的发布日期,但阿尔特曼表示它将是“巨大飞跃(significant leap forwa

OpenAI 与《时代》达成合作协议:可用其杂志内容训练 ChatGPT

感谢当地时间周四,《时代》杂志与 OpenAI 宣布,两家公司达成了一项多年内容授权协议和战略合作伙伴关系。OpenAI 可将《时代》的内容引入包括 ChatGPT 在内的产品。通过此次合作,OpenAI 将能够访问《时代》杂志过去 101 年来的海量档案中的当前、历史内容,以增强其产品并响应用户查询 —— 在 Time.com 上提供引文和原始来源的链接。作为协议的一部分,《时代》杂志将可以使用 OpenAI 的技术,为其受众开发新产品。据IT之家此前报道,去年 12 月,OpenAI 首席执行官阿尔特曼被《时代

大模型 2024 高考发榜,豆包等三款国产 AI 考上文科一本线

眼下,全国各地的高考成绩陆续出炉,各种关于考生考了多少分的新闻也在不断登上头条。而最近,有一批特殊考生的成绩也出炉了,他们就是由各家 AI 大模型组成的“考试天团”。大模型考上文科本科,豆包拿下国产 AI 最高分6 月 24 日,在极客公园最新发布的高考新课标 Ⅰ 卷大模型评测报告中,GPT-4o 以 562 分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是 542.5 分。再往后,依次是百度文心一言 4.0 的 537.5 分、百川智能“百小应”的 521 分。本次大模型高考评测与河南省考卷完全

10款国产大模型怒怼「玫瑰前夫」方协文,硬控了我30秒!

机器之能报道编辑:杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式,但绝大部分人依然不知道该如何使用。因此,我们推出了「AI在用」专栏,通过直观、有趣且简洁的人工智能使用案例,来具体介绍AI使用方法,并激发大家思考。   我们也欢迎读者投稿亲自实践的创新型用例。AI 搞歪门邪道,很有一套,比如,谈恋爱,吵架、骂人……上个月,博主「午夜狂暴哈士奇狗」凭一己之力,将 ChatGPT 「调教」成史上最具男性魅力、最会调情的恋爱六边形战士。在那一声声的「little kitten」中,她被哄得五

大模型2024高考发榜,豆包等三款国产AI考上文科一本线

大模型参加高考,能考多少分,上什么大学?6月24日,在机构最新发布的高考新课标Ⅰ卷大模型评测报告中,GPT-4o 以562分排名文科总分第一。国内产品中,字节跳动旗下的豆包拔得头筹,成绩是542.5分,其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同,河南高考录取分数线显示,文科本科一批录取分数线为521分,豆包等三款国产AI成功冲上一本线。与文科相比,大模型的理科成绩要差很多,最高分还不到480分,多数大模型的理科总分在400分以下。相比河南理科51

15 个 AI 模型只有 3 个得分超 50%,SIUO 跑分被提出:评估多模态 AI 模型的安全性

最新发表在 arXiv 的研究论文指出,包括 GPT-4V、GPT-4o 和 Gemini 1.5 在内的大部分主流多模态 AI 模型,处理用户的多模态输入(例如一起输入图片和文本内容)之后,输出结果并不安全。这项研究标题为《跨模态安全调整》(Cross-Modality Safety Alignment),提出了一个全新的“安全输入但不安全输出”(SIUO),涉及道德、危险行为、自残、侵犯隐私、信息误读、宗教信仰、歧视和刻板印象、争议性话题以及非法活动和犯罪等 9 个安全领域。研究人员说,大型视觉语言模型(LVL

研究发现,OpenAI 的 GPT-4o 道德推理能力胜过人类专家

近期的一项研究表明,OpenAI 最新的聊天机器人 GPT-4o 能够提供道德方面的解释和建议,且质量优于“公认的”道德专家所提供的建议。据 The Decoder 当地时间周六报道,美国北卡罗莱纳大学教堂山分校和艾伦 AI 研究所的研究人员进行了两项研究,将 GPT 模型与人类的道德推理能力进行比较,以探讨大语言模型是否可被视为“道德专家”。IT之家汇总研究内容如下:研究一501 名美国成年人对比了 GPT-3.5-turbo 模型和其他人类参与者的道德解释。结果表明,人们认为 GPT 的解释比人类参与者的解释更

斯坦福大模型评测榜 Claude 3 排名第一,阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

斯坦福大学基础模型研究中心(CRFM)6 月 11 日发布了大规模多任务语言理解能力评估(Massive Multitask Language Understanding on HELM)排行榜,其中综合排名前十的大语言模型中有两款来自中国厂商,分别是阿里巴巴的 Qwen2 Instruct(72B)和零一万物的 Yi Large(Preview)。据悉大规模多任务语言理解能力评估(MMLU on HELM)采用了 Dan Hendrycks 等人提出的一种测试方法,用于衡量文本模型在多任务学习中的准确性。这个测试

OpenAI 首席技术官:GPT-5 将在一年半后发布,部分领域智能达到“博士”级别

美国达特茅斯工程学院本周四公布了对 OpenAI 首席技术官米拉・穆拉蒂的采访。穆拉蒂把 GPT-4 到 GPT-5 的飞跃描述为从高中生到博士生的成长。图源 Pexels“如果你看一下(GPT)进化的轨迹,像 GPT-3 这样的系统可能只有幼儿智力水平,而像 GPT-4 这样的系统则更像是聪明的高中生智力水平,在接下来的几年里,我们期待在特定任务上达到博士的智力水平。事情正在飞速变化、改善。”穆拉蒂强调“博士级”的智能仅适用于某些任务。“这些系统在特定任务中已经达到了人类水平(Human-level),当然,在许

一手测评Claude 3.5:玩梗、看病、耍心眼 、做数学题,它真比GPT-4o强吗?

机器之能报道编辑:杨文玩梗、看病、耍心眼、做数学题,「新王」Claude 3.5能力真那么玄乎?它来了,它来了,它带着 Claude 3.5 Sonnet 走来了!蛰伏三个月,就在昨晚,OpenAI 的「劲敌」Anthropic 上新了,推出新一代模型 ——Claude 3.5 Sonnet!这款大模型有啥独到之处?首先,它更能把握住细微差别、幽默和复杂指令,并且书写语气更自然、亲切。它还是Anthropic最强的视觉模型,擅长解释图表、图形或者从不完美的图像中转录文本等任务。此外,它在推理、阅读理解、数学、科学和

上海人工智能实验室发布首个 AI 高考评测结果:语数英总分最高 303 分,数学全部不及格

感谢上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍,2024 年全国高考甫一结束,该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。评测采用全国新课标 I 卷,参与评测的所有开源模型开源时间均早于高考,确保评测“闭卷”性。同时,成绩由具有高考评卷经验的教师人工评判,更加接近真实阅卷标准。该机构表示,Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星(InternLM2-20B-WQX)成为本次大模型高考的前三甲

智源更新大模型排行榜:豆包大模型“客观评测”排名国产第一

6月中旬,智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单:在有标准答案的“客观评测”中,GPT-4 以76.11分在闭源大模型中排名第一;Doubao-Pro(豆包大模型)以75.96分排名第二,同时也是得分最高的国产大模型;其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在开放问答等“主观评测”中,Doubao-Pro 同样排名第二,得分超过 GPT-4o 和 GPT-4。图:豆包大模型在 FlagEval 客观评测中获综合评分第二(2024年6月)FlagEval 大

研究称 GPT-4 通过了图灵测试,54% 的人将其误认为真人

感谢最新研究称,越来越多的人难以在图灵测试中区分 GPT-4 和人类。图源 Pexels据IT之家了解,“图灵测试”由计算机科学家艾伦・图灵在 1950 年提出,又被称为“模仿游戏”。测试的标准是机器能否像人类一样进行对话,让对方误以为其是真人。加州大学圣地亚哥分校的研究人员招募了 500 名参与者,让他们与四位“对话者”进行五分钟的交流,这四位“对话者”分别是真人、上世纪 60 年代的初代聊天机器人 ELIZA、以及驱动聊天机器人 ChatGPT 的 GPT-3.5 和 GPT-4。参与者在对话结束后需判断对方是

GPT-4o 更容易越狱?北航 & 南洋理工上万次测试给出详细分析

GPT-4o,比上一代更容易被越狱攻击了?来自北航和南洋理工的研究人员,通过上万次的 API 查询,对 GPT-4o 各种模态的安全性进行了详细测试。结果发现,GPT-4o 新引入的语音模态带来了新的攻击面,而且多模态整体安全性不敌 GPT-4V。具体来说,研究人员针对 4 个常用的基准测试,对 GPT-4o 支持的三种模态(文本、图像、音频)进行了测试。测试一共涉及到 4000 初始文本查询的优化,8000 响应判断,16000 次 OpenAI 的 API 查询。基于此,研究人员撰写了详细的报告,给

预测准确率达95.7%,ChatMOF利用LLM预测和生成金属有机框架

编辑 | X金属有机框架(MOF)因其孔隙率大、表面积大和出色的可调性而用于许多化学应用。然而,在利用 AI 深入探索 MOF 设计与性能优化的研究征途中,科学家们正面临着前所未有的挑战。去年 3 月,韩国科学技术院(Korea Advanced Institute of Science and Technology,KAIST)的研究人员提出的 MOFTransformer 模型经过一百万个假设的 MOF 的预训练,在预测各种属性方面表现出色。近日,KAIST 团队提出了一种 AI 系统——ChatMOF,用于预

Copilot Pro 订阅魅力下降,微软 7 月 10 日下线用户自建 GPT 服务

微软今天发布公告,宣布 Copilot Pro 服务将移除 GPT Builder,意味着订阅用户无法继续创建自己的 Copilot GPT。GPT Builder 也称为 Copilot GPT,订阅 Copilot Pro 的用户可以使用文档、外部或内部资源以及自定义指令创建自己的 Copilot GPT。Copilot Pro 是售价 20 美元的 Microsoft Copilot 订阅版本,具有一些附加功能,如 GPT 生成器和 Copilot 在 Word、Excel、PowerPoint 和 Outl

Karpathy最新四小时视频教程:从零复现GPT-2,通宵运行即搞定

这是Karpathy「Neural Networks:zero to hero」系列视频的最新内容。AI 大牛 Andrej Karpathy 又「上新」了,这次一口气放出了长达四个小时的视频。视频主题为「让我们来复现 GPT-2(1.24 亿参数)」。Karpathy 表示,此次视频之所以这么长,是因为它很全面:从空文件开始,最后得到一个 GPT-2(124M)模型。具体实现步骤包括如下:首先构建 GPT-2 网络。然后对其进行优化,以便快速训练。然后通过参考 GPT-2 和 GPT-3 论文来设置训练运行优化和