您正在搜索 gpt-wei-jing-de-ge-ming-you-o1-jie-bang-huo-shi-llm-yan-jiu-zui-zhong-yao-de-fa-xian

模型训练成本“平民化”，前特斯拉 AI 总监 24 小时仅用 672 美元“重现”GPT-2

GPT-2 是 OpenAI 于 2019 年推出的模型，其训练费用一度为每小时 256 美元，那么 5 年过后的 GPT-4 时代，软硬件和数据的进步，是否意味着训练同一模型所需的时间和成本会随之减少呢？答案是肯定的。据 Tom's Hardware 今日报道，前特斯拉 AI 总监、OpenAI 联合创始人、项目开发者 Andrej Karpathy 使用 llm.c“重现”了 GPT-2，其成本降到了每小时仅 28 美元（AI在线备注：当前约 204 元人民币），在短短 5 年内降低了近 90%。图源 Pixa

Llama分子嵌入优于GPT，LLM能理解分子吗？这一局Meta赢了OpenAI

编辑 | 萝卜皮OpenAI 的 GPT 和 Meta AI 的 Llama 等大型语言模型（LLM），因其在化学信息学领域的潜力而日益受到认可，特别是在理解简化分子输入行输入系统（SMILES）方面。这些 LLM 还能够将 SMILES 字符串解码为矢量表示。加拿大温莎大学（University of Windsor）的研究人员比较了 GPT 和 Llama 与 SMILES 上的预训练模型在下游任务中嵌入 SMILES 字符串的性能，重点关注两个关键应用：分子特性预测和药物-药物相互作用预测。该研究以「Can

SuperCLUE 中文大模型基准测评2024上半年报告

SuperCLUE 发布了《中文大模型基准测评2024上半年报告》，在AI大模型发展的巨大浪潮中，通过多维度综合性测评，对国内外大模型发展现状进行观察与思考。

科大讯飞“讯飞晓医”App 获升级，号称无广告、无混杂消息

近期举行的 2024 世界人工智能大会（WAIC 2024）期间，科大讯飞展出了获得升级的“讯飞晓医”App，其能够根据电子病历、检查报告、体检报告等用户个性化资料构建“个人数字健康空间”。据悉，上月底星火大模型 4.0 发布后，星火医疗大模型和讯飞晓医 App 也同步升级，号称医疗核心能力全面超过 GPT-4 Turbo 和 GPT-4o。AI在线汇总该 App 主要信息如下：官方介绍称，该 App 可在看病前进一步剖析病因、用药时给出药物禁忌个性判断、检查后联合对比给出数据变化，还可通过角色切换了解其他家庭成员

【IT之家评测室】讯飞星火大模型 V4.0 体验：全面进化，体验不输 GPT-4o

在 6 月 27 日举办的讯飞星火 V4.0 发布会上，科大讯飞发布了讯飞星火大模型 V4.0，以及在医疗、教育、商业等多个领域的人工智能应用。讯飞星火大模型 V4.0 基于全国首个国产万卡算力集群“飞星一号”训练而成，全面提升了大模型底座的七大核心能力。整体超越 GPT-4 Turbo，特别是针对复杂指令、复杂逻辑推理、空间推理、数学、基于逻辑关系的多模理解等方面有着显著的提升。同时科大讯飞还带来了全新升级的讯飞星火 App / Desk，发布“个人空间”，打造每个人的 AI 助手。为了进一步了解讯飞星火大模型

OpenAI CEO 阿尔特曼：GPT-5 将带来“巨大飞跃”

OpenAI 公司的 GPT-5 模型一直备受关注，许多用户期待该公司会在春季更新活动中发布这款人工智能模型。然而，OpenAI 推出了新款旗舰产品 GPT-4o，该公司首席执行官山姆・阿尔特曼（Sam Altman）将其描述为“神奇”。根据 Aspen Ideas Festival 上的一次访谈，阿尔特曼提到，开发“GPT-5”还需要一些时间。“我们目前持乐观态度，但还有很多工作要做。”阿尔特曼表示。目前尚不清楚 GPT-5 的发布日期，但阿尔特曼表示它将是“巨大飞跃（significant leap forwa

OpenAI 与《时代》达成合作协议：可用其杂志内容训练 ChatGPT

感谢当地时间周四，《时代》杂志与 OpenAI 宣布，两家公司达成了一项多年内容授权协议和战略合作伙伴关系。OpenAI 可将《时代》的内容引入包括 ChatGPT 在内的产品。通过此次合作，OpenAI 将能够访问《时代》杂志过去 101 年来的海量档案中的当前、历史内容，以增强其产品并响应用户查询 —— 在 Time.com 上提供引文和原始来源的链接。作为协议的一部分，《时代》杂志将可以使用 OpenAI 的技术，为其受众开发新产品。据IT之家此前报道，去年 12 月，OpenAI 首席执行官阿尔特曼被《时代

大模型 2024 高考发榜，豆包等三款国产 AI 考上文科一本线

眼下，全国各地的高考成绩陆续出炉，各种关于考生考了多少分的新闻也在不断登上头条。而最近，有一批特殊考生的成绩也出炉了，他们就是由各家 AI 大模型组成的“考试天团”。大模型考上文科本科，豆包拿下国产 AI 最高分6 月 24 日，在极客公园最新发布的高考新课标 Ⅰ 卷大模型评测报告中，GPT-4o 以 562 分排名文科总分第一。国内产品中，字节跳动旗下的豆包拔得头筹，成绩是 542.5 分。再往后，依次是百度文心一言 4.0 的 537.5 分、百川智能“百小应”的 521 分。本次大模型高考评测与河南省考卷完全

10款国产大模型怒怼「玫瑰前夫」方协文，硬控了我30秒！

机器之能报道编辑：杨文以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。AI 搞歪门邪道，很有一套，比如，谈恋爱，吵架、骂人……上个月，博主「午夜狂暴哈士奇狗」凭一己之力，将 ChatGPT 「调教」成史上最具男性魅力、最会调情的恋爱六边形战士。在那一声声的「little kitten」中，她被哄得五

大模型2024高考发榜，豆包等三款国产AI考上文科一本线

大模型参加高考，能考多少分，上什么大学？6月24日，在机构最新发布的高考新课标Ⅰ卷大模型评测报告中，GPT-4o 以562分排名文科总分第一。国内产品中，字节跳动旗下的豆包拔得头筹，成绩是542.5分，其后依次是百度文心一言4.0的537.5分、百川智能“百小应”的521分。本次大模型高考评测与河南省考卷完全相同，河南高考录取分数线显示，文科本科一批录取分数线为521分，豆包等三款国产AI成功冲上一本线。与文科相比，大模型的理科成绩要差很多，最高分还不到480分，多数大模型的理科总分在400分以下。相比河南理科51

15 个 AI 模型只有 3 个得分超 50%，SIUO 跑分被提出：评估多模态 AI 模型的安全性

最新发表在 arXiv 的研究论文指出，包括 GPT-4V、GPT-4o 和 Gemini 1.5 在内的大部分主流多模态 AI 模型，处理用户的多模态输入（例如一起输入图片和文本内容）之后，输出结果并不安全。这项研究标题为《跨模态安全调整》（Cross-Modality Safety Alignment），提出了一个全新的“安全输入但不安全输出”（SIUO），涉及道德、危险行为、自残、侵犯隐私、信息误读、宗教信仰、歧视和刻板印象、争议性话题以及非法活动和犯罪等 9 个安全领域。研究人员说，大型视觉语言模型（LVL

研究发现，OpenAI 的 GPT-4o 道德推理能力胜过人类专家

近期的一项研究表明，OpenAI 最新的聊天机器人 GPT-4o 能够提供道德方面的解释和建议，且质量优于“公认的”道德专家所提供的建议。据 The Decoder 当地时间周六报道，美国北卡罗莱纳大学教堂山分校和艾伦 AI 研究所的研究人员进行了两项研究，将 GPT 模型与人类的道德推理能力进行比较，以探讨大语言模型是否可被视为“道德专家”。IT之家汇总研究内容如下：研究一501 名美国成年人对比了 GPT-3.5-turbo 模型和其他人类参与者的道德解释。结果表明，人们认为 GPT 的解释比人类参与者的解释更

斯坦福大模型评测榜 Claude 3 排名第一，阿里 Qwen2、零一万物 Yi Large 国产模型进入前十

斯坦福大学基础模型研究中心（CRFM）6 月 11 日发布了大规模多任务语言理解能力评估（Massive Multitask Language Understanding on HELM）排行榜，其中综合排名前十的大语言模型中有两款来自中国厂商，分别是阿里巴巴的 Qwen2 Instruct（72B）和零一万物的 Yi Large（Preview）。据悉大规模多任务语言理解能力评估（MMLU on HELM）采用了 Dan Hendrycks 等人提出的一种测试方法，用于衡量文本模型在多任务学习中的准确性。这个测试

OpenAI 首席技术官：GPT-5 将在一年半后发布，部分领域智能达到“博士”级别

美国达特茅斯工程学院本周四公布了对 OpenAI 首席技术官米拉・穆拉蒂的采访。穆拉蒂把 GPT-4 到 GPT-5 的飞跃描述为从高中生到博士生的成长。图源 Pexels“如果你看一下（GPT）进化的轨迹，像 GPT-3 这样的系统可能只有幼儿智力水平，而像 GPT-4 这样的系统则更像是聪明的高中生智力水平，在接下来的几年里，我们期待在特定任务上达到博士的智力水平。事情正在飞速变化、改善。”穆拉蒂强调“博士级”的智能仅适用于某些任务。“这些系统在特定任务中已经达到了人类水平（Human-level），当然，在许

一手测评Claude 3.5：玩梗、看病、耍心眼、做数学题，它真比GPT-4o强吗？

机器之能报道编辑：杨文玩梗、看病、耍心眼、做数学题，「新王」Claude 3.5能力真那么玄乎？它来了，它来了，它带着 Claude 3.5 Sonnet 走来了！蛰伏三个月，就在昨晚，OpenAI 的「劲敌」Anthropic 上新了，推出新一代模型 ——Claude 3.5 Sonnet！这款大模型有啥独到之处？首先，它更能把握住细微差别、幽默和复杂指令，并且书写语气更自然、亲切。它还是Anthropic最强的视觉模型，擅长解释图表、图形或者从不完美的图像中转录文本等任务。此外，它在推理、阅读理解、数学、科学和

上海人工智能实验室发布首个 AI 高考评测结果：语数英总分最高 303 分，数学全部不及格

感谢上海人工智能实验室 19 日公布了首个 AI 高考全卷评测结果。据介绍，2024 年全国高考甫一结束，该实验室旗下司南评测体系 OpenCompass 选取 6 个开源模型及 GPT-4o 进行高考“语数外”全卷能力测试。评测采用全国新课标 I 卷，参与评测的所有开源模型开源时间均早于高考，确保评测“闭卷”性。同时，成绩由具有高考评卷经验的教师人工评判，更加接近真实阅卷标准。该机构表示，Qwen2-72B、GPT-4o 及书生・浦语 2.0 文曲星（InternLM2-20B-WQX）成为本次大模型高考的前三甲

智源更新大模型排行榜：豆包大模型“客观评测”排名国产第一

6月中旬，智源研究院旗下的 FlagEval 大模型评测平台发布最新榜单：在有标准答案的“客观评测”中，GPT-4 以76.11分在闭源大模型中排名第一；Doubao-Pro（豆包大模型）以75.96分排名第二，同时也是得分最高的国产大模型；其后依次是 ERNIE 4.0、Baichuan3、Moonshot-v1。在开放问答等“主观评测”中，Doubao-Pro 同样排名第二，得分超过 GPT-4o 和 GPT-4。图：豆包大模型在 FlagEval 客观评测中获综合评分第二（2024年6月）FlagEval 大

研究称 GPT-4 通过了图灵测试，54% 的人将其误认为真人

感谢最新研究称，越来越多的人难以在图灵测试中区分 GPT-4 和人类。图源 Pexels据IT之家了解，“图灵测试”由计算机科学家艾伦・图灵在 1950 年提出，又被称为“模仿游戏”。测试的标准是机器能否像人类一样进行对话，让对方误以为其是真人。加州大学圣地亚哥分校的研究人员招募了 500 名参与者，让他们与四位“对话者”进行五分钟的交流，这四位“对话者”分别是真人、上世纪 60 年代的初代聊天机器人 ELIZA、以及驱动聊天机器人 ChatGPT 的 GPT-3.5 和 GPT-4。参与者在对话结束后需判断对方是

gpt-wei-jing-de-ge-ming-you-o1-jie-bang-huo-shi-llm-yan-jiu-zui-zhong-yao-de-fa-xian 的搜索结果