理论 - AIGC宇宙

OpenAI 的 GPT 商店审核失控：被指充斥侵权和垃圾内容

旨在提供从编程辅助到健身建议等各种功能的 GPT 模型的 OpenAI GPT 商店正面临质量和合规性问题。据 TechCrunch 调查，该商店存在大量涉嫌侵犯版权的 GPT 模型，例如未经授权生成迪士尼和漫威角色内容的“钢铁侠”GPT 或 “米奇老鼠”GPT。IT之家注意到，尽管 OpenAI 采用了结合自动检测和人工审查的审核制度，但大量的 GPT 模型显然逃过了审核。另一个问题是学术诚信，一些 GPT 模型声称可以绕过内容剽窃检测工具，助长抄袭行为。例如，有两个 GPT 模型，一个声称是高级的改写工具，另一

OpenAI CEO 阿尔特曼：GPT-4“有点糟糕”，今年将推出新模型

OpenAI 首席执行官萨姆・阿尔特曼 (Sam Altman) 在周一发布的与列克斯・弗里德曼 (Lex Fridman) 的访谈中表示，他们公司的人工智能模型 GPT-4 其实“有点糟糕（kinda sucks）”，阿尔特曼更期待即将到来的 GPT-5 能够真正配得上大家的期待。“我认为它有点糟糕，” 当被问及 GPT-4 及其最令人印象深刻的能力时，阿尔特曼说道，“展望未来几年，我们应该意识到我们现在拥有的工具将来看来会非常落后，这正是鞭策我们不断进步、创造更美好的未来的动力。”“别误会，我既不想贬低 GPT

OpenAI 首席技术官：不确定 Sora 的训练数据来自哪里

感谢OpenAI 近期推出了炙手可热的文本转视频生成模型 Sora，然而该公司首席技术官 (CTO) Mira Murati 在接受华尔街日报采访时却语焉不详，无法明确说明 Sora 的训练数据来源。在采访中，记者直接询问 Murati 关于 Sora 训练数据来源时，她仅以含糊的官方话术搪塞：“我们使用的是公开可用数据和许可数据。”当记者追问具体来源是否包含 YouTube 视频时，Murati 竟然表示“我实际上并不确定（I'm actually not sure about that）”，并拒绝回答有关 In

全球首个类 Sora 开源复现方案来了！全面公开所有训练细节和模型权重

全球首个开源的类 Sora 架构视频生成模型，来了！整个训练流程，包括数据处理、所有训练细节和模型权重，全部开放。这就是刚刚发布的 Open-Sora 1.0。它带来的实际效果如下，能生成繁华都市夜景中的车水马龙。还能用航拍视角，展现悬崖海岸边，海水拍打着岩石的画面。亦或是延时摄影下的浩瀚星空。自 Sora 发布以来，由于效果惊艳但技术细节寥寥，揭秘、复现 Sora 成为了开发社区最热议话题之一。比如 Colossal-AI 团队推出成本直降 46% 的 Sora 训练推理复现流程。短短两周时间后，该团队再次发布最

从直观物理学谈到认知科学，Sora不是传统物理模拟器盖棺定论了？

本文篇幅很长，主题很多，但循序渐进，对「Sora 究竟是不是世界模拟器」这一说法给出了非常详实的解读。最近，OpenAI 的文生视频模型 Sora 爆火。除了能够输出高质量的视频之外，OpenAI 更是将 Sora 定义为一个「世界模拟器」（world simulators）。当然，这一说法遭到了包括图灵奖得主 Yann LeCun 在内很多学者的反驳。LeCun 的观点是：仅仅根据 prompt 生成逼真视频并不能代表一个模型理解了物理世界，生成视频的过程与基于世界模型的因果预测完全不同。近日，澳大利亚麦考瑞大学

OpenAI 官方博客提前泄露 GPT-4.5 Turbo，有望今年夏天发布

感谢OpenAI 近期可能意外泄露了旗下即将发布的 GPT-4.5 Turbo 大型语言模型信息。网友发现，OpenAI 博客上疑似上线了一篇有关 GPT-4.5 Turbo 的文章，但该页面目前已被撤回，搜索引擎也无法再检索到相关信息。泄露的信息显示，GPT-4.5 Turbo 将在速度、准确性和可扩展性方面全面超越其前代 GPT-4 Turbo。更关键的是，泄露的描述中提到了该模型的“知识截止日期”为 2024 年 6 月。这一信息引发了诸多猜测，有人认为是笔误，也有人推测 OpenAI 可能会在今年 7 月或

微软 Copilot 全面升级 OpenAI GPT-4 Turbo 模型，包括免费用户

在经过一系列工作之后，微软现已针对 Copilot 用户群全面升级为 OpenAI 最先进的 GPT-4 Turbo 模型。IT之家提醒，Copilot Pro 用户如果不习惯的话还可以切换回标准 GPT-4 模型，但免费用户是没有选择权的。微软 Copilot 最初是作为 Bing Chat 聊天机器人推出的一款产品，早期迭代依赖于 GPT-3.5 模型，后来升级到 GPT-4 后有了大幅改进，而现在又升级到了 GPT-4 Turbo 模型，这意味着 Copilot 功能又一次实现飞跃。GPT-4 Turbo 以

Midjourney 能让角色保持一致了！网友实测称直呼“改变游戏规则”

Midjourney 发布新功能，网友直呼“不可思议”！现在你可以让生成的图像几乎保持角色一致，belike：所有超级英雄长一个模样盯着你。甚至动漫风、写实风等跨风格生成也同样适用：保持同一风格，感觉配上文字可以讲一个故事了：面部、着装、发型可调控，换装玩法 get：新功能名为角色参照（Character Reference），和之前的风格参照类似，不过这次不是保持风格一致，而是保持生成图像的角色与给定的参照角色一致。网友们已经玩嗨了，纷纷表示这是迄今为止 Midjourney 最大的更新：还有网友认为生成式 AI

谷歌承认“窃取”OpenAI 模型关键信息：成本低至 150 元，调用 API 即可得手

什么？谷歌成功偷家 OpenAI，还窃取到了 gpt-3.5-turbo 关键信息？？？是的，你没看错。根据谷歌自己的说法，它不仅还原了 OpenAI 大模型的整个投影矩阵（projection matrix），还知道了确切隐藏维度大小。而且方法还极其简单 —— 只要通过 API 访问，不到 2000 次巧妙的查询就搞定了。成本根据调用次数来看，最低 20 美元以内（折合人民币约 150 元）搞定，并且这种方法同样适用于 GPT-4。好家伙，这一回阿尔特曼是被将军了！这是谷歌的一项最新研究，它报告了一种攻击窃取大模

因使用受版权保护书籍训练 AI 平台，英伟达被三名作者起诉

感谢据美国福克斯电视台北京时间今日报道，科技巨头英伟达已被三名作者起诉，因为英伟达在训练其 AI 平台 NeMo 时，未经许可使用了他们受到版权保护的书籍。三名作者 Brian Keene、Abdi Nazemian 和 Stewart O'Nan 声称，自己的作品被收录在一个包含约 196640 本书籍的数据集内，这些书籍帮助训练 NeMo 模拟普通书面语言，但这个数据集因“被举报侵犯版权”在去年 10 月被撤下。（IT之家注：该数据集原本被托管在 Hugging Face 网站上）作者们在 3 月 8 日晚提交

谷歌被曝翻车内幕：内部群龙无首，生图机制过分“多元化”

感谢IT之家网友 rolan6 的线索投递！谷歌 Gemini 文生图风波还未平，更劲爆的内幕消息又被曝出来了。Pirate Wires 爆料，Gemini 这次的翻车，谷歌内部此前并不是毫不知情，翻车甚至是“故意”导致的。具体来说，谷歌设置了一个“安全”架构，Gemini 要生成一张图实际上要经过三个模型。大概来说，流程是这样的：用户在聊天界面请求 Gemini 生成一张图片，Gemini 收到请求后，会把请求发送给一个较小的模型。这个较小的模型的作用是根据公司的“多元化”政策重写用户的提示。为做到这一点，这个较

真·降维打击，Sora与Runway、Pika的对比来了，震撼效果背后是物理引擎模拟现实世界

以后的视频生成领域，恐怕真的只有 OpenAI 的 Sora 和其他模型了。昨天，OpenAI 发布的首个文本生成视频模型 Sora 引爆了社区，其生成的长达 1 分钟的高清、流畅视频令人们惊叹不已，直呼「好莱坞的时代结束了」。仅仅一年时间，文本生成视频的效果迎来了质的飞跃。图源：，随着 Sora 加入这场视频生成领域的战争，受到冲击最大的是同类竞品模型，比如 Runway、Pika、SDV、谷歌和 Meta。看到 Sora 的生成效果之后，很多人认为，S

性能提升、成本降低，这是分布式强化学习算法最新研究进展

深度强化学习（Deep Reinforcement Learning，DRL）是一种公认的解决连续决策问题的有效技术。为了应对 DRL 的数据低效（data inefficiency）问题，受到分布式机器学习技术的启发，分布式深度强化学习 (distributed deep reinforcement learning，DDRL) 已提出并成功应用于计算机视觉和自然语言处理领域。有观点认为，分布式强化学习是深度强化学习走向大规模应用、解决复杂决策空间和长期规划问题的必经之路。分布式强化学习是一个综合的研究子领域，需

讯飞星火V3.5正式发布，基于全国产算力平台“飞星一号”训练

1月30日，科大讯飞举行星火认知大模型V3.5升级发布会。科大讯飞董事长刘庆峰、研究院院长刘聪正式发布基于首个全国产算力训练的讯飞星火V3.5。2023年10月24日，科大讯飞携手华为，宣布首个支撑万亿参数大模型训练的万卡国产算力平台“飞星一号”正式启用。启用后的90多天里，讯飞星火基于“飞星一号”，启动了对标GPT-4的更大参数规模的大模型训练，带来了1月30日这场讯飞星火V3.5升级发布。首个基于全国产算力训练的全民开放大模型讯飞星火V3.5在语言理解、文本生成、知识问答、逻辑推理、数学能力、代码能力和多模态能

Meta官方的Prompt工程指南：Llama 2这样用更高效

随着大型语言模型（LLM）技术日渐成熟，提示工程（Prompt Engineering）变得越来越重要。一些研究机构发布了 LLM 提示工程指南，包括微软、OpenAI 等等。最近，Llama 系列开源模型的提出者 Meta 也针对 Llama 2 发布了一份交互式提示工程指南，涵盖了 Llama 2 的快速工程和最佳实践。以下是这份指南的核心内容。Llama 模型2023 年，Meta 推出了 Llama 、Llama 2 模型。较小的模型部署和运行成本较低，而更大的模型能力更强。Llama 2 系列模型参数规模

2023年科研领域「科学ChatGPT」有哪些？LLM for Science有哪些探索......

作者 | 凯霞2023 年，人工智能领域最具影响的莫过于 GPT-4、ChatGPT 了。ChatGPT 凭一己之力掀起了 AI 领域的热潮，火爆全球，似乎开启了第四次工业革命。ChatGPT 入选《Nature》2023 年度十大人物（Nature’s 10），这是有史以来第一次「计算机程序」——首个非人类实体入选。《Nature》表示这一做法旨在认可模仿人类语言的 AI 系统在科学发展和进步中所发挥的作用。同时，ChatGPT 在内的 AI 工具也被《Nature》评为 2024 年值得关注的科学事件之一。期待

连看好莱坞大片都学会了！贾佳亚团队用2token让大模型卷出新境界

家人们谁懂，连大模型都学会看好莱坞大片了，播放过亿的GTA6预告片大模型还看得津津有味，实在太卷了！而让LLM卷出新境界的办法简单到只有2token——将每一帧编码成2个词即可搞定。等等！这种大道至简的方法有种莫名的熟悉感。不错，又是出自香港中文大学贾佳亚团队。这是贾佳亚团队自8月提出主攻推理分割的LISA多模态大模型、10月发布的70B参数长文本开源大语言模型LongAlpaca和超长文本扩展术LongLoRA后的又一次重磅技术更新。而LongLoRA只需两行代码便可将7B模型的文本长度拓展到100k token

为了保持 AI 未来的开放性，Meta 和 IBM 发起联盟

编辑 | 白菜叶Meta、IBM 以及数十家初创公司和研究人员成立了一个联盟，捍卫更加开放和协作的人工智能开发方法，并与 OpenAI 和谷歌就该技术的未来展开了辩论与对抗。哲学辩论已成为人工智能未来的中心战场，人们越来越担心微软支持的 OpenAI 和谷歌将独自支撑这项对我们日常生活变得越来越重要的技术。IBM 首席执行官 Arvind Krishna 在周二宣布成立人工智能联盟的声明中表示：「这是定义人工智能未来的关键时刻。」ChatGPT 的创建者 OpenAI 和 Google 捍卫了大型语言模型的闭源系统

理论