文章列表

分类

标签

美欧亚三洲开发者联手，全球首个组团训练的大模型来了，全流程开源

11 月 22 日，Prime Intellect 宣布通过去中心化方式训练完成了一个 10B 模型。 30 号，他们开源了一切，包括基础模型、检查点、后训练模型、数据、PRIME 训练框架和技术报告。据了解，这应该是有史以来首个以去中心化形式训练得到的 10B 大模型。

12/2/2024 12:47:08 PM

机器之心

ChatGPT 拒绝谈论人名“David Mayer”，没人知道为什么

ChatGPT 两岁了，版本更新没等来，却被发现一个神秘 Bug。一个看似平平无奇的名字“David Mayer”成为头号禁忌，ChatGPT 拒绝谈论有关他的一切。

12/2/2024 12:37:55 PM

汪淼

图结构转文本序列，大模型直接读懂！图推理性能大涨

大语言模型直接理解复杂图结构的新方法来了：将图（Graph）转换为适合Transformer架构的线性token序列。 belike：这种最新图线性化方法，反映了自然语言中局部依赖性和全局对齐性两个关键属性，即：不仅需要保留基于前文上下文预测下一个token的能力（局部依赖性），而且不同图的token序列应该从具有相似特征的token开始或结束（全局对齐性），就像自然语言文本经常以特定词语开头或结尾。如此一来，在海量文本数据上训练的LLM也能更好地理解图结构中的关系和属性，如节点计数、最大度数计算和图式形状分类等图推理任务都能完成。

12/2/2024 12:37:42 PM

ChatGPT拒绝谈论这个人，没人知道为什么

ChatGPT两岁了，版本更新没等来，却被发现一个神秘Bug。一个看似平平无奇的名字“David Mayer”成为头号禁忌，ChatGPT拒绝谈论有关他的一切。而且每次都是返回非常模糊的错误信息“我无法产生一个回复”，而不是常见的“这个提示词可能违反了我们的内容协议”。

12/2/2024 12:34:06 PM

微软：两个AI相互纠错，数学再涨5分

提升LLM数学能力的新方法来了——一个大模型不行，那就两个。让他们彼此合作，纠正对方的错误。这就是来自加州大学和微软研究院的最新研究成果：Flow-DPO。

12/2/2024 12:30:44 PM

微软发明全新「LLM语言」，AI智能体交互效率翻倍！

在《星球大战》中，机器人R2-D2和其他机器人使用特殊的语言进行交流。这种语言主要由蜂鸣声和口哨声组成，被称为「二进制语」（Binary）或「机器人语」（Droidspeak）。 Droidspeak是专门为机器人之间的交流设计的，只有机器人能够完全理解其精确含义。

12/2/2024 10:15:00 AM

新智元

ChatGPT两岁，OpenAI 10亿用户计划曝光！

两年过去了... ChatGPT自诞生之日起，已经给全世界带去了翻天覆地的变化。今天，正是ChatGPT两周年纪念日！

12/2/2024 10:00:00 AM

新智元

仅用5M数据超过 OpenAI？快手最新 Code Embedding 模型 OASIS(绿洲)发布

出品 | 51CTO技术栈（微信号：blog51cto）最近，快手Kwaipilot 团队正式宣布开源 OASIS（Optimized Augmentation Strategy for Improved code Search）Code Embedding模型。快手 Kwaipilot 团队在代码表征领域实现了突破性进展，仅仅使用 5M Tokens数据大幅领先 OpenAI，在多个 Code Search benchmark 中显著超越现有最佳水平。 1.什么是代码表征?随着代码库规模的持续扩大，开发者越来越依赖高效的代码检索系统来提升开发效率。

12/2/2024 9:46:27 AM

揭秘：为何大模型总是赚不到钱？行业内幕大曝光！

编辑 | 伊风出品 | 51CTO技术栈（微信号：blog51cto）一个扎心的问题：大模型盈利了吗？随着技术的发展，AI 逐渐走下了「神坛」，整个业界都变得更加客观和务实。从OpenAI 今年高达 50 亿的天价亏损，到月暗沸沸扬扬的前投资人仲裁风波，大模型厂商的生意之路不是铺满大额融资的花路，而是充满了坎坷和荆棘。

12/2/2024 9:37:09 AM

伊风

将大语言模型集成到现有软件系统的完整指南

译者 | 布加迪审校 | 重楼随着最近应用迅速普及开来、人工智能（AI）得到广泛采用，大语言模型（LLM）已变得备受广大公司企业、开发人员和非开发人员的欢迎，因为它们为用户提供了诸多好处。它们帮助开发人员调试代码并生成代码片段，还帮助澄清看似复杂的编程概念和任务，从而提高生产力。只要用于训练的数据集涵盖主题，使用LLM的非开发人员就可以受益于对问题做出快速且定制的响应和答复。

12/2/2024 8:10:31 AM

布加迪

清华新VLA框架加速破解具身智能止步实验室“魔咒”，LLM开销节省4-6倍 | NeurIPS'24

计算、存储消耗高，机器人使用多模态模型的障碍被解决了！来自清华大学的研究者们设计了DeeR-VLA框架，一种适用于VLA的“动态推理”框架，能将LLM部分的相关计算、内存开销平均降低4-6倍。（VLA：视觉-语言-动作模型，代表一类用于处理多模态输入的模型）简单来说，DeeR-VLA就像人的决策系统：简单任务快速思考，复杂任务仔细思考。

12/2/2024 7:10:00 AM