机器人大模型新公司!数据规模比同行大1000倍!贝索斯、孙正义等押注

机器之能报道编辑:Sia用 OpenAI 的方式颠覆机器人世界。「GPT-3 时刻正在进入机器人世界。」最近,Sequoia 合伙人 Stephanie Zhan 在投资了一家新机器人初创后说道。无论是在物流、车厂试点的人形机器人,还是四足机器狗,都要有脑子。过去,脑子要定制,「专款专用」,现在,不必了。最近,位于匹兹堡的机器人初创 Skild AI  声称,已经开发出一种通用的智能系统。它就像一个通用的智能模块,可以接入不同机器人,让他们立刻获得一些基本能力,如爬坡、跨过障碍、识别和捡起物品。7 月 9 日,Sk

机器之能报道

编辑:Sia

用 OpenAI 的方式颠覆机器人世界。

「GPT-3 时刻正在进入机器人世界。」

最近,Sequoia 合伙人 Stephanie Zhan 在投资了一家新机器人初创后说道。无论是在物流、车厂试点的人形机器人,还是四足机器狗,都要有脑子。过去,脑子要定制,「专款专用」,现在,不必了。最近,位于匹兹堡的机器人初创 Skild AI  声称,已经开发出一种通用的智能系统。它就像一个通用的智能模块,可以接入不同机器人,让他们立刻获得一些基本能力,如爬坡、跨过障碍、识别和捡起物品。7 月 9 日,Skild AI 正式宣布筹集到 3 亿美元 A 轮融资,公司估值达 15 亿美元。投资人阵容也非常强大,涵盖科技界、顶尖风投甚至学术机构。贝索斯和孙正义的软银都出现在领投名单中,他们均以长期投资视野著称。Lightspeed(领投)、Coatue(领投)、Sequoia、Menlo Ventures、General Catalyst 等都是全球知名的顶级风投,也出现在投资名单中。卡内基梅隆大学的参投也表明,Skild AI 技术得到学术界认可。

-1-

何方神圣?

Skild AI 由两位前卡内基梅隆大学教授 Abhinav Gupta 和 Deepak Pathak 于 2023 年 5 月创立,长期目标是开发扎根于物理世界的通用人工智能 ( AGI )。

图片前卡内基梅隆大学教授 Deepak Pathak(左)和 Abhinav Gupta(右)创立了 Skild AI,他们也曾是 Meta 的 AI 研究人员。

图片团队成员来自 Meta、特斯拉、Nvidia、亚马逊、谷歌以及卡内基梅隆大学、斯坦福大学、加州大学伯克利分校和 UIUC 等名校。

Lightspeed 合伙人 Raviraj Jain 也于 2023 年 7 月领导了该公司的种子轮融资。去年 4 月,他第一次看到 Skild AI 模型接受压力测试,至今印象深刻。

接入基础模型的机器人能在全新、未经专门设计的环境中执行任务——这可不是为了演示而特别准备的,是真实能力的展现。

看到机器人能爬楼梯时,他非常惊讶。爬楼梯是一个复杂的平衡问题,通常需要针对特定环境编程和训练,但 Skild AI 的模型能让机器人迅速学习和适应新环境,完成任务。

更让他印象深刻的是,机器人展现出一种「涌现能力」,虽然很简单(如捡起从手中滑落的东西或者旋转某个物体),但没人特意教过它们。我们曾在大型语言模型身上也观察到了类似现象。

-2-

数据集

「规模空前」,比对手的大1000倍

模型泛化能力和涌现能力,离不开所谓「规模空前」的数据集:一个由文本、图像和视频组成的庞大数据集。

官方说法,比竞争对手使用的数据库大 1000 倍。(不知道对手是否包括特斯拉?:))

图片他们的基础模型在比其竞争对手大 1000 倍的数据集上进行训练,可以接入各种机器人,帮助他们获得如爬坡、识别和捡起物品等基础能力。「规模空前」归功于他们结合了多种数据收集技术,既有一些常规操作,也有两位创始人多年研究工作中开发的「独门秘方」。他们会让人类远程操作机器人,然后收集这些操作数据。另一个办法是让机器人执行随机任务,试错学习,并记录这些丰富的数据信息。他们还利用大量公共视频训练模型。这些方法的结合有助于 AI 系统获得更强的适应性和理解力。至于「独门秘方」,一个是 Deepak Pathak 读博时开发的一种向机器人灌输「人工好奇心」的方法。当机器人对自己行为的结果感到不确定时,它就会变得更「好奇」,愿意探索更多场景,带回更多数据,增加学习的广度和深度。Pathak 还设计了一种方法,可以将人类给 GPT 等大型语言模型下的命令(如打开一罐牛奶),转化为实际动作。除了这些与物理世界交互和操作的真实数据,他们也结合了从模拟环境中收集的数据。虽然模拟数据不能完全替代真实数据,但它可以提供大量的补充学习材料,特别是在一些难以在现实中频繁重复的场景中。

然而,这种综合的手段也面临挑战,比如如何有效地整合来自不同源的数据。2022 年,两位创始人终于找到办法,将从不同源数据中学习(如从视频、基于好奇心、真实世界学习)整合到一个连贯系统中,大大提高了模型的学习效率和适应能力。

-3-

OpenAI 式颠覆

显然,Skild AI 也面临着来自一系列机器人公司的激烈竞争。

特斯拉擎天柱正在快速进化,马斯克透露年底会迎来有意思的更新。行业巨头 OpenAI 最近恢复了其机器人团队,为机器人公司提供基础模型。此外,还有由亿万富翁 CEO Brett Adcock 掌舵的人形机器人公司 Figure AI 和 OpenAI 衍生公司 Covariant,该公司正在为机器人构建 ChatGPT,并已筹集了超过 2 亿美元。Skild AI 也设想了一个类似 OpenAI 的未来:

通过微调,就可以在 Skild 基础模型上构建不同的用例和产品。

这正是他们颠覆机器人行业的方式。最终,他们希望抵达机器人 AGI,人们可以在物理世界中,与之互动。参考链接https://www.skild.ai/blogs/announcing-our-300m-series-ahttps://www.forbes.com/sites/rashishrivastava/2024/07/09/this-15-billion-ai-company-is-building-a-general-purpose-brain-for-robots/

图片

相关资讯

大模型+机器人,详尽的综述报告来了,多位华人学者参与

大模型的出色能力有目共睹,而如果将它们整合进机器人,则有望让机器人拥有一个更加智能的大脑,为机器人领域带来新的可能性,比如自动驾驶、家用机器人、工业机器人、辅助机器人、医疗机器人、现场机器人和多机器人系统。预训练的大型语言模型(LLM)、大型视觉 - 语言模型(VLM)、大型音频 - 语言模型(ALM)和大型视觉导航模型(VNM)可以被用于更好地处理机器人领域的各种任务。将基础模型整合进机器人是一个快速发展的领域,机器人社区最近已经开始探索将这些大模型用于感知、预测、规划和控制等机器人领域。近日,斯坦福大学和普林斯

对话南佛罗里达大学孙宇教授:当大语言模型用于机器人任务规划丨IJAIRR

现代化社会,哪些工作场景最需要机器人的帮助? 在工业领域,有著名的机器人“四大家族”——发那科、ABB、安川、库卡,经过百余年的发展技术越发成熟,在工业场景已经得到深入而广泛的应用。 相比之下,生活场景中的服务型机器人历史则短得多。

基于LLaMA却改张量名,李开复公司大模型开源行为引争议,官方回应来了

机器之心报道机器之心编辑部有研究者发现,李开复「零一万物」公司的 Yi-34B 模型基本上采用了 LLaMA 的架构,只是重命名了两个张量。对此,「零一万物」给出了官方回应。前段时间,开源大模型领域迎来了一个新的模型 —— 上下文窗口大小突破 200k,能一次处理 40 万汉字的「Yi」。这个大模型由创新工场董事长兼 CE0 李开复创立的大模型公司「零一万物」构建,包括了 Yi-6B 和 Yi-34B 两个版本。根据 Hugging Face 英文开源社区平台和 C-Eval 中文评测榜单,Yi-34B 推出时取得