Hugging Face 推出 “Pi-Zero”,AI机器人更容易构建和部署

近日,Hugging Face 与 Physical Intelligence 联合推出了 “Pi0”(Pi-Zero),这是首个将自然语言命令直接转化为物理动作的基础模型。 这一创新性发布吸引了广泛关注,Hugging Face 的首席研究科学家 Remi Cadene 在社交媒体上宣布,“ Pi0是最先进的视觉语言动作模型,能够将自然语言命令转化为自主行为。 ”“Pi0” 的推出标志着机器人领域的一次重大变革,类似于 ChatGPT 在文本生成领域的影响力。

近日,Hugging Face 与 Physical Intelligence 联合推出了 “Pi0”(Pi-Zero),这是首个将自然语言命令直接转化为物理动作的基础模型。这一创新性发布吸引了广泛关注,Hugging Face 的首席研究科学家 Remi Cadene 在社交媒体上宣布,“ Pi0是最先进的视觉语言动作模型,能够将自然语言命令转化为自主行为。”

“Pi0” 的推出标志着机器人领域的一次重大变革,类似于 ChatGPT 在文本生成领域的影响力。该模型最初由 Physical Intelligence 开发,并现已在 Hugging Face 的 LeRobot 平台上提供,能够执行如折叠衣物、收拾餐桌和包装杂货等复杂任务,这些都是传统机器人难以掌握的技能。

Physical Intelligence 的研究团队表示:“当前的机器人往往是专注于重复性动作的窄域专家,而‘Pi0’的推出则允许机器人通过用户指令学习和执行任务,编程的复杂性被简化为简单的语音指令。”

“Pi0” 技术的核心是一项重要的技术突破。该模型通过对七种不同机器人平台和68个独特任务的数据进行训练,使其能够处理从精细操作到复杂的多步骤程序等各种任务。同时,使用了一种新颖的流匹配技术,使其能够以每秒50次的速度产生平滑、实时的动作轨迹,从而在真实世界应用中实现高度精准和适应性。

在此基础上,开发团队还推出了 “Pi0-FAST” 版本,这一增强版模型结合了一种新的标记方案 —— 频率空间动作序列标记(FAST),使得训练速度提高了五倍,并在不同环境和机器人类型之间的泛化能力上也有所提升。

这一技术的推出将对工业产生深远的影响。制造企业可以通过简单的语音指令重新编程机器人,仓库则能够根据需求部署更灵活的自动化系统。小型企业也将因此更加容易接入机器人技术,降低了编程和部署的门槛。

不过,尽管 “Pi0” 已取得显著进展,但仍然面临一些挑战。该模型在处理非常复杂的任务时有时会遇到困难,并且需要相当大的计算资源。此外,在工业环境中的可靠性和安全性问题仍然需要关注。

“Pi0” 的发布正值人工智能行业快速发展的关键时期,它代表了语言模型与物理世界互动之间的首次成功尝试。随着技术的不断成熟,未来的机器人将变得更加对话式、适应性强且易于接入,推动机器人在家庭、医院和小型企业等领域的广泛应用。

pi0:https://huggingface.co/lerobot/pi0

划重点:  

🌟 Pi0是首个将自然语言命令转化为物理动作的机器人模型,改变传统编程方式。  

🤖 该模型经过多平台、多任务训练,能够执行复杂的日常操作,降低机器人使用门槛。  

⚡ Pi0-FAST 版本提升了训练速度和泛化能力,有望加速工业自动化的推广。  

相关资讯

告别复杂编程:Hugging Face发布首个机器人基础模型Pi0

Hugging Face与Physical Intelligence联手推出了划时代的机器人基础模型Pi0,这是首个能将自然语言命令直接转化为机器人动作的开源模型,标志着机器人技术进入新纪元。 Pi0模型在七个不同机器人平台上经过训练,掌握了68种独特任务,能够执行从折叠衣物到收拾桌子等复杂操作。 该模型采用创新的流匹配技术,以50Hz的频率生成平滑的实时动作轨迹,确保了极高的精确度。

300倍体积缩减!​Hugging Face推SmolVLM模型:小巧智能,手机也能跑AI

Hugging Face 推出了一款令人瞩目的 AI 模型 ——SmolVLM。 这款视觉语言模型的体积小到可以在手机等小型设备上运行,且性能超越了那些需要大型数据中心支持的前辈模型。 SmolVLM-256M 模型的 GPU 内存需求不足1GB,性能却超过了其前代 Idefics80B 模型,这一后者的规模是其300倍,标志着实用 AI 部署的一个重大进展。

Hugging Face 推出小巧AI模型,助力设备性能提升

近期,人工智能开发平台 Hugging Face 团队发布了两款新型 AI 模型,SmolVLM-256M 和 SmolVLM-500M。 他们自信地声称,这两款模型是目前为止体积最小的 AI 模型,能够同时处理图像、短视频和文本数据,尤其适合内存少于1GB 的设备如笔记本电脑。 这一创新让开发者在处理大量数据时,能够以更低的成本实现更高的效率。