机器人

# 机器人

Genie Studio

Genie Studio 是智元机器人专为具身智能场景打造的一站式开发平台，具备数据采集、模型训练、仿真评测、模型推理的全链路产品能力。它为开发者提供从‘采’到‘训’到‘测’再到‘推’的标准化解决方案，极大地降低了开发门槛，提升了开发效率。该平台通过高效的数据采集、灵活的模型训练、精准的仿真评测和无缝的模型推理，推动了具身智能技术的快速发展和应用。Genie Studio 不仅提供了强大的工具，还为具身智能的规模化落地提供了支持，加速了行业向标准化、平台化、量产化的新阶段跃进。

Gemini Robotics

Gemini Robotics

Gemini Robotics是Google DeepMind推出的一种先进的人工智能模型，专为机器人应用而设计。它基于Gemini 2.0架构，通过视觉、语言和动作（VLA）的融合，使机器人能够执行复杂的现实世界任务。该技术的重要性在于它推动了机器人从实验室走向日常生活和工业应用的进程，为未来智能机器人的发展奠定了基础。Gemini Robotics的主要优点包括强大的泛化能力、交互性和灵巧性，使其能够适应不同的任务和环境。目前，该技术处于研究和开发阶段，尚未明确具体的价格和市场定位。

GO-1

智元通用具身基座大模型GO-1是智元推出的一款革命性的人工智能模型。该模型基于创新的Vision-Language-Latent-Action（ViLLA）架构，通过多模态大模型（VLM）和混合专家（MoE）系统，实现了从视觉和语言输入到机器人动作执行的高效转换。GO-1能够利用人类视频和真实机器人数据进行学习，具备强大的泛化能力，能够在极少数据甚至零样本下快速适应新任务和环境。其主要优点包括高效的学习能力、强大的泛化性能以及对多种机器人本体的适配性。该模型的推出标志着具身智能向通用化、开放化和智能化方向迈出了重要一步，有望在商业、工业和家庭等多个领域发挥重要作用。

Clone

Clone是一款由Clone Robotics开发的类人机器人，代表了机器人技术的前沿水平。它采用了革命性的人工肌肉技术Myofiber，能够模拟自然动物骨骼的运动。Myofiber技术在重量、功率密度、速度、力量与重量比以及能效方面达到了前所未有的水平，使机器人具备了自然的行走能力、强大的力量和灵活性。Clone不仅在技术上具有重要意义，还为未来机器人在家庭、工业和服务领域的应用提供了新的可能性。其定位为高端科技产品，目标受众是对前沿科技感兴趣的个人、科研机构和企业。

Magma

Magma 是微软研究团队推出的一个多模态基础模型，旨在通过视觉、语言和动作的结合，实现复杂任务的规划和执行。它通过大规模的视觉语言数据预训练，具备了语言理解、空间智能和动作规划的能力，能够在 UI 导航、机器人操作等任务中表现出色。该模型的出现为多模态 AI 代理任务提供了一个强大的基础框架，具有广泛的应用前景。

StractiAI

StractiAI是一个游戏AI训练平台，用户可以通过简单的游戏过程训练AI机器人。它无需编程知识，即可创建定制化的游戏机器人，具有操作简单、易于上手的特点。StractiAI提供免费试用，同时也有付费版本Stracti PRO，价格为每月49美元，适合希望在游戏中获得自动化帮助的用户。

NVIDIA Cosmos

NVIDIA Cosmos是一个先进的世界基础模型平台，旨在加速物理AI系统的开发，如自动驾驶车辆和机器人。它提供了一系列预训练的生成模型、高级分词器和加速数据处理管道，使开发者能够更容易地构建和优化物理AI应用。Cosmos通过其开放的模型许可，降低了开发成本，提高了开发效率，适用于各种规模的企业和研究机构。

模型训练与部署

Video Prediction Policy

Video Prediction Policy

Video Prediction Policy（VPP）是一种基于视频扩散模型（VDMs）的机器人策略，能够准确预测未来的图像序列，展现出对物理动力学的良好理解。VPP利用VDMs中的视觉表示来反映物理世界的演变，这种表示被称为预测性视觉表示。通过结合多样化的人类或机器人操控数据集，并采用统一的视频生成训练目标，VPP在两个模拟环境和两个真实世界基准测试中均优于现有方法。特别是在Calvin ABC-D基准测试中，相较于先前的最佳技术，VPP实现了28.1%的相对改进，并在复杂的真实世界灵巧手操控任务中提高了28.8%的成功率。

Unitree RL GYM

Unitree RL GYM是一个基于Unitree机器人的强化学习平台，支持Unitree Go2、H1、H1_2、G1等型号。该平台提供了一个集成环境，允许研究人员和开发者训练和测试强化学习算法在真实或模拟的机器人上的表现。它的重要性在于推动机器人自主性和智能技术的发展，特别是在需要复杂决策和运动控制的应用中。Unitree RL GYM是开源的，可以免费使用，主要面向科研人员和机器人爱好者。

模型训练与部署

Physical Intelligence

Physical Intelligence

Physical Intelligence (π) 是一个由工程师、科学家、机器人学家和公司建设者组成的团队，致力于开发基础模型和学习算法，以驱动当今的机器人和未来的物理驱动设备。该团队旨在将通用人工智能技术应用于物理世界，推动机器人技术的发展和创新。

模型训练与部署

Digit Plexus

Digit Plexus是一个机器人硬件平台，旨在为各种机器人手集成触觉传感器提供标准化的硬件-软件解决方案。该平台能够将基于视觉和基于皮肤的触觉传感器（如Digit、Digit 360和ReSkin）整合到控制板中，并通过单根电缆将所有数据编码传输到主机电脑。这种集成方式允许无缝的数据收集、控制和分析。产品背景信息显示，Digit Plexus与Wonik Robotics合作开发了基于该平台的下一代Allegro Hand，并且可以通过特定链接表达早期访问的兴趣。

开发与工具

π0是一个通用型机器人基础模型，旨在通过实体化训练让AI系统获得物理智能，能够执行各种任务，就像大型语言模型和聊天机器人助手一样。π0通过训练在机器人上的实体经验获得物理智能，能够直接输出低级电机命令，控制多种不同的机器人，并可以针对特定应用场景进行微调。π0的开发代表了人工智能在物理世界应用方面的重要进步，它通过结合大规模多任务和多机器人数据收集以及新的网络架构，提供了迄今为止最有能力、最灵巧的通用型机器人政策。

agibot_x1_train

Agibot X1 Train

Agibot X1是由Agibot开发的模块化仿人机器人，具有高自由度，基于Agibot开源框架AimRT作为中间件，并使用强化学习进行运动控制。该项目是Agibot X1使用的强化学习训练代码，可以与Agibot X1提供的推理软件结合用于真实机器人和模拟步行调试，或导入其他机器人模型进行训练。

开发与工具

agibot_x1_infer

Agibot X1 Infer

Agibot X1是由Agibot开发的模块化仿人机器人，具有高自由度，基于Agibot开源框架AimRT作为中间件，并使用强化学习进行运动控制。该项目包括模型推理、平台驱动和软件仿真等多个功能模块。AimRT框架是一个用于机器人应用开发的开源框架，它提供了一套完整的工具和库，以支持机器人的感知、决策和行动。Agibot X1项目的重要性在于它为机器人研究和教育提供了一个高度可定制和可扩展的平台。

模型训练与部署

智元灵犀X1开发指南

智元灵犀X1开发指南

智元灵犀X1是一款开源人形机器人，具有29个关节和2个夹爪，支持扩展头部3自由度。它提供了详细的开发指南和开源代码，使开发者能够快速搭建并进行二次开发。该产品代表了智能机器人领域的先进技术，具有高度的灵活性和可扩展性，适用于教育、研究和商业开发等多种场景。

开发与工具

BabyAlpha Chat

BabyAlpha Chat 是一款具有未来感的机器人模型，全身搭载12个高性能执行器，配合蔚蓝自研五层运动控制算法，使得其运动性能极其出众。最大前进速度可达每小时3.2公里，最大旋转速度可达每秒180度。BabyAlpha Chat 不仅是一个高科技玩具，也是教育和娱乐的完美结合，适合各个年龄段的用户。其价格亲民，起售价为4999元，并有特惠活动直降2000元，截止日期为11月16日。

We, Robot

We, Robot 是特斯拉公司展示其在自动驾驶技术和机器人技术领域愿景的页面。它强调了特斯拉对于创建可持续未来、提高交通效率、可负担性和安全性的承诺。该页面介绍了特斯拉的全自动驾驶技术（监督）以及未来自动驾驶汽车和机器人的潜在应用，如Robotaxi、Robovan和Tesla Bot。这些技术旨在通过自动化提高日常生活的便利性，同时减少交通事故，降低交通成本。

GR-2

GR-2是一个先进的通用机器人代理，专为多样化和可泛化的机器人操作而设计。它首先在大量互联网视频上进行预训练，以捕捉世界的动态。这种大规模预训练涉及3800万视频剪辑和超过500亿个标记，使GR-2能够在随后的策略学习中跨广泛范围的机器人任务和环境进行泛化。随后，GR-2针对视频生成和动作预测进行了微调，使用机器人轨迹。它展示了令人印象深刻的多任务学习能力，在100多个任务中平均成功率达到97.7%。此外，GR-2在新的、以前未见过的场景中表现出色，包括新的背景、环境、对象和任务。值得注意的是，GR-2随着模型大小的增加而高效扩展，突显了其持续增长和应用的潜力。

gradio-bot

gradio-bot是一个可以将Hugging Face Space或Gradio应用转化为Discord机器人的工具。它允许开发者通过简单的命令行操作，将现有的机器学习模型或应用快速部署到Discord平台上，实现自动化交互。这不仅提高了应用的可达性，还为开发者提供了一个与用户直接交互的新渠道。

AI聊天机器人

NEO

NEO是1X Technologies公司开发的一款家用智能人形机器人，它通过模拟学习，能够理解自然语言和物理空间，执行实际任务。NEO基于EVE机器人的现实世界经验，通过1X Studio的远程操作训练，能够智能地完成任务。NEO的主要优点包括安全性、智能性和可扩展性，旨在为家庭提供帮助，同时保持安全和高效。

Achieving Human Level Competitive Robot Table Tennis

Achieving Human Level Competitive Robot Table Tennis

这是Google DeepMind团队研发的机器人乒乓球代理模型，它通过深度学习技术，实现了与业余人类选手在乒乓球比赛中的竞争力。这项技术的重要性在于它不仅推动了机器人在高速运动、实时精确决策和战略决策制定方面的技术发展，而且为机器人与人类直接竞争提供了一个有价值的基准。

LuckyRobots

LuckyRobots是一个致力于使机器人技术对普通软件工程师可用的模拟平台，通过自然语言控制机器人执行任务，无需依赖ROS和物理硬件。平台提供了虚拟环境、物理模拟和多摄像头输入，支持用户部署和测试端到端的AI模型。

开发与工具

Clone Incorporated

Clone Incorporated

Clone Incorporated是一个专注于机器人技术的公司，致力于开发和提供创新的机器人解决方案，以提高生产效率和改善生活质量。公司由Dhanush Radhakrishnan和Łukasz Koźlik担任CTO，拥有强大的技术背景和专业团队。产品具有高度的技术先进性和创新性，能够满足不同行业和个人的需求。

OpenVLA

OpenVLA是一个具有7亿参数的开源视觉-语言-动作（VLA）模型，通过在Open X-Embodiment数据集上的970k机器人剧集进行预训练。该模型在通用机器人操作策略上设定了新的行业标准，支持开箱即用控制多个机器人，并且可以通过参数高效的微调快速适应新的机器人设置。OpenVLA的检查点和PyTorch训练流程完全开源，模型可以从HuggingFace下载并进行微调。

Phoenix™

Phoenix™是首款由Carbon™ AI控制系统驱动的通用型人形机器人，专为工作而设计。它被《时代》杂志评为2023年最佳发明之一。Sanctuary技术通过远程操控或监督的通用机器人，帮助人们更安全、高效、可持续地工作，同时创造新的就业机会，解决全球劳动力短缺问题，并为那些身体能力有限的人带来新的希望和机会。

星尘智能 S1

星尘智能 S1

星尘智能（Astribot）研发的S1机器人，是一款新一代AI机器人，能够模仿学习，执行多项对人有用的复杂任务。S1机器人的设计理念是让数十亿人拥有AI机器人助理，帮助人们完成枯燥、困难或危险的任务。产品通过大模型测试，预计在2024年内完成商业化。

AI Chatroom

AI聊天室是一个在线聊天平台，提供智能聊天机器人和多种聊天功能。用户可以与机器人进行对话、获取信息和娱乐等。

聊天机器人

visor.ai

Visor.ai提供AI驱动的机器人和客户服务自动化，帮助企业提供更好、更快的体验。无需数据科学家或开发人员，Visor.ai的解决方案可通过智能机器人实现自动化的客户服务，提高效率和满意度。Visor.ai还提供功能强大的分析工具，帮助企业了解和优化客户互动。Visor.ai的定价信息请参考官方网站。

NVIDIA Project GR00T

NVIDIA Project GR00T

NVIDIA Project GR00T是一种通用基础模型,可在仿真和真实世界中改变人形机器人的学习方式。通过在NVIDIA GPU加速模拟中进行训练,GR00T使得人形机器人能够从少量的人类演示中通过模仿学习和NVIDIA Isaac Lab进行强化学习,并可从视频数据生成机器人动作。GR00T模型接受多模态指令和过去的交互作为输入,并输出机器人需要执行的动作。

Universal Manipulation Interface

Universal Manipulation Interface

通用操作接口(UMI)是一个数据收集和策略学习框架,允许直接将现场人类演示中的技能转移到可部署的机器人策略。UMI采用手持夹具与仔细的界面设计相结合,实现便携、低成本和信息丰富的数据收集,用于挑战性的双手和动态操作演示。为促进可部署的策略学习,UMI结合了精心设计的策略界面,具有推理时延迟匹配和相对轨迹动作表示。从而产生的学习策略与硬件无关,并且可以在多个机器人平台上部署。配备这些功能,UMI框架解锁了新的机器人操作功能,仅通过为每个任务更改训练数据,允许泛化的动态、双手、精确和长时间的行为,从而实现零次调整。我们通过全面的真实环境实验演示了UMI的通用性和有效性,其中仅通过使用各种人类演示进行训练的UMI策略,在面对新环境和对象时实现了零次调整的泛化。

精选AI产品推荐

NoCode

NoCode 是一款无需编程经验的平台，允许用户通过自然语言描述创意并快速生成应用，旨在降低开发门槛，让更多人能实现他们的创意。该平台提供实时预览和一键部署功能，非常适合非技术背景的用户，帮助他们将想法转化为现实。

ListenHub

ListenHub 是一款轻量级的 AI 播客生成工具，支持中文和英语，基于前沿 AI 技术，能够快速生成用户感兴趣的播客内容。其主要优点包括自然对话和超真实人声效果，使得用户能够随时随地享受高品质的听觉体验。ListenHub 不仅提升了内容生成的速度，还兼容移动端，便于用户在不同场合使用。产品定位为高效的信息获取工具，适合广泛的听众需求。

Lovart

Lovart 是一款革命性的 AI 设计代理，能够将创意提示转化为艺术作品，支持从故事板到品牌视觉的多种设计需求。其重要性在于打破传统设计流程，节省时间并提升创意灵感。Lovart 当前处于测试阶段，用户可加入等候名单，随时体验设计的乐趣。

FastVLM

FastVLM 是一种高效的视觉编码模型，专为视觉语言模型设计。它通过创新的 FastViTHD 混合视觉编码器，减少了高分辨率图像的编码时间和输出的 token 数量，使得模型在速度和精度上表现出色。FastVLM 的主要定位是为开发者提供强大的视觉语言处理能力，适用于各种应用场景，尤其在需要快速响应的移动设备上表现优异。

Smart PDFs

Smart PDFs 是一个在线工具，利用 AI 技术快速分析 PDF 文档，并生成简明扼要的总结。它适合需要快速获取文档要点的用户，如学生、研究人员和商务人士。该工具使用 Llama 3.3 模型，支持多种语言，是提高工作效率的理想选择，完全免费使用。

KeySync

KeySync 是一个针对高分辨率视频的无泄漏唇同步框架。它解决了传统唇同步技术中的时间一致性问题，同时通过巧妙的遮罩策略处理表情泄漏和面部遮挡。KeySync 的优越性体现在其在唇重建和跨同步方面的先进成果，适用于自动配音等实际应用场景。

AnyVoice

AnyVoice是一款领先的AI声音生成器，采用先进的深度学习模型，将文本转换为与人类无法区分的自然语音。其主要优点包括超真实的声音效果、多语言支持、快速生成能力以及语音定制功能。该产品适用于多种场景，如内容创作、教育、商业和娱乐制作等，旨在为用户提供高效、便捷的语音生成解决方案。目前产品提供免费试用，适合不同层次的用户。

LiblibAI

LiblibAI是一个中国领先的AI创作平台,提供强大的AI创作能力,帮助创作者实现创意。平台提供海量免费AI创作模型,用户可以搜索使用模型进行图像、文字、音频等创作。平台还支持用户训练自己的AI模型。平台定位于广大创作者用户,致力于创造条件普惠,服务创意产业,让每个人都享有创作的乐趣。

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase