Xiaomi Robotics представила VLA-модель, которая преобразует изображения и текстовые инструкции в команды для роботов

Инженеры робототехнического подразделения Xiaomi представили Xiaomi-Robotics-0 — Vision-Language-Action (VLA) модель, которая получает на вход изображение с текстовыми инструкциями и преобразует их в команды для роботов. При этом нейросеть нацелена на плавное управление без резких движений из-за задержки инференса.

Авторы проекта отмечают, что частая проблема VLA-моделей заключается в том, что управлением роботом получается рваным и дёрганым. Устройство периодически останавливается, пытается догнать траекторию движения и запускает режимы, которых изначально не было в датасете. Особенность Xiaomi-Robotics-0 в том, что робот продолжает выполнять оставшуюся часть чанка, пока модель просчитывает следующий.

Модель обучали на 200 млн пошаговых временных меток траекторий роботов. Помимо этого в датасете были 80 млн общих VLM данных, чтобы нейросеть не потеряла общие способности распознавать текст и изображения. Размер итоговой модели составляет 4,7 млрд параметров, а задержка инференса на RTX 4090 — 80 мс.

Читать далее:

Стартап Fauna Robotics представил человекоподобного робота по имени Sprout

Xiaomi-Robotics-0 тестировали на задачах для двуручных роботов-манипуляторов: разборке конструктора Lego и складывании полотенца. Для проверки VLM и VLA способностей использовали популярные бенчмарки. Результаты на уровне Qwen3-VL-4B.

Модель и инструкции по запуску доступны на GitHub и портале Hugging Face.

Xiaomi Robotics представила VLA-модель, которая преобразует изображения и текстовые инструкции в команды для роботов

Мобильная игра Battle in Hell’s Paradise по аниме «Адский рай» получит глобальную версию

Григоренко пообещал не запрещать использование иностранных нейросетей

Apple показала Siri AI: улучшенный помощник на базе Google Gemini

Nvidia и SK Hynix заключили соглашение о совместной разработке памяти нового поколения

Apple представила iOS 27 — она стала заметно быстрее и отзывчивее на всех совместимых iPhone

Xiaomi Robotics представила VLA-модель, которая преобразует изображения и текстовые инструкции в команды для роботов

Похожие записи