ИИ‑модель π0.7: американский стартап учит роботов новым задачам без дообучения

Американская компания показала ИИ‑модель, которая учит роботов выполнять новые задачи без традиционного обучения

Американский робототехнический стартап Physical Intelligence из Сан‑Франциско объявил о создании ИИ‑модели π0.7, способной управлять роботами так, чтобы они справлялись с ранее незнакомыми задачами без специализированной подготовки под каждое действие. Разработчики называют свою систему ранним, но важным шагом к созданию универсального "робомозга", который понимает инструкции на естественном языке и может самостоятельно переносить навыки из одних ситуаций в другие.

По словам команды стартапа, главное достижение π0.7 - первые проявления так называемого композиционного обобщения. Речь идёт о способности не просто воспроизводить заученные сценарии, а перекомбинировать уже освоенные элементы поведения для решения задач, с которыми система ранее не сталкивалась. Условно говоря, робот не "знает" конкретную операцию, но умеет выполнять нужные поддействия и соединяет их в новую последовательность под управлением модели.

В серии экспериментов инженеры наблюдали, как управляемые π0.7 роботы взаимодействуют с незнакомыми предметами и бытовой техникой. В частности, система смогла освоить работу с кухонными приборами, не фигурировавшими в исходных демонстрационных данных. Ещё один показатель - складывание белья: роботу удалось выполнить задачу, хотя пример этого конкретного действия не был представлен в обучающей выборке. В основе решения лежало именно умение комбинировать уже известные манипуляции с объектами.

Полученные результаты оказались настолько сильными, что сами разработчики называют их неожиданными. Если они будут подтверждены дальнейшими испытаниями независимыми командами, это может означать приближение поворотного момента в развитии роботизированного ИИ: уровень универсальности и скорости прогресса в реальной робототехнике может оказаться выше прежних прогнозов.

Модель π0.7 демонстрирует явный прогресс в области генерализации. Она не только выполняет широкий спектр сложных задач на уровне, сопоставимом с узкоспециализированными системами, но и справляется с поручениями, которых не было в её обучающем наборе данных. Для отрасли это принципиальный разворот: от подхода "одна модель на одну задачу" к схеме, где единая система способна работать с целым семейством задач и переносить знания между ними.

В отличие от традиционных робототехнических систем, требующих кропотливого сбора данных для каждого отдельного сценария и последующего обучения отдельной модели, π0.7 использует уже сформированный набор навыков и применяет их в новых контекстах без дополнительного дообучения. Более того, одна и та же модель может управлять разными типами роботов в различных средах, а также быстрее адаптироваться к новым условиям за счёт более эффективного обобщения накопленного опыта.

Добиться такой широкой генерализации помогает особая организация процесса обучения и постановки задач. π0.7 обучается на сочетании данных с нескольких роботизированных платформ, примерах действий, которые демонстрируют люди, и эпизодах, собранных роботами автономно. Важную роль играют так называемые насыщенные мультимодальные подсказки: в них зашиты не только формулировка задания, но и детали его выполнения - текстовые инструкции, визуальные подсцели, временные ограничения и другие параметры.

Во время работы модель воспринимает естественно-языковые команды, наподобие "поставь чашку в микроволновку и закрой дверцу", и одновременно учитывает дополнительные уточнения в реальном времени. Это позволяет человеку‑оператору направлять робота, улучшая итоговый результат без запуска нового цикла обучения. По сути, взаимодействие с машиной становится ближе к диалогу: оператор корректирует, уточняет, задаёт ограничения, а ИИ тут же перестраивает план действий.

В ходе испытаний π0.7 показала способность делать выводы о назначении незнакомых объектов, опираясь на ограниченное количество прошлых примеров и общий накопленный опыт. Даже при минимальном вводном описании робот пытался выполнить новую задачу, используя аналогии с тем, что он уже "видел" в обучении. Когда же исследователи предоставляли структурированные пошаговые инструкции, эффективность выполнения заметно возрастала: ошибки становились реже, а действия - более уверенными и предсказуемыми.

Исследователи подчёркивают, что подобный подход меняет саму философию обучения роботов. Вместо статичного цикла "собрали данные - обучили - внедрили" возникает интерактивная система, в которой человек может обучать робота "на лету", с помощью корректно спроектированных подсказок и обратной связи. Человеческий оператор становится не просто пользователем, а активным участником процесса адаптации ИИ‑системы к новым задачам.

Вместе с тем создатели модели открыто говорят о существующих ограничениях. Для надёжного выполнения сложных, многошаговых сценариев π0.7 по‑прежнему нуждается в детальном руководстве. Одна короткая команда вроде "убери кухню" пока недостаточна: системе требуется развернуть её в понятную последовательность промежуточных действий, и без человеческого уточнения сделать это надёжно она не может. Поэтому говорить о полностью автономном универсальном роботе пока рано.

Ещё одна проблема - отсутствие общепринятых стандартов и открытых бенчмарков для оценки именно таких "обобщающих" роботизированных систем. Это затрудняет независимую проверку заявленных возможностей: внешним исследователям сложно сравнивать π0.7 с другими разработками "в лоб". Авторы честно указывают, что текущие результаты носят предварительный характер, хотя общая динамика свидетельствует о движении к значительно более гибким и адаптивным роботам.

Если подобные модели продолжат развиваться, робототехника может пройти путь, аналогичный эволюции языковых ИИ‑систем. Раньше под каждую задачу - перевод, суммирование, чат - создавались отдельные модели. Появление больших языковых моделей сделало возможным единый ИИ‑ядро, которое решает десятки задач, опираясь на общий механизм понимания и генерации текста. В случае с π0.7 и похожими системами такой "единый мотор" создаётся уже для физического мира, где нужно не только понимать команду, но и управлять телом робота, взаимодействовать с предметами, учитывать физику и безопасность.

Практические последствия появления подобных технологий могут быть весьма значительными. Универсальный контроллер, способный быстро осваивать новые операции, снизит стоимость внедрения роботов на производствах, в логистике, сфере обслуживания и быту. Вместо разработки сложных специализированных алгоритмов под каждую линию или рабочее место достаточно будет сформулировать задачу на понятном языке, дополнить её несколькими демонстрациями - и ИИ‑система возьмёт на себя большую часть работы по адаптации.

Особенно заметным эффект может быть в домашних и сервисных роботах. Сегодня большинство бытовых роботов строго заточены под один‑два сценария: пылесосить пол, косить газон, мыть окна. Системы класса π0.7 потенциально позволяют создавать помощников, которые осваивают новые занятия по мере жизни в доме: от аккуратного обращения с посудой до ухода за пожилыми людьми и людьми с ограниченными возможностями. При этом ключевым ресурсом становится не набор предзапрограммированных задач, а качественное взаимодействие человека и машины.

Однако рост универсальности неизбежно поднимает вопросы безопасности. Робот, способный трактовать свободные инструкции и экспериментировать с новыми способами действий, должен иметь жёсткие ограничения на возможные движения, усилия, взаимодействие с человеком и окружающими предметами. Создание таких защитных "рамок" для универсальных систем - отдельная сложная задача, без решения которой массовое распространение подобного ИИ‑управления будет нежелательным.

Развитию подобных моделей способствует и накопление разнообразных роботизированных платформ. Чем больше типов манипуляторов, сенсоров и сред попадает в обучающие данные, тем богаче становится "опыт" ИИ, тем легче ему находить аналогии и обобщать. В перспективе такие модели могут стать не привязанным к конкретному заводу или бренду решением, а своего рода "операционной системой" для самых разных роботов - от промышленных манипуляторов до гибких сервисных устройств.

Модель π0.7 пока ещё далека от полноценного универсального интеллекта в физическом мире, но уже демонстрирует качественно иной уровень гибкости по сравнению с традиционными робототехническими системами. Сочетание мультимодального обучения, работы с естественным языком и композиционного обобщения подталкивает индустрию к новой парадигме: от узких, жёстко прописанных сценариев - к открытым, адаптивным роботам, которые можно "переучивать" и направлять прямо в процессе работы. Для сферы высоких технологий это может стать одним из ключевых направлений развития на ближайшие годы.

Читателей: 271

Похожие статьи