Роботы по-прежнему сталкиваются с трудностями при выполнении задач, которые для человека кажутся простыми — нужно не только понять, что делать, но и правильно привязать действия к конкретным предметам и их расположению. В ответ на это Microsoft вместе с исследователями из университетов создала новый тест GroundedPlanBench, проверяющий способность моделей одновременно строить план и точно локализовать каждый шаг на изображени.
Ранее работа роботов строилась на двух отдельных этапах: одна модель формулировала словесный план, другая — преобразовывала его в физические действия. Такая сегментация часто приводила к ошибкам, когда действия приписывались неправильным объектам или добавлялись лишние шаги.
GroundedPlanBench требует не просто последовательности действий, но и точной пространственной привязки каждого из них к определённым точкам или предметам. Это заставляет модели учитывать физическую обстановку с самого начала, а не работать с усреднёнными инструкциями. В набор тестов вошло свыше тысячи заданий: от простого «положить ложку на тарелку» до более сложной и неоднозначной просьбы «убрать со стола».
В одном из примеров системе поручили положить четыре салфетки на диван. Вместо правильной последовательности она неоднократно брала одну и ту же салфетку, так как словесные указания недостаточно различали объекты. Уточнения в формулировках, например «верхняя левая салфетка», оказались слишком расплывчатыми для устойчивого выполнения.
Чтобы сократить подобные ошибки, разработчики предложили метод обучения Video-to-Spatially Grounded Planning (V2GP), при котором система учится на видео с реальными действиями роботов. Алгоритм распознаёт объекты, моменты взаимодействия и их расположение, создавая структурированный план с жёсткими привязками к визуальному контексту.
Благодаря обучению на более чем 40 тысячах таких планов модели стали лучше выбирать корректные действия и избегать повторов с одними и теми же предметами. Однако сложные и длительные задачи, особенно с косвенными инструкциями, по-прежнему вызывают сложности — система должна сохранять в памяти длинные цепочки действий и не терять согласованность.
Объединение этапов планирования и пространственной привязки снижает рассогласование между решением и физическим миром, что улучшает работу роботов. В дальнейшем команда планирует интегрировать этот подход с предсказательными моделями, способными заранее оценивать результат действия и корректировать план в процессе выполнения.
Таким образом, новый тест и методы обучения открывают путь к созданию более надёжных и интеллектуальных роботов, лучше понимающих физический мир вокруг них.