Компания Google DeepMind продолжает удивлять мир своими инновациями в области искусственного интеллекта. Недавно они представили две новые модели на базе Gemini 2.0, которые обещают перевернуть представление о возможностях роботов в реальном мире. Эти модели, Gemini Robotics и Gemini Robotics-ER, открывают новые горизонты для интеграции ИИ в бизнес, предлагая уникальные решения для автоматизации и оптимизации процессов.
Gemini Robotics: Новый Уровень Визуально-Языковых Действий
Gemini Robotics представляет собой передовую модель визуально-языковых действий (VLA), созданную на базе Gemini 2.0. Основное отличие этой модели — возможность управления роботами через физические действия, что делает её идеальной для выполнения широкого спектра задач в реальном мире. Модель способна адаптироваться к новым ситуациям, понимать и выполнять команды на естественном языке, а также проявлять высокую степень ловкости при манипуляции объектами.
Основные Преимущества Gemini Robotics
- Общность: Gemini Robotics использует понимание мира Gemini для адаптации к новым ситуациям и решения разнообразных задач без предварительной подготовки. Модель умеет работать с новыми объектами, разнообразными инструкциями и в различных средах, что делает её универсальным инструментом для бизнеса.
- Интерактивность: Благодаря основе Gemini 2.0, Gemini Robotics интуитивно взаимодействует с людьми и окружающей средой. Она понимает и реагирует на команды, выраженные в повседневном языке, и может адаптировать своё поведение в реальном времени. Это делает её незаменимой для сотрудничества с людьми в различных условиях, от дома до рабочего места.
- Ловкость: Gemini Robotics способна выполнять сложные, многоэтапные задачи, требующие высокой точности, такие как складывание оригами или упаковка перекуса в пакет Ziploc. Это открывает новые возможности для автоматизации рутинных процессов в бизнесе.
Многообразие Воплощений
Gemini Robotics разработана для адаптации к различным типам роботов. Модель была обучена на данных с платформы ALOHA 2, но также успешно управляет другими роботами, включая гуманоидного робота Apollo от Apptronik. Это делает её универсальным решением для интеграции в существующие бизнес-процессы.
Gemini Robotics-ER: Улучшенное Пространственное Понимание
Gemini Robotics-ER — это модель с улучшенным пространственным пониманием, которая позволяет робототехникам использовать возможности воплощенного мышления (ER) Gemini для запуска собственных программ. Эта модель значительно улучшает существующие способности Gemini 2.0, такие как указание и 3D-детекция, и может генерировать новые возможности на лету.
Основные Преимущества Gemini Robotics-ER
- Пространственное Понимание: Gemini Robotics-ER улучшает пространственное понимание Gemini, что критически важно для робототехники. Модель может интуитивно определять, как безопасно манипулировать объектами, например, поднимать чашку за ручку.
- Генерация Кода: Модель способна выполнять все этапы управления роботом, включая восприятие, оценку состояния, пространственное понимание, планирование и генерацию кода. В таких условиях она достигает успеха в 2-3 раза чаще, чем Gemini 2.0.
- Обучение в Контексте: Gemini Robotics-ER может использовать обучение в контексте, следуя примерам человеческих демонстраций для решения задач, где генерация кода недостаточна.
Ответственное Развитие ИИ и Робототехники
Google DeepMind придерживается комплексного подхода к безопасности в исследованиях ИИ и робототехники. Компания сотрудничает с экспертами в области ответственного развития и инноваций, а также с внешними специалистами для оценки социальных последствий своих разработок.
Меры Безопасности
- Физическая Безопасность: Gemini Robotics-ER может взаимодействовать с низкоуровневыми контроллерами безопасности, специфичными для каждого робота, чтобы обеспечить физическую безопасность людей и роботов.
- Семантическая Безопасность: Компания выпустила новый набор данных для оценки и улучшения семантической безопасности в робототехнике. Это поможет исследователям более тщательно измерять последствия действий роботов в реальных сценариях.
Заключение
Gemini Robotics и Gemini Robotics-ER представляют собой значительный шаг вперёд в области робототехники и ИИ. Эти модели открывают новые возможности для автоматизации и оптимизации бизнес-процессов, предлагая универсальные и интерактивные решения. Внедрение этих технологий может существенно повысить эффективность и конкурентоспособность компаний, стремящихся интегрировать передовые ИИ-решения в свою деятельность.








