1 minute read

Gemini Robotics: AI를 물리적 세계로 연결하다

Google DeepMind가 Gemini Robotics를 공개하며, 디지털과 물리적 세계를 잇는 인공지능(AI)의 새로운 장을 열었습니다. Gemini Robotics는 Gemini 2.0을 기반으로 개발된 두 가지 혁신적인 모델, Gemini RoboticsGemini Robotics-ER를 통해 로봇이 인간과 유사한 추론 능력, 공간 이해력, 그리고 정밀한 작업 수행 능력을 갖추도록 설계되었습니다.


Gemini Robotics의 주요 특징

1. Vision-Language-Action (VLA) 모델

Gemini Robotics는 물리적 행동을 결과로 통합한 고급 VLA 모델입니다. 이 모델은 로봇이 환경과 직접 상호작용할 수 있도록 지원하며, 다음의 세 가지 핵심 역량을 갖추고 있습니다:

  • 범용성: 새로운 환경, 객체, 작업에 대해 별도의 사전 학습 없이도 적응 가능.
  • 상호작용성: 자연어 지시를 실시간으로 이해하고, 그에 맞춰 행동을 동적으로 조정.
  • 정밀함: 종이접기, 물건 포장 등 복잡하고 세밀한 작업 수행 능력.

2. 다중 구현

이 모델은 다양한 로봇 플랫폼에서 적용될 수 있습니다. 예를 들어, ALOHA 2와 같은 이중 팔 로봇 플랫폼뿐만 아니라 Apptronik의 Apollo와 같은 인간형 로봇 등에서도 유연하게 운영됩니다.


Gemini Robotics-ER: 공간 이해력 강화

두 번째 모델인 Gemini Robotics-ER은 공간적 추론과 계획 능력을 한층 강화한 Embodied Reasoning(ER)에 초점을 맞추고 있습니다. 주요 특징은 다음과 같습니다:

  • 공간적 추론: 물체의 적절한 잡기 방식과 안전한 이동 경로를 직관적으로 파악.
  • 엔드 투 엔드 제어: 인식, 상태 추정, 계획, 그리고 코드 생성까지 모든 과정을 원활하게 수행.
  • 맥락 학습: 몇 차례의 인간 시범만으로도 최적의 솔루션에 빠르게 적응.

이 모델은 복잡한 작업에서 Gemini 2.0에 비해 2배에서 3배 높은 성공률을 자랑하며, 기존의 저수준 컨트롤러와 통합되어 안전성을 더욱 강화하였습니다.


안전성과 책임 있는 AI 개발

DeepMind는 AI 개발 과정에서 물리적 및 의미적 위험 모두를 고려하는 다층적 접근법을 채택하고 있습니다:

  1. 물리적 안전성: 충돌 방지, 힘 제한, 그리고 안정된 로봇 행동을 보장.
  2. 의미적 안전성: 아시모프의 로봇 3원칙에서 영감을 얻은 데이터 기반 프레임워크를 통해, 자연어 헌법으로 안전한 의사결정을 지원.
  3. 협력적 감독: 내부 위원회 및 외부 전문가들과 협력하여 사회적 영향과 책임 있는 AI 개발을 보장.

또한, DeepMind는 실제 시나리오에서 로봇의 행동을 평가하기 위한 ASIMOV 데이터셋을 공개하여 학계와 산업 전반의 안전 연구를 지원하고 있습니다.


협력 및 미래 방향

DeepMind는 Apptronik, Boston Dynamics, Agile Robots, Agility Robots와 같은 선도적인 로봇 회사들과 협력하여 Gemini Robotics 및 Gemini Robotics-ER 모델을 더욱 정교하게 발전시키고 있습니다. 다양한 테스트 환경에서 Gemini Robotics-ER의 성능이 검증되며, 가정과 직장 등에서 유용하게 활용될 범용 로봇의 미래를 열어가고 있습니다.

최첨단 AI 기술과 강력한 안전 조치의 결합으로 Gemini Robotics는 일상 생활을 개선할 수 있는 범용 로봇 개발에 있어 중요한 진전을 이루고 있습니다.


출처

출처

Tags:

Categories:

Updated: