로봇은 비디오 시청에서 이사하는 훈련을받습니다
로봇 도구 사용을 가르치는 2 카메라, 비디오 전용 메소드, 평균 성공률이 높고 데이터 수집 시간을 줄입니다.
일리노이 대학교 (University of Illinois)의 컬럼비아 대학교 (Columbia University) 및 UT 오스틴 (UT Austin)과 협력하여 일리노이 대학 (University of Illinois)의 연구팀은 로봇이 평범한 인간 비디오에서 직접 학습하여 도구를 사용하도록 훈련시키는 프레임 워크를 공개했습니다.이 방법은 원격 작업 기반 기준선보다 특정 작업을 수행하는 데 더 높은 성공률과 더 빠른 데이터 수집을보고하여 역동적 인 기술을 가르치기위한 저렴한 경로를 지적합니다.
공구 as-interface라고하는이 접근법은 작업을 수행하는 사람의 두 개의 RGB 카메라보기에 의해 수집 된 데이터에서 배웁니다.3D 재구성 모델 (MAST3R)은 장면 형상을 구축합니다.3D 가우시안 플래팅 합성은 견고성을 향상시키기 위해 추가적인 견해를 제공합니다.
진정한 마법은 비디오에서 인간을 제거하면서 발생합니다.Grounded-Sam을 사용하면 SAM (Segment ally Model)과 결합하는 오픈 세트 객체 검출기가 있습니다.시스템은 도구와 장면과의 상호 작용 만 추적하여 인간을 무시합니다.
그런 다음이 시스템은 도구의 6-DOF, 6 도의 자유도를 모방 할 수있는 것을 추정하고 로봇 교차 전송과 연결되는 도구 중심 정책을 배웁니다.
팀은 손톱을 망치고, 미트볼을 퍼 내고, 팬에 음식을 뒤집고, 와인 병의 균형을 잡고, 축구를 목표로 발로 차는 5 가지 작업에서 프레임 워크를 검증했습니다.이러한 작업 에서이 방법은 원격 수술 데이터에 대해 훈련 된 확산 정책보다 71% 높은 평균 성공률을 달성하고 데이터 수집 시간을 77% 감소 시켰습니다.일부 작업은보고 된 테스트 에서이 프레임 워크에 의해서만 해결되었습니다.
데이터 파이프 라인은 상품 카메라를 사용하며 로봇 측 운영자 또는 모션 캡처 리그가 필요하지 않습니다.이는 설정 복잡성을 줄이고 실험실 밖에서 녹음 된 데모로 확장 할 수 있습니다.
제한 사항은 남아 있습니다.현재 시스템은 그립퍼에 고정 된 강성 도구를 가정하고 포즈 추정 오류로 고통받을 수 있습니다.소설 뷰 합성은 큰 관점 변화에서 저하 될 수 있습니다.이러한 제약은 다음 엔지니어링 목표 세트를 안내합니다.