로봇신문사
> 뉴스 > 인공지능
MIT CSAIL, 자연어 프롬프트로 낯선 물체 인식 및 파지하는 시스템 'F3RM' 설계'2023 로봇러닝 컨퍼런스'에서 발표 예정
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
승인 2023.11.10  17:51:35
트위터 카카오톡 페이스북

MIT 연구팀이 낯선 물체를 빠르게 인식하고 파지할수 있는 로봇 시스템 기술을 공개했다. 이 기술은 사람이 내리는 개방적인 자연어 기반의 프롬프트를 이해하고 동작을 수행한다.

MIT 컴퓨터과학·인공지능연구소(CSAIL) 연구팀은 로봇이 주변 물건을 식별하고 집는 것을 도와주기위해 파운데이션 모델의 2D 이미지를 3D 장면(3D scenes)으로 혼합할 수 있는 로봇 인공지능 시스템인 ‘F3RM(Feature Fields for Robotic Manipulation)’을 설계했다고 밝혔다.

연구팀에 따르면 사람은 익숙하지 않은 포장과 용기에 쌓여 있는 물건들이 처음에는 낯설지만 얼마 지나지 않아 각각의 물건들이 어떤 용도로 사용되는지 이해할 수 있고, 필요한 물건을 쉽게 집을 수 있다.

연구팀은 인간의 능력에서 영감을 얻어 개방적인(open-ended) 언어 프롬프트를 활용해 근처에 있는 물체를 로봇이 빨리 이해하고 조작할 수 있는 새로운 방법을 개발했다. 연구팀은 F3RM이 사람의 개방형 언어 프롬프트를 이해할 수 있으며, 창고나 집안처럼 수천 개의 물건들이 있는 실제 환경에서 유용하다고 밝혔다.

F3RM은 로봇에게 자연어를 사용하여 개방형 텍스트 프롬프트를 해석할 수 있는 기능을 제공함으로써 로봇이 물건을 조작하는 것을 돕는다. 로봇은 사람이 제시하는 구체성이 떨어지는 요청 사항을 이해하고, 원하는 작업을 완료할 수 있다. 사용자가 로봇에게 "큰 머그잔을 집어라"고 요청하면 로봇은 해당 설명에 가장 잘 맞는 물건을 찾아서 파지할 수 있다.

거 양(Ge Yang) MIT CSAIL 박사후 연구원은 “실제 현실 세계에서 일반화할 수 있는 로봇을 만드는 것은 매우 힘들다. 우리는 그것을 하는 방법을 정말로 알아내기 위해 단지 3~4개의 물체에서부터 MIT 스타타센터(Stata Center, 프랑크 게리가 설계한 MIT의 유명한 건물)에서 발견되는 모든 물체에 이르기까지 공격적인 수준의 일반화를 하려고 노력했다. 우리는 처음보는 물체를 사람이 다루는 것 처럼, 로봇도 유연하게 다루는 방법을 배우고 싶었다”며 연구 배경을 설명했다.

F3RM은 대형 풀필먼트 센터에서 어수선하게 흩어져있고, 예측 불가능한 물품을 픽킹하는 로봇을 도울 수 있다. 연구팀에 따르면 물류창고에서는 로봇에게 식별해야 하는 물품에 대한 설명이 제공되는 경우가 많다. 로봇은 다양한 포장의 변화에도 불구하고 물체를 설명하는 텍스트와 일치하는 물건을 선택하고 고객의 주문에 맞춰 올바르게 선적한다.

대형 온라인 소매업체의 풀필먼트 센터는 수백만 개의 품목들이 존재하는데, 이들 품목 가운데는 로봇이 이전에 경험한 적이 없는 제품들도 많다. 대규모 물류센터가 제대로 가동되기 위해선 로봇은 비좁은 공간에 위치한 서로 다른 품목들의 기하학과 의미론을 이해해야 한다.

F3RM이 갖고 있는 진화된 공간 인식과 의미 인식 능력 덕분에 로봇은 물체의 위치를 파악하고 상자에 넣은 후 포장을 하는 데 더욱 더 효과적일 수 있다. 궁극적으로 현장 작업자가 고객의 주문을 더 효율적으로 배송하는 데 도움이 될 수 있다.

거 양 박사후 연구원은 "F3RM에 대해 사람들이 놀라는 것중 하나는 동일한 시스템이 하나의 방과 건물 규모에서도 작동한다는 것이다. 로봇 학습과 대형 지도를 위한 시뮬레이션 환경을 구축하는 데 사용될 수 있다“라고 말했다. 그는 "이 작업을 큰 규모로 확장하기 전에, 우리는 먼저 이 시스템이 정말 빠르게 작동하도록 만들고 싶었다"고 말했다.

연구팀은 F3RM의 능력은 도시와 가정 환경에서 유용하게 활용될 수 있다고 언급했다. 이 접근 방식은 개인화된 로봇이 특정한 물건을 식별하고 픽킹할 수 있도록 도와준다. 이 시스템은 로봇이 주변 환경을 물리적으로 또는 인지적으로 파악하는 데 도움을 준다.

필립 아이솔라(Phillip Isola) MIT 전기공학 및 컴퓨터과학 부교수는 "최근 파운데이션 모델은 보는 것을 정말 잘 알고 있다. 수천 개의 물체 범주를 인식하고 이미지에 대한 자세한 텍스트 설명을 제공할 수 있다. 동시에, 레디언스 필드(radiance fields)는 한 장면에서 물체가 어디에 있는지를 표현하는 데 능숙해졌다. 이 두 가지 접근 방식의 조합은 3D로 물체를 조작해야 하는 로봇 작업에 특히 유용하다"고 말했다.

F3RM은 셀카봉으로 서로 다른 포즈의 2D 이미지 50장을 촬영하여 주변을 이해하고, 3D 장면을 구성하는 딥러닝 방법인 NeRF(neural radiance field)을 구축할 수 있도록 지원한다. RGB 사진의 콜라쥬는 주변을 360도로 표현하는 형태로 '디지털 트윈'을 만든다. F3RM은 매우 상세한 레디언스 필드 외에 시맨틱 정보로 기하학을 확대하기 위한 피쳐 필드(feature field)도 구축한다. 이 시스템은 시각적 개념을 효율적으로 학습하기 위해 수억 개의 이미지를 학습한 비전 파운데이션 모델인 클립(CLIP)을 사용한다.

셀카봉으로 촬영한 이미지에 대한 2D 클립 피쳐(feature)를 재구성하여 2D 피쳐를 3D 표현으로 효과적으로 전환한다.

몇 가지 시연을 본후, 로봇은 기하학과 의미론에 대해 알고 있는 것을 적용해 그동안 한 번도 본적이 없는 물체를 파지할수 있다. 사용자가 텍스트 쿼리를 제출하면 로봇은 가능한 파지 공간을 통해 검색하고, 사용자가 요청한 물체를 집어 드는 데 성공할 가능성이 가장 높은 것들을 식별한다. 각각의 잠재적 옵션은 프롬프트와의 관련성, 로봇이 훈련 받은 시연과의 유사성, 충돌을 유발하는 경우 등을 기반으로 점수가 매겨진다. 이어 가장 높은 점수를 받은 파지 방법이 선택되어 실행된다.

시스템의 능력을 보여주기 위해 연구팀은 디즈니의 "빅 히어로6"에 나오는 캐릭터인 베이맥스를 집어들도록 로봇에게 요청했다. F3RM은 이 물체를 집는 훈련을 한번도 받은 적이 없지만, 로봇은 어떤 물체를 잡고 어떻게 파지할지 결정하기 위해 파운데이션 모델로부터 공간 인식과 시각 언어 기능을 사용했다.

F3RM은 또한 사용자가 다양한 언어적 세부사항 수준에서 로봇이 다루기 원하는 물체를 지정할 수 있다. 예를 들어, 금속 머그와 유리 머그가 있다면, 사용자는 로봇에게 유리 머그를 요청할 수 있다. 만약 로봇이 두 개의 유리 머그잔을 보고, 그 중 하나가 커피로 가득 차 있고 다른 하나가 주스로 가득 차 있다면, 사용자는 "커피가 있는 유리 머그잔"을 요청할 수도 있다. 피쳐 필드에 포함된 파운데이션 모델 피쳐는 이러한 수준의 개방적인 이해를 가능하게 한다.

MIT 박사과정 윌리엄 쉔은 "만약 사람들에게 머그컵을 들어 올리는 방법을 보여준다면, 그들은 그릇, 측정용 비커, 테이프 롤과 같은 비슷한 기하학적 구조를 가진 물체를 집어들도록 쉽게 전달할 수 있다. F3RM은 적은 수의 시연으로부터 공격적인 일반화를 가능토록 하기 위해 기하학적 이해와 인터넷 규모의 데이터에서 훈련받은 파운데이션 모델의 의미론을 결합했다"고 말했다.

이번 연구는 국립과학재단, 육군연구소, MIT-왓슨 AI랩 등의 지원을 받았으며, 2023 로봇러닝 컨퍼런스에서 발표될 예정이다.

장길수  ksjang@irobotnews.com
이 기사에 대한 댓글 이야기 (0)
자동등록방지용 코드를 입력하세요!   
확인
- 200자까지 쓰실 수 있습니다. (현재 0 byte / 최대 400byte)
- 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]
이 기사에 대한 댓글 이야기 (0)
장길수의 다른기사 보기  
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
트위터 페이스북 구글+ 밴드 뒤로가기 위로가기
인기기사
1
'K-푸드로봇으로 글로벌 시장 장악하자"
2
"로봇 안내견에 필요한 기능, 시각장애인에게 물어봐야"
3
로엔서지컬, 'ICRA 2024'에서 신장결석 수술로봇 자메닉스 발표
4
한국로봇산업진흥원, 로봇 기업 전자파 간담회 개최
5
오늘의 로봇기업 주식시세(2024-05-24)
6
'젊은 로봇 공학자' (70) 한양대 이영문 교수
7
양천구, 휴머노이드 로봇으로 어르신ㆍ어린이 디지털 역량 기른다
8
MIT, '낙상'으로부터 우주비행사 보호하는 로봇 팔 '슈퍼림스' 개발
9
AI 기술 기업 '멜로우컴퍼니', 초격차 스타트업 1000+ 프로젝트 선정
10
한국로봇산업진흥원, 2024년 로봇창의교육사업 발대식 개최
로봇신문 소개기사제보광고문의불편신고개인정보취급방침이메일무단수집거부청소년보호정책    *국제표준간행물번호 ISSN 2636-0381 *본지는 인터넷신문위원회 자율심의 준수 서약사입니다
08298) 서울 구로구 공원로 41(구로동, 현대파크빌 526호)  |  대표전화 : 02)867-6200  |  팩스 : 02)867-6203
등록번호 : 서울 아 02659  |  등록일자 : 2013.5.21  |  발행인·편집인 : 조규남  |  청소년보호책임자 : 박경일
Copyright © 2013 로봇신문사. All rights reserved. mail to editor@irobotnews.com