로봇신문사
> 뉴스 > 인공지능
MIT-하버드대-워싱턴대, 크라우드 소싱 피드백 활용한 강화학습 접근법 개발다음달 '신경정보처리 시스템에 관한 컨퍼런스'서 발표 예정
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
승인 2023.11.27  17:15:36
트위터 카카오톡 페이스북
▲ 연구팀이 휴즈를 이용해 로봇팔이 물체를 옮기고, 알파벳 'U'자를 그리도록 훈련하고 있다.(사진=MIT 뉴스)

MIT, 하버드대, 워싱턴대 공동 연구팀이 '전문적으로 설계된 보상 기능'에 의존하지 않는 새로운 강화학습 접근법을 개발했다고 MIT뉴스가 27일 보도했다.

연구팀에 따르면 AI 에이전트에게 주방 캐비닛을 여는 방법 등 새로운 작업을 가르치기 위해선 자주 강화학습(시행착오 과정)을 활용한다. 이 과정에서 에이전트는 목표에 가까워지는 행동을 취하면 보상을 받는다.

많은 경우 인간 전문가는 탐색할 동기를 부여하는 인센티브 메커니즘인 보상 기능을 신중하게 설계한다. 인간 전문가는 에이전트가 다양한 행동을 탐색하고 시도할 때 해당 보상 기능을 반복적으로 업데이트 한다. 특히 작업이 복잡하고 여러 단계를 포함하는 경우, 시간이 많이 걸리고 비효율적이며 확장하는 데 어려움을 겪는다.

연구팀은 전문적으로 설계된 보상 기능에 의존하지 않는 새로운 강화학습 접근법을 개발했다. 연구팀은 비전문적인 사용자들로부터 크라우드소싱 방식으로 수집된 피드백을 활용해 에이전트가 목표에 도달하도록 학습하고 안내한다. 이 방법은 AI에이전트가 실수하는 인간으로부터 안내 또는 도움을 받아 빨리 학습할 수 있다는 의미에서 ‘휴즈(HuGE·Human Guided Exploration)’라고 불린다.

이번 연구는 다음달 열리는 '신경정보처리시스템에 관한 컨퍼런스(Conference on Neural Information Processing Systems)'에서 발표될 예정이다.

이 새로운 접근 방식은 비전문 사용자로부터 크라우드소싱 방식으로 수집된 데이터가 자주 오류로 가득 차 있음에도 불구하고, AI 에이전트가 빠르게 학습할 수 있도록 지원한다. 이 새로운 접근 방식은 피드백을 비동기적으로 수집할 수 있어 전세계의 비전문적인 사용자들이 에이전트를 교육하는데 기여할 수 있게 한다.

풀킷 아그라왈 MIT 교수는 "오늘날 로봇 에이전트를 설계하는 데 가장 시간이 많이 걸리고 어려운 부분 중 하나는 보상 기능을 설계하는 것이다. 보상 기능은 전문 연구자들에 의해 설계되는데, 이는 로봇들에게 많은 다른 작업들을 가르치기를 원한다면 확장할 수 없는 패러다임이다. 이번 연구는 보상 기능 설계를 비전문가들의 유용한 피드백을 크라우드 소싱 방식으로 수집하는 것을 가능토록 함으로써 로봇 학습을 확장하는 방법을 제안한다“고 말했다.

연구팀에 따르면, 실제 및 시뮬레이션 실험에서 휴즈(HuGE)는 다른 방법보다 빠르게 에이전트가 목표를 달성하는 방법을 학습할 수 있도록 도와주었다.

연구팀은 또한 비전문가들로부터 수집한 데이터가 연구팀에 의해 생산되고 라벨이 붙은 합성 데이터보다 더 나은 성능을 산출한다는 것을 발견했다. 비전문적인 사용자들의 경우, 30개의 이미지 또는 비디오에 라벨을 붙이는 데 2분이 채 걸리지 않았다고 한다.

장길수  ksjang@irobotnews.com
이 기사에 대한 댓글 이야기 (0)
자동등록방지용 코드를 입력하세요!   
확인
- 200자까지 쓰실 수 있습니다. (현재 0 byte / 최대 400byte)
- 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]
이 기사에 대한 댓글 이야기 (0)
장길수의 다른기사 보기  
폰트키우기 폰트줄이기 프린트하기 메일보내기 신고하기
트위터 페이스북 구글+ 밴드 뒤로가기 위로가기
인기기사
1
고스트로보틱스 테크놀로지, 미국 GRC에 로봇 부품 공급
2
두산밥캣 품은 두산로보틱스, 새로운 도약 발판 마련
3
美 예일대, 스스로 몸의 형태를 바꾸는 소프트 로봇 개발
4
中 휴머노이드 로봇 기업, 상반기 투자 유치 금액 4700억원 초과
5
서울로봇인공지능과학관, 오는 8월 20일 개관한다
6
美 UC샌디에이고, 2대의 로봇 핸드 원격 조작 시스템 개발
7
"휴머노이드 로봇, 춤추고 하이파이브하고 껴앉는 동작 학습한다"
8
‘2024 월드로봇 올림피아드 한국대회’, 다음달 10일 개막
9
미 CMU, 드론 활용해 비행 캘리그래퍼 개발
10
시에라베이스, 드론 장착용 디지털 트윈 구현 모듈 ‘시리우스 프로’ 공개
로봇신문 소개기사제보광고문의불편신고개인정보취급방침이메일무단수집거부청소년보호정책    *국제표준간행물번호 ISSN 2636-0381 *본지는 인터넷신문위원회 자율심의 준수 서약사입니다
08298) 서울 구로구 공원로 41(구로동, 현대파크빌 526호)  |  대표전화 : 02)867-6200  |  팩스 : 02)867-6203
등록번호 : 서울 아 02659  |  등록일자 : 2013.5.21  |  발행인·편집인 : 조규남  |  청소년보호책임자 : 박경일
Copyright © 2013 로봇신문사. All rights reserved. mail to editor@irobotnews.com