KAIST, 인공지능 챗봇 이미지 데이터 훈련 비용 최소화하다

홈 > 뉴스 > 인공지능

KAIST, 인공지능 챗봇 이미지 데이터 훈련 비용 최소화하다12월 국제학술대회 ‘신경정보처리시스템학회 2023’에서 발표 예정

승인 2023.11.02 10:32:17


▲ 연구진 사진 (왼쪽부터) 최설아, 박동민, 이재길, 김도영(사진=카이스트)

KAIST는 전산학부 이재길 교수 연구팀이 심층신경망 훈련 비용을 최소화할 수 있도록 훈련 데이터의 양을 줄이는 새로운 데이터 선택 기술을 개발했다고 2일 밝혔다.

일반적으로 대용량의 심층 학습용 훈련 데이터는 레이블 오류(예를 들어, 강아지 사진이 '고양이'라고 잘못 표기되어 있음)를 포함한다. 최신 인공지능 방법론인 재(再)레이블링(Re-labeling) 학습법은 훈련 도중 레이블 오류를 스스로 수정하면서 높은 심층신경망 성능을 달성하는데, 레이블 오류를 수정하기 위한 추가적인 과정들로 인해 훈련에 필요한 시간이 더욱 증가한다는 단점이 있다. 한편 막대한 훈련 시간을 줄이려는 방법으로 중복되거나 성능 향상에 도움이 되지 않는 데이터를 제거해 훈련 데이터의 크기를 줄이는 핵심 집합 선별(coreset selection) 방식이 큰 주목을 받고 있다. 그러나 기존 핵심 집합 선별 방식은 훈련 데이터에 레이블 오류가 없다고 가정한 표준 학습법을 위해 개발됐고, 재레이블링 학습법을 위한 핵심 집합 선별 방식에 관한 연구는 부족한 실정이다.


▲ 연구팀에서 개발한 `재레이블링을 위한 핵심집합 선별' 방법론의 동작 개념도. 전체 훈련 데이터의 레이블 오류 수정 정확도를 최대화할 수 있도록 핵심집합을 선별한다. 이때 인접한 이웃 데이터의 신뢰도가 높은 데이터가 올바르게 수정될 가능성이 높으므로 핵심집합에 포함한다. 그림을 통해 개념적으로 설명하면, 핵심집합에 포함된 데이터들은 그 주변이 해당 레이블임을 확실하게 알 수 있어 신뢰도가 높지만, 핵심집합에 포함되지 않은 데이터들은 그렇지 않아 신뢰도가 낮다. 제안한 방법으로 핵심집합을 선별하여 심층신경망을 훈련하면 전체집합으로 훈련한 때에 비해 훈련 시간을 크게 단축하면서 거의 유사한 분류 정확도를 달성할 수 있다.

이재길 교수팀이 개발한 기술은 레이블 오류를 스스로 수정하는 최신 재레이블링 학습법을 위해 핵심 집합 선별을 수행하여 심층 학습 훈련 비용을 최소화할 수 있도록 해준다. 따라서, 레이블 오류가 포함된 현실적인 훈련 데이터를 지원하므로 실용성이 매우 높다.

또한 이 교수팀은 특정 데이터의 레이블 오류 수정 정확도가 해당 데이터의 이웃 데이터의 신뢰도와 높은 상관관계가 있음을 발견했다. 즉, 이웃 데이터의 신뢰도가 높으면 레이블 오류 수정 정확도가 커지는 경향이 있다. 이웃 데이터의 신뢰도는 심층신경망의 충분한 훈련 전에도 측정할 수 있으므로, 각 데이터의 레이블 수정 가능 여부를 예측할 수 있게 된다. 연구팀은 이러한 발견을 기반으로 전체 훈련 데이터의 총합 이웃 신뢰도를 최대화하는 데이터 부분 집합을 선별해 레이블 수정 정확도와 일반화 성능을 최대화하는 '재레이블링을 위한 핵심 집합 선별'을 제안했다. 총합 이웃 신뢰도를 최대화하는 부분 집합을 찾는 조합 최적화 문제의 효율적인 해법을 위해 총합 이웃 신뢰도를 가장 증가시키는 데이터를 차례차례 선택하는 탐욕 알고리즘(greedy algorithm)을 도입했다.

연구팀은 이미지 분류 문제에 대해 다양한 실세계의 훈련 데이터를 사용해 방법론을 검증했다. 그 결과, 레이블 오류가 없다는 가정에 따른 표준 학습법에서는 최대 9%, 재레이블링 학습법에서는 최대 21% 최종 예측 정확도가 기존 방법론에 비해 향상되었고, 모든 범위의 데이터 선별 비율에서 일관되게 최고 성능을 달성했다. 또한, 총합 이웃 신뢰도를 최대화한 효율적 탐욕 알고리즘을 통해 기존 방법론에 비해 획기적으로 시간을 줄이고 수백만 장의 이미지를 포함하는 초대용량 훈련 데이터에도 쉽게 확장될 수 있음을 확인했다.

제1 저자인 박동민 박사과정 학생은 "이번 기술은 오류를 포함한 데이터에 대한 최신 인공지능 방법론의 훈련 가속화를 위한 획기적인 방법ˮ 이라면서, "다양한 데이터 상황에서의 강건성이 검증됐기 때문에, 실생활의 기계 학습 문제에 폭넓게 적용될 수 있어 전반적인 심층 학습의 훈련 데이터 준비 비용 절감에 기여할 것ˮ 이라고 밝혔다.

이재길 교수도 "이 기술이 파이토치(PyTorch) 혹은 텐서플로우(TensorFlow)와 같은 기존의 심층 학습 라이브러리에 추가되면 기계 학습 및 심층학습 학계에 큰 파급효과를 낼 수 있을 것이다ˮ고 말했다.

KAIST 데이터사이언스대학원에 재학 중인 박동민 박사과정 학생이 제1 저자, 최설아 석사과정, 김도영 박사과정 학생이 제2, 제3 저자로 각각 참여한 이번 연구는 최고 권위 국제학술대회 `신경정보처리시스템학회(NeurIPS) 2023'에서 올 12월 발표될 예정이다. (논문명 : Robust Data Pruning under Label Noise via Maximizing Re-labeling Accuracy)

한편, 이 기술은 과학기술정보통신부 재원으로 정보통신기획평가원의 지원을 받아 SW컴퓨팅산업원천기술개발사업 SW스타랩 과제로 개발한 연구성과 결과물(2020-0-00862, DB4DL: 딥러닝 지원 고사용성 및 고성능 분산 인메모리 DBMS 개발)이다.

박경일 robot@irobotnews.com

이 기사에 대한 댓글 이야기 (0)

자동등록방지용 코드를 입력하세요!

확인

- 200자까지 쓰실 수 있습니다. (현재 0 byte / 최대 400byte)
- 욕설등 인신공격성 글은 삭제 합니다. [운영원칙]

이 기사에 대한 댓글 이야기 (0)

박경일의 다른기사 보기

인기기사

1
오리온스타 로보틱스, 일본 시장 본격 진출

2
클로봇, '2024 국제물류산업대전'서 이기종 물류 로봇 통합 솔루션 시연

3
中 푸두로보틱스, 산업용 물류 로봇 '푸두 T300' 공개

4
월마트, 스위스로그 ASRS(자동보관회수시스템) 설치

5
고레로보틱스-UCLA 데니스홍 교수, 건설 로봇 분야 협력

6
美 개더AI, 드론 기반 재고 스캐닝 시스템에 신기능 추가

7
물류 장비 전문기업 '수성’, 자율주행 로봇 플랫폼 '아이언 로봇' 선봬

8
박해원 KAIST 교수팀, ‘2024 대한민국 과학축제 & 과학기술대전’서 4족 보행 로봇 '하운드' 선봬

9
'2024 국제물류산업대전'서 주목받는 중국 물류 로봇기업들

10
위로보틱스, 대중을 위한 보행 보조 로봇 '윔' B2C 출시

1오리온스타 로보틱스, 일본 시장 본격 진출

2클로봇, '2024 국제물류산업대전'서 이기종 물류 로봇 통합 솔루션 시연

3中 푸두로보틱스, 산업용 물류 로봇 '푸두 T300' 공개

4월마트, 스위스로그 ASRS(자동보관회수시스템) 설치

5고레로보틱스-UCLA 데니스홍 교수, 건설 로봇 분야 협력

6美 개더AI, 드론 기반 재고 스캐닝 시스템에 신기능 추가

7물류 장비 전문기업 '수성’, 자율주행 로봇 플랫폼 '아이언 로봇' 선봬

8박해원 KAIST 교수팀, ‘2024 대한민국 과학축제 & 과학기술대전’서 4족 보행 로봇 '하운드' 선봬

9'2024 국제물류산업대전'서 주목받는 중국 물류 로봇기업들

10위로보틱스, 대중을 위한 보행 보조 로봇 '윔' B2C 출시