|
|
|
¡ã Àú°¡Çü »ê¾÷¿ë ·Îº¿ÆÈ 'XArm' |
25ºÐ¸¸¿¡ ·Îº¿ ÆÈ¿¡ 6°³ÀÇ ÆÄÁö(grasping) µ¿ÀÛÀ» ÈÆ·ÃÇÒ¼ö ÀÖ´Â ·Îº¿ Á¶ÀÛ ÈÆ·Ã ÇÁ·¹ÀÓ¿öÅ©°¡ °³¹ßµÆ´Ù.
º¥Ã³ºñÆ®¿¡ µû¸£¸é ¹Ì UC¹öŬ¸® ¿¬±¸ÁøÀº 1½Ã°£ À̳»ÀÇ ÂªÀº ÈƷý𣿡 ¹°Ã¼¸¦ Áý°í, ¿òÁ÷À̰ųª ½ºÀ§Ä¡¸¦ ÀÛµ¿½ÃÅ°°í ¼¶øÀ» ¿ ¼ö ÀÖµµ·Ï ÇØÁÖ´Â ·Îº¿ Á¶ÀÛ ¾Ë°í¸®Áò ÈÆ·Ã ÇÁ·¹ÀÓ¿öÅ©¸¦ °³¹ßÇß´Ù.
¸Ó½Å·¯´×ÀÇ ¹ßÀüÀº ·Îº¿ ÆÈÀÇ ¹°Ã¼ ÇÇÅ·(Áý±â), ¹Ð±â, ´ç±â±â µî ´Ù¾çÇÑ ·Îº¿ Á¶ÀÛ ´É·ÂÀ» °¡´ÉÇÏ°Ô ÇÑ´Ù. ÇÏÁö¸¸ ´Ù¸ñÀû ¿ëµµ·Î °³¹ßµÈ ¾Ë°í¸®ÁòÀº ±Øµµ·Î ‘»ùÇÃ-ºñÈ¿À²ÀûÀÎ(sample-inefficient)‘ Ư¼ºÀ» Áö´Ï°í ÀÖ¾î ½ÇÁ¦ ¼¼°è¿¡ Àû¿ëÇÏ´Â µ¥ ÇѰ踦 °®°í ÀÖ´Ù.
UC¹öŬ¸® ¿¬±¸ÁøÀº ÀÌ¿¡ ÀÚ±Ø¹Þ¾Æ ±Øµµ·Î ’»ùÇà ȿÀ²Àû(sample-efficient)’ÀÎ ·Îº¿ Á¶ÀÛ ¾Ë°í¸®Áò ÈÆ·ÃÀ» ¼ºÃëÇÒ ¼ö Àִ ÷´Ü ÇÁ·¹ÀÓ¿öÅ©ÀÎ ‘FERM(Framework for Efficient Robotic Manipulation)’À» °³¹ßÇß´Ù.
¿¬±¸Áø¿¡ µû¸£¸é ´ÜÀÏÀÇ ·Îº¿ ÆÈÀº FERMÀ» È°¿ëÇØ 10¿©°³ÀÇ ½Ã¿¬(demonstrations) µ¥ÀÌÅ͸¦ ±â¹ÝÀ¸·Î 15~50ºÐÀÇ ÈÆ·Ã ½Ã°£³»¿¡ ¿©·¯ µ¿ÀÛÀ» ÇнÀÇÒ ¼ö ÀÖ´Ù. ªÀº ÈƷý𣿡µµ ºÒ±¸ÇÏ°í ¹°Ã¼ÀÇ Á¢±Ù, Áý±â, À̵¿, ´ç±â±â µ¿ÀÛÀÌ °¡´ÉÇÏ°í ½ºÀ§Ä¡ÀÇ ÀÛµ¿, ¼¶ø ¿±â µî µ¿ÀÛÀ» ½ÇÇàÇÒ ¼ö ÀÖ´Ù.
FERMÀº ‘Çȼ¿ ±â¹Ý(pixel-based)‘ °ÈÇнÀÀ» ÅëÇØ ·Îº¿ ÀÚµ¿È¿¡ ÇÊ¿äÇÑ µ¿ÀÛÀ» ½Àµæ½ÃŲ´Ù. Çȼ¿ ±â¹ÝÀÇ °ÈÇнÀÀº ¾Ë°í¸®ÁòÀÌ ±â·ÏµÈ ½Ã¿¬(recorded demonstrations)À¸·ÎºÎÅÍ µ¿ÀÛÀ» ¿Ï¼öÇÏ´Â ¹ýÀ» ÇнÀÇÏ´Â ¸Ó½Å·¯´×ÀÇ ÇÑ ¹æ¹ýÀÌ´Ù. º¸´Ù µ¥ÀÌÅÍ È¿À²ÀûÀÎ(data-efficient) Ư¼ºÀ» º¸ÀδÙ.
¿¬±¸Àڵ鿡 µû¸£¸é FERMÀº ¼Ò¼öÀÇ ½Ã¿¬ µ¥ÀÌÅ͸¦ ¼öÁýÇÏ°í, À̵éÀ» ‘Àç»ý ¹öÆÛ(Replay Buffer)’¿¡ ÀúÀåÇÑ´Ù. ¸Ó½Å·¯´× ¿£ÄÚ´õ´Â Àç»ý ¹öÆÛ³»¿¡ ÀúÀåµÈ ½Ã¿¬ µ¥ÀÌÅ͸¦ ¹ÙÅÁÀ¸·Î »çÀü ÈÆ·Ã(Pretrained)À» ÇÑ´Ù. À̾î FERM ³»ÀÇ °ÈÇнÀ ¾Ë°í¸®ÁòÀÌ ¿£ÄÚ´õ¿Í ÃÖÃÊÀÇ ½Ã¿¬¿¡ ÀÇÇØ »ý¼ºµÈ µ¥ÀÌÅ͸¦ ¹ÙÅÁÀ¸·Î ‘Áõ°µÈ(Augmented)‘ À̹ÌÁö¸¦ È°¿ëÇØ ÈÆ·ÃÀ» ÁøÇàÇÑ´Ù.
|
|
|
¡ã UC¹öŬ¸® ¿¬±¸ÆÀÀº 'FERM' ¾Ë°í¸®ÁòÀ» ÀÌ¿ëÇØ 25ºÐ¸¸¿¡ ·Îº¿ÆÈÀÌ 6°³ µ¿ÀÛÀ» ¼öÇàÇϵµ·Ï ÈÆ·ÃÇß´Ù. |
FERMÀº ·Îº¿, ±×·¡ÇÈ Ä«µå, 2´ëÀÇ Ä«¸Þ¶ó, ¸î °³ÀÇ ½Ã¿¬, °ÈÇнÀ ¾Ë°í¸®ÁòÀ» ¾È³»ÇÏ´Â º¸»ó ±â´É(Reward Function)¸¸À» ÇÊ¿ä·Î ÇÑ´Ù. ¿¬±¸ÆÀÀº FERMÀ» ÀÌ¿ëÇØ Àú°¡Çü »ê¾÷¿ë ·Îº¿ ÆÈÀÎ ‘xArm’À¸·Î ÇÏ¿©±Ý ºÒ°ú 25ºÐ¸¸¿¡ 6°³ÀÇ µ¿ÀÛÀ» ÇнÀÇÒ ¼ö ÀÖµµ·Ï ±â¼úÀ» ±¸ÇöÇß´Ù. ÀÌ ·Îº¿ ÆÈÀº ÈÆ·Ã ½Ã°£À̳ª ½Ã¿¬ °úÁ¤¿¡´Â ÀüÇô ¾ø¾ú´ø ¹°Ã¼±îÁö ÀϹÝÈÇÒ ¼ö ÀÖ´Ù. ¶Ç ¸ñÇ¥ ÁöÁ¡¿¡ À̸£´Â °úÁ¤¿¡ ÀÖ´Â Àå¾Ö¹°±îÁöµµ ó¸®ÇÒ ¼ö ÀÖ´Ù.
¿¬±¸ÆÀÀº FERMÀÌ 1½Ã°£ À̳»¿¡ Çȼ¿·ÎºÎÅÍ Á÷Á¢ÀûÀ¸·Î ´Ù¾çÇÑ ¼¼Æ®ÀÇ Èñ¼Ò º¸»ó(Sparse-Reward)·Îº¿ Á¶ÀÛÀÛ¾÷À» ¼öÇàÇÒ ¼ö Àִ ù ¹ø° ¹æ¹ýÀ̶ó°í ¼Ò°³Çß´Ù. ¶Ç “Á¦ÇÑµÈ Áöµµ(Supervision) °úÁ¤À» ÇÊ¿ä·Î Çϱ⠶§¹®¿¡ ºü¸£°í È¿À²ÀûÀÎ ¹æ½ÄÀ¸·Î °ÈÇнÀÀ» ½ÇÁ¦ ·Îº¿¿¡ Àû¿ëÇÒ ¼ö ÀÖ´Ù”°í ¼³¸íÇß´Ù. |