|
|
|
¡ã ÈÞ¸Ó³ëÀÌµå ·Îº¿(humanoid robot)ÀÇ º¸ÇൿÀÛ ¸ð½À(»çÁø=ÀÎÅÍ·¹½ºÆÿ£Áö´Ï¾î¸µ) |
Àü ¼¼°è ¸¹Àº ¿¬±¸ÆÀµéÀº ÃÖ±Ù ¸î ³â°£ ´Ù¸® ´Þ¸° ·Îº¿¿¡ ¿©·¯ º¸Çà µ¿ÀÛÀ» ±¸ÇöÇϱâ À§ÇØ ³ë·ÂÇØ¿Ô´Ù. ·Îº¿ÀÌ Àΰ£ ¶Ç´Â µ¿¹°Ã³·³ °Èµµ·Ï ÈƷýÃÅ°´Â ¹æ¹ý Áß Çϳª´Â ·Îº¿ÀÌ À̵éÀÇ ½ÇÁ¦ °ÉÀ½°ÉÀ̸¦ ºÐ¼®ÇØ ¸ð¹æÇϵµ·Ï ÈƷýÃÅ°´Â °ÍÀε¥, ÀÌ °°Àº ¹æ¹ýÀ» ¸ð¹æÇнÀ(imitation learning)À̶ó ÀÏÄ´´Ù.
Å×Å©¿¢½ºÇ÷ξ µû¸£¸é ¿µ±¹ ½ºÄÚƲ·£µå ¿¡µç¹ö·¯´ë(University of Edinburgh) ¿¬±¸ÆÀÀÌ ÃÖ±Ù Àΰ£ÀÇ º¸Çà»ç·Ê(Human Demonstration)¸¦ ÀÌ¿ëÇØ Àΰ£Ã³·³ °Èµµ·Ï ÈÞ¸Ó³ëÀÌµå ·Îº¿(Humanoid Robot)À» ÈƷýÃÅ°´Â 'ÇÁ·¹ÀÓ ¿öÅ©'¸¦ °³¹ßÇß´Ù. ÀÌ ÇÁ·¹ÀÓ ¿öÅ©´Â '¸ð¹æÇнÀ' ¹× '½ÉÃþ°ÈÇнÀ' ±â¹ýÀ» '·Îº¿Á¦¾î ÀÌ·Ð'°ú °áÇÕÇÑ °ÍÀ¸·Î, ÈÞ¸Ó³ëÀÌµå ·Îº¿ÀÇ ÀÚ¿¬½º·´°í ¿ªµ¿ÀûÀÎ ¿òÁ÷ÀÓÀ» ±¸ÇöÇϵµ·Ï ÇØÁØ´Ù. À̹ø ¿¬±¸ °á°ú´Â ÃâÆÇ Àü(preprint) ³í¹®À» ¼öÁýÇÏ´Â À¥»çÀÌÆ®ÀÎ ¾ÆÄ«À̺ê(arXiv)¿¡ °ÔÀçµÆ´Ù.
À̹ø ¿¬±¸¿¡ Âü¿©ÇÑ ‘¾çÃß¾ÈÀ¯(Chuanyu Yang)’´Â “À̹ø ¿¬±¸´Â ¡â ·Îº¿ º¸Çà¿¡ À¯¿ëÇÑ Àΰ£¿¡ ´ëÇÑ Áö½Ä°ú ¡â ¸ð»ç¸¦ À§ÇÑ Àΰ£ ¸ð¼Ç ĸó µ¥ÀÌÅ͸¦ ½ÉÃþ°ÈÇнÀ Æз¯´ÙÀÓ¿¡ ¾î¶»°Ô Á¢¸ñ½ÃÄÑ ´Ù¸® ´Þ¸° ·Îº¿ÀÇ ÀÚÀ²º¸Çà ´É·ÂÀ» º¸´Ù È¿À²ÀûÀ¸·Î °³¼±ÇÏ´À³Ä°¡ ÇÙ½ÉÀûÀÎ ¹®Á¦¿´´Ù”¸é¼ “Àΰ£¿¡ ´ëÇÑ »çÀü Áö½ÄÀ» DRL ÇÁ·¹ÀÓ¿öÅ©¿¡ µµÀÔÇÏ´Â µ¥ ÀÖ¾î µÎ °¡Áö ¹æ¹ýÀ» Á¦½ÃÇß´Ù”¶ó°í ¸»ÇÑ´Ù.
¿¬±¸ÆÀÀÌ °í¾ÈÇÑ ÀÌ ÇÁ·¹ÀÓ¿öÅ©´Â °È°í ÀÖ´Â »ç¶÷¿¡ ´ëÇÑ ¸ð¼Ç ĸ¼Ç µ¥ÀÌÅ͸¦ ÈÆ·Ã ·¹ÆÛ·±½º·Î È°¿ëÇÏ´Â µ¶Æ¯ÇÑ º¸»ó ¼³°è¸¦ ¹ÙÅÁÀ¸·Î ÇÏ°í ÀÖ´Ù. ÀÌ¿Í ÇÔ²² ´Ü°è ÇÔ¼ö ½Å°æ¸Á(ÀÏÁ¾ÀÇ ÁÖ±âÇÔ¼ö ½Å°æ¸Á.PFNN:Phase Functioned Neural Network)¿Í ¸ðµå ÀûÀÀ ½Å°æ¸Á(MANN:Mode Adaptive neural network)À̶ó´Â µÎ °¡Áö Àü¹®ÈµÈ °èÃþÀû ´º·² ¾ÆÅ°ÅØÃĸ¦ È°¿ëÇÑ´Ù.
¾ç ±³¼ö´Â “Àΰ£°ú °°Àº º¸Çà ¹æ½ÄÀ» ¸ð»çÇÏ´Â µ¥ ÀÖ¾î ÇÙ½ÉÀº ÇнÀ ¿¡ÀÌÀüÆ®°¡ ¸ð¹æÇÒ ¼ö ÀÖ´Â Àü¹®°¡ÀÇ ½Ã¹üÀ¸·Î¼ Àΰ£ º¸Çà µ¥ÀÌÅ͸¦ µµÀÔÇÏ´Â °Í”À̶ó¸é¼, “º¸»ó ¼³°è´Â ¿¡ÀÌÀüÆ®ÀÇ ÇൿÀ» Á¦¾îÇϱ⠶§¹®¿¡ °ÈÇü ±â°è ÇнÀ¿¡ ÀÖ¾î Áß¿äÇÑ Ãø¸éÀÌ´Ù”¶ó°í ¼³¸íÇÑ´Ù.
º¸»ó ¼³°è´Â ¾÷¹« ¿ë¾î(task term) ¹× ¸ð¹æ ¿ë¾î(imitation term)·Î ±¸¼ºµÅ ÀÖ´Ù. ¾÷¹« ¿ë¾î´Â ÈÞ¸Ó³ëÀÌµå ·Îº¿ÀÌ ³ôÀº ¼öÁØÀÇ º¸Çà ´É·ÂÀ» ´Þ¼ºÇÏ´Â µ¥ ÇÊ¿äÇÑ ÁöħÀ» Á¦°øÇÏ´Â ¹Ý¸é, ¸ð»ç ¿ë¾î´Â Àΰ£°ú °°Àº ÀÚ¿¬½º·± º¸Çà ÆÐÅÏÀ» °¡´ÉÇÏ°Ô ÇÑ´Ù. ÀÌ ¼³°è´Â ´Ù¸¥ ÀüÅëÀûÀÎ ÈÞ¸Ó³ëÀ̵å Á¦¾î Á¢±Ù¹ý À̸鿡 ÀÖ´Â ÁÖ¿ä ÀÌ·Ð °³³äµé°ú ÀÏÄ¡ÇÑ´Ù.
|
|
|
¡ã Àΰ£Ã³·³ ¿À¸¥ÂÊ ¹ßÀ» ¿òÁ÷À̵µ·Ï ÈÞ¸Ó³ëÀÌµå ·Îº¿À» ±³À°ÇÒ ¼ö ÀÖ´Ù.(»çÁø=ÀÎÅÍ·¹½ºÆÿ£Áö´Ï¾î¸µ) |
¿¬±¸ÆÀÀº ¸ðÀÇ È¯°æ¿¡¼ ¼öÇàÇÑ ÀÏ·ÃÀÇ ½ÇÇèÀ» ÅëÇØ ¸ð¹æ ÇнÀ ÇÁ·¹ÀÓ¿öÅ©¸¦ Æò°¡Çß´Ù. Æò°¡ °á°ú ÀÌ ÇÁ·¹ÀÓ ¿öÅ©´Â ºÒ±ÔÄ¢ÇÑ ÁöÇüÀ̳ª ¿ÜºÎ·ÎºÎÅÍ ¿Â ¹Ð¾î³¿ µî ¿©·¯ Àå¾Ö¿¡µµ ºÒ±¸ÇÏ°í ´Ù¾çÇÑ ½Ã³ª¸®¿À¿¡¼ ¹ÏÀ» ¸¸ÇÑ º¸Çà ´É·ÂÀ» Á¦°øÇÏ´Â °ÍÀ¸·Î ³ªÅ¸³µ´Ù.
¾ç ±³¼ö´Â “»ç¶÷ÀÇ º¸Çà µ¿ÀÛÀ» ÀΰøÁö´ÉÀÌ Èä³»³¾ ¼ö ÀÖ´Â ´É¼÷ÇÑ »ç·Ê·Î È°¿ëÇϸé ÇнÀ ¼Óµµ¸¦ ³ôÀÌ°í Àü¹ÝÀûÀÎ ¾÷¹« ¼öÇà ´É·ÂÀ» Çâ»ó½Ãų ¼ö ÀÖ´Ù. »ç¶÷¿¡ ÀÇÇÑ ½Ã¿¬ Áö½ÄÀ» ÅëÇØ ÇнÀ ÇÁ·¹ÀÓ¿öÅ©¸¦ º¸´Ù ÀÇ¹Ì ÀÖ°Ô ¼³°èÇÒ ¼ö ÀÖ°Ô µÆÀ¸¸ç, ÀÌ´Â ¿îµ¿ ±â´É ¹× ¿îµ¿ Á¦¾î¿¡ ÀÌ·Î¿î °ÍÀ¸·Î ÀÔÁõµÆ´Ù”¶ó°í Çß´Ù.
À̹ø ¿¬±¸°á°ú´Â »ç¶÷¿¡ ÀÇÇÑ ½Ã¿¬ÀÌ »óÀÌÇÑ º¸Çà ½ºÅ¸ÀÏÀ» ·Îº¿¿¡ ÈƷýÃÅ°±â À§ÇÑ ½ÉÃþ°ÈÇнÀ ±â¹ýÀ» Å©°Ô Çâ»ó½Ãų ¼ö ÀÖ´Ù´Â Á¡À» º¸¿©ÁØ´Ù. ¶ÇÇÑ, À̹ø¿¡ °³¹ßÇÑ ÇÁ·¹ÀÓ ¿öÅ©´Â ÈÞ¸Ó³ëÀÌµå ·Îº¿ÀÌ Àΰ£Ã³·³ ºü¸£°í È¿À²ÀûÀ¸·Î °Èµµ·Ï ÈƷýÃÅ°´Â °ÍÀº ¹°·Ð ÀÚ¿¬½º·´°í Àΰ£´Ù¿î ÇൿÀ» ¼ºÃëÇÒ ¼ö ÀÖµµ·Ï ÇØÁشٴ ¼³¸íÀÌ´Ù.
¿¬±¸ÆÀÀº ¾ÕÀ¸·Î ¸ðÀÇ È¯°æ¿¡¼ ½ÇÁ¦ ȯ°æÀ¸·Î ÇÁ·¹ÀÓ ¿öÅ©¸¦ ÀÌÀüÇÏ´Â ¹æ¹ýÀ» ¿¬±¸ÇÒ °èȹÀÌ´Ù. ¶Ç ÇÁ·¹ÀÓ ¿öÅ©¿¡ ´ëÇÑ È¿°ú¿Í À¯¿ë¼ºÀ» º¸´Ù ÀÚ¼¼È÷ Æò°¡Çϱâ À§ÇØ ½ÇÁ¦ ÈÞ¸Ó³ëÀÌµå ·Îº¿¿¡ À̸¦ ±¸ÇöÇÒ ¿¹Á¤ÀÌ´Ù.
¾ç ±³¼ö´Â “¿ì¸®´Â ¾ÕÀ¸·Î º¸Çà, Á¶ÀÛ ¹× ¿òÄÑÀâ±â µî ´Ù¾çÇÏ°í º¹ÀâÇÑ Àΰ£ÀÇ ¿òÁ÷ÀÓÀ» Èä³» ³¾ ¼ö ÀÖµµ·Ï ÇнÀ ÇÁ·¹ÀÓ ¿öÅ©¸¦ È®ÀåÇÒ °èȹÀÌ´Ù. ¶Ç ½ÇÁ¦ ·Îº¿¿¡ ÀûÀÀÇÏ´Â ÇнÀµÈ Á¤Ã¥À» ½Å¼ÓÈ÷ ¹èÄ¡ÇÏ´Â °Ô °¡´ÉÇϵµ·Ï 'Çö½Ç·Î ÀÌÀüÇÒ ¼ö ÀÖ´Â È¿À²ÀûÀÎ ½Ã¹Ä·¹À̼Ç(efficient simulation-to-reality policy transfer)'À» ¿¬±¸ÇÒ ¿¹Á¤ÀÌ´Ù”¶ó°í ¸»Çß´Ù. |