»ç¶÷Àº Æ¢°í ÀÖ´Â °øÀ» ÂÑÀ» ¶§ À̵¿ÇÒ °ÍÀ¸·Î ¿¹»óµÇ´Â °÷À¸·Î ¿òÁ÷ÀδÙ. ¿¹¸¦ µé¾î ¿òÁ÷ÀÌ´ø °øÀÌ ´Ù¸¥ ¹æÇâÀ¸·Î ƨ°Ü³ª°¡¸é »ç¶÷Àº ÀÌ¿¡ ¸ÂÃç ½Ç½Ã°£À¸·Î ÀûÀýÇÑ °æ·Î¸¦ ¼öÁ¤ÇÑ´Ù. ¹Ý¸é ·Îº¿Àº À̵¿ÇÏ¸é¼ »ý°¢ÇÏ´Â ´ë½Å °è»êÇÑ ´ÙÀ½¿¡¾ß ÇൿÀ» ½ÇÇà¿¡ ¿Å±â´Â °æÇâÀÌ ÀÖ´Ù. »ç¶÷ó·³ ½Ç½Ã°£À¸·Î °æ·Î¸¦ º¯°æÇÏ´Â µ¥ ¾î·Á¿òÀ» °ÞÀ» ¼ö ÀÖ´Ù´Â ¸»ÀÌ´Ù.
ÀÌ·¯ÇÑ °¡¿îµ¥ ±¸±Û ºê·¹ÀÎ(Google Brain)À» ºñ·ÔÇØ UC ¹öŬ¸®(UC Berkeley), ¿¢½º ·¦(X Lab)À¸·Î ±¸¼ºµÈ ¿¬±¸ÆÀÀÌ ‘µ¿½Ã ½ÉÃþ°ÈÇнÀ(concurrent Deep Reinforcement Learning)’À̶ó´Â ¾Ë°í¸®ÁòÀ» °øµ¿ °³¹ßÇß´Ù°í ÀΰøÁö´É ¹× »ê¾÷ Àü¹® ¸ÅüÀÎ '½ÌÅ©µå'°¡ º¸µµÇß´Ù. ÀÌ ¾Ë°í¸®ÁòÀº ·Îº¿ÀÌ ÀÛ¾÷À̳ª µ¿ÀÛÀ» º¸´Ù ³Ð°í Àå±âÀûÀ¸·Î »ý°¢Çϵµ·Ï ÇØÁÖ¸ç, ƯÈ÷ Çö ÀÛ¾÷À» ¸¶¹«¸®Çϱâ Àü¿¡ ´ÙÀ½ ÀÛ¾÷À» °áÁ¤ÇÏ´Â °ÍÀ» °¡´ÉÄÉ ÇÑ´Ù.
½ÉÃþ°ÈÇнÀÀº Á¦·Î¼¶ °ÔÀÓ(zero-sum game) ¹× ·Îº¿ ÆÄÁö(robotic grasping) µî°ú °°Àº ½Ã³ª¸®¿À¿¡¼ ¾öû³ ¼º°øÀ» °Åµ×´Ù. ¹°·Ð ÀÌ °°Àº ¼º°ú´Â ÁÖ·Î ‘ºí·ÏÅ· ȯ°æ(blocking environment)’¿¡¼ ³ªÅ¸³µ´Ù. ÀÌ °æ¿ì¿¡ ÇØ´ç ¸ðµ¨Àº '°üÂûÁßÀÎ »óÅÂ'¿Í '½ÇÇàÁßÀÎ ÀÛ¾÷' »çÀÌÀÇ ½Ã°£¿¡ '»óÅ º¯È'°¡ ¾ø´Ù°í °¡Á¤ÇÑ´Ù.
¹Ý¸é ½ÇÁ¦ ‘µ¿½Ã ȯ°æ(concurrent environment)’¿¡¼´Â ȯ°æ »óÅ°¡ ½Ç½Ã°£À¸·Î º¯ÇÒ ¼ö ÀÖ´Ù. °Ô´Ù°¡ ¿¡ÀÌÀüÆ®°¡ Ãʱ⿡ ÀÛ¾÷À» °è»êÇÑ ÈÄ¿¡ ȯ°æÀÌ º¯°æµÇ¸é ¼øÂ÷ÀûÀÎ ºí·ÏÅ· ¹æ½ÄÀ¸·Î ½ÇÇàµÈ ÀÛ¾÷ÀÌ ½ÇÆÐÇÒ ¼öµµ ÀÖ´Ù.
|
|
|
¡ã (a): 'ºí·ÏÅ·' ȯ°æ¿¡¼ »óÅ ĸó ¹× Á¤Ã¥ À¯Ãß´Â Áï°¢ÀûÀÎ °ÍÀ¸·Î °¡Á¤µÈ´Ù. (b): 'µ¿½Ã' ȯ°æ¿¡¼ »óÅ ĸó ¹× Á¤Ã¥ À¯Ãß´Â ÀÛ¾÷ ½ÇÇàÀ¸·Î µ¿½Ã¿¡ ÁøÇàÇÏ´Â °ÍÀ¸·Î °¡Á¤µÈ´Ù. |
À̸¦ ÇØ°áÇϱâ À§Çؼ± ·Îº¿ÀÌ µ¿½Ã Á¦¾î·Î ÀÛµ¿Çϵµ·Ï ÇØ¾ß ÇÑ´Ù. ÀÌ °æ¿ì´Â Á¤Ã¥¿¡¼ ÀÛ¾÷À» »ùÇøµÇÏ´Â °ÍÀÌ ½Ã°£ ÁøÈ¿Í µ¿½Ã¿¡ ¼öÇàµÅ¾ß ÇÑ´Ù.
|
|
|
¡ã (a): 'ºí·ÏÅ·' MDP¿¡¼ ¿¡ÀÌÀüÆ®°¡ ÇöÀç »óŸ¦ ±â·ÏÇÏ°í ÀÛ¾÷À» ¼±ÅÃÇÏ´Â µ¿¾È ȯ°æ »óÅ´ º¯°æµÇÁö ¾Ê´Â´Ù. (b): 'µ¿½Ã' MDP¿¡¼ »óÅ ¹× µ¿ÀÛ ¿ªÇÐÀº ¿¬¼ÓÀûÀÎ ½Ã°£ È®·üÀû ÇÁ·Î¼¼½º s (t) ¹× a_i (t)´Ù. |
¿¬±¸ÆÀÀº ÀÌ»ê ½Ã°£(discrete-time) ¹× ¿¬¼Ó ½Ã°£(continuous-time) ¼³Á¤¿¡¼ Ç¥ÁØ RL ¹æ¹ýÀ» »ç¿ëÇß´Ù. ÀÌ¾î ¸¶¸£ÄÚºê ÀÇ»ç°áÁ¤ ÇÁ·Î¼¼½º(Markov Decision Processes·MDP)¸¦ µ¿½Ã µ¿ÀÛ¿¡ Àû¿ëÇß´Ù. ÀÌ °æ¿ì¿¡ µ¿½Ã µ¿ÀÛ È¯°æÀº ÀÌÀü µ¿ÀÛÀÌ ¿©ÀüÈ÷ ½ÇÇàµÇ°í ÀÖ´Â µ¿¾È¿¡µµ ÇöÀç »óŸ¦ ĸóÇÑ´Ù. ¿¬±¸ÆÀÀº MDP ¼öÁ¤ÀÌ µ¿½Ã ÀÛ¾÷À» ³ªÅ¸³»´Â µ¥ ÃæºÐÇÏ´Ù°í °á·ÐÀ» ³»·È´Ù.
|
|
|
¡ã ½Ã¹Ä·¹À̼ǰú ½ÇÁ¦ ·Îº¿ ÆÄÁö ÀÛ¾÷ »çÁø(»çÁø=½ÌÅ©µå) |
|
|
|
¡ã ´ë±Ô¸ð ½Ã¹Ä·¹ÀÌ¼Ç ·Îº¿ ÆÄÁö °á°úÇ¥ |
|
|
|
¡ã ½ÇÁ¦ ·Îº¿ ÆÄÁö °á°úÇ¥ |
¿¬±¸ÆÀÀº µ¿½Ã ȯ°æ¿¡ ´ëó°¡ °¡´ÉÇÑ °¡Ä¡ ±â¹Ý(value-based) DRL ¾Ë°í¸®ÁòÀ» µµÀÔÇØ ‘´ë±Ô¸ð ·Îº¿ ÆÄÁö ÀÛ¾÷ ½Ã¹Ä·¹À̼ǒ°ú ‘½ÇÁ¦ ·Îº¿ ÆÄÁö ÀÛ¾÷’ Å×½ºÆ®¸¦ ÁøÇàÇß´Ù. Å×½ºÆ® °á°ú ½Ã¹Ä·¹ÀÌ¼Ç ÀÛ¾÷¿¡¼± À̹ø¿¡ °³¹ßÇÑ µ¿½Ã ¸ðµ¨ÀÌ ‘ºí·ÏÅ· ½ÇÇà ±âÁØ ¸ðµ¨(the blocking execution baseline model)’ º¸´Ù 31.3%³ª ºü¸£°Ô ÀÛµ¿Çß´Ù. ¶Ç ½ÇÁ¦ ÆÄÁö ÀÛ¾÷¿¡¼± µ¿½Ã ¸ðµ¨ÀÌ 49%³ª ºü¸¥ º¸´Ù ºÎµå·¯¿î Æ®·¡Á÷Å͸®(trajectory)¸¦ ÇнÀÇß´Ù´Â ¼³¸íÀÌ´Ù. |