·Îº¿½Å¹®»ç
Ȩ > ´º½º > ÀΰøÁö´É
»ý°¢Çϸ鼭 ¿òÁ÷ÀÌ´Â ·Îº¿¿ë ¾Ë°í¸®Áò±¸±Û ºê·¹ÀÎ µî ÃÑ 3°³ ¿¬±¸ÆÀ, µ¿½Ã ½ÉÃþ°­È­ÇнÀ °øµ¿ °³¹ß
ÆùƮŰ¿ì±â ÆùÆ®ÁÙÀ̱â ÇÁ¸°Æ®Çϱ⠸ÞÀϺ¸³»±â ½Å°íÇϱâ
½ÂÀÎ 2020.05.14  12:02:17
Æ®À§ÅÍ Ä«Ä«¿ÀÅå ÆäÀ̽ººÏ

»ç¶÷Àº Æ¢°í ÀÖ´Â °øÀ» ÂÑÀ» ¶§ À̵¿ÇÒ °ÍÀ¸·Î ¿¹»óµÇ´Â °÷À¸·Î ¿òÁ÷ÀδÙ. ¿¹¸¦ µé¾î ¿òÁ÷ÀÌ´ø °øÀÌ ´Ù¸¥ ¹æÇâÀ¸·Î ƨ°Ü³ª°¡¸é »ç¶÷Àº ÀÌ¿¡ ¸ÂÃç ½Ç½Ã°£À¸·Î ÀûÀýÇÑ °æ·Î¸¦ ¼öÁ¤ÇÑ´Ù. ¹Ý¸é ·Îº¿Àº À̵¿Çϸ鼭 »ý°¢ÇÏ´Â ´ë½Å °è»êÇÑ ´ÙÀ½¿¡¾ß ÇൿÀ» ½ÇÇà¿¡ ¿Å±â´Â °æÇâÀÌ ÀÖ´Ù. »ç¶÷ó·³ ½Ç½Ã°£À¸·Î °æ·Î¸¦ º¯°æÇÏ´Â µ¥ ¾î·Á¿òÀ» °ÞÀ» ¼ö ÀÖ´Ù´Â ¸»ÀÌ´Ù.

ÀÌ·¯ÇÑ °¡¿îµ¥ ±¸±Û ºê·¹ÀÎ(Google Brain)À» ºñ·ÔÇØ UC ¹öŬ¸®(UC Berkeley), ¿¢½º ·¦(X Lab)À¸·Î ±¸¼ºµÈ ¿¬±¸ÆÀÀÌ ‘µ¿½Ã ½ÉÃþ°­È­ÇнÀ(concurrent Deep Reinforcement Learning)’À̶ó´Â ¾Ë°í¸®ÁòÀ» °øµ¿ °³¹ßÇß´Ù°í ÀΰøÁö´É ¹× »ê¾÷ Àü¹® ¸ÅüÀÎ '½ÌÅ©µå'°¡ º¸µµÇß´Ù. ÀÌ ¾Ë°í¸®ÁòÀº ·Îº¿ÀÌ ÀÛ¾÷À̳ª µ¿ÀÛÀ» º¸´Ù ³Ð°í Àå±âÀûÀ¸·Î »ý°¢Çϵµ·Ï ÇØÁÖ¸ç, ƯÈ÷ Çö ÀÛ¾÷À» ¸¶¹«¸®Çϱâ Àü¿¡ ´ÙÀ½ ÀÛ¾÷À» °áÁ¤ÇÏ´Â °ÍÀ» °¡´ÉÄÉ ÇÑ´Ù.

½ÉÃþ°­È­ÇнÀÀº Á¦·Î¼¶ °ÔÀÓ(zero-sum game) ¹× ·Îº¿ ÆÄÁö(robotic grasping) µî°ú °°Àº ½Ã³ª¸®¿À¿¡¼­ ¾öû³­ ¼º°øÀ» °Åµ×´Ù. ¹°·Ð ÀÌ °°Àº ¼º°ú´Â ÁÖ·Î ‘ºí·ÏÅ· ȯ°æ(blocking environment)’¿¡¼­ ³ªÅ¸³µ´Ù. ÀÌ °æ¿ì¿¡ ÇØ´ç ¸ðµ¨Àº '°üÂûÁßÀÎ »óÅÂ'¿Í '½ÇÇàÁßÀÎ ÀÛ¾÷' »çÀÌÀÇ ½Ã°£¿¡ '»óÅ º¯È­'°¡ ¾ø´Ù°í °¡Á¤ÇÑ´Ù.

¹Ý¸é ½ÇÁ¦ ‘µ¿½Ã ȯ°æ(concurrent environment)’¿¡¼­´Â ȯ°æ »óÅ°¡ ½Ç½Ã°£À¸·Î º¯ÇÒ ¼ö ÀÖ´Ù. °Ô´Ù°¡ ¿¡ÀÌÀüÆ®°¡ Ãʱ⿡ ÀÛ¾÷À» °è»êÇÑ ÈÄ¿¡ ȯ°æÀÌ º¯°æµÇ¸é ¼øÂ÷ÀûÀÎ ºí·ÏÅ· ¹æ½ÄÀ¸·Î ½ÇÇàµÈ ÀÛ¾÷ÀÌ ½ÇÆÐÇÒ ¼öµµ ÀÖ´Ù.

¡ã (a): 'ºí·ÏÅ·' ȯ°æ¿¡¼­ »óÅ ĸó ¹× Á¤Ã¥ À¯Ãß´Â Áï°¢ÀûÀÎ °ÍÀ¸·Î °¡Á¤µÈ´Ù. (b): 'µ¿½Ã' ȯ°æ¿¡¼­ »óÅ ĸó ¹× Á¤Ã¥ À¯Ãß´Â ÀÛ¾÷ ½ÇÇàÀ¸·Î µ¿½Ã¿¡ ÁøÇàÇÏ´Â °ÍÀ¸·Î °¡Á¤µÈ´Ù.

À̸¦ ÇØ°áÇϱâ À§Çؼ± ·Îº¿ÀÌ µ¿½Ã Á¦¾î·Î ÀÛµ¿Çϵµ·Ï ÇØ¾ß ÇÑ´Ù. ÀÌ °æ¿ì´Â Á¤Ã¥¿¡¼­ ÀÛ¾÷À» »ùÇøµÇÏ´Â °ÍÀÌ ½Ã°£ ÁøÈ­¿Í µ¿½Ã¿¡ ¼öÇàµÅ¾ß ÇÑ´Ù.

¡ã (a): 'ºí·ÏÅ·' MDP¿¡¼­ ¿¡ÀÌÀüÆ®°¡ ÇöÀç »óŸ¦ ±â·ÏÇÏ°í ÀÛ¾÷À» ¼±ÅÃÇÏ´Â µ¿¾È ȯ°æ »óÅ´ º¯°æµÇÁö ¾Ê´Â´Ù. (b): 'µ¿½Ã' MDP¿¡¼­ »óÅ ¹× µ¿ÀÛ ¿ªÇÐÀº ¿¬¼ÓÀûÀÎ ½Ã°£ È®·üÀû ÇÁ·Î¼¼½º s (t) ¹× a_i (t)´Ù.

¿¬±¸ÆÀÀº ÀÌ»ê ½Ã°£(discrete-time) ¹× ¿¬¼Ó ½Ã°£(continuous-time) ¼³Á¤¿¡¼­ Ç¥ÁØ RL ¹æ¹ýÀ» »ç¿ëÇß´Ù. ÀÌ¾î ¸¶¸£ÄÚºê ÀÇ»ç°áÁ¤ ÇÁ·Î¼¼½º(Markov Decision Processes·MDP)¸¦ µ¿½Ã µ¿ÀÛ¿¡ Àû¿ëÇß´Ù. ÀÌ °æ¿ì¿¡ µ¿½Ã µ¿ÀÛ È¯°æÀº ÀÌÀü µ¿ÀÛÀÌ ¿©ÀüÈ÷ ½ÇÇàµÇ°í ÀÖ´Â µ¿¾È¿¡µµ ÇöÀç »óŸ¦ ĸóÇÑ´Ù. ¿¬±¸ÆÀÀº MDP ¼öÁ¤ÀÌ µ¿½Ã ÀÛ¾÷À» ³ªÅ¸³»´Â µ¥ ÃæºÐÇÏ´Ù°í °á·ÐÀ» ³»·È´Ù.

¡ã ½Ã¹Ä·¹À̼ǰú ½ÇÁ¦ ·Îº¿ ÆÄÁö ÀÛ¾÷ »çÁø(»çÁø=½ÌÅ©µå)
¡ã ´ë±Ô¸ð ½Ã¹Ä·¹ÀÌ¼Ç ·Îº¿ ÆÄÁö °á°úÇ¥
¡ã ½ÇÁ¦ ·Îº¿ ÆÄÁö °á°úÇ¥

¿¬±¸ÆÀÀº µ¿½Ã ȯ°æ¿¡ ´ëó°¡ °¡´ÉÇÑ °¡Ä¡ ±â¹Ý(value-based) DRL ¾Ë°í¸®ÁòÀ» µµÀÔÇØ ‘´ë±Ô¸ð ·Îº¿ ÆÄÁö ÀÛ¾÷ ½Ã¹Ä·¹À̼ǒ°ú ‘½ÇÁ¦ ·Îº¿ ÆÄÁö ÀÛ¾÷’ Å×½ºÆ®¸¦ ÁøÇàÇß´Ù. Å×½ºÆ® °á°ú ½Ã¹Ä·¹ÀÌ¼Ç ÀÛ¾÷¿¡¼± À̹ø¿¡ °³¹ßÇÑ µ¿½Ã ¸ðµ¨ÀÌ ‘ºí·ÏÅ· ½ÇÇà ±âÁØ ¸ðµ¨(the blocking execution baseline model)’ º¸´Ù 31.3%³ª ºü¸£°Ô ÀÛµ¿Çß´Ù. ¶Ç ½ÇÁ¦ ÆÄÁö ÀÛ¾÷¿¡¼± µ¿½Ã ¸ðµ¨ÀÌ 49%³ª ºü¸¥ º¸´Ù ºÎµå·¯¿î Æ®·¡Á÷Å͸®(trajectory)¸¦ ÇнÀÇß´Ù´Â ¼³¸íÀÌ´Ù.

Á¶»óÇù  robot3@irobotnews.com
ÀÌ ±â»ç¿¡ ´ëÇÑ ´ñ±Û À̾߱â (0)
ÀÚµ¿µî·Ï¹æÁö¿ë Äڵ带 ÀÔ·ÂÇϼ¼¿ä!   
È®ÀÎ
- 200ÀÚ±îÁö ¾²½Ç ¼ö ÀÖ½À´Ï´Ù. (ÇöÀç 0 byte / ÃÖ´ë 400byte)
- ¿å¼³µî ÀνŰø°Ý¼º ±ÛÀº »èÁ¦ ÇÕ´Ï´Ù. [¿î¿µ¿øÄ¢]
ÀÌ ±â»ç¿¡ ´ëÇÑ ´ñ±Û À̾߱â (0)
Á¶»óÇùÀÇ ´Ù¸¥±â»ç º¸±â  
ÆùƮŰ¿ì±â ÆùÆ®ÁÙÀ̱â ÇÁ¸°Æ®Çϱ⠸ÞÀϺ¸³»±â ½Å°íÇϱâ
Æ®À§ÅÍ ÆäÀ̽ººÏ ±¸±Û+ ¹êµå µÚ·Î°¡±â À§·Î°¡±â
Àαâ±â»ç
1
·Îº¸Æ¼Áî, LGÀüÀÚ¿Í º»°Ý Çù·Â
2
¾Æ¸¶Á¸, À¯·´ ¹°·ù ÀÚµ¿È­¿¡ 1Á¶¿ø ÀÌ»ó ÅõÀÚ
3
ñé Àü±âÂ÷ ±â¾÷ ´Ï¿À, 'ÈÞ¸Ó³ëÀÌµå ·Îº¿' °³¹ß Àü´ãÆÀ ±¸¼º
4
±¹³» ÃÖ°íÀÇ ¼­ºñ½º ·Îº¿ È°¿ë º´¿ø 'ÇѸ²´ëÇб³¼º½Éº´¿ø'
5
º¸½ºÅÏ ´ÙÀ̳ª¹Í½º, Àü±â ±¸µ¿ ½ÅÇü ÈÞ¸Ó³ëÀ̵å '¾ÆƲ¶ó½º' °ø°³
6
·Îº¸¶ô, 2024³â Ç÷¡±×½Ê ¸ðµ¨ ¡®S8 ¸Æ½ºV ¿ïÆ®¶ó¡¯ Ãâ½Ã
7
¹Ì ½ºÅÄÆ÷µå´ë, '°Å¹Ì' ¸ð¹æ ¿ìÁÖ Å½»ç ·Îº¿ '¸®Ä¡º¿' °³¹ß
8
½ºÀ§½º Ã븮È÷ ¿¬¹æ°ø´ë, ¿ìÁÖ Å½»ç¿ë ·Îº¿ '½ºÆäÀ̽ºÈ£ÆÛ' °³¹ß
9
³ª¿ì·Îº¸Æ½½º, Áß±âºÎ ÀÎõ½Ã Áö¿ªÆ¯È­ÇÁ·ÎÁ§Æ® ·¹Àüµå50+ ¼±Á¤
10
'ÀþÀº ·Îº¿ °øÇÐÀÚ' (68) ETRI À±¿µ¿ì Ã¥ÀÓ¿¬±¸¿ø
·Îº¿½Å¹® ¼Ò°³¤ý±â»çÁ¦º¸¤ý±¤°í¹®ÀǤýºÒÆí½Å°í¤ý°³ÀÎÁ¤º¸Ãë±Þ¹æħ¤ýÀ̸ÞÀϹ«´Ü¼öÁý°ÅºÎ¤ýû¼Ò³âº¸È£Á¤Ã¥    £ª±¹Á¦Ç¥ÁØ°£Ç๰¹øÈ£ ISSN 2636-0381 £ªº»Áö´Â ÀÎÅͳݽŹ®À§¿øȸ ÀÚÀ²½ÉÀÇ Áؼö ¼­¾à»çÀÔ´Ï´Ù
08298) ¼­¿ï ±¸·Î±¸ °ø¿ø·Î 41(±¸·Îµ¿, Çö´ëÆÄÅ©ºô 526È£)  |  ´ëÇ¥ÀüÈ­ : 02)867-6200  |  Æѽº : 02)867-6203
µî·Ï¹øÈ£ : ¼­¿ï ¾Æ 02659  |  µî·ÏÀÏÀÚ : 2013.5.21  |  ¹ßÇàÀΡ¤ÆíÁýÀÎ : Á¶±Ô³²  |  Ã»¼Ò³âº¸È£Ã¥ÀÓÀÚ : ¹Ú°æÀÏ
Copyright © 2013 ·Îº¿½Å¹®»ç. All rights reserved. mail to editor@irobotnews.com