½º¸¶Æ®ÇÏ°í ¾ÈÀüÇÑ ÀΰøÁö´É(AI) ¿¬±¸°³¹ßÀ» À§ÇØ ¿°µÎ¿¡ µÎ¾î¾ß ÇÒ »çÇ×µéÀÌ ¹ßÇ¥µÅ °ü½ÉÀ» ²ö´Ù.
ÃÖ±Ù ±¸±Û, ¿ÀÇÂAI, ½ºÅÄÆ÷µå´ëÇÐ, ¹öŬ¸®´ëÇÐ µî 4°³ ±â°ü ¹× ´ëÇÐÀº ‘AI ¾ÈÀü¿¡ ÀÖ¾î¼ ½ÇÁúÀûÀÎ ¹®Á¦(Concrete Problems in AI Safety)’¶ó´Â ¿¬±¸ º¸°í¼¸¦ °øµ¿À¸·Î ¹ßÇ¥Çß´Ù.
29ÆäÀÌÁöÂ¥¸® ÀÌ º¸°í¼´Â ±â¾÷À̳ª ¿¬±¸¼Ò¿¡¼ AI ±â¼ú ¹× ½Ã½ºÅÛÀ» °³¹ßÇÒ ¶§ ¾î¶² Á¡À» ¿°µÎ¿¡ µÎ°í, ¾î¶² Áú¹®À» ½º½º·Î ÇؾßÇÏ´ÂÁö¸¦ 5°¡Áö·Î Á¤¸®Çß´Ù. °³¹ßÀÚµé·Î ÇÏ¿©±Ý ½ÇÁ¦ Å×½ºÆ®¿¡¼ Àû¿ëÇÒ ¼ö ÀÖ´Â ¸íÈ®ÇÏ°í ±¸Ã¼ÀûÀÎ Áú¹®À» ÅëÇØ AI °³¹ß°ú ÀÌ¿ëÀ» µÑ·¯½Ñ ¸·¿¬ÇÑ °ÅºÎ°¨À̳ª Ãß»óÀûÀÎ ¿ì·Á¸¦ ±Øº¹ÇÏ·Á´Â ½ÃµµÀÎ ¼ÀÀÌ´Ù.
ÀÌ º¸°í¼¸¦ ¿ä¾àÇØ ºí·Î±×¿¡ ¿Ã¸° ±¸±Û °³¹ßÀÚ Å©¸®½º ¿Ã¶ó(Chris Olah)´Â “ÀÌ 5°¡Áö°¡ ¿À´Ã³¯¿¡´Â ±×´ÙÁö Áß¿äÇÏ°Ô ´À²¸ÁöÁö ¾ÊÀ» ¼ö ÀÖÁö¸¸ ¹Ì·¡¸¦ À§Çؼ´Â ¸Å¿ì Áøº¸ÀûÀÌ°í Àå±âÀûÀΠȵΔ¶ó°í °Á¶Çß´Ù.
´Ù¼¸ °¡Áö´Â ´ÙÀ½°ú °°´Ù.
1)ºÎÁ¤ÀûÀÎ ºÎÀÛ¿ë ȸÇÇ(Avoiding Negative Side Effects): AI´Â ÀÓ¹«¸¦ ¿Ï·áÇÏ´Â µ¿¾È ÁÖº¯ ȯ°æÀ» ¹æÇØÇؼ´Â ¾ÈµÈ´Ù. û¼Ò¿ë ·Îº¿ÀÌ Ã»¼Ò¸¦ »¡¸® ³¡³»±â À§ÇØ Èº´À» ±ú¶ß¸®°Å³ª ȺÐÀ» ¸ÁÄ¡¸é ¾ÈµÇ´Â ÀÌÄ¡´Ù.
2)ÇØÅ· º¸»ó ȸÇÇ(Avoiding Reward Hacking): AI´Â ´ëÃæ ó¸®Çϰųª ²Ä¼ö¸¦ ºÎ¸®Áö ¸»°í ÁÖ¾îÁø ¿ªÇÒÀ» Á¦´ë·Î Ãæ½ÇÇÏ°Ô ÀÌÇàÇØ¾ß ÇÑ´Ù. °¡·É ±ú²ýÇÏ°Ô Ã»¼Ò¸¦ Çϱâ À§ÇØ ÀϺη¯ ¾²·¹±â·Î ÁÖº¯À» ¾îÁö·´°Ô ¸¸µé°í ³ª¼ û¼Ò¸¦ ¼öÇàÇÏ´Â ·Îº¿Àº ÃëÁö¿¡ ¸ÂÁö ¾Ê´Â´Ù.
3)È®À强ÀÖ´Â °ü¸®(Scalable Oversight): AIÀÇ È¿À²¼ºÀ» À§ÇØ Àΰ£ÀÇ ²÷ÀÓ¾ø´Â Çǵå¹éÀ̳ª ÀÎDzÀÌ ¿ä±¸µÅ¼´Â ¾ÈµÈ´Ù. °¡·É Àΰ£¿¡°Ô ÀÏÀÏÀÌ ¹¯°í Çǵå¹éÀ» ¹Þ±âº¸´Ù Àΰ£ÀÇ ¹ÝÀÀÀ» È°¿ëÇØ Ã³¸® ´É·ÂÀ» Çâ»ó½ÃÅ°µµ·Ï ÇÏ´Â ½ÄÀÌ µÇ¾î¾ß ÇÑ´Ù.
4)¾ÈÀüÇÑ Å½»ö(Safe Exploration): AI´Â ÇнÀÇϴµ¿¾È ½º½º·Î³ª ÁÖº¯ ȯ°æ¿¡ ¼Õ»óÀ» Áְųª ÇÇÇظ¦ ÀÔÇô¼´Â ¾ÈµÈ´Ù. °¡·É û¼Ò¿ë ·Îº¿ÀÌ Ã»¼Ò¸¦ ÇÒ ¶§ ¹°°É·¹·Î ÀüÀÚ±â±â¸¦ ´Û´Â ½Ãµµ¸¦ Çؼ´Â °ï¶õÇÏ´Ù.
5)ºÐ»ê º¯ÀÌ¿¡ ´ëÇÑ °ß°í¼º(Robustness to Distributional Shift): AI´Â »õ·Î¿î ȯ°æÀ» ÀνÄÇÒ ¼ö ÀÖ¾î¾ß ÇÏ°í ±× È¯°æ¿¡ ÀÚ¿¬½º·´°Ô ÀûÀÀÇÒ ¼ö ÀÖ¾î¾ß ÇÑ´Ù. °øÀå ÀÛ¾÷Àå¿¡ Àͼ÷ÇØÁ®ÀÖ´Â °æÇèÀ̶ó¸é »ç¹«½Ç °ø°£¿¡¼´Â ±×´ÙÁö ¾ÈÀüÇÏÁö ¾ÊÀ» ¼ö ÀÖ´Ù´Â Á¡À» ¿°µÎ¿¡ µÎ¾î¾ß ÇÑ´Ù. |