AI ±â¹Ý ¿ÀÇÁ¶óÀÎ ¹æ¹®°´ ºÐ¼® ¼Ö·ç¼Ç ½ºÅ¸Æ®¾÷ÀÎ ¸ÞÀ̾ÆÀÌ(´ëÇ¥ ¹ÚÁØÇõ)°¡ ÄÄÇ»ÅÍ ºñÀü ¹× ÀÎ½Ä ºÐ¾ß ±¹Á¦ÄÁÆÛ·±½ºÀÎ CVPR(Conference on Computer Vision and Pattern Recognition, ÄÄÇ»ÅÍ ºñÀü ¹× ÆÐÅÏ ÀνÄ)¿¡ Á¦ÃâÇÑ ³í¹®ÀÌ Ã¤ÅõƴÙ.
À̹ø ¿¬±¸¿¡¼´Â AI¸¦ ÀÌ¿ëÇÑ »ç¶÷-»ç¹° ÀÎÅÍ·¢¼Ç(Human-Object Interaction, HOI) ÀÎ½Ä ±â¼ú°ú °ü·ÃµÈ °ÍÀ¸·Î, ÃÖ±Ù µé¾î °¢±¤¹Þ°í ÀÖ´Â ºñÀü Æ®·£½ºÆ÷¸Ó(Vision Transformer) °è¿ÀÇ ÀΰøÁö´É ¸ðµ¨ ±¸Á¶¸¦ HOI ºÐ¾ß¿¡ ÀÌ¿ëÇÒ ¶§ ±âÁ¸ ¿¬±¸µé¿¡¼ ¹ß»ýÇÏ´Â ¹®Á¦µéÀ» ÇØ°áÇÏ¿© ´õ ³ôÀº ¼º´ÉÀ» ³»µµ·Ï ÇÏ´Â »õ·Î¿î ¸ðµâ ¹× ±¸Á¶¸¦ Á¦¾ÈÇß´Ù. ºñÀü Æ®·£½ºÆ÷¸Ó ¸ðµ¨À̶õ ÀÚ¿¬¾îó¸® ºÐ¾ß¿¡¼ ¼Ò°³µÈ ÃÖ°í ¼öÁØÀÇ °á°ú¸¦ ´Þ¼ºÇÑ ÃÖ½ÅÀÇ ¾îÅÙ¼Ç ±â¹Ý(attention-based) Æ®·£½º Æ÷¸Ó ¸ðµ¨À» ÄÄÇ»ÅÍ ºñÀü ºÐ¾ß¿¡ Àû¿ëÇÑ ¸ðµ¨ÀÌ´Ù.
ºñÀü Æ®·£½ºÆ÷¸Ó¸¦ HOI ºÐ¾ß¿¡ Á÷Á¢ Àû¿ëÇÏ°Ô µÇ¸é ºñÀü Æ®·£½ºÆ÷¸ÓÀÇ À̹ÌÁö ÆÐÄ¡ °ÝÀÚ ºÐÇÒ ±¸Á¶¿Í »ç¶÷-»ç¹°ÀÇ À§Ä¡ Á¤º¸ °£ Á¤·ÄÀÇ ºÒÀÏÄ¡°¡ ÀϾ ÀÌÈÄ ¿¬»ê¿¡ ¾Ç¿µÇâÀ» ¹ÌÄ¡°Ô µÈ´Ù. ¸ÞÀ̾ÆÀÌ ¿¬±¸ÁøÀº ÀÌ ¹®Á¦¸¦ ÇØ°áÇϱâ À§ÇØ MOA(Masking with Overlapped Area)¶ó°í À̸§ ºÙÀÎ »õ·Î¿î ±¸Á¶ÀÇ ¸ðµâÀ» Á¦¾ÈÇÏ°í, ±âÁ¸ ±×·¡ÇÁ ´º·² ³×Æ®¿öÅ©¸¦ °³¼±ÇÏ¿© ¼¼°è ÃÖ°í ¼öÁØÀÇ ¼º´ÉÀ» ´Þ¼ºÇß´Ù°í ¹àÇû´Ù.
¹ÚÁØÇõ ¸ÞÀ̾ÆÀÌ ´ëÇ¥´Â “¸ÞÀ̾ÆÀÌÀÇ À̹ø ¿¬±¸ ¹× ³í¹® ¹ßÇ¥´Â ÀΰøÁö´É ±â¹Ý ¿ÀÇÁ¶óÀÎ ¹æ¹®°´ ºÐ¼® ¼Ö·ç¼Ç mAsh(¸Å½¬) Á¦Ç°À» °íµµÈÇÏ´Â °úÁ¤¿¡¼ ¹ß»ýÇÏ´Â ½ÇÁúÀûÀÎ ´ÏÁ ÇØ°áÇϱâ À§ÇØ ½ÃÀÛÇÑ ¿¬±¸°¡ ¿Ï¼ºµÈ °á°ú”¶ó¸ç, “Àΰø Áö´É ÄÄÇ»ÅÍ ºñÀü ºÐ¾ß¿¡¼ R&D ¿ª·®À» °è¼ÓÇؼ ½×¾Æ ¼¼°èÀûÀÎ ÇÐȸ¿¡¼ ²ÙÁØÈ÷ ¼º°ú¸¦ ¾Ë¸®¸ç ´ç»çÀÇ AI ±â¼ú ¹× ¼Ö·ç¼ÇÀ» Áö¼ÓÀûÀ¸·Î °íµµÈ Çسª°¥ °Í"À̶ó°í ¹àÇû´Ù.
|
|
|
¡ã ¹ÚÁö½Â ¿¬±¸¿ø |
À̹ø ¿¬±¸´Â ¸ÞÀ̾ÆÀÌÀÇ ¹ÚÁö½Â ¿¬±¸¿ø, ¹ÚÁø¿ì ¼ö¼®¿¬±¸¿ø µîÀÌ Âü¿©Çß´Ù. ¹ÚÁø¿ì ¼ö¼®¿¬±¸¿øÀº “AI¸¦ È°¿ëÇØ ´õ ´Ù¾çÇÑ Á¾·ùÀÇ ±â´ÉÀ» °í°´¿¡°Ô Á¦°øÇϱâ À§ÇØ ³ë·ÂÇÑ °úÁ¤¿¡¼ ¼¼°èÀûÀ¸·Î ÀÎÁ¤¹ÞÀ» ¼ö ÀÖ´Â ¿¬±¸ ¼º°ú¸¦ ³»¾î ±â»Ú´Ù”¸ç, “À̹ø ¿¬±¸¸¦ ±â¹ÝÀ¸·Î ½ÇÁ¦ Á¦Ç°¿¡ HOI ±â¼úÀ» ±â¹ÝÀ¸·Î ÇÑ ºÐ¼® ±â´ÉÀ» žÀçÇÏ¿© °í°´¿¡°Ô »õ·Î¿î °¡Ä¡¸¦ Á¦°øÇÒ ¼ö ÀÖÀ» °ÍÀ¸·Î ±â´ëÇÏ°í ÀÖ´Ù”°í ¸»Çß´Ù.
CVPRÀº ¸Å³â 6¿ù Àü ¼¼°èÀûÀ¸·Î À¯¸íÇÑ ÄÄÇ»ÅÍ ºñÀü ¹× ÆÐÅÏ ÀÎ½Ä ºÐ¾ßÀÇ ¿¬±¸ÀÚµéÀÌ Âü°¡ÇÏ´Â ´ë±Ô¸ð Çмú ´ëȸ¸¦ ¿°í ÀÖ´Ù. CVPR 2023Àº ¿À´Â 6¿ù 18ÀϺÎÅÍ 22ÀϱîÁö ij³ª´Ù ¹êÄí¹ö ÄÁº¥¼Ç ¼¾ÅÍ¿¡¼ ¿¸°´Ù. |