[NAVER Cloud] HyperCLOVA X Multimodal LLM ¸ðµ¨ °³¹ß (üÇèÇü ÀÎÅÏ)
ºÎ¼¼Ò°³
ÀúÈñ ºÎ¼´Â HyperCLOVA¸¦ ±â¹ÝÀ¸·Î À̹ÌÁö¿Í ºñµð¿À µî ¸ÖƼ¸ð´Þ ±â´É È®ÀåÀ» À§ÇÑ ¾ÆÅ°ÅØÃ³ ¼³°è ¹× ¸ðµ¨ »ý»êÀ» ´ã´çÇϰí ÀÖ½À´Ï´Ù. 2024³â 9¿ù ±¹³» ÃÖÃÊ·Î HyperCLOVA X¿¡ Vision LLM ±â´ÉÀ» µµÀÔÇØ ¼ºñ½º¸¦ ½ÃÀÛÇÏ¿´°í, 2025³â 4¿ù¿¡´Â ´ëÇѹα¹ AI »ýŰ踦 À§ÇØ »ó¾÷¿ë ¿ÀǼҽº AI ¸ðµ¨À» °ø°³Çϱ⵵ Çß½À´Ï´Ù. ±Û·Î¹ú ºòÅ×Å© ±â¾÷µé°ú °æÀïÇÏ´Â °ÍÀÌ ¾î·Á¿î °úÁ¦ÀÓÀº ºÐ¸íÇÏÁö¸¸, ³×À̹öÀÇ ¹æ´ëÇÑ µ¥ÀÌÅÍ¿Í HyperCLOVAÀÇ ¿î¿µ °æÇè, ±×¸®°í ¿ì¼öÇÑ ÀÎÀç Ç®ÀÌ Àֱ⿡ °¡Ä¡ ÀÖ´Â µµÀüÀ̶ó°í »ý°¢ÇÕ´Ï´Ù. ¾ÕÀ¸·Î ³²¾ÆÀÖ´Â AIÀÇ ¿©·¯ challenges Áß¿¡ Physical AI ´Â ÀÌÁ¦ ´õ ÀÌ»ó ´Ü¼øÇÑ hype ¹®±¸°¡ ¾Æ´Õ´Ï´Ù. Vision Understanding¿¡¼ ¹ßÀüÇÑ Real time video understandingÀº VLA ¸¦ ÅëÇÏ¿© Á¶¸¸°£ Physical AI ¿¡ µµ´ÞÇÒ ¼ö ÀÖ´Ù°í ¹Ï½À´Ï´Ù. µµÀüÀûÀÎ ¿©Á¤¿¡ ÇÔ²²ÇÒ ¿©·¯ºÐµéÀ» ¸ð½Ê´Ï´Ù.
´ã´ç¾÷¹«
• Vision Language Model ÀÇ ÁÖ±âÀûÀÎ ´ë±Ô¸ð ¸ðµ¨ ÇнÀ °øÁ¤
• Vision MoE, CoT µî ¾ÆÅ°ÅØÃ³ ¹× ±â¼ú Ž»ö
• Video µîÀÇ »õ·Î¿î ¸ð´Þ¸®Æ¼ ¹× VLA, Computer-Use µîÀÇ Ãß°¡ ½Ã³ª¸®¿À ´ëÀÀ
• Vision MoE, Vision-RLHF
• ÀÚ¿øÈ¿À²È¸¦ À§ÇÑ Token È¿À²È ¹× Architecture Ablation
• °³¼±µÈ ¾ÆÅ°ÅØÃ³ÀÇ °³¹ß ¹× PoC
Áö¿øÀÚ°Ý
• ±¹³»/¿Ü Á¤±Ô´ëÇÐ(Çлç) ÀçÇлý ¶Ç´Â ±× ÀÌ»óÀÇ ÇзÂÀ» º¸À¯ÇϽŠºÐ(±âÁ¹¾÷ÀÚ Áö¿ø °¡´É)
• ÀÎÅÏ½Ê ±â°£(¾à 3°³¿ù) µ¿¾È Full-Time ±Ù¹«°¡ °¡´ÉÇϽŠºÐ
• Vision Language Model (LLaVA, Qwen VL, DeepSeek VL)¿¡ ´ëÇÑ ±âº»ÀûÀÎ Áö½Ä ¹× ÇнÀ °úÁ¤¿¡ ´ëÇÑ ±¸Ã¼ÀûÀÎ ÀÌÇØµµ¸¦ °®Ã߽ŠºÐ
• Distributed Training¿¡ ´ëÇÑ ÀÌÇØµµ¸¦ °®Ã߽ŠºÐ
• Python Ȱ¿ë ´É·ÂÀ» º¸À¯ÇϽŠºÐ