[NAVER Cloud] Multimodal Backbone Model (üÇèÇü ÀÎÅÏ)
ºÎ¼¼Ò°³
ÀúÈñ ºÎ¼´Â HyperCLOVA ¸¦ ±â¹ÝÀ¸·Î, À̹ÌÁö¿Í ºñµð¿À µîÀÇ Multimodal ±â´É È®ÀåÀ» À§ÇÑ ¾ÆÅ°ÅØÃ³ ¼³°è ¹× ¸ðµ¨ »ý»êÀ» ´ã´çÇϰí ÀÖ½À´Ï´Ù. ÀÔÃâ·Â Ãø¸é¿¡¼ Any to Any ±îÁöÀÇ È®ÀåÀ» ¸ñÇ¥·Î Çϰí ÀÖÀ¸¸ç, 2024³â 9¿ù Çѱ¹ ÃÖÃÊ·Î Vision LLM ±â´ÉÀ» HyperCLOVA X ¿¡ ¼ºñ½º ½ÃÀÛÇÏ¿´½À´Ï´Ù. ¶ÇÇÑ ¿ÃÇØ 4¿ù¿¡´Â ´ëÇѹα¹ AI »ýŰ踦 À§ÇÏ¿© ±¹³» ÃÖÃÊ·Î »ó¾÷¿ë ¿ÀǼҽº AI ¸ðµ¨À» °ø°³ÇÏ¿´½À´Ï´Ù. (¸µÅ©)
Global Frontier Big Tech ¿Í °æÀïÇϱâ À§ÇØ NAVER ÀÇ ÀÚ»êÀÎ µ¥ÀÌÅÍ¿Í HyperCLOVA °æÇè, ±×¸®°í ¿ì¼öÇÑ ÀÎÀç Ç®À» ¹ÙÅÁÀ¸·Î ´Ù¾çÇÑ ÇÁ·ÎÁ§Æ®¿¡ µµÀüÇϰí ÀÖ½À´Ï´Ù. Pretrained Language Model ·Î Ãâ¹ßÇÏ¿© Supervised Fine Tuning À» ÅëÇÑ Vision °ü·Ã ´É·ÂÀ» Ãß°¡ÇÏ´Â ÇüÅÂÀÇ pipeline Àº ÀϹÝÀûÀ¸·Î Àß ¾Ë·ÁÁ® ÀÖ´Â ÇüÅÂÀÇ VLM »ý»ê °øÁ¤ÀÔ´Ï´Ù. ±×·¯³ª Pretrain ´Ü°èºÎÅÍ ¿©·¯ Modality µéÀ» ÅëÇÕ ÇнÀÇÏ¿© ±Ùº»ÀûÀÎ Vision °ü·Ã ¿ª·®À» ²ø¾î¿Ã¸®´Â Omni ÇüÅÂÀÇ Training ÀÇ °æ¿ì ½ÇÁ¦ È¿°ú¿¡ ´ëÇÑ Ablation ³»¿ëÀÌ °ø°³µÇ¾î ÀÖÁö ¾ÊÀº ½ÇÁ¤ÀÔ´Ï´Ù. ÀúÈñ´Â Vision Foundation Model ·Î¼ Àü¹ÝÀû ¼º´É Çâ»óÀ» ¸ñÀûÀ¸·Î ´õ ³ªÀº Multimodal Backbone À» »ý»êÇϱâ À§ÇØ ³ë·ÂÇϰí ÀÖ½À´Ï´Ù.
´ã´ç¾÷¹«
Multimodal Pretraining : °æÀï»ç ¼öÁØÀÇ ÇнÀ·®¿¡ µµ´ÞÇÏ´Â MoE ±â¹ÝÀÇ Multimodal Backbone Model À» È®º¸ÇÏ¿© ÃÖÁ¾ ¼º´É Çâ»ó¿¡ À¯ÀǹÌÇÑ ¿µÇâ
• Hyperscale ±Ô¸ðÀÇ GPU ÀÚ¿ø (InfiniBand ·Î ¹ÀÎ GPU Cluster)À» Ȱ¿ëÇÑ Multimodal Backbone¿¡ Vision ¹× Audio ´É·Â Ãß°¡¸¦ À§ÇÑ ¸ðµ¨ ÇнÀ
• Hyperscale ±Ô¸ðÀÇ GPU ÀÚ¿øÀ» Ȱ¿ëÇÑ Backbone »ý»êÀ» À§ÇÑ FW µµÀÔ°ú °ü·ÃµÈ Engineering
• ´Ù¾çÇÑ Multimodal BackboneÀÌ ÃÖÁ¾ ¸ðµ¨ ¼º´É¿¡ ¹ÌÄ¡´Â ¿µÇâ Ž»ö
• È¿°úÀûÀÎ Pretraining Recipe Ž»ö°ú Pretraining Data ¿¡ ´ëÇÑ Curation ¹× Filtering ÀÛ¾÷
• Distributed Training(FSDP, Zero, Megatron), Sequence Packing, Sequence Paralle µî ÇнÀ È¿À² °³¼±À» À§ÇÑ Àû¿ë ¹× °³¹ß