ºÎ¼¼Ò°³
ÀúÈñ ºÎ¼´Â HyperCLOVA ¸¦ ±â¹ÝÀ¸·Î, À̹ÌÁö¿Í ºñµð¿À µîÀÇ Multimodal µµ¸ÞÀÎÀ¸·ÎÀÇ ±â´É È®ÀåÀ» À§ÇÑ ¾ÆÅ°ÅØÃ³ ¼³°è ¹× ¸ðµ¨ »ý»êÀ» ´ã´çÇÏ´Â ÆÀ ÀÔ´Ï´Ù. ÃÖÁ¾ÀûÀ¸·Î´Â Native Multimodal ¹× ÀÔÃâ·Â Ãø¸é¿¡¼ Any to Any ±îÁöÀÇ È®ÀåÀ» ¸ñÇ¥·Î Çϰí ÀÖ½À´Ï´Ù.
2024³â 9¿ù Çѱ¹ ÃÖÃÊ·Î Vision LLM ±â´ÉÀ» HyperCLOVA X ¿¡ ¼ºñ½º ½ÃÀÛÇÏ¿´°í ƯÈ÷ ¿ÃÇØ 4¿ù¿¡´Â ´ëÇѹα¹ AI »ýŰ踦 À§ÇÏ¿© ¿ª½Ã ±¹³» ÃÖÃÊ·Î »ó¾÷¿ë ¿ÀǼҽº AI ¸ðµ¨À» °ø°³Çß½À´Ï´Ù(¸µÅ©). Global Frontier Big Tech ¿Í °æÀïÇϱâ À§ÇØ NAVERÀÇ ÀÚ»êÀÎ µ¥ÀÌÅÍ¿Í ±â¼ú Ãø¸é¿¡¼ ¿À·§µ¿¾È ÃàÀûµÈ °æÇè°ú ¿ì¼öÇÑ ÀÎÀ縦 ¹ÙÅÁÀ¸·Î ´Ù¾çÇÑ ÇÁ·ÎÁ§Æ®¿¡ µµÀüÇϰí ÀÖ½À´Ï´Ù.
´ã´ç¾÷¹«
Vision Language Model °³¹ß: Multimodal È®ÀåÀ» À§ÇÑ È¿°úÀûÀÎ Architecture ¿Ï¼º ¹× Benchmark Àü¹Ý¿¡ ´ëÇÑ µ¿ÀÏ ÇнÀ ¼öÁØ °æÀï ¸ðµ¨ ´ëºñ ¿ìÀ§ ´Þ¼º
• Real-time streaming/efficient multimodal understanding¸¦ À§ÇÑ multimodal (vision) encoding ¿¡ ´ëÇÑ ½ÇÁõÀûÀÎ architecture design
• Distributed Training(FSDP, Zero), Sequence Packing, Sequence Parallel µî VLM ÇнÀ È¿À² °³¼±À» À§ÇÑ ±â¼ú stack Àû¿ë ¹× °³¹ß
• Ãß°¡ÀûÀÎ Modality(Audio i/o, Image Video o) È®ÀåÀ» À§ÇÑ À¯°üºÎ¼ communication
• Hyperscale ±Ô¸ðÀÇ GPU ÀÚ¿ø (IF ·Î ¹ÀÎ GPU Cluster)¿¡¼ÀÇ VLM Ablation, ÇнÀ ¹× »ý»ê
• Public Benchmark SOTA ´Þ¼ºÀ» À§ÇÑ Small Scale Ablation ¹× ºÐ¼®
Multimodal Pretraining: °æÀï»ç ¼öÁØÀÇ ÇнÀ·®¿¡ µµ´ÞÇÏ´Â Vision Backbone Model È®º¸ ¹× ÃÖÁ¾ ¼º´É Çâ»ó. Omni modality·ÎÀÇ È®Àå
• Hyperscale ±Ô¸ðÀÇ GPU ÀÚ¿ø (InfiniBand ·Î ¹ÀÎ GPU Cluster)À» Ȱ¿ëÇÑ Multimodal Backbone¿¡ Vision ´É·Â Ãß°¡¸¦ À§ÇÑ ¸ðµ¨ ÇнÀ
• Hyperscale ±Ô¸ðÀÇ GPU ÀÚ¿øÀ» Ȱ¿ëÇÑ Backbone »ý»êÀ» À§ÇÑ FW µµÀÔ°ú °ü·ÃµÈ Engineering
• ´Ù¾çÇÑ Multimodal Backbone ÀÌ ÃÖÁ¾ ¸ðµ¨ÀÇ ¼º´É¿¡ ¹ÌÄ¡´Â ¿µÇâ Ž»ö
• È¿°úÀûÀÎ Pretraining Recipe Ž»ö°ú Pretraining Data ¿¡ ´ëÇÑ Curation ¹× Filtering ÀÛ¾÷
• Distributed Training(FSDP, Zero, Megatron), Sequence Packing, Sequence Paralle µî VLM ÇнÀ È¿À² °³¼±À» À§ÇÑ Àû¿ë ¹× °³¹ß
ÀÚ°Ý¿ä°Ç
• ¹Ú»ç ÇÐÀ§ º¸À¯ÀÚ È¤Àº 2³â ÀÌ»óÀÇ À¯°ü ¾÷¹« °æ·ÂÀ» º¸À¯ÇϽŠºÐ
• VLM (LLaVA, Qwen VL, DeepSeek VL µî)ÀÇ ±¸Á¶ ¹× ÇнÀ °úÁ¤¿¡ ´ëÇÑ »ó¼¼ÇÑ ÀÌÇØ¿Í ÇнÀ °æÇè ¹× Code Level °æÇèÀ» º¸À¯ÇϽŠºÐ
• Distributed Training ¹× ¸ðµ¨ °¡¼Ó¿¡ ´ëÇÑ ÀÌÇØ ¶Ç´Â °æÇè (DeepSpeed Zero, Megatron, Nemo, vLLM, sglang µî)À» º¸À¯ÇϽŠºÐ
• °¢ ÇнÀ ´Ü°è º° Vision LLM µ¥ÀÌÅÍÀÇ Æ¯¼º, Á¾·ù¿¡ ´ëÇÑ ÀÌÇØ°¡ ÀÖÀ¸½Å ºÐ
• Python ¹× LLM °³¹ß °ü·Ã Library, FW, Platform(Pytorch, Hugging Face) Ȱ¿ë ´É·ÂÀ» º¸À¯ÇϽŠºÐ
¿ì´ë»çÇ×
• »ó¿ë ¼öÁØÀÇ Vision Language Model °³¹ß °æÇèÀ» º¸À¯ÇϽŠºÐ
• ´ë±Ô¸ð GPU Infra ¿î¿ë °æÇè (Multinode, Slurm, K8S)À» º¸À¯ÇϽŠºÐ
• Top-tier ³í¹® 1ÀúÀÚ ÀÌ·ÂÀÌ ÀÖÀ¸½Å ºÐ
• LLM, VLM °ü·Ã ÇÐÀ§¸¦ º¸À¯ÇϽŠºÐ
• LLM, VLM °ü·Ã Challenge Âü°¡ °æÇè ¶Ç´Â »óÀ§ ÀÔ»ó °æÇèÀ» º¸À¯ÇϽŠºÐ
• ÃÖ¼Ò 3°³¿ù ÀÌ»ó ¼Ò¿äµÈ ÆÀ ÇÁ·ÎÁ§Æ®¸¦ ¼º°øÀûÀ¸·Î ¿Ï·áÇÑ °æÇè°ú ÇØ´ç ÇÁ·ÎÁ§Æ®¸¦ ¼º°øÀ¸·Î À̲ö µ¥¿¡ ±â¿©µµ°¡ ³ôÀ¸½Å ºÐ
• »ó±â ´ã´ç¾÷¹« Áß Çϳª¸¦ ÁøÇàÇÔ¿¡ ÀÖ¾î ÃÖ°í ¼öÁØÀÇ ¿ª·®À» º¸À¯ÇϽŠºÐ
ÀüÇüÀýÂ÷ ¹× ±âŸ»çÇ×
[ÀüÇüÀýÂ÷]
¼·ù ÀüÇü(±â¾÷¹®ÈÀûÇÕµµ °Ë»ç ¹× Á÷¹« Å×½ºÆ® Æ÷ÇÔ) ¢º 1Â÷ ÀÎÅÍºä ¢º ·¹ÆÛ·±½ºÃ¼Å© ¹× 2Â÷ ÀÎÅÍºä ¢º ó¿ìÇùÀÇ ¢º ÃÖÁ¾ÇÕ°Ý
¡Ø 1Â÷ ÀÎÅͺä ÀüÇü¿¡ Job Talk ¹× ³í¹® ¼¼¹Ì³ª°¡ Æ÷Ç﵃ ¼ö ÀÖ½À´Ï´Ù.
¡Ø ÀüÇü ÀýÂ÷´Â ÀÏÁ¤ ¹× »óȲ¿¡ µû¶ó º¯µ¿ µÉ ¼ö ÀÖÀ¸¸ç, ÀüÇü º° °á°ú¿¡ µû¶ó ÀýÂ÷(Ãß°¡ ÀÎÅÍºä µî)°¡ Ãß°¡µÉ ¼ö ÀÖ½À´Ï´Ù.
¡Ø Á¤ÇØÁø °á°ú ¹ßÇ¥ ÀÏÁ¤Àº ¾øÀ¸¸ç, Áö¿ø¼ °ËÅä ÈÄ ¸éÁ¢ ÀÏÁ¤Àº ´ë»óÀÚ¿¡°Ô °³º°·Î ¾È³» µå¸± ¿¹Á¤ÀÔ´Ï´Ù.
[±Ù¹«Áö]
°æ±â ¼º³²½Ã ºÐ´ç±¸ ºÒÁ¤·Î 6 (±×¸°ÆÑÅ丮)
¡Ø ±Ù¹«Áö´Â ȸ»ç ³»ºÎ »çÁ¤¿¡ µû¶ó º¯µ¿µÉ ¼ö ÀÖ½À´Ï´Ù.