SKÅÚ·¹ÄÞ, ÃÊ´ëÇü AI ¸ðµ¨ ÇнÀ¡¤ÃÖÀûÈ­ ¿£Áö´Ï¾î °æ·Â ä¿ë ÁøÇà

SKÅÚ·¹ÄÞÀÌ ÃÊ´ëÇü AI ¸ðµ¨ÀÇ ÇнÀ°ú ÃÖÀûÈ­¸¦ Àü´ãÇÒ ¿£Áö´Ï¾î °æ·Â ä¿ëÀ» ÁøÇàÇÑ´Ù. À̹ø ä¿ëÀº Tech R&D ºÎ¹® ML/DL °³¹ß Á÷¹«·Î, ¼­¿ï T-Ÿ¿ö ±Ù¹«¸¦ ±â¹ÝÀ¸·Î ÇÑ Á¤±ÔÁ÷ ä¿ëÀÌ´Ù.

À̹ø¿¡ ä¿ëÇÏ´Â ¿£Áö´Ï¾î´Â ÃÊ´ëÇü Foundation ModelÀÇ »çÀüÇнÀ°ú Ãß·ÐÀ» À§ÇÑ GPU ¿¬»ê Ä¿³ÎÀ» ¼³°èÇϰí ÃÖÀûÈ­ÇÏ´Â ¿ªÇÒÀ» ¸Ã°Ô µÇ¸ç, ´ë±Ô¸ð ºÐ»ê ÇнÀ ¹× °­È­ÇнÀ ±â¹ÝÀÇ ÇнÀ ÆÄÀÌÇÁ¶óÀÎÀ» ¼³°èÇÏ°í °³¹ßÇÏ´Â ¾÷¹«µµ ÇÔ²² ´ã´çÇÏ°Ô µÈ´Ù. ºñµ¿±â ÇнÀ ¾ÆÅ°ÅØÃ³, Áï rollout-trainer ºÐ¸®³ª actor-learner ½ºÄÉÁÙ¸µ°ú °°Àº ±¸Á¶¸¦ ¿¬±¸ÇÏ°í ±¸ÇöÇÏ´Â Àϵµ Æ÷ÇԵǸç, quantization, kernel fusion, KV cache, paged attention µîÀ» Ȱ¿ëÇÑ °í¼Ó inference ÃÖÀûÈ­ ÀÛ¾÷µµ ¼öÇàÇÏ°Ô µÈ´Ù. ¿¬»ê-Åë½Å ¿À¹ö·¦À̳ª ¸Þ¸ð¸®¡¤´ë¿ªÆø È¿À²È­¸¦ ÅëÇØ ÇнÀ°ú ¼­ºù Àü¹ÝÀÇ throughput ¹× latency¸¦ °³¼±Çϰí, ÃֽŠÇнÀ ¾Ë°í¸®ÁòÀ» ¿¬±¸¡¤½ÇÇèÇÑ µÚ ÇÁ·Î´ö¼Ç ÇнÀ ½Ã½ºÅÛ¿¡ Àû¿ëÇÏ´Â °úÁ¤±îÁö °æÇèÇÏ°Ô µÈ´Ù.

Áö¿øÀ» À§Çؼ­´Â ÃÑ 3³â ÀÌ»óÀÇ °æ·ÂÀÌ ÇÊ¿äÇϸç, ÇзÂÀº ¹Ú»ç ÀÌ»óÀ̰ųª ¼®»ç ÀÌ»ó¿¡ °ü·Ã °æÇè 3³â ÀÌ»ó(ÇÐÀ§ ±â°£ Æ÷ÇÔ °¡´É)À» °®Ãá ºÐÀ¸·Î, AI¡¤CS¡¤Àü±âÀüÀÚ µî °ü·Ã Àü°øÀÚ¿©¾ß ÇÑ´Ù. ¶ÇÇÑ LLM ¶Ç´Â ´ë±Ô¸ð µö·¯´× ¸ðµ¨ÀÇ ÇнÀ¡¤Ãß·Ð °³¹ß °æÇè°ú Python¡¤PyTorch¡¤Linux ȯ°æ¿¡ ´ëÇÑ ¼÷·Ãµµ, ºÐ»ê ÇнÀ ȯ°æ °³¹ß °æÇèÀÌ Çʼö ÀÚ°Ý¿ä°ÇÀ¸·Î ¿ä±¸µÈ´Ù. ¿ì´ë»çÇ×À¸·Î´Â CUDA¡¤Triton¡¤CUTLASS µî GPU Ä¿³Î ·¹º§ ÃÖÀûÈ­ °æÇè, ´ë±Ô¸ð ºÐ»êÇнÀ(Megatron µî) ¹× °­È­ÇнÀ ÀÎÇÁ¶ó(RLHF¡¤RLAIF µî) °³¹ß °æÇè, Ray¿Í ºñµ¿±â¡¤À̺¥Æ® ±â¹Ý ºÐ»ê ½Ã½ºÅÛ ¼³°è °æÇè, vLLM¡¤SGLang¡¤TensorRT µî Ãß·Ð ¿£Áø ±â¿© ¶Ç´Â ½ÉÈ­ Ȱ¿ë °æÇèÀÌ ÀÖÀ¸¸ç, LLM pre-training ¶Ç´Â post-trainingÀ» Á÷Á¢ ¼öÇàÇÑ °æÇè, NeurIPS¡¤ICML¡¤ICLR¡¤MLSys µî °ü·Ã ºÐ¾ß top-tier ÇÐȸ ³í¹® °ÔÀç ÀÌ·Â, ¿ÀǼҽº ÇÁ·ÎÁ§Æ® ±â¿© °æÇèµµ ¿ì´ë ¿ä¼Ò·Î ¹Ý¿µµÈ´Ù.

À̹ø ä¿ëÀº Á¤±ÔÁ÷À¸·Î ¼­¿ï T-Ÿ¿ö¿¡¼­ ±Ù¹«ÇÏ°Ô µÇ¸ç, ÀüÇü ÀýÂ÷´Â ¼­·ùÀüÇü, ÄÚµù Å×½ºÆ®, 1Â÷ ¸éÁ¢, 2Â÷ ¸éÁ¢, HR°ËÁõ, ó¿ìÇùÀÇ, ÃÖÁ¾ÇÕ°Ý ¼øÀ¸·Î ÁøÇàµÈ´Ù. Áö¿ø ±â°£Àº 2026³â 5¿ù 26ÀϺÎÅÍ 6¿ù 25ÀÏ ¿ÀÈÄ 11½Ã 59ºÐ±îÁö·Î, ¼­·ù ÇÕ°ÝÀÚ¿¡ ÇÑÇØ ¸éÁ¢ ÀÏÁ¤ÀÌ °³º° ¾È³»µÉ ¿¹Á¤ÀÌ´Ù. ÀÚ¼¼ÇÑ ³»¿ëÀº 'SKÅÚ·¹ÄÞ'ÀÇ È¨ÆäÀÌÁö¿¡¼­ È®ÀÎÇÒ ¼ö ÀÖ´Ù.