ºÎ¼ ¼Ò°³
ÀúÈñ ºÎ¼´Â HyperCLOVA ¹× Â÷¼¼´ë Omni(ÅØ½ºÆ®¡¤ºñÀü¡¤¿Àµð¿À) ¸ðµ¨À» ´ë±Ô¸ð Æ®·¡ÇÈ¿¡¼µµ ºü¸£°í ¾ÈÁ¤ÀûÀ¸·Î ¼ºùÇϱâ À§ÇÑ ÀÎÇÁ¶ó¸¦ ¸¸µé°í ÀÖ½À´Ï´Ù.
vLLMÀ» Áß½ÉÀ¸·Î sglang, TRT-LLM µî ÀÎÆÛ·±½º ¿£ÁøÀ» Ȱ¿ë¡¤°³¹ßÇϸç, prefix-aware routing, disaggregated serving, KV ij½Ã ¾ÆÅ°ÅØÃ³ µî ½Ã½ºÅÛ¡¤ÀÎÇÁ¶ó ·¹º§ ÃÖÀûȸ¦ ½ÇÁ¦ ¼ºñ½º¿¡ Àû¿ëÇÏ´Â °ÍÀ» ¸ñÇ¥·Î ÇÕ´Ï´Ù.
³í¹®°ú Ãֽбâ¼úÀ» ÀÐ°í ³¡³»Áö ¾Ê°í, PoC ¡æ ¼º´É °ËÁõ ¡æ ¼ºñ½º ¹Ý¿µ±îÁö °¡Á®°¡´Â ¿£Áö´Ï¾î¸¦ ã°í ÀÖ½À´Ï´Ù.
´ã´ç¾÷¹«
1. »ç³» LLM/Omni ¸ðµ¨ ÀÎÆÛ·±½º Ç÷§Æû °³¹ß¡¤¿î¿µ
• vLLM ±â¹Ý HyperCLOVA ¼ºù ¹× GPT-OSS µî ¿ÀǼҽº ¸ðµ¨ ¿Âº¸µù
• vLLM °ü·Ã À̽´ ºÐ¼®, ¹ö±× ¼öÁ¤ ¹× ¾÷½ºÆ®¸² ÄÁÆ®¸®ºä¼Ç
2. LLM ÀÎÆÛ·±½º ±â´É ¹× ¼º´É ÃÖÀûÈ
• speculative decoding, batching, streaming µî ÀÎÆÛ·±½º ÃÖÀûÈ ±â¹ý Àû¿ë
• agentic AI / tool calling µî °íµµÈµÈ LLM ±â´ÉÀ» À§ÇÑ ¼ºù ·ÎÁ÷ ¼³°è¡¤±¸Çö
3. Ŭ·¯½ºÅÍ¡¤Ä³½Ã ¾ÆÅ°ÅØÃ³ ¹× prefix-aware ¼ºù ¼³°è
• llm-d µî prefix-aware routing µµÀÔ ¹× KV cache Á¤Ã¥ ¼³°è
• ´Ù¾çÇÑ ¿öÅ©·Îµå¿¡ ¸Â´Â ½ºÄÉÁÙ¸µ¡¤Ä³½Ã Àü·«À» Àû¿ëÇØ Áö¿¬½Ã°£/ºñ¿ë ÃÖÀûÈ
4. Disaggregated serving ¹× ¸Þ¸ð¸® °èÃþÈ ÀÎÇÁ¶ó ¼³°è
• LMCache, Mooncake µî ±¸Á¶¸¦ Âü°íÇØ ¸ðµ¨¡¤KV¸¦ ºÐ¸®/°øÀ¯ÇÏ´Â ¼ºù ¾ÆÅ°ÅØÃ³ ¼³°è¡¤½ÇÇè
• GPU/CPU/¿ø°Ý KV µîÀÇ ¸Þ¸ð¸® °èÃþÀ» °í·ÁÇÑ ÀÎÆÛ·±½º ÀÎÇÁ¶ó ¼³°è
5. ÀÎÆÛ·±½º ½Ã½ºÅÛ ¸®¼Ä¡¡¤PoC ¹× ¼ºñ½º Àû¿ë
• KVFlow µî ÃֽŠ½Ã½ºÅÛ¡¤ÀÎÆÛ·±½º ³í¹®/·¹ÆÛ·±½º¸¦ ºÐ¼®Çϰí PoC ¼³°è
• ½ÇÇè °á°ú¸¦ ±â¹ÝÀ¸·Î ½ÇÁ¦ ¼ºñ½º ¾ÆÅ°ÅØÃ³¸¦ °³¼±Çϰí, ÇÊ¿ä ½Ã »ç³»/¿Ü °øÀ¯¡¤Á¤¸®
ÀÚ°Ý¿ä°Ç
• ¹é¿£µå/Ç÷§Æû/ML ÀÎÇÁ¶ó/LLM ÀÎÆÛ·±½º µî °ü·Ã ºÐ¾ß 3³â ÀÌ»ó ½Ç¹« °æÇè ¶Ç´Â ÀÌ¿¡ ÁØÇÏ´Â ´ë±Ô¸ð ½Ã½ºÅÛ/ÀÎÆÛ·±½º Ç÷§Æû °³¹ß °æÇèÀÌ ÀÖÀ¸½Å ºÐ
• Python ±â¹Ý ¼ºñ½º/Ç÷§Æû °³¹ß °æÇèÀÌ ÀÖÀ¸½Å ºÐ
• Docker ¹× Kubernetes µî ÄÁÅ×ÀÌ³Ê È¯°æ¿¡¼ÀÇ ¼ºñ½º ¿î¿µ °æÇèÀÌ ÀÖÀ¸½Å ºÐ
• PyTorch ±â¹Ý LLM ÀÎÆÛ·±½º ÆÄÀÌÇÁ¶óÀο¡ ´ëÇÑ ±âº» ÀÌÇØµµ°¡ ÀÖÀ¸½Å ºÐ
• KV cache, batching, token streaming µî °³³äÀ» ÀÌÇØÇϰųª ºü¸£°Ô ÇнÀÇÒ ¼ö ÀÖ´Â ´É·ÂÀ» º¸À¯ÇϽŠºÐ
• ¼º´É/¾ÈÁ¤¼º À̽´¸¦ ÁöÇ¥¿Í ÀçÇö °¡´ÉÇÑ ÇüÅ·ΠÁ¤ÀÇÇϰí, °³¼± ¹æÇâÀ» Á¦¾ÈÇÑ °æÇèÀÌ ÀÖÀ¸½Å ºÐ
• ¸®¼Ã³¡¤¼ºñ½ºÆÀ¡¤ÀÎÇÁ¶óÆÀ µî°ú ¿øÈ°È÷ Çù¾÷ÇÒ ¼ö ÀÖ´Â Ä¿¹Â´ÏÄÉÀÌ¼Ç ´É·ÂÀ» º¸À¯ÇϽŠºÐ
¿ì´ë»çÇ×
• vLLM, sglang, TRT-LLM µîÀÇ ½Ç»ç¿ë °æÇè ¶Ç´Â ¿ÀǼҽº ±â¿© °æÇèÀÌ ÀÖÀ¸½Å ºÐ
• prefix-aware routing, KV cache ÃÖÀûÈ, GPU/³ëµå ÀÚ¿ø È¿À² °³¼± °æÇèÀÌ ÀÖÀ¸½Å ºÐ
• ºñÀü/¿Àµð¿À µî ¸ÖƼ¸ð´Þ ÀÎÆÛ·±½º ÆÄÀÌÇÁ¶óÀÎ ¼³°è¡¤¿î¿µ °æÇèÀÌ ÀÖÀ¸½Å ºÐ
• LMCache, Mooncake, KVFlow µî ³í¹®/±â¼ú ·¹Æ÷Æ®¸¦ ½ÇÁ¦ PoC¡¤½ÇÇèÀ¸·Î ¿Å°Üº» °æÇèÀÌ ÀÖÀ¸½Å ºÐ
• ½Ã½ºÅÛ¡¤ML ½Ã½ºÅÛ °ü·Ã ¹ßÇ¥ ¶Ç´Â ¹®¼/³í¹® ÀÛ¼º °æÇèÀÌ ÀÖÀ¸½Å ºÐ
ÀüÇüÀýÂ÷ ¹× ±âŸ»çÇ×
[ÀüÇüÀýÂ÷]
¼·ùÀüÇü(±â¾÷¹®ÈÀûÇÕµµ °Ë»ç ¹× Á÷¹« Å×½ºÆ® Æ÷ÇÔ) ¢º 1Â÷ ÀÎÅÍºä ¢º ·¹ÆÛ·±½ºÃ¼Å© ¹× 2Â÷ ÀÎÅÍºä ¢º ó¿ìÇùÀÇ ¢º ÃÖÁ¾ÇÕ°Ý
¡Ø ÀüÇü ÀýÂ÷´Â ÀÏÁ¤ ¹× »óȲ¿¡ µû¶ó º¯µ¿ µÉ ¼ö ÀÖÀ¸¸ç, ÀüÇü º° °á°ú¿¡ µû¶ó ÀýÂ÷(Ãß°¡ ÀÎÅÍºä µî)°¡ Ãß°¡µÉ ¼ö ÀÖ½À´Ï´Ù.
¡Ø Á¤ÇØÁø °á°ú ¹ßÇ¥ ÀÏÁ¤Àº ¾øÀ¸¸ç, Áö¿ø¼ °ËÅä ÈÄ ¸éÁ¢ ÀÏÁ¤Àº ´ë»óÀÚ¿¡°Ô °³º°·Î ¾È³» µå¸± ¿¹Á¤ÀÔ´Ï´Ù.
[±Ù¹«Áö]
°æ±â ¼º³²½Ã ºÐ´ç±¸ ºÒÁ¤·Î 6 (±×¸°ÆÑÅ丮)
¡Ø ±Ù¹«Áö´Â ȸ»ç ³»ºÎ »çÁ¤¿¡ µû¶ó º¯µ¿µÉ ¼ö ÀÖ½À´Ï´Ù.