ºÎ¼­ ¼Ò°³ ÀúÈñ ºÎ¼­´Â HyperCLOVA ¹× Â÷¼¼´ë Omni(ÅØ½ºÆ®¡¤ºñÀü¡¤¿Àµð¿À) ¸ðµ¨À» ´ë±Ô¸ð Æ®·¡ÇÈ¿¡¼­µµ ºü¸£°í ¾ÈÁ¤ÀûÀ¸·Î ¼­ºùÇϱâ À§ÇÑ ÀÎÇÁ¶ó¸¦ ¸¸µé°í ÀÖ½À´Ï´Ù. vLLMÀ» Áß½ÉÀ¸·Î sglang, TRT-LLM µî ÀÎÆÛ·±½º ¿£ÁøÀ» Ȱ¿ë¡¤°³¹ßÇϸç, prefix-aware routing, disaggregated serving, KV ij½Ã ¾ÆÅ°ÅØÃ³ µî ½Ã½ºÅÛ¡¤ÀÎÇÁ¶ó ·¹º§ ÃÖÀûÈ­¸¦ ½ÇÁ¦ ¼­ºñ½º¿¡ Àû¿ëÇÏ´Â °ÍÀ» ¸ñÇ¥·Î ÇÕ´Ï´Ù. ³í¹®°ú Ãֽбâ¼úÀ» ÀÐ°í ³¡³»Áö ¾Ê°í, PoC ¡æ ¼º´É °ËÁõ ¡æ ¼­ºñ½º ¹Ý¿µ±îÁö °¡Á®°¡´Â ¿£Áö´Ï¾î¸¦ ã°í ÀÖ½À´Ï´Ù. ´ã´ç¾÷¹« 1. »ç³» LLM/Omni ¸ðµ¨ ÀÎÆÛ·±½º Ç÷§Æû °³¹ß¡¤¿î¿µ • vLLM ±â¹Ý HyperCLOVA ¼­ºù ¹× GPT-OSS µî ¿ÀǼҽº ¸ðµ¨ ¿Âº¸µù • vLLM °ü·Ã À̽´ ºÐ¼®, ¹ö±× ¼öÁ¤ ¹× ¾÷½ºÆ®¸² ÄÁÆ®¸®ºä¼Ç 2. LLM ÀÎÆÛ·±½º ±â´É ¹× ¼º´É ÃÖÀûÈ­ • speculative decoding, batching, streaming µî ÀÎÆÛ·±½º ÃÖÀûÈ­ ±â¹ý Àû¿ë • agentic AI / tool calling µî °íµµÈ­µÈ LLM ±â´ÉÀ» À§ÇÑ ¼­ºù ·ÎÁ÷ ¼³°è¡¤±¸Çö 3. Ŭ·¯½ºÅÍ¡¤Ä³½Ã ¾ÆÅ°ÅØÃ³ ¹× prefix-aware ¼­ºù ¼³°è • llm-d µî prefix-aware routing µµÀÔ ¹× KV cache Á¤Ã¥ ¼³°è • ´Ù¾çÇÑ ¿öÅ©·Îµå¿¡ ¸Â´Â ½ºÄÉÁÙ¸µ¡¤Ä³½Ã Àü·«À» Àû¿ëÇØ Áö¿¬½Ã°£/ºñ¿ë ÃÖÀûÈ­ 4. Disaggregated serving ¹× ¸Þ¸ð¸® °èÃþÈ­ ÀÎÇÁ¶ó ¼³°è • LMCache, Mooncake µî ±¸Á¶¸¦ Âü°íÇØ ¸ðµ¨¡¤KV¸¦ ºÐ¸®/°øÀ¯ÇÏ´Â ¼­ºù ¾ÆÅ°ÅØÃ³ ¼³°è¡¤½ÇÇè • GPU/CPU/¿ø°Ý KV µîÀÇ ¸Þ¸ð¸® °èÃþÀ» °í·ÁÇÑ ÀÎÆÛ·±½º ÀÎÇÁ¶ó ¼³°è 5. ÀÎÆÛ·±½º ½Ã½ºÅÛ ¸®¼­Ä¡¡¤PoC ¹× ¼­ºñ½º Àû¿ë • KVFlow µî ÃֽŠ½Ã½ºÅÛ¡¤ÀÎÆÛ·±½º ³í¹®/·¹ÆÛ·±½º¸¦ ºÐ¼®Çϰí PoC ¼³°è • ½ÇÇè °á°ú¸¦ ±â¹ÝÀ¸·Î ½ÇÁ¦ ¼­ºñ½º ¾ÆÅ°ÅØÃ³¸¦ °³¼±Çϰí, ÇÊ¿ä ½Ã »ç³»/¿Ü °øÀ¯¡¤Á¤¸® ÀÚ°Ý¿ä°Ç • ¹é¿£µå/Ç÷§Æû/ML ÀÎÇÁ¶ó/LLM ÀÎÆÛ·±½º µî °ü·Ã ºÐ¾ß 3³â ÀÌ»ó ½Ç¹« °æÇè ¶Ç´Â ÀÌ¿¡ ÁØÇÏ´Â ´ë±Ô¸ð ½Ã½ºÅÛ/ÀÎÆÛ·±½º Ç÷§Æû °³¹ß °æÇèÀÌ ÀÖÀ¸½Å ºÐ • Python ±â¹Ý ¼­ºñ½º/Ç÷§Æû °³¹ß °æÇèÀÌ ÀÖÀ¸½Å ºÐ • Docker ¹× Kubernetes µî ÄÁÅ×ÀÌ³Ê È¯°æ¿¡¼­ÀÇ ¼­ºñ½º ¿î¿µ °æÇèÀÌ ÀÖÀ¸½Å ºÐ • PyTorch ±â¹Ý LLM ÀÎÆÛ·±½º ÆÄÀÌÇÁ¶óÀο¡ ´ëÇÑ ±âº» ÀÌÇØµµ°¡ ÀÖÀ¸½Å ºÐ • KV cache, batching, token streaming µî °³³äÀ» ÀÌÇØÇϰųª ºü¸£°Ô ÇнÀÇÒ ¼ö ÀÖ´Â ´É·ÂÀ» º¸À¯ÇϽŠºÐ • ¼º´É/¾ÈÁ¤¼º À̽´¸¦ ÁöÇ¥¿Í ÀçÇö °¡´ÉÇÑ ÇüÅ·ΠÁ¤ÀÇÇϰí, °³¼± ¹æÇâÀ» Á¦¾ÈÇÑ °æÇèÀÌ ÀÖÀ¸½Å ºÐ • ¸®¼­Ã³¡¤¼­ºñ½ºÆÀ¡¤ÀÎÇÁ¶óÆÀ µî°ú ¿øÈ°È÷ Çù¾÷ÇÒ ¼ö ÀÖ´Â Ä¿¹Â´ÏÄÉÀÌ¼Ç ´É·ÂÀ» º¸À¯ÇϽŠºÐ ¿ì´ë»çÇ× • vLLM, sglang, TRT-LLM µîÀÇ ½Ç»ç¿ë °æÇè ¶Ç´Â ¿ÀǼҽº ±â¿© °æÇèÀÌ ÀÖÀ¸½Å ºÐ • prefix-aware routing, KV cache ÃÖÀûÈ­, GPU/³ëµå ÀÚ¿ø È¿À² °³¼± °æÇèÀÌ ÀÖÀ¸½Å ºÐ • ºñÀü/¿Àµð¿À µî ¸ÖƼ¸ð´Þ ÀÎÆÛ·±½º ÆÄÀÌÇÁ¶óÀÎ ¼³°è¡¤¿î¿µ °æÇèÀÌ ÀÖÀ¸½Å ºÐ • LMCache, Mooncake, KVFlow µî ³í¹®/±â¼ú ·¹Æ÷Æ®¸¦ ½ÇÁ¦ PoC¡¤½ÇÇèÀ¸·Î ¿Å°Üº» °æÇèÀÌ ÀÖÀ¸½Å ºÐ • ½Ã½ºÅÛ¡¤ML ½Ã½ºÅÛ °ü·Ã ¹ßÇ¥ ¶Ç´Â ¹®¼­/³í¹® ÀÛ¼º °æÇèÀÌ ÀÖÀ¸½Å ºÐ ÀüÇüÀýÂ÷ ¹× ±âŸ»çÇ× [ÀüÇüÀýÂ÷] ¼­·ùÀüÇü(±â¾÷¹®È­ÀûÇÕµµ °Ë»ç ¹× Á÷¹« Å×½ºÆ® Æ÷ÇÔ) ¢º 1Â÷ ÀÎÅÍºä ¢º ·¹ÆÛ·±½ºÃ¼Å© ¹× 2Â÷ ÀÎÅÍºä ¢º ó¿ìÇùÀÇ ¢º ÃÖÁ¾ÇÕ°Ý ¡Ø ÀüÇü ÀýÂ÷´Â ÀÏÁ¤ ¹× »óȲ¿¡ µû¶ó º¯µ¿ µÉ ¼ö ÀÖÀ¸¸ç, ÀüÇü º° °á°ú¿¡ µû¶ó ÀýÂ÷(Ãß°¡ ÀÎÅÍºä µî)°¡ Ãß°¡µÉ ¼ö ÀÖ½À´Ï´Ù. ¡Ø Á¤ÇØÁø °á°ú ¹ßÇ¥ ÀÏÁ¤Àº ¾øÀ¸¸ç, Áö¿ø¼­ °ËÅä ÈÄ ¸éÁ¢ ÀÏÁ¤Àº ´ë»óÀÚ¿¡°Ô °³º°·Î ¾È³» µå¸± ¿¹Á¤ÀÔ´Ï´Ù. [±Ù¹«Áö] °æ±â ¼º³²½Ã ºÐ´ç±¸ ºÒÁ¤·Î 6 (±×¸°ÆÑÅ丮) ¡Ø ±Ù¹«Áö´Â ȸ»ç ³»ºÎ »çÁ¤¿¡ µû¶ó º¯µ¿µÉ ¼ö ÀÖ½À´Ï´Ù.