¡ß Á÷¿ø À¯Çü
Á¤±ÔÁ÷
¡ß ¿µÀÔÀοø
0 ¸í
¡ß Á¶Á÷¼Ò°³
¿ì¸® Á¶Á÷Àº īī¿ÀÀÇ ÀÚü ¾ð¾î¸ðµ¨ÀÎ Kanana ½Ã¸®Á ¿¬±¸ ¹× °³¹ßÇÕ´Ï´Ù. ƯÈ÷ ¾ð¾î¸ðµ¨À» °³¹ßÇÔ¿¡ ÀÖ¾î¼, pre-training ´Ü°è¿¡¼ µ¥ÀÌÅÍÀÇ Ã³¸®ºÎÅÍ ¸ðµ¨ ±¸Á¶ ¼±Á¤ ¹× ÇнÀ±îÁö Àü°úÁ¤À» ÁÖµµÀûÀ¸·Î °³¹ßÇϰí ÀÖ½À´Ï´Ù. ±¹³»¿¡¼ ¸î ¾ÈµÇ´Â ¾ð¾î¸ðµ¨À» ÀÚü°³¹ßÇÏ´Â °æÇèÀ» Çϰí½ÍÀº ´Ù¾çÇÑ ¿¬±¸ °æÇè°ú ¸®´õ½Ê ¿ª·®À» º¸À¯ÇÑ ¿ì¼öÇÑ ÀÎÀçµéÀÇ Áö¿øÀ» ±â´Ù¸³´Ï´Ù.
✳︎ Âü°í) ¿¬±¸ °á°ú
- Kanana LLM 1.5 °³¹ß±â (link)
- Kanana: Compute-efficient Bilingual Language Models (link)
- ÀÛÁö¸¸ °ÇÑ Kanana Nano È¿À²ÀûÀ¸·Î °³¹ßÇϱâ (link)
- ¹Ø¹Ù´ÚºÎÅÍ Kanana LLM °³¹ßÇϱâ: Pre-training (link)
¡ß ¾÷¹«³»¿ë
- Ãß·Ð ¹× ÇнÀ È¿À²À» ³ôÀ̱â À§ÇÑ Large Language Model(LLM) ±¸Á¶ Ž»ö ¹× ÃÖÀûÈ (Mixture of Experts, Multi-head latent attention µî)
- ºñ¿ë È¿À²ÀûÀÎ ¾ð¾î ¸ðµ¨ ÇнÀÀ» À§ÇÑ ¾Ë°í¸®Áò ¿¬±¸ ¹× ÀÀ¿ë (Pruning & Distillation, Hyperparameter transfer, Scaling law µî)
- ºñ¿ë È¿À²È¸¦ À§ÇÑ ÇнÀ ¹× µ¥ÀÌÅÍ ÃÖÀûÈ ¿¬±¸ (fp-8 training, dataset mixture search µî)
- LLM ÇнÀÀ» À§ÇÑ ´ë±Ô¸ð µ¥ÀÌÅÍ ¼öÁý, »ý¼º ¹× ¸ÞŸ Á¤º¸ ºÎÂø ±â¼ú ¿¬±¸ ¹× °³¹ß (Synthetic dataset generation, RegMix µî)
¡ß Áö¿øÀÚ°Ý
- CS∙AI∙ML µî °ü·Ã Àü°ø ¼®»ç ÀÌ»ó ¶Ç´Â ÀÌ¿¡ ÁØÇÏ´Â ÇÁ·ÎÁ§Æ® °æÇèÀÌ ÀÖ´Â ºÐ
- Python ¹× µö·¯´× ÇÁ·¹ÀÓ¿öÅ©¸¦ ´É¼÷ÇÏ°Ô È°¿ëÇÒ ¼ö ÀÖ´Â °³¹ß ¿ª·®À» °¡Áø ºÐ
- ¿¬±¸ ¹× °³¹ß¿¡ ´ëÇÑ Áö¼ÓÀûÀÎ °ü½ÉÀÌ ÀÖÀ¸¸ç, »õ·Î¿î ±â¼ú°ú ¾÷¹«¿¡ µµÀüÇÏ´Â ÀÚ¼¼¸¦ °¡Áø ºÐ
¡ß ¿ì´ë»çÇ×
- LLM °ü·Ã CUDA kernel °³¹ß °æÇèÀÌ ÀÖ´Â ºÐ
- ´ë±Ô¸ð GPU/TPU Ŭ·¯½ºÅÍ È¯°æ¿¡¼ ÃÊ°Å´ë ¸ðµ¨ ÇнÀ ÃÖÀûÈ °æÇèÀÌ ÀÖ´Â ºÐ
- Model parallel °ü·Ã ±â¼ú(Data/Model/Pipeline/Context/Expert Parallel µî) ¿¬±¸ ¹× °³¹ß °æÇèÀÌ ÀÖ´Â ºÐ
- »çÀüÇнÀÀ» À§ÇÑ ÆäŸ¹ÙÀÌÆ® ¼öÁØÀÇ ÅØ½ºÆ® µ¥ÀÌÅÍ ¼öÁý ¹× ºÐ»ê ó¸® °æÇèÀÌ ÀÖ´Â ºÐ
- LLM ÇнÀ µ¥ÀÌÅÍÀÇ Ç°Áú Çâ»ó°ú Æò°¡¸¦ À§ÇÑ ¿¬±¸ ¹× °³¹ß °æÇèÀÌ ÀÖ´Â ºÐ
- CVPR, NeurIPS, ICLR, ICCV, ICML µî AI ºÐ¾ß ÃÖ»óÀ§ ÇÐȸ ³í¹® ¹ßÇ¥ ¶Ç´Â °øµ¿ ¿¬±¸ °æÇèÀÌ ÀÖ´Â ºÐ
- ACM ICPC µî ÁÖ¿ä ÇÁ·Î±×·¡¹Ö ´ëȸ ¼ö»ó °æ·Â ¶Ç´Â ÀÌ¿¡ ÁØÇÏ´Â ¾Ë°í¸®Áò ¹®Á¦ ÇØ°á ¿ª·®À» º¸À¯ÇÑ ºÐ
¡ß Áö¿øÇÁ·Î¼¼½º
¼·ùÀüÇü(CV ¶Ç´Â ÇÁ·ÎÁ§Æ® °æ·Â pdfÆÄÀÏ ¶Ç´Â url ÷ºÎ Çʼö) > ÄÚµùÅ×½ºÆ® > »çÀüÀÎÅͺä > 1Â÷ ÀÎÅͺä > 2Â÷ ÀÎÅͺä > ó¿ì ÇùÀÇ > ÃÖÁ¾ ÇÕ°Ý ¹× ÀÔ»ç
¡Ø ¿µÀÔ ÁøÇà »óȲ¿¡ µû¶ó ÀüÇüÀÌ Ãß°¡/º¯°æµÉ ¼ö ÀÖ½À´Ï´Ù.
¡ß ±Ù·ÎÁ¦µµ
• ¿ÏÀü¼±Åñٹ«Á¦
ÇØ´ç Æ÷Áö¼ÇÀº ¿ù ÃÑ ±Ù¹«½Ã°£ ¹üÀ§ ³»¿¡¼ Å©·ç ½º½º·Î ÇÏ·çÀÇ ¾÷¹« ½ÃÀÛ ¹× Á¾·á ½Ã°£À» ¼³Á¤ÇÏ¿© ÀÚÀ²ÀûÀ¸·Î ¸ôÀÔÇÏ¿© ±Ù¹«ÇÒ ¼ö ÀÖ´Â <¿ÏÀü¼±Åñٹ«Á¦>¸¦ Àû¿ë¹Þ½À´Ï´Ù.
• ¿ù 1ÀÏ ¸®Ä¿¹ö¸®µ¥ÀÌ
¸Å¿ù ¸¶Áö¸· ÁÖ ±Ý¿äÀÏÀº Å©·çÀÇ È޽İú ÃæÀüÀ» À§ÇÑ <¸®Ä¿¹ö¸®µ¥ÀÌ>·Î ¿î¿µµË´Ï´Ù.
• ÁÖ 1ÀÏ ¿ø°Ý±Ù¹«
¾÷¹«¿Í Çù¾÷ÀÇ È¿À²¼ºÀ» ¿ì¼±À¸·Î ÇÏ¿©, ¸®Ä¿¹ö¸®µ¥À̰¡ ¾ø´Â ÁÖ¿¡´Â <ÁÖ 1ÀÏ ¿ø°Ý±Ù¹«>°¡ °¡´ÉÇÕ´Ï´Ù.
#Algorithm/ML