[NAVER Cloud] Video-Language ¸ðµ¨ ¿¬±¸/°³¹ß (üÇèÇü ÀÎÅÏ)
ºÎ¼¼Ò°³
ÀúÈñ ºÎ¼´Â ºñµð¿À ºÐ¼® ¹× ÀÌÇØ¿¡ °üÇÑ ¸ðµ¨ ¹× ¼ºñ½º¸¦ ¿¬±¸ °³¹ßÇϰí ÀÖ½À´Ï´Ù. ÄÄÇ»ÅÍ ºñÀü (Computer Vision), ºñµð¿À ÀÌÇØ (Video Understanding) ¹× ¸ÖƼ¸ð´Þ ¾ð¾î ¸ðµ¨ (Multimodal LLM, VLM) µîÀÇ °æÀï·ÂÀÖ´Â ¸ðµ¨À» °³¹ßÇÏ¿©, À̸¦ º¹ÇÕÀûÀ¸·Î Ȱ¿ëÇÑ Video/Media AI »óǰ ¹× ¼ºñ½º¸¦ ¿î¿µÇϰí ÀÖ½À´Ï´Ù.
´ã´ç¾÷¹«
• VLM(Vision-Language Model), Video-LLM(Language Model) °ü·Ã ¿¬±¸/°³¹ß
• VLM, Video-LLM ¸ðµ¨ÀÇ Bias, Calibration, Alignment µî¿¡ ´ëÇÑ ¿¬±¸/°³¹ß
• VLM, Video-LLM ¸ðµ¨ÀÇ Distillation, Optimization, Quantization µî¿¡ ´ëÇÑ ¿¬±¸/°³¹ß
• ±âŸ Multimodal °ü·Ã ¿¬±¸ ( Retrieval, Person Re-ID µî)
Áö¿øÀÚ°Ý
• ±¹³»¿Ü ´ëÇÐÀÇ ¼®¡¤¹Ú»ç °úÁ¤ ÀçÇлý ¶Ç´Â ±âÁ¹¾÷ÀÚÀ̽ðųª, °ü·Ã ¿¬±¸¡¤°³¹ß °æÇèÀ» º¸À¯ÇϽŠºÐ
• ÀÎÅÏ½Ê ±â°£(¾à 3°³¿ù) µ¿¾È Full-Time ±Ù¹«°¡ °¡´ÉÇϽŠºÐ
• Computer Vision ¹× Deep Learning À̷п¡ ´ëÇÑ Àü¹ÝÀûÀÎ ÀÌÇØµµ¸¦ °®Ã߽ŠºÐ
• C/C++/Python µî ¿¬±¸ ¼öÇà¿¡ ÇÊ¿äÇÑ ´É¼÷ÇÑ ÇÁ·Î±×·¡¹Ö ½ºÅ³À» º¸À¯ÇϽŠºÐ
¿ì´ë»çÇ×