[NAVER Cloud] Video-Language ¸ðµ¨ ¿¬±¸/°³¹ß (üÇèÇü ÀÎÅÏ)
ºÎ¼­¼Ò°³ ÀúÈñ ºÎ¼­´Â ºñµð¿À ºÐ¼® ¹× ÀÌÇØ¿¡ °üÇÑ ¸ðµ¨ ¹× ¼­ºñ½º¸¦ ¿¬±¸ °³¹ßÇϰí ÀÖ½À´Ï´Ù. ÄÄÇ»ÅÍ ºñÀü (Computer Vision), ºñµð¿À ÀÌÇØ (Video Understanding) ¹× ¸ÖƼ¸ð´Þ ¾ð¾î ¸ðµ¨ (Multimodal LLM, VLM) µîÀÇ °æÀï·ÂÀÖ´Â ¸ðµ¨À» °³¹ßÇÏ¿©, À̸¦ º¹ÇÕÀûÀ¸·Î Ȱ¿ëÇÑ Video/Media AI »óǰ ¹× ¼­ºñ½º¸¦ ¿î¿µÇϰí ÀÖ½À´Ï´Ù. ´ã´ç¾÷¹« • VLM(Vision-Language Model), Video-LLM(Language Model) °ü·Ã ¿¬±¸/°³¹ß • VLM, Video-LLM ¸ðµ¨ÀÇ Bias, Calibration, Alignment µî¿¡ ´ëÇÑ ¿¬±¸/°³¹ß • VLM, Video-LLM ¸ðµ¨ÀÇ Distillation, Optimization, Quantization µî¿¡ ´ëÇÑ ¿¬±¸/°³¹ß • ±âŸ Multimodal °ü·Ã ¿¬±¸ ( Retrieval, Person Re-ID µî) Áö¿øÀÚ°Ý • ±¹³»¿Ü ´ëÇÐÀÇ ¼®¡¤¹Ú»ç °úÁ¤ ÀçÇлý ¶Ç´Â ±âÁ¹¾÷ÀÚÀ̽ðųª, °ü·Ã ¿¬±¸¡¤°³¹ß °æÇèÀ» º¸À¯ÇϽŠºÐ • ÀÎÅÏ½Ê ±â°£(¾à 3°³¿ù) µ¿¾È Full-Time ±Ù¹«°¡ °¡´ÉÇϽŠºÐ • Computer Vision ¹× Deep Learning À̷п¡ ´ëÇÑ Àü¹ÝÀûÀÎ ÀÌÇØµµ¸¦ °®Ã߽ŠºÐ • C/C++/Python µî ¿¬±¸ ¼öÇà¿¡ ÇÊ¿äÇÑ ´É¼÷ÇÑ ÇÁ·Î±×·¡¹Ö ½ºÅ³À» º¸À¯ÇϽŠºÐ ¿ì´ë»çÇ×