[NAVER Cloud] Vision 강화 학습 LLM 개발 (경력)

담당업무 생산 공정 중 Multi-modal RL (RLVR, RLHF) 학습 완성 및 Resoning 관련 Target Benchmark 의 SOTA 급 성능 달성 • Hyperscale 규모의 GPU 자원 (IF 로 묶인 GPU Cluster)과 VERL, VeOmni 를 활용한 Vision RL 관련 학습 환경 개발 및 실험 • RLVR 을 위한 Target Scenario 탐색 및 Reward Design, 관련 학습 Data 가공 및 확보 • RLHF 학습을 위한 Reward Model (RM) 학습 및 관리, Reward 기반 Policy 최적화 실험 • Hyperscale 규모의 GPU 자원 (InfiniBand 로 묶인 GPU Cluster)에서의 Multi-modal RL 학습, Ablation 및 모델 생산 자동화 • LLM의 Text 성능 및 기존 Vision 성능의 Forgetting 을 최소화 및 Reasoning 능력 향상 연구 자격요건 • 박사 학위 보유자 혹은 2년 이상의 유관 경력을 보유하신 분 • Vision Language Model (LLaVA, Qwen VL, DeepSeek VL 등) 의 구조 및 학습 과정에 대한 상세한 이해도를 갖추신 분 • Code Level 의 경험을 보유하신 분 • RL 관련 기본 지식 (RLHF, DPO, PPO, GRPO 등) 및 실무적인 학습 경험을 보유하신 분 • Vision RL 에서 사용되는 데이터의 특성, 종류에 대한 이해가 있으신 분 • Python 및 LLM 개발 관련 Library, FW, Platform(Pytorch, Hugging Face) 활용 능력을 보유하신 분