- Á¶Á÷¼Ò°³
- ¿ì¸® Á¶Á÷Àº »ý»ê, Á¦Á¶, »ç¹«ÀÚµ¿È, ǰÁú, ¼ºñ½º ¿µ¿ª¿¡¼ STT(À½¼ºÀνÄ) ¹× TTS(À½¼ºÇÕ¼º) ±â¼úÀ» Ȱ¿ëÇÏ¿© »ç¿ëÀÚ °æÇèÀ» Çõ½ÅÇÒ ¼ö ÀÖµµ·Ï °ü·Ã ±â¼úÀ» ¿¬±¸/°³¹ßÇÏ´Â ¾÷¹«¸¦ ¼öÇàÇÕ´Ï´Ù.
- Á÷¹«»ó¼¼
- À½¼º AI(STT/TTS) ÇÙ½É ¸ðµ¨ ¿¬±¸/°³¹ß ¹× ¼ºñ½º Àû¿ë ¾÷¹«¸¦ ¼öÇàÇÕ´Ï´Ù.
¡á À½¼º AI ¸ðµ¨ ¿¬±¸
¡¡¡¤ °í¼º´É STT/TTS ¸ðµ¨ ÃÖÀûÈ ¹× ³»ÀçÈ
¡¡¤Ô- ÃֽŠE2E(End-to-End) ASR ¸ðµ¨(Conformer, Whisper µî) ¹× TTS ¸ðµ¨(VITS, FastSpeech µî) ¿¬±¸ ¹× ÆÄÀÎÆ©´×
¡¡¤Ô- ÀÚµ¿Â÷ ÁÖÇà ȯ°æ ¹× Á¦Á¶ ÇöÀå ¼ÒÀ½ °°Ç¼º(Noise Robustness) È®º¸¸¦ À§ÇÑ Àüó¸® ±â¼ú ¿¬±¸
¡¡¡¤ °æ·®È ¹× ¿Âµð¹ÙÀ̽º(On-device) ±â¼ú È®º¸
¡¡¤Ô- ¼ºñ½º µð¹ÙÀ̽º(ÇöÀå Å×ºí¸´ µî) žÀ縦 À§ÇÑ ¸ðµ¨ °æ·®È(Quantization, Pruning) ¹× Ãß·Ð ÃÖÀûÈ
¡¡¡¤ Ãֽбâ¼ú °ËÁõ (PoC)
¡¡¤Ô- À½¼º ºÐ¾ß SOTA ³í¹® ¸®¼Ä¡ ¹× º¥Ä¡¸¶Å·, ´ÙÈÀÚ ºÐ¸®(Speaker Diarization) ¹× À½¼º º¹Á¦(Voice Cloning) ±â¼ú °ËÁõ
¡á À½¼º ±â¼ú Ȱ¿ë ¹× ¼ºñ½º Àû¿ë
¡¡¡¤ ÀÚµ¿Â÷ ¹ë·ùüÀÎ Àü¹ÝÀÇ À½¼º ¼ºñ½º °³¹ß
¡¡¤Ô- °í°´¼¾ÅÍ AICC(STT/TTS), Á¦Á¶ ÇöÀå À½¼º ¸í·É ÀÎ½Ä ¹× ȸÀÇ·Ï ÀÚµ¿È ¼ºñ½º °³¹ß
¡¡¡¤ À½¼º µ¥ÀÌÅÍ ÆÄÀÌÇÁ¶óÀÎ ±¸Ãà
¡¡¤Ô- À½¼º µ¥ÀÌÅÍ ¼öÁý, Á¤Á¦, °¡°ø ÀÚµ¿È ÆÄÀÌÇÁ¶óÀÎ ¼³°è ¹× ¿î¿µ
¡¡¡¤ MLOps ¿¬°è ¹× ¹èÆ÷
¡¡¤Ô- ½Ç½Ã°£(Streaming) ¹× ¹èÄ¡ 󸮸¦ °í·ÁÇÑ Inference API ¼³°è ¹× ±¸Çö
- Áö¿øÀÚ°Ý
- ¡¤ ÄÄÇ»ÅÍ °øÇÐ, »ê¾÷/µ¥ÀÌÅÍ °øÇÐ, µî °ü·Ã Àü°ø ¼®»ç ÀÌ»óÀÇ ÇÐÀ§¸¦ ¼ÒÁöÇϽŠºÐ
¡¤ ¼®/¹Ú»ç ¿¬±¸±â°£ Æ÷ÇÔÇÏ¿© 3³â ÀÌ»ó À½¼º AI(STT/TTS) ºÐ¾ß ¸ðµ¨/¼ºñ½º °³¹ß °æ·ÂÀ» º¸À¯ÇϽŠºÐ
¡¤ ºñÁî´Ï½º ¿µ¾î Ä¿¹Â´ÏÄÉÀÌ¼Ç ¹× ¿µ¾î ¹®¼ ÀÛ¼º ¿ª·®À» º¸À¯ÇϽŠºÐ
¡¤ À½¼º ½ÅÈ£ ó¸® ¹× ¸ðµ¨¸µ °æÇè
¡¡- À½¼º ½ÅÈ£ ó¸®(DSP) ±âÃÊ Áö½Ä(FFT, Spectrogram, MFCC µî) ¹× Ȱ¿ë ´É·Â º¸À¯
¡¡- Transformer, Conformer, Diffusion µî Ãֽеö·¯´× ¾ÆÅ°ÅØÃ³ ±â¹ÝÀÇ À½¼º ¸ðµ¨ ÇнÀ ¹× Æ©´× °æÇè
¡¤ À½¼º ÀνÄ/ÇÕ¼º °³¹ß °æÇè
¡¡- ´ë¿ë·® À½¼º µ¥ÀÌÅ͸¦ Ȱ¿ëÇÑ ASR(À½¼ºÀνÄ) ¶Ç´Â TTS(À½¼ºÇÕ¼º) ¸ðµ¨ ÇнÀ ÆÄÀÌÇÁ¶óÀÎ ±¸Ãà °æÇè
¡¡- Python ¹× Deep Learning Framework(PyTorch, TensorFlow) ´É¼÷ÇÑ È°¿ë ´É·Â
¡¤ 1°³ ÀÌ»óÀÇ °³¹ß ¾ð¾î(Python µî)¸¦ ´É¼÷ÇÏ°Ô »ç¿ëÇÒ ¼ö ÀÖ°í PyTorch, TensorFlow µî °ü·Ã Library »ç¿ë °æÇèÀ» º¸À¯ÇϽŠºÐ
- ¿ì´ë»çÇ×
- ¡¤ À̰ø°è¿(Àü»ê, ÄÄÇ»ÅÍ, »ê¾÷°øÇÐ)
¡¤ ¼®/¹Ú»ç ¿¬±¸±â°£ Æ÷ÇÔÇÏ¿© 5³â ÀÌ»ó NLP ºÐ¾ß ¸ðµ¨/¼ºñ½º °³¹ß °æ·ÂÀ» º¸À¯ÇϽŠºÐ
¡¤ On-device AI ¹× ÃÖÀûÈ °æÇè
¡¡- TensorRT, ONNX Runtime, TFLite µîÀ» Ȱ¿ëÇÑ ¸ðµ¨ ÃÖÀûÈ ¹× ÀÓº£µðµå ȯ°æ Æ÷ÆÃ °æÇè
¡¤ ÀâÀ½ ȯ°æ Æ¯È ±â¼ú °æÇè
¡¡- Speech Enhancement, Source Separation, Active Noise Control µî ÀâÀ½ Á¦°Å ¹× ½ÅÈ£ °³¼± ÇÁ·ÎÁ§Æ® ¼öÇà °æÇè
¡¤ °í±Þ ¿¬±¸ ¿ª·®
¡¡- À½¼º/AI ºÐ¾ß Top-tier ÇÐȸ(ICASSP, Interspeech, NeurIPS µî) ³í¹® °ÔÀç ¶Ç´Â ¿ÀǼҽº ±â¿© °æÇè
- ÀüÇü´Ü°è
- 1. Áö¿ø¼ Á¢¼ö
2. ¼·ùÀüÇü
3. ¸éÁ¢ÀüÇü(Àμº°Ë»ç)
4. ä¿ë°ËÁø
5. ÃÖÁ¾ÇÕ°Ý
- ±âŸ
- [Áö¿øÀÚ Âü°í»çÇ×]
¡¤ Ãë¾÷º¸È£´ë»óÀÚ(Àå¾Ö,º¸ÈÆ µî)´Â °ü°è ¹ý·É¿¡ ÀǰÅÇÏ¿© ¿ì´ëÇÕ´Ï´Ù.
¡¤ Áö¿ø¼ Á¢¼ö´Â Çö´ëÀÚµ¿Â÷ ä¿ë ȨÆäÀÌÁö¸¦ ÅëÇØ Á¢¼öÇϸç, ±× ¿ÜÀÇ °³º° Á¢¼ö´Â ¹ÞÁö ¾Ê½À´Ï´Ù.
¡¤ Áö¿ø¼ Á¢¼ö ¸¶°¨ÀÏ¿¡´Â Áö¿øÀÚ°¡ ´ë°Å ¸ô·Á ÀÔ»çÁö¿øÀÌ ¾î·Á¿ï ¼ö ÀÖÀ¸´Ï, ¿©À¯ÀÖ°Ô ¹Ì¸® Á¦ÃâÇϽñ⸦ ±ÇÀåÇÕ´Ï´Ù.
¡¤ ÇÊ¿ä ½Ã ÀüÇü´Ü°è¿¡¼ °úÁ¦°¡ ÁøÇà µÉ ¼ö ÀÖ½À´Ï´Ù.
¡¤ ä¿ë ÀüÇü ÁøÇà¿¡ µû¶ó ÀÏÁ¤ÀÌ Á¶Á¤µÉ ¼ö ÀÖ½À´Ï´Ù.
¡¤ ä¿ë°ø°í ³» Á÷±ÞÀº º¯µ¿ °¡´É¼ºÀÌ ÀÖÀ¸¸ç, °³Àκ° °æ·Â ¹× Æò°¡¸¦ °í·ÁÇÏ¿© ó¿ìÇùÀÇ °úÁ¤À» ÅëÇÏ¿© ÃÖÁ¾ È®Á¤µË´Ï´Ù.
¡¤ ä¿ë °ü·Ã ¹®ÀǴ ä¿ë ȨÆäÀÌÁö Ò® [FAQs] ¸Þ´º¸¦ È®ÀÎÇϽðųª '1:1 ¹®ÀÇÇϱâ'¸¦ ÀÌ¿ë¹Ù¶ø´Ï´Ù.
[±âŸ À¯ÀÇ»çÇ×]
¡¤ ¾Æ·¡ ¿ä°Ç¿¡ ÇØ´ç ½Ã, ÇÕ°ÝÀÌ Ãë¼ÒµÇ°Å³ª ÀüÇü»ó ºÒÀÌÀÍÀ» ¹ÞÀ» ¼ö ÀÖ½À´Ï´Ù.
¡¡- Áö¿ø¼¸¦ Æ÷ÇÔÇÏ¿© ä¿ë ÀüÇü ÁøÇà Áß ¸ðµç °úÁ¤¿¡¼ Á¦ÃâÇÑ ³»¿ëÀÌ »ç½Ç°ú ´Ù¸£°Å³ª ¹®¼·Î ÁõºùÀÌ ºÒ°¡ÇÒ °æ¿ì
¡¡- ȸ»ç ³»±Ô »ó Á¤»ó±Ù¹«°¡ ºÒ°¡´ÉÇÒ °æ¿ì
¡¡- ÇØ¿Ü¿©Çà¿¡ °á°Ý »çÀ¯°¡ ÀÖ´Â °æ¿ì(³²¼ºÀÇ °æ¿ì, ȸ»ç°¡ ÁöÁ¤ÇÑ ÀÔ»çÀϱîÁö º´¿ª ¹ÌÇÊ ¶Ç´Â º´¿ª ¸éÁ¦µÇÁö ¾ÊÀº ºÐ Æ÷ÇÔ)
¡¡- ÃÖÁ¾ ÇÕ°Ý ÈÄ, ȸ»ç°¡ ÁöÁ¤ÇÏ´Â ÀÔ»çÀÏ¿¡ ÀÔ»ç ºÒ°¡ÇÒ °æ¿ì
¡¤ ´ç»ç´Â Á¦3ÀÚÀÇ ¿µ¾÷ºñ¹ÐÀ» Á¸ÁßÇϰí, ºÎÁ¤°æÀï¹æÁö ¹× ¿µ¾÷ºñ¹Ð º¸È£¿¡ °üÇÑ ¹ý·ü µî °ü·Ã ¹ý·ÉÀ» ÁؼöÇϱâ À§ÇØ ³ë·ÂÇϰí ÀÖ½À´Ï´Ù. ä¿ë ÀüÇü °úÁ¤¿¡¼ Àü/ÇöÁ÷ÀåÀÇ ¿µ¾÷ºñ¹ÐÀ» Ä§ÇØÇϰųª Àü/ÇöÁ÷Àå¿¡ ´ëÇÑ ºñ¹ÐÀ¯ÁöÀǹ«¸¦ À§¹ÝÇÏÁö ¾Êµµ·Ï °¢º°È÷ À¯ÀÇÇϽñ⠹ٶø´Ï´Ù.