AI ¸®¿öµå ±¤°í Ç÷§Æû ±â¾÷ ¹öÁîºôÀº ±¹³» À̵¿Åë½Å 3»ç, SK, CJ, ·Ôµ¥, ¶óÀÎ µî Àü ¼¼°è 150°³ ÀÌ»óÀÇ ÆÛºí¸®¼Å¸¦ º¸À¯ÇÑ ¼¼°è ÃÖ´ëÀÇ ¸®¿öµå ±¤°í ³×Æ®¿öÅ©¸¦ ±¸Ãà, 3,900¸¸ ¸íÀÇ À¯Àú¸¦ È®º¸ ÁßÀÔ´Ï´Ù. ÃÖ±Ù 5³â°£ ¿¬Æò±Õ 33%ÀÇ ³ôÀº ¼ºÀå(CAGR 2016-2021)À» ´Þ¼ºÇϰí ÀÖ´Â ±¹³» ÃÖ°íÀÇ ¾ÖµåÅ×Å© ½ºÅ¸Æ®¾÷ÀÔ´Ï´Ù.
±Û·Î¹ú ¾Öµå Å×Å©(Ad-tech) ±â¾÷À¸·Î¼ ±Û·Î¹ú ±¤°í »ýŰ迡¼ ´Ù¾çÇÑ ¸®¿öµå ±¤°í¿Í ±¤°í Àκ¥Å丮¸¦ °³¹ßÇϰí ÀÖ½À´Ï´Ù. ±¤°í ¾÷°è Ư¼º»ó ½Ã½ºÅÛ º¹Àâµµ°¡ ³ô°í ´Ù¾çÇÑ Æ®·£µå°¡ ÀÖ¾î ±â¼úÀûÀÌ Çõ½ÅÀÌ ¿ä±¸µÇ¸ç ¿µÇâ·Â ÀÖ´Â °úÁ¦¸¦ ¼öÇàÇÒ ¼ö ÀÖ½À´Ï´Ù. ¹öÁîºôÀº µðÁöÅÐ ±¤°í »ýŰèÀÇ ´Ù¾çÇÑ ´ÏÁ ÃÖÀûÈÇÒ ¼ö ÀÖ´Â ½Ã½ºÅÛÀ» ±¸Ãà ¿î¿µÇϱâ À§ÇØ ³ë·ÂÇϰíÀÖ½À´Ï´Ù. À̸¦ À§ÇØ °³¹ßÀÚ´Â ºñÁî´Ï½º, Ŭ¶óÀÌ¾ðÆ® µî ¿©·¯ Á÷±º°ú À¯±âÀûÀÎ Ä¿¹Â´ÏÄÉÀ̼ÇÀ» À̲ø ¼ö ÀÖ´Â ½ºÅ³ÀÌ ÇÊ¿äÇÕ´Ï´Ù.
🔎 ¹öÁîºô ±¤°í »óǰ ÀÚ¼¼È÷ ¾Ë¾Æº¸±â
BuzzvilÀÇ Data EngineeringÆÀÀº µ¥ÀÌÅͰ¡ »ý»êµÇ´Â ·¹À̾îºÎÅÍ µ¥ÀÌÅͰ¡ ¼ÒºñµÇ´Â ·¹À̾î±îÁö¸¦ ¾Æ¿ì¸£´Â µ¥ÀÌÅÍ Ç÷§Æû°ú ¿öÅ©Ç÷οìÀÇ ¼³°è ¹× ¿î¿µÀ» ´ã´çÇÏ´Â Á¶Á÷ÀÔ´Ï´Ù. ÇöÀç ÆÄÆ®¸®µå¸¦ Æ÷ÇÔÇÑ 3¸íÀÇ µ¥ÀÌÅÍ ¿£Áö´Ï¾î°¡ 5M WAU, 50¿©°³ÀÇ Microservice·ÎºÎÅÍ Èê·¯µé¾î¿À´Â TBs/day º¼·ýÀÇ µ¥ÀÌÅͰ¡ scalableÇÏ°Ô ÀûÀçÀû¼Ò¿¡ Ȱ¿ë µÉ ¼ö ÀÖ´Â µ¥ÀÌÅÍ Ç÷§ÆûÀ» ¸¸µé¾î°¡°í ÀÖ½À´Ï´Ù.
µ¥ÀÌÅÍÀÇ ¿øÃµÀ¸·ÎºÎÅÍ Data Lake(S3, Athena), Data Warehouse(Redshift)±îÁö Èê·Áº¸³»´Â ELT workflowµéÀºAirflow¸¦ ÅëÇØ °ü¸®Çϰí ÀÖÀ¸¸ç, AWS EKS cluster À§¿¡¼ ¾à 500°³ÀÇ DAG¸¦ ¿î¿µÇϰí ÀÖ½À´Ï´Ù. Airflow¸¦ óÀ½ µµÀÔÇÑ 2018³âºÎÅÍ, YAML ¸í¼¼ ±â¹Ý workflow °ü¸®¸¦ Æ÷ÇÔÇÑ ´Ù¾çÇÑ ½Ãµµ¸¦ ÅëÇØ ºÐ¼®°¡³ª ¼¹ö/ML °³¹ßÀÚ°¡ Á÷Á¢ workflow¸¦ µî·ÏÇÏ´Â self-serving Ç÷§ÆûÀ» ÁöÇâÇϰí ÀÖ½À´Ï´Ù.
S3, Athena, Firehose, RedshiftµîÀ» Æ÷ÇÔÇÑ Àü¹ÝÀûÀÎ µ¥ÀÌÅÍ ÀÎÇÁ¶ó´Â AWS¿Í K8s »ó¿¡¼ Terraform°ú HelmÀ» ÅëÇØ °ü¸®Çϰí ÀÖÀ¸¸ç, Airflow´Â Spinnaker¸¦ ÅëÇØ Docker ±â¹ÝÀ¸·Î ¹èÆ÷¸¦ Çϰí ÀÖ½À´Ï´Ù.
Ç÷§ÆûÀ» »ç¿ëÇÏ´Â Athena¿Í RedshiftÀÇ µ¥ÀÌÅÍ ¿¡¼Âµé¿¡ ´ëÇÑ ¸ÞŸµ¥ÀÌÅÍ´Â Lyft¿¡¼ ¿ÀǼҽºÈ ÇÑ AmundsenÀ» Ȱ¿ëÇÏ¿© īŻ·Î±ëÀ» Çϰí ÀÖ½À´Ï´Ù. ¶ÇÇÑ °¢ Å×ÀÌºí¿¡¼ Äõ¸®ÇÒ¶§ Áß¿äÇÑ Á¤º¸(Index, Partition Key µî)¸¦ űëÇϰí, Airflow¿Í ¿¬µ¿ÇÏ¿© µ¥ÀÌÅÍ ¿¡¼Â°£ÀÇ lineage¸¦ º¸¿©ÁÖ°í ÀÖ½À´Ï´Ù.
ÆÀ¿¡ Á¶ÀÎÇϼż, ¾Æ·¡ÀÇ °ú¾÷µéÀ» °°ÀÌ Ç®¾î³ª°¡¸é ÁÁ°Ú½À´Ï´Ù.
#SSOT
°ÅÀÇ ¸ðµç data pipelineÀÌ batch workflowÀ¸·Î ¿î¿µµÇ°í ÀÖ¾î, ½Ç½Ã°£À¸·Î µ¥ÀÌÅ͸¦ º¸°í½ÍÀº ´ÏÁ ÃæÁ·½ÃÄÑÁÖÁö ¸øÇÏ´Â »óȲÀ̰í, unified logging systemÀÌ ¾ø¾î À¯Áöº¸¼öÇϴµ¥ ¸¹Àº ½Ã°£À» ½ñ°í ÀÖ½À´Ï´Ù. ÇöÀç Confluent Kafka·Î ±âÁ¸ÀÇ data streaming ÀÎÇÁ¶ó¸¦ ÀÌÀüÇϰí ÀÖÀ¸¸ç, ÇÔ²² unified logging systemÀ» ¸¸µé¾î °¡°íÀÚ ÇÕ´Ï´Ù.
#DataDiscovery
2021³â 2ºÐ±â¿¡ µµÀÔÇÑ AmundsenÀ̶ó´Â data catalog ÅøÀ» Ȱ¼ºÈ ½ÃŰ´Â ´Ü°è¿¡ ÀÖ½À´Ï´Ù. ¿©·¯ Å×À̺íÀÇ Ä«Å»·Î±× »Ó¸¸ ¾Æ´Ï¶ó, °¢ Ä÷³ÀÌ °¡Áö´Â Ư¡À̳ª Åë°è, data quality status µîÀÇ ¿©·¯ Å×ÀÌºí¿¡ ´ëÇÑ metadata¸¦ ºÙÀÌ·Á ÇÕ´Ï´Ù.
#DataQuality
2021³â 2ºÐ±âºÎÅÍ µ¥ÀÌÅÍ qualityÀÇ Ã¼°èÀûÀÎ °ü¸® ¹× º¸ÀåÀ» À§ÇØ ¿©·¯ initiative¸¦ ½ÃµµÇϰí ÀÖ½À´Ï´Ù. µ¥ÀÌÅÍ »ý»êÀÚ¿Í ¼ÒºñÀÚ°¡ SLO¿Í expectationÀ» ¸ÂÃç º¼ ¼ö ÀÖ´Â ±³°¢À» ¸¸µå´Â ÀÏÀ» ÇÔ²² ÇØÁÖ¼ÌÀ¸¸é ÁÁ°Ú½À´Ï´Ù.
#DataLake
Data lake»ó¿¡¼ data backfillÀ̳ª schema migrationµîÀÇ operationÀÌ data availability¿¡ ¿µÇâÀ» ÁÖÁö ¾Ê°Ô²û data versioning & release process¸¦ ¸¸µé¾î°¡°í ÀÖ½À´Ï´Ù. ÀÌ¿Í °°ÀÌ data platform »ó¿¡¼ÀÇ ºñÈ¿À²À» Æ÷ÂøÇϰí ÃÖÀûÈ¿Í ÀÚµ¿È¸¦ ÁøÇàÇÏ´Â ÀÏÀ» °°ÀÌ ÁøÇàÇØº¸°í ½Í½À´Ï´Ù.
🍭 ±âº»ÀûÀÎ ¹öÁîºô¸®¾ðÀÇ »ýȰÀ» À§ÇÏ¿©,
🗽 ÀÚÀ²ÀûÀ̸ç, »ý»êÀûÀ¸·Î ÀÏÇÏ´Â ¹öÁîºô¸®¾ðÀ» À§ÇÏ¿©,
👑 ¼öÆòÀûÀ̰í, ÆÀ¿öÅ©¸¦ Áß½ÃÇÏ´Â ¹öÁîºô¸®¾ðÀ» À§ÇÏ¿©,
🌟 ¹öÁîºô¸®¾ð °³°³ÀÎÀÇ ¼ºÀå°ú ¹ßÀüÀ» Áö¿øÇϱâ À§ÇÏ¿©,
1. ÁÁÀº °³¹ß ¹®È¿Í ȯ°æ: ¹öÁîºôÀº ȸ»ç¿Í ÆÀ, °³ÀÎ ¸ðµÎÀÇ ¼ºÀåÀ» Àû±ØÀûÀ¸·Î Áö¿øÇÕ´Ï´Ù. ÁÁÀº ¹®È¿Í ÈǸ¢ÇÑ µ¿·á ´öºÐ¿¡ ºü¸¥ ¼ºÀåÀ» °æÇèÇÒ ¼ö ÀÖ½À´Ï´Ù.
2. ±¤°í µµ¸ÞÀÎ ÇнÀ: ¿À·¡µÈ ±¤°í ¾÷°èÀÇ ¿ª»ç¿¡µµ ºÒ±¸ÇÏ°í ±¤°í¾÷ÀÇ ¼ºÀåÀº ¿©ÀüÈ÷ ºü¸£°Ô ÁøÇàµÇ°í ÀÖ½À´Ï´Ù. µðÁöÅÐ ±¤°í, ƯÈ÷ ¸ð¹ÙÀÏ ±¤°í ½ÃÀåÀÇ ¼ºÀå¼¼´Â ÀÌ¹Ì Á¸ÀçÇÏ´ø ±âÁ¸ ±¤°í ½ÃÀåÀÇ Å©±â¸¦ ³Ñ¾î¼¹°í, ´õ ºü¸£°Ô ¿Ã¶ó°¡°í ÀÖ½À´Ï´Ù. ±¤°í ºÐ¾ßÀÇ µµ¸ÞÀÎ Áö½ÄÀº ¸Å¿ì ±í°í ³ÐÀ¸¸é¼µµ Ȱ¿ëµµ°¡ ³ô½À´Ï´Ù. ¹öÁîºô¿¡¼ ±¤°í ¾÷°è Àü¹ÝÀÇ Áö½ÄÀ» ½ÀµæÇÒ ¼ö ÀÖ°í, À̸¦ ¹ÙÅÁÀ¸·Î ´Ù¾çÇÑ ºÐ¾ß¿¡¼ ¼öÀÍȰ¡ ¼ö¹ÝµÈ Çõ½ÅÀ» ¸¸µé ¼ö ÀÖ½À´Ï´Ù.
🎤 Âü°í»çÇ×