반응형

Data Enginnering 2

Data ETL Pipeline 구성 요소 및 설명

OverviewETL (Extract, Transform, Load) 파이프라인은 대량의 데이터를 추출(Extract), 변환(Transform), 저장(Load)하는 과정으로, 데이터 분석, 머신러닝, 비즈니스 인사이트를 위한 필수적인 데이터 엔지니어링 프로세스다. 이 글에서는 Hadoop 기반의 ETL 파이프라인 구성 요소와 각 단계별 주요 기술 스택을 설명해보겠다.      📅 관련 글2024.02.02 - [IaC/CI CD Tool] - Argo Workflow란?2024.05.20 - [Data Enginnering] - Airflow란? (개념 및 설치)2025.03.28 - [Data Enginnering] - 대량 데이터 처리와 데이터 아키텍처 설계(OLAP & OLTP)        ..

Data Enginnering 2025.04.14

Airflow란? (개념 및 설치)

Overview오늘은 데이터 파이프라인 및 워크플로 오케스트레이션 도구인 Apache Airflow에 대해 알아본다.Airflow는 데이터 엔지니어링, DevOps, MLOps 등 다양한 분야에서 복잡한 태스크 간의 의존성 관리와 자동화된 실행을 돕는 강력한 도구이다. Airbnb에서 시작되어 현재는 Apache Software Foundation에서 관리되고 있으며, 다양한 Operator 및 확장성을 통해 다양한 클라우드 및 온프레미스 환경에서 유연하게 사용 가능하다.  이번 글에서는 Airflow의 핵심 개념과 구성 요소, 그리고 Kubernetes 기반 오케스트레이션 도구인 Argo Workflow와의 비교를 통해 어떤 환경에 적합한지 이해해보자. 또한 Airflow를 Docker와 Kuberne..

Data Enginnering 2025.04.04
반응형