'Data Engineering' 카테고리의 글 목록

Apache Spark: 대용량 데이터를 위한 분산 처리 프레임워크

Overview오늘날 기업과 서비스는 초당 수천~수백만 건의 로그, 이벤트, 거래 데이터를 실시간으로 처리하고 분석해야 한다.이런 대용량 데이터를 기존 방식으로 처리하는 데에는 속도, 유연성, 통합성의 한계가 있었다. 이 문제를 해결하고자 등장한 것이 Apache Spark이다.Apache Spark는 대용량 데이터를 메모리 기반으로 빠르게 처리할 수 있도록 설계된 오픈소스 분산 처리 프레임워크이다. 단순히 배치 처리에 그치지 않고, 실시간 스트리밍, 머신러닝, SQL 분석까지 하나의 플랫폼에서 통합적으로 처리할 수 있는 것이 가장 큰 장점이다. 이 글에서는 Spark의 개념부터 아키텍처, 실습 환경, Hadoop과의 비교, 실전 활용 사례까지 폭넓게 소개한다.“데이터가 많다고 느껴지는 순간, Spark..

Data Engineering 2026.01.01

대량 데이터 처리와 데이터 아키텍처 설계(OLAP & OLTP)

Overview오늘날 대부분의 웹 서비스와 엔터프라이즈 시스템은 대량의 데이터를 다루게 된다. 단일 서버나 단순한 데이터베이스 구조로는 이러한 대규모 데이터를 효율적으로 처리하기 어렵기 때문에, 효과적인 데이터 아키텍처 설계가 필수적이다. 본 글에서는 대량 데이터 처리를 위한 기본 개념인 OLTP와 OLAP의 차이점을 살펴보고, 데이터베이스 샤딩(Sharding)과 파티셔닝(Partitioning) 전략에 대해 정리해보겠다. 📅 관련 글2024.04.25 - [Database] - DB 샤딩(Sharding): 개념 및 동작방식2023.04.21 - [Database] - DB 스키마란?(Schema) 1. OLTP vs. OLAP OLTP (Online Transaction P..

Data Engineering 2025.04.29

Data ETL Pipeline 구성 요소 및 설명

OverviewETL (Extract, Transform, Load) 파이프라인은 대량의 데이터를 추출(Extract), 변환(Transform), 저장(Load)하는 과정으로, 데이터 분석, 머신러닝, 비즈니스 인사이트를 위한 필수적인 데이터 엔지니어링 프로세스다. 이 글에서는 Hadoop 기반의 ETL 파이프라인 구성 요소와 각 단계별 주요 기술 스택을 설명해보겠다. 📅 관련 글2024.02.02 - [IaC/CI CD Tool] - Argo Workflow란?2024.05.20 - [Data Enginnering] - Airflow란? (개념 및 설치)2025.03.28 - [Data Enginnering] - 대량 데이터 처리와 데이터 아키텍처 설계(OLAP & OLTP) ..

Data Engineering 2025.04.14

Airflow란? (개념 및 설치)

Overview오늘은 데이터 파이프라인 및 워크플로 오케스트레이션 도구인 Apache Airflow에 대해 알아본다.Airflow는 데이터 엔지니어링, DevOps, MLOps 등 다양한 분야에서 복잡한 태스크 간의 의존성 관리와 자동화된 실행을 돕는 강력한 도구이다. Airbnb에서 시작되어 현재는 Apache Software Foundation에서 관리되고 있으며, 다양한 Operator 및 확장성을 통해 다양한 클라우드 및 온프레미스 환경에서 유연하게 사용 가능하다. 이번 글에서는 Airflow의 핵심 개념과 구성 요소, 그리고 Kubernetes 기반 오케스트레이션 도구인 Argo Workflow와의 비교를 통해 어떤 환경에 적합한지 이해해보자. 또한 Airflow를 Docker와 Kuberne..

Data Engineering 2025.04.04

Somaz의 IT 공부 일지

Data Engineering 4

티스토리툴바