data-infra
Data Contract 실전: Schema Compatibility, Ownership, SLA, Lineage로 깨지지 않는 데이터 파이프라인을 설계하는 법
배경: 데이터 파이프라인 장애의 상당수는 기술 장애가 아니라 계약 부재에서 시작된다
data-infra
CDC Outbox 실전: Debezium, Transaction Log, Idempotency, Ordering으로 데이터 변경 이벤트를 안전하게 발행하는 법
배경: “DB 저장 후 Kafka 발행”은 가장 쉬운 코드이지만 가장 위험한 경계다
data-infra
Kafka Consumer Group 실전: Rebalance, Offset Commit, Lag, Static Membership로 컨슈머를 안정적으로 운영하는 법
배경: Kafka Consumer는 메시지를 읽는 코드가 아니라 운영 계약이다
data-infra
Kafka Log Compaction 실전: cleanup.policy, Tombstone, Dirty Ratio로 상태 복구 가능한 토픽 설계하기
배경: Kafka를 이벤트 버스로만 보면 상태 복구 토픽을 잘못 설계하게 된다
data-infra
Kafka Producer 실전: acks, Idempotence, Transactions, Batching으로 유실 없이 처리량까지 잡는 법
배경: Kafka를 쓴다고 자동으로 안전한 이벤트 발행이 되는 것은 아니다
data-infra
Trino 실전: Join Distribution, Dynamic Filtering, Spill로 느린 Lakehouse 쿼리를 운영 기준으로 다루는 법
배경: 스토리지는 이미 분리했는데, 왜 Lakehouse 쿼리는 여전히 느리고 비쌀까?
data-infra
Apache Pinot 실전: Segment, Partitioning, Star-Tree, Upsert로 초저지연 분석 API를 운영하는 기준
배경: 대시보드는 실시간이어야 하는데, 웨어하우스만으로는 왜 자꾸 늦고 비싸질까?
data-infra
ClickHouse 실전: MergeTree, ORDER BY, PARTITION BY, TTL, Materialized View로 빠른 분석과 운영 비용을 함께 설계하는 법
배경: 분석 쿼리는 느린데, 데이터 플랫폼 비용은 왜 더 빨리 늘어날까?
data-infra
dbt 실전: Incremental Model, Snapshot, Test, Lineage로 분석 테이블을 운영 가능한 상태로 만드는 법
배경: SQL은 많은데, 왜 분석 테이블은 여전히 자주 틀릴까?
data-infra
Apache Flink 실전: Event Time, Watermark, Checkpoint, State TTL로 지연 이벤트를 안정적으로 처리하는 기준
배경: 스트리밍이 어려운 이유는 “실시간”보다 “늦게 오는 데이터”에 있다
data-infra
Apache Spark 성능 실전: AQE, Shuffle, Skew Join, Partition 설계로 느린 배치를 구조적으로 줄이는 법
배경: Spark 작업이 느린 이유는 “클러스터가 약해서”보다 “데이터 이동을 잘못 설계해서”인 경우가 많다
data-infra
Apache Iceberg 실전: Snapshot, Partition Evolution, Compaction으로 데이터 레이크를 운영하는 기준
배경: 데이터 레이크가 느려지는 이유는 파일 포맷보다 “테이블 운영 방식”에 더 가깝다
data-infra
Kafka 재시도와 DLQ 운영 기준: Retry Topic, Poison Pill, 멱등성까지 한 번에 정리
배경: Kafka를 붙였는데도 장애는 왜 더 복잡해질까?
data-infra
Airflow 배치 파이프라인 실전: DAG 멱등성, Backfill, Late Data 운영 기준
배경: 배치는 “한 번 돌면 끝”이 아니라 “다시 돌려도 안 망가져야” 한다
data-infra
Kafka Schema Registry 실전: Avro/Protobuf 스키마 진화와 호환성 운영 기준
배경: 이벤트는 코드보다 오래 살아남고, 그래서 스키마가 사고를 만든다
data-infra
Git workflow 전략 도입
원문: https://blog.naver.com/qoxmfaktmxj/223818156532
data-infra
도커(Docker)란?
원문: https://blog.naver.com/qoxmfaktmxj/223789574581
data-infra
서버 이중화
원문: https://blog.naver.com/qoxmfaktmxj/223701240538
data-infra
Web Server와 WAS
원문: https://blog.naver.com/qoxmfaktmxj/222725741877
data-infra
크로스 도메인 Cross Domain, Cors, Access Control Allow Origin
원문: https://blog.naver.com/qoxmfaktmxj/222705139430