배경: 스트리밍이 어려운 이유는 “실시간”보다 “늦게 오는 데이터”에 있다
Category
Data Infra
Elasticsearch, Kafka 등 데이터 인프라
총 21개 글
배경: Spark 작업이 느린 이유는 “클러스터가 약해서”보다 “데이터 이동을 잘못 설계해서”인 경우가 많다
배경: 데이터 레이크가 느려지는 이유는 파일 포맷보다 “테이블 운영 방식”에 더 가깝다
배경: Kafka를 붙였는데도 장애는 왜 더 복잡해질까?
배경: 배치는 “한 번 돌면 끝”이 아니라 “다시 돌려도 안 망가져야” 한다
배경: 이벤트는 코드보다 오래 살아남고, 그래서 스키마가 사고를 만든다
배경: 왜 CDC를 지금 다시 봐야 할까?
왜 Query DSL을 따로 배워야 할까?
왜 리밸런싱을 이해해야 하나?
왜 매핑 설계가 중요한가?
왜 파티션 키가 중요한가?
왜 샤드/레플리카를 따로 배워야 할까?
왜 이 주제가 중요한가?
왜 이 주제가 중요한가?
왜 Kafka를 알아야 할까?
왜 Elasticsearch를 알아야 할까?
원문: https://blog.naver.com/qoxmfaktmxj/223818156532
원문: https://blog.naver.com/qoxmfaktmxj/223789574581
원문: https://blog.naver.com/qoxmfaktmxj/223701240538
원문: https://blog.naver.com/qoxmfaktmxj/222725741877
원문: https://blog.naver.com/qoxmfaktmxj/222705139430