Data Engineering

    Spark Join 방식

    Spark 조인 수행 방식이 어떻게 진행되는 지 살펴보자. 우선, Spark 조인 수행 방식에 대해선 실행에 필요한 두 가지 핵심 전략을 알아야 한다. 노드간 네트워크 통신 전략이 어떤 방식인지 노드별 연산 전략이 어떤 식으로 진행되는 지 네트워크 통신 전략 스파크는 조인 연산 수행 시, 두 가지 클러스터 통신 방식을 활용한다. Shuffle Join (셔플 조인) -> 전체 노드간 통신을 유발 Broadcast Join (브로드 캐스트 조인) -> 전체 노드 간 통신을 유발 하지 않음. 참고로, 이후 스파크에서 최적화 기술은 비용 기반 옵티마이저(CBO) 가 개선된다면 더 나은 통신 전략이 도입되어 바뀔 수 있다 . 만약 조인하고자 하는 두 테이블의 크기를 가정해보고 어떤 식으로 조인이 수행되는 지 확..