Airflow vs Prefect vs Dagster, 데이터 파이프라인 오픈소스 3대장 어떤 걸 골라야 할까

데이터 파이프라인 비용

데이터 파이프라인 도구 선택, 왜 이렇게 어려울까

새 프로젝트의 데이터 파이프라인을 구축하라는 미션을 받았다. 슬랙에 질문을 올리면 누군가는 Airflow를, 다른 누군가는 Prefect를, 또 한 명은 Dagster를 추천한다. 셋 다 오픈소스이고 셋 다 검증됐다는데, 도대체 뭐가 다른 걸까.

이 글은 Airflow, Prefect, Dagster 세 도구의 설계 철학과 운영 특성을 비교 분석하는 데 집중한다. 비용이나 TCO 관점의 분석은 같은 시리즈의 ‘사내 데이터 파이프라인 구축 비용 분석’ 관련 글에서 자세히 다루고 있으니 함께 참고하면 좋다. 이 글을 끝까지 읽으면 각 도구의 강점과 약점을 파악하고, 자신의 팀 상황에 맞는 도구를 판단할 수 있는 기준을 갖게 된다.

세 도구를 비교하려면 어떤 기준이 필요한가

비교 프레임워크 설정

단순히 기능 목록을 나열하는 것은 의미가 없다. 실제 운영 환경에서 체감되는 차이를 중심으로 다섯 가지 축을 설정했다. 학습 곡선, 워크플로 정의 방식, 테스트 용이성, 확장성, 커뮤니티 생태계가 그것이다.

왜 이 다섯 가지인가

많은 팀이 처음에는 기능 비교표만 보고 도구를 선택한다. 그런데 6개월 후 실제로 문제가 되는 건 다른 지점이다. 신규 입사자가 파이프라인 코드를 이해하는 데 얼마나 걸리는지, 로컬에서 단위 테스트를 돌릴 수 있는지, 장애 발생 시 디버깅이 얼마나 수월한지 같은 것들이다. 워크플로 관리 시스템의 핵심은 결국 안정적 운영과 유지보수에 있기 때문이다.

  • 학습 곡선: 팀 온보딩 속도에 직접 영향
  • 워크플로 정의: DAG 작성 방식과 추상화 수준의 차이
  • 테스트 용이성: CI/CD 파이프라인 통합 가능 여부
  • 확장성: 수십 개에서 수천 개 DAG으로 성장할 때의 대응력
  • 커뮤니티: 문제 해결 속도와 플러그인 풍부도

Airflow, Prefect, Dagster 각각의 설계 철학은 어떻게 다른가

Airflow — 검증된 거인의 장단점

Apache Airflow는 Airbnb에서 시작해 Apache 재단 최상위 프로젝트가 된 도구다. 가장 큰 장점은 압도적인 커뮤니티 규모다. GitHub 스타 수가 약 39,000개를 넘고, Stack Overflow에서 관련 질문만 수만 건에 달한다. 어떤 문제든 검색하면 해결책이 나올 확률이 높다.

하지만 오래된 설계가 발목을 잡는 경우도 있다. DAG 파일을 전역 컨텍스트에서 파싱하는 구조 탓에 DAG 수가 수백 개를 넘으면 스케줄러 성능이 저하된다. 실제 적용 사례를 살펴보면, 한 50인 규모 스타트업에서 DAG 파일 800개를 운영하다 스케줄러 지연이 30초 이상 발생했고, 결국 DAG 분리와 스케줄러 다중화로 해결해야 했다. 로컬 테스트도 쉽지 않다. 메타데이터 DB 의존성 때문에 단위 테스트를 작성하려면 별도 설정이 필요하다.

Prefect — 파이썬 네이티브의 유연함

“워크플로를 코드답게 다루자.” Prefect의 슬로건이다. @flow@task 데코레이터만 붙이면 기존 파이썬 함수가 그대로 워크플로가 된다. DAG를 명시적으로 정의할 필요가 없고, 함수 호출 순서에서 의존성이 자동 추론된다.

이 접근법의 위력은 테스트에서 드러난다. 데코레이터를 제거하면 일반 파이썬 코드이므로 pytest로 바로 검증 가능하다. 반면 Prefect의 약점은 상대적으로 젊은 생태계다. Prefect 2.x에서 3.x로 전환되는 과정에서 API 변경이 잦았고, 서드파티 통합 라이브러리 수는 Airflow의 약 1/5 수준이다.

Dagster — 데이터 자산 중심 사고

Dagster는 근본적으로 다른 질문을 던진다. “어떤 태스크를 실행할까”가 아니라 “어떤 데이터 자산을 만들어야 하는가”다. Software-Defined Assets라는 개념으로, 각 자산의 스키마, 의존 관계, 메타데이터를 코드 수준에서 정의한다. Dagster 공식 문서에서는 이를 ‘선언적 데이터 오케스트레이션’이라 부른다.

실제 적용 사례를 살펴보면, 데이터 웨어하우스를 운영하는 한 팀이 Dagster로 전환한 뒤 데이터 리니지 추적 시간이 기존 대비 60% 이상 단축됐다는 보고가 있다. 각 자산의 상태를 UI에서 실시간 확인할 수 있어 장애 원인 파악이 빨라진 것이다. 다만 자산 중심 패러다임이 익숙하지 않은 팀에게는 초기 학습 비용이 상당하다.

데이터 파이프라인 비용

우리 팀 상황에는 어떤 도구가 맞을까

팀 규모와 기술 성숙도에 따른 선택

5인 이하 소규모 팀이 첫 파이프라인을 구축한다면? Prefect가 유리한 경우가 많다. 인프라 설정 부담이 적고 파이썬만 알면 바로 시작할 수 있다. 반대로 이미 10명 이상의 데이터 엔지니어가 있고 수백 개 DAG를 운영 중이라면, Airflow의 풍부한 커넥터와 커뮤니티 지원이 압도적 이점이 된다.

데이터 품질과 거버넌스가 최우선인 조직이라면 Dagster를 진지하게 고려해야 한다. 자산 기반 모델은 데이터 카탈로그와 자연스럽게 통합되고, 스키마 변경에 대한 사전 감지가 가능하다.

흔히 간과하는 판단 기준

도구 자체의 기능 외에도 고려할 점이 있다. 채용 시장에서 Airflow 경험자를 구하기는 비교적 쉽지만, Dagster 전문가를 찾기는 아직 어렵다. 운영 인력 확보의 난이도는 ‘데이터 파이프라인 운영 인건비 산출 방법’ 관련 글에서 더 깊이 다룬다.

팁: 도구 선택 전에 반드시 파일럿 프로젝트를 진행하라. 2주 정도 실제 업무 파이프라인 하나를 각 도구로 구현해 보면, 문서만으로는 알 수 없는 팀 적합도가 드러난다.

  • Airflow: 대규모 조직, 풍부한 커넥터 필요, 검증된 안정성 우선
  • Prefect: 소규모 팀, 빠른 프로토타이핑, 파이썬 중심 워크플로
  • Dagster: 데이터 품질 중시, 자산 리니지 필요, 모던 데이터 스택 지향
  • 셋 다 정답이 될 수 있고, 셋 다 오답이 될 수 있다. 맥락이 전부다.

데이터 파이프라인 비용

최종 선택 가이드 — 결정을 내리는 세 가지 질문

스스로에게 던져야 할 질문

첫째, 우리 팀의 파이프라인 수는 향후 2년 내 몇 개까지 늘어날 것인가. 50개 이하라면 세 도구 모두 무리가 없지만, 500개 이상이라면 Airflow의 멀티 스케줄러 아키텍처나 Dagster의 코드 로케이션 분리 기능이 중요해진다.

둘째, 데이터 리니지와 품질 모니터링이 비즈니스 요구사항인가. 규제가 강한 금융·의료 도메인이라면 Dagster의 자산 모델이 컴플라이언스 대응에 유리하다. 셋째, 팀이 새로운 패러다임을 학습할 여유가 있는가. 여유가 없다면 기존에 익숙한 도구에서 시작하는 것이 현실적이다.

비교표 한눈에 보기

  • Airflow — 커뮤니티 최대, 커넥터 400+, 학습 곡선 중간, 테스트 어려움
  • Prefect — 파이썬 네이티브, 설정 최소, 학습 곡선 낮음, 생태계 성장 중
  • Dagster — 자산 중심, 타입 시스템 내장, 학습 곡선 높음, 데이터 품질 강점

모든 상황에 완벽한 도구는 없다. 중소기업의 구체적인 도입 성공·실패 사례는 ‘중소기업 데이터 파이프라인 구축 사례’ 관련 글에서 확인할 수 있다. 또한 오픈소스와 매니지드 서비스 사이에서 고민된다면 ‘오픈소스와 매니지드 중 선택 기준’ 글이 판단에 도움을 줄 것이다. ETL(추출·변환·적재) 전략 전체를 아우르는 시각에서 도구 선택을 바라보면, 보다 균형 잡힌 결정을 내릴 수 있다.

결론

Airflow는 검증된 안정성과 거대한 생태계, Prefect는 파이썬 친화적 간결함, Dagster는 데이터 자산 중심의 품질 관리가 핵심 강점이다. 오늘 당장 세 도구의 공식 튜토리얼을 각각 30분씩 따라해 보자. 코드 한 줄 없이 문서만 비교하는 것보다 훨씬 명확한 감이 잡힌다. 더 깊이 들어가고 싶다면, 실제 업무 파이프라인 하나를 선정해 파일럿 프로젝트로 확장하는 것을 권한다.

댓글 남기기