logo

[GCP] Apache Beam 알아보기

language-logoSpark

• Apache Beam은 구글이 개발한 오픈소스로, 다양한 랭귀지와 러너를 지원하는 ETL, 배치, 스트리밍 파이프라인 처리를 위한 통합 프로그래밍 모델입니다.
• Google Cloud Dataflow는 Apache Beam SDK를 활용하여 배치 및 스트리밍 데이터 처리 파이프라인을 구현할 수 있는 GCP의 매니지드 서비스입니다.
• Pardo는 Beam의 가장 일반적인 병렬 처리 변환으로, 데이터 필터링, 형식 변환, 요소 추출 및 계산을 수행할 수 있다. PCollection을 타임스탬프나 기준 요소로 잘라서 보는 Windowing 방식에는 고정 시간 윈도우, 슬라이딩 시간 윈도우, 세션 윈도우가 있다.
• 워터마크는 스트리밍 처리 시 지연 도착하는 데이터를 처리하기 위한 컨셉으로, 네트워크나 클라이언트 등의 이슈로 인해 지연되는 데이터를 원래 속해야 하는 윈도우에 포함시키는 방식이다.

thumbnail
북마크
공유하기
신고하기
15분 분량
조회수 171
profile-imagejaemunbro
2년 전
Copyright © 2025. Codenary All Rights Reserved.