logo

하둡 Parquet

language-logoHadoop

• 파케이 (Parquet)는 중첩된 데이터를 효율적으로 저장할 수 있는 컬럼 기반 저장 포맷으로, 파일 크기와 쿼리 속도 측면에서 매우 효율적이다. 또한 많은 툴들이 파케이 포맷을 지원하여 다양한 언어와 환경에서 사용할 수 있다.
• 파케이는 원시타입과 복잡한 타입을 지원하며, 중첩된 데이터를 효과적으로 인코딩하여 플랫 컬럼으로 저장한다. 이를 통해 쿼리 성능이 향상되며, 다양한 데이터 구조를 효율적으로 저장할 수 있다.
• Parquet 파일 포맷은 헤더, 블록, 푸터로 구성되며, 메타데이터는 푸터에 저장된다. 각 블록은 row group을 저장하고, row group은 column chunk로 구성되며, column chunk는 page로 구성된다.
• Parquet는 다양한 인코딩 방식을 사용하여 데이터를 압축하고, 파일을 작성할 때 열 유형에 따라 가장 적합한 인코딩 방식을 자동으로 선택한다. 또한 추가 압축도 가능하다.

thumbnail
북마크
공유하기
신고하기
8분 분량
조회수 234
profile-image뱅진
2년 전
Copyright © 2025. Codenary All Rights Reserved.