[검색엔진] 쿠팡 검색 플랫폼 변천사 정리

HBase

• 쿠팡의 검색 엔진은 고객의 검색 의도를 파악하고, 관련 상품 정보를 기반으로 후보군을 선정한 뒤, 다양한 요소(텍스트 관련성, 상품평, 가격 등)를 고려하여 상품의 순위를 매기는 과정을 거친다. 초기에는 RDBMS를 사용하여 데이터를 관리했으나, 처리 속도와 확장성의 문제로 인해 Hadoop과 Hive를 활용한 분산 데이터 처리 시스템으로 전환하였다.

• 새로운 인덱싱 플랫폼에서는 Hive에서 관리되는 데이터를 Spark를 이용해 병합하고, 이를 Hbase에 저장한 후, 최종적으로 검색 인덱스를 생성하여 분산 스토리지에 저장한다. 이 과정은 랭킹 시그널의 개발과 통합을 용이하게 하며, 랭킹 개발자의 작업 부담을 줄이고, 데이터 처리 효율성을 높이는 데 기여한다.

• 인덱싱 플랫폼 2.0은 데이터 소스, 데이터 파이프라인 및 워크플로우 일정 관리로부터 개발자를 해방시켜, 시그널 로직 개발에 집중할 수 있도록 설계된 시스템으로, 모든 원본 데이터는 Spark Job을 통해 처리되며, 강력한 Product Joiner와 Query Joiner를 통해 시그널을 파생시킨다.

• 이 시스템은 신규 랭킹 시그널의 빠른 구축을 가능하게 하며, 클러스터 자원을 절약하고 시그널 추가 과정에서의 리소스 소모를 최소화하며, 시그널 품질 테스트를 제공한다.

북마크

신고하기

7분 분량

•

달품

• 일 년 전