[Projects]모찌케어 - 데이터 분석 및 파이프라인 구축 과정 회고
* 관련 기술 스택이 없습니다

• '모찌케어' 프로젝트는 영유아 피부 질환을 AI로 진단하는 서비스로, 초기 단계에서 사용자 니즈와 모델 클래스를 선정하기 위해 네이버 카페 게시글과 설문조사 데이터를 수집했다.
• 웹 스크래핑으로 수집한 대량의 비정형 데이터를 처리하기 위해 AWS 클라우드 기반 데이터 파이프라인을 구축했으며, 데이터 수집, 카탈로그화, ETL 작업, 쿼리 및 시각화 과정을 포함했다.
• 데이터 분석을 위해 AWS S3, Glue, Athena, QuickSight 등을 활용했으며, SQL을 통한 분석 방식이 효율적이라고 판단했다.
• 클라우드 환경에서 한국어 처리의 어려움과 비용 문제로 인해 중간에 로컬에서 처리를 진행했으며, Athena의 파티션 기능을 활용해 쿼리 성능과 비용 효율성을 높일 계획이다.

북마크
공유하기
신고하기