Python + Seleniumwire를 이용한 에러 크롤링


• Python의 requests 라이브러리는 서버에서 제공하는 코드만 받아오지만, selenium 라이브러리는 실제 브라우저를 띄워 모든 응답 소스 코드를 가져올 수 있다.
• Selenium 웹드라이버 객체의 get_log 메소드를 이용해 콘솔에 찍히는 에러들을 확인할 수 있지만, 리퀘스트/응답의 구체적인 정보를 확인할 수 있는 기능은 제공되지 않는다.
• Seleniumwire는 Selenium 라이브러리를 기본적으로 포함하고 있어, 기존 코드에서 selenium 대신에 seleniumwire만 임포트한 후 실행하면 기존 코드 그대로 정상 동작한다.
• BeautifulSoup을 이용해 페이지 내 연결된 페이지들의 정보를 읽어올 수 있지만, 매 페이지 확인 시 새로운 webdriver를 구동해야 에러 판단 및 연결된 페이지의 리스트 결과가 일관되게 나온다.

북마크
공유하기
신고하기