본문 바로가기

Hello Crawling

크롤링(crawling)_알라딘 크롤링

20221013

7일 차

 


다음은 알라딘 크롤링이다.

 

알라딘은 교보문고와 다르게

베스트셀러 첫 번째 페이지는 약 1~50위가 나와있다.

더욱 충격적인건 바로 이것이다.

 

 


베스트 셀러 1번 도서
베스트 셀러 2번 도서

 

태그와 클래스를 확인하기 위해 살펴봤더니

딱히 구분해서 기준이 되는게 없다.

태그 <li>만 가득하다.

 


 


이제 규칙을 찾아야 한다.

 

우선 책 한권 전체를 감싸는 태그클래스가 이렇게 규칙적인것을 확인했다.

그리고 개수를 확인한다.

 

50개다. 

 

그렇담 그 안에있는 코드중에서 <li> 로 솎는다면

50개의 책 정보가 나올 것이다.

 


<li> 로 솎았더니 또 문제가 생겼다.

 

책 사진 오른쪽 부분이 <li>로 감싸진 부분인데.

내가 원하는 정보 외의 정보가 많다.

 

그래서 인덱싱으로 프린트 해서 결과를 확인해주니

각각, 1번째 2번째 3번째 였고 이를 반복문으로 프린트 해서 돌려주면?

 

위 사진과 같이

내가 원하는 정보만 출력된다.

 

 


규칙을 찾아내고

올바르게 규칙을 배제하고 

효율적으로 뽑아내는것이

핵심인것같다.