20221013
7일 차
다음은 알라딘 크롤링이다.
알라딘은 교보문고와 다르게
베스트셀러 첫 번째 페이지는 약 1~50위가 나와있다.
더욱 충격적인건 바로 이것이다.
태그와 클래스를 확인하기 위해 살펴봤더니
딱히 구분해서 기준이 되는게 없다.
태그 <li>만 가득하다.
이제 규칙을 찾아야 한다.
우선 책 한권 전체를 감싸는 태그와 클래스가 이렇게 규칙적인것을 확인했다.
그리고 개수를 확인한다.
50개다.
그렇담 그 안에있는 코드중에서 <li> 로 솎는다면
50개의 책 정보가 나올 것이다.
<li> 로 솎았더니 또 문제가 생겼다.
책 사진 오른쪽 부분이 <li>로 감싸진 부분인데.
내가 원하는 정보 외의 정보가 많다.
그래서 인덱싱으로 프린트 해서 결과를 확인해주니
각각, 1번째 2번째 3번째 였고 이를 반복문으로 프린트 해서 돌려주면?
위 사진과 같이
내가 원하는 정보만 출력된다.
규칙을 찾아내고
올바르게 규칙을 배제하고
효율적으로 뽑아내는것이
핵심인것같다.
'Hello Crawling' 카테고리의 다른 글
크롤링(crawling)_browserless 크롤링 (0) | 2022.10.17 |
---|---|
크롤링(crawling)_교보문고 크롤링 (0) | 2022.10.13 |
크롤링(crawling)_크롤링 기초 (0) | 2022.10.13 |