본문 바로가기

Hello Crawling

(4)
크롤링(crawling)_browserless 크롤링 20221014 8일차 requests는 브라우저 없이 파이썬에서 다이렉트로 서버에 http 요청을 넣는다. 속도나 리소스면에서 훨씬 우월하다. 다만, 클릭등이 안되기때문에 특정 페이지 주소에서만 가능하다. http 소스를 가져오면 다음부터는 BeautifulSoup로 진행하는것은 똑같다. 우선 필요한것들을 import 해주고 requests.get으로 주소를 입력한다. req.text는 selenium의 .text와 문법은 같으나 기능은 다르기에 주의해야한다. 주소를 입력하고 req.text로 http 소스코드를 읽어온다. * .headers는 요청에 따른 상세정보를 보여준다. * .status_code는 접속상태를 숫자로 보여준다 (정상 = 200)
크롤링(crawling)_알라딘 크롤링 20221013 7일 차 다음은 알라딘 크롤링이다. 알라딘은 교보문고와 다르게 베스트셀러 첫 번째 페이지는 약 1~50위가 나와있다. 더욱 충격적인건 바로 이것이다. 태그와 클래스를 확인하기 위해 살펴봤더니 딱히 구분해서 기준이 되는게 없다. 태그 만 가득하다. 이제 규칙을 찾아야 한다. 우선 책 한권 전체를 감싸는 태그와 클래스가 이렇게 규칙적인것을 확인했다. 그리고 개수를 확인한다. 50개다. 그렇담 그 안에있는 코드중에서 로 솎는다면 50개의 책 정보가 나올 것이다. 로 솎았더니 또 문제가 생겼다. 책 사진 오른쪽 부분이 로 감싸진 부분인데. 내가 원하는 정보 외의 정보가 많다. 그래서 인덱싱으로 프린트 해서 결과를 확인해주니 각각, 1번째 2번째 3번째 였고 이를 반복문으로 프린트 해서 돌려주면?..
크롤링(crawling)_교보문고 크롤링 20221013 7일 차 첫 번째 실습은 교보문고 순회 크롤링이다. 먼저 순회 크롤러 정의이다. 순회 크롤러란 같은 양식의 페이지 범위를 쓱 훑는 것이다. 기본 로직은 이러하다 한 페이지의 크롤러를 제작 후그걸 반복문에 넣으면 된다. 간단해 보이지만 간단하지 않다. 우선 가장 기본인 필수 라이브러리를 임포트 해준다. 우리의 목표는 교보문고 베스트셀러의 모든 도서 (약 1000개)의 이름, 저자, 가격을 다 수집해 와서 하나의 자료로 만드는 것이다. 총 45페이지에 1000개의 도서 정보가 실제 했으며 45번의 반복을 반복문을 통해 걸어준다. 그리고 페이지 소스를 저장하고 파싱 했다. 한 페이지에서 원하는 데이터를 추출하기 위해 태그와 클래스별로 데이터를 수집한다. 그리고 각각의 만들어둔 리스트에 텍스트로..
크롤링(crawling)_크롤링 기초 20221012 6일 차 크롤링은 원하는 자료를 컴퓨터에게 시켜서 가져오는 기술이다. (뭔가 단어가 갈고리로 긁어오는 듯한 느낌을 준다.) 속도는 브라우저 없는 크롤링이 빠르며 오늘은 selenium을 통해 크롤링을 했다. selenium 설치법은 이러하다. bs4로부터 BeautifulSoup를 임포트 하여 사용하고 selenium으로부터 webdriver를 임포트 하여 사용한다. * import는 '수입하다', '가져오다'라는 뜻 그리고 import time은 시간을 가져오다. 즉, 우리에게 시간을 벌어준다. selenium을 쓰기 위해 크롬(Chrome)이라는 인터넷 브라우저를 사용할 것이고 크롬(Chrome) 브라우저에서 크롤링하기 위해 크롬(Chrome) 드라이버를 설치해야 한다. 본격적으로 크..