크롤링 사이트 : https://jolse.com JOLSE Korean Cosmetics Online Beauty Shop jolse.com 대상 페이지 선정 메뉴 : SKINCARE -> Moisturizer ->Toners & Mists https://jolse.com/category/toners-mists/1019/ SKINCARE - Toners & Mists Toners & Mists jolse.com 제품 이름 찾기 더보기 import urllib.request import bs4 url = "https://jolse.com/category/toners-mists/1019/" html = urllib.request.urlopen(url) bs_obj = bs4.BeautifulSoup(htm..
Python 크롤링 기초
크롤링(crwaling) : 인터넷에서 데이터를 수집하여 받아오는 것 크롤러 : 크롤링을 하는 프로그램 파싱(parsing) : 데이터에서 필요한 내용만 추출하는 것 urllib 패키지 인터넷에서 데이터를 받아 오늘 기능들이 들어 있다. BeautifulSoup 모듈 데이터를 추출(파싱)하는데 필요한 기능들이 들어 있다. 크롤링 시작 전 반드시 해당 사이트 url/robots.txt를 확인할 것 robots.txt : 인터넷에서 데이터를 수집하여 받아오는 것 robots.txt에서 반드시 확인할 3가지 User-agent : 다음 규칙이 적용되는 로봇의 이름 Disallow : 차단할 URL 경로 Allow : 차단 된 상위 디렉토리의 하위 디렉토리에 있는 URL경로이며 차단 해제 할 디렉토리 네이버의 ..