출처 : https://www.coursera.org/learn/python-network-data/supplement/2WnqH/python-regular-expression-quick-guide Coursera | Online Courses & Credentials From Top Educators. Join for Free | Coursera Learn online and earn valuable credentials from top universities like Yale, Michigan, Stanford, and leading companies like Google and IBM. Join Coursera for free and transform your career with degrees, ..
# String Library str.capitalize() # abc -> Abc , ABC -> Abc 첫글자만 대문자로 str.center(width[, fillchar]) # str.endswith(suffix[,start[, end]]) # str.find(sub[, start[, end]]) # 문자열 안에 원하는 조건에 해당하는 글자 찾기. 찾아서 존재한다면 True, 없다면 False 혹은 해당하는 문자의 위치를 찾는데 사용하기도 한다. str.lstrip([chars]) # greet = ' Hello Bob ' 일 경우 lstrip()사용하면 'Hello Bob ' 왼쪽 문자열 공백 제거 str.replace(old, new[, count]) # old = bog, new = jane ..
크롤링 사이트 : https://jolse.com JOLSE Korean Cosmetics Online Beauty Shop jolse.com 대상 페이지 선정 메뉴 : SKINCARE -> Moisturizer ->Toners & Mists https://jolse.com/category/toners-mists/1019/ SKINCARE - Toners & Mists Toners & Mists jolse.com 제품 이름 찾기 더보기 import urllib.request import bs4 url = "https://jolse.com/category/toners-mists/1019/" html = urllib.request.urlopen(url) bs_obj = bs4.BeautifulSoup(htm..
크롤링(crwaling) : 인터넷에서 데이터를 수집하여 받아오는 것 크롤러 : 크롤링을 하는 프로그램 파싱(parsing) : 데이터에서 필요한 내용만 추출하는 것 urllib 패키지 인터넷에서 데이터를 받아 오늘 기능들이 들어 있다. BeautifulSoup 모듈 데이터를 추출(파싱)하는데 필요한 기능들이 들어 있다. 크롤링 시작 전 반드시 해당 사이트 url/robots.txt를 확인할 것 robots.txt : 인터넷에서 데이터를 수집하여 받아오는 것 robots.txt에서 반드시 확인할 3가지 User-agent : 다음 규칙이 적용되는 로봇의 이름 Disallow : 차단할 URL 경로 Allow : 차단 된 상위 디렉토리의 하위 디렉토리에 있는 URL경로이며 차단 해제 할 디렉토리 네이버의 ..
XML이란 - XML(eXensible Markup Language)은 확장적인 마크업 언어라는 뜻으로, 데이터의 구조와 의미를 설명하는 태그를 사용하여 어떤 데이터의 속성과 값을 표현하는 언어다. 즉, 시작 태그와 종료 태그 사이에 어떤 값이 있고, 그 값은 태그의 이름으로 만들어진 속성에 대한 값이 된다. XML의 구조 더보기 홍길동 11111111 22 컴퓨터공학 남성 XML 문서 - XML로 정보를 표현할 때 가장 기본적인 방법은 트리 형태로 표현하는 것이다. 이는 HTML과 완전히 같으며 모든 태그 기반의 언어가 지닌 공통적인 특징이다. 간단한 딕셔너리로 표현 더보기 {books:[{book:{author:carson,price:31.95,pubdate:05/01/2001}]}}] JSON의 개..
BeautifulSoup 모듈 개요 - BeautifulSoup 모듈은 일종의 래퍼(wrapper)로, 기존 파싱 기능이 있는 다른 라이브러리를 쉽게 사용할 수 있도록 한다. 전통적인 파이썬 XML 파서(XML parser)에는 lxml과 html5lib 등이 있으며, BeautifulSoup 모듈은 이를 차용하여 데이터를 쉽고 빠르게 처리한다. BeautifulSoup 설치 - anaconda 설치 시 PATH 설정을 클릭했다면 cmd 창에서 명령어를 입력해도 가능하다. 하지만 PATH 설정을 클릭하지 않았다면 anaconda prompt 창에서 명령어를 입력해야 한다. 명령어 더보기 conda create -n python_mooc python=3.7 conda install lxml conda in..