728x90
반응형
BeautifulSoup 모듈 개요
- BeautifulSoup 모듈은 일종의 래퍼(wrapper)로, 기존 파싱 기능이 있는 다른 라이브러리를 쉽게 사용할 수 있도록 한다. 전통적인 파이썬 XML 파서(XML parser)에는 lxml과 html5lib 등이 있으며, BeautifulSoup 모듈은 이를 차용하여 데이터를 쉽고 빠르게 처리한다.
BeautifulSoup 설치
- anaconda 설치 시 PATH 설정을 클릭했다면 cmd 창에서 명령어를 입력해도 가능하다. 하지만 PATH 설정을 클릭하지 않았다면 anaconda prompt 창에서 명령어를 입력해야 한다.
명령어
더보기
conda create -n python_mooc python=3.7
conda install lxml
conda instll -c anaconda beautifulsoup4=4.5.1
이후 모듈이 설치되는 모든 과정을 거친 후 파이썬 셸에서 다음을 실행하여 이상이 없다면 정상적으로 설치가 완료된 것이다.
form bs4 import BeautifulSoup
설치 과정
import 시켜도 에러가 나오지 않는다면, 성공적으로 설치 완료.
BeautifulSoup 모듈 사용법
예제
books.xml 파일은 아래 링크에서 가져옴.
https://docs.microsoft.com/en-us/previous-versions/windows/desktop/ms762271(v=vs.85)
더보기
from bs4 import BeautifulSoup
with open("books.xml","r",encoding="utf-8")as books_file:
books_xml = books_file.read() # 파일을 문자열로 읽어오기
soup = BeautifulSoup(books_xml,"lxml") # lmxl 파서를 사용해 데이터 분석
# author가 들어간 모든 요소의 값 추출
for book_info in soup.find_all("author"):
print(book_info)
print(book_info.get_text()) # 해당 요소에서 값 추출
728x90
반응형