Python BeautifulSoup 설치 및 개요

2020. 7. 6. 18:39·프로그래밍 & 개발 환경/Python
728x90

BeautifulSoup 모듈 개요

- BeautifulSoup 모듈은 일종의 래퍼(wrapper)로, 기존 파싱 기능이 있는 다른 라이브러리를 쉽게 사용할 수 있도록 한다. 전통적인 파이썬 XML 파서(XML parser)에는 lxml과 html5lib 등이 있으며, BeautifulSoup 모듈은 이를 차용하여 데이터를 쉽고 빠르게 처리한다.

파서의 성능 비교

BeautifulSoup 설치

- anaconda 설치 시 PATH 설정을 클릭했다면 cmd 창에서 명령어를 입력해도 가능하다. 하지만 PATH 설정을 클릭하지 않았다면 anaconda prompt 창에서 명령어를 입력해야 한다.

명령어

더보기

conda create -n python_mooc python=3.7

conda install lxml

conda instll -c anaconda beautifulsoup4=4.5.1

이후 모듈이 설치되는 모든 과정을 거친 후 파이썬 셸에서 다음을 실행하여 이상이 없다면 정상적으로 설치가 완료된 것이다.

 

form bs4 import BeautifulSoup

설치 과정

 

확인 방법

import 시켜도 에러가 나오지 않는다면, 성공적으로 설치 완료.

 

 

 

BeautifulSoup 모듈 사용법

 

BeautifulSoup 모듈의 주요 코드

예제

books.xml 파일은 아래 링크에서 가져옴.

https://docs.microsoft.com/en-us/previous-versions/windows/desktop/ms762271(v=vs.85)

더보기
from bs4 import BeautifulSoup

with open("books.xml","r",encoding="utf-8")as books_file:
    books_xml = books_file.read() # 파일을 문자열로 읽어오기
    

soup = BeautifulSoup(books_xml,"lxml") # lmxl 파서를 사용해 데이터 분석

# author가 들어간 모든 요소의 값 추출
for book_info in soup.find_all("author"):
    print(book_info)
    print(book_info.get_text())      # 해당 요소에서 값 추출

BeautifulSoup author만 가져오기

 

 

728x90
저작자표시 비영리 변경금지 (새창열림)
'프로그래밍 & 개발 환경/Python' 카테고리의 다른 글
  • Python 크롤링
  • Python XML, JSON
  • Python 웹 컴포넌트
  • Python CSV
포장빵
포장빵
IT공부 및 프로그래밍
  • 포장빵
    포장빵의 IT
    포장빵
  • 전체
    오늘
    어제
    • AI 학습 노트 (113)
      • 기초 수학 (4)
        • 선형대수 (0)
        • 확률통계 (4)
        • 미적분 (0)
        • 최적화 이론 (0)
      • AI & 딥러닝 (1)
        • 이론 (0)
        • 컴퓨터 비전 (0)
        • 자연어 처리 (0)
        • 생성AI (0)
        • 강화학습 (0)
      • 데이터과학 (70)
        • R (47)
        • ADSP (21)
      • 연구 & 자료 (15)
        • 논문 (6)
        • 수료증 (3)
      • 프로그래밍 & 개발 환경 (22)
        • Python (22)
        • 개발도구 (0)
        • 알고리즘 (0)
      • 면접 자료 (1)
  • 블로그 메뉴

    • 링크

    • 공지사항

    • 인기 글

    • 태그

      지수분포
      Python 크롤링 기초
      python 주요 데이터 타입
      단순선형 회귀분석
      확률
      확률 분포
      R 원 그래프 퍼센트
      k-means clustering
      Coursera 1
      자료의 종류
      stylegan2
      Python Regular Expression Quick Guide
      시계열 모형
      베르누이분포
      yolov9
      none타입
      Coursera Python Data Structures
      다차원 척보법
      k-평균 군집
      R 원 그래프
      R 도수분포표
      시퀀스형
      CV
      주성분 분석(PCA)
      매핑형(딕셔너리)
      str lib
      논문
      상관분석
      통계량에 의한 자료 분석
      yolov10
    • 최근 댓글

    • 최근 글

    • hELLO· Designed By정상우.v4.10.3
    포장빵
    Python BeautifulSoup 설치 및 개요
    상단으로

    티스토리툴바