IT
데이터 분석 과정 1단계 : 문제 정의 및 계획 문제가 명확해야 그 문제를 해결하기 위한 데이터가 어떤 것인지를 추정할 수 있고, 어떤 분석기법을 적용해야 할지도 계획할 수 있음 2단계 : 데이터 수집 기존 시스템의 데이터베이스, 엑셀 파일, 종이 문서, 장비 내의 파일, 인터넷 등에서 필요한 자료를 수집 3단계 : 데이터 정재 및 전처리 수집된 데이터는 바로 분석에 사용할 수 없는 경우가 대부분 단위의 차이, 결측값, 오류 데이터 등의 보정 필요 수집된 데이터를 분석이 가능한 형태로 정돈하는 과정을 데이터 정제 혹은 전처리 과정 4단계 : 데이터 탐색 가벼운 데이터 분석 전반적인 데이터의 내용을 파악하는 단계 5단계 : 데이터 분석 데이터 탐색 단계에서 파악한 정보를 바탕으로 보다 심화된 분석을 수행하..
·빅데이터
https://rstudio.com/products/rstudio/download/ Download RStudio RStudio is a set of integrated tools designed to help you be more productive with R. It includes a console, syntax-highlighting editor that supports direct code execution, and a variety of robust tools for plotting, viewing history, debugging and managing rstudio.com 다운로드 버튼 클릭시 윈도우버전 다운로드 후 exe 파일을 실행하면 설치 완료 후 R Studio 실행 OK 클릭시
크롤링 사이트 : https://jolse.com JOLSE Korean Cosmetics Online Beauty Shop jolse.com 대상 페이지 선정 메뉴 : SKINCARE -> Moisturizer ->Toners & Mists https://jolse.com/category/toners-mists/1019/ SKINCARE - Toners & Mists Toners & Mists jolse.com 제품 이름 찾기 더보기 import urllib.request import bs4 url = "https://jolse.com/category/toners-mists/1019/" html = urllib.request.urlopen(url) bs_obj = bs4.BeautifulSoup(htm..
크롤링(crwaling) : 인터넷에서 데이터를 수집하여 받아오는 것 크롤러 : 크롤링을 하는 프로그램 파싱(parsing) : 데이터에서 필요한 내용만 추출하는 것 urllib 패키지 인터넷에서 데이터를 받아 오늘 기능들이 들어 있다. BeautifulSoup 모듈 데이터를 추출(파싱)하는데 필요한 기능들이 들어 있다. 크롤링 시작 전 반드시 해당 사이트 url/robots.txt를 확인할 것 robots.txt : 인터넷에서 데이터를 수집하여 받아오는 것 robots.txt에서 반드시 확인할 3가지 User-agent : 다음 규칙이 적용되는 로봇의 이름 Disallow : 차단할 URL 경로 Allow : 차단 된 상위 디렉토리의 하위 디렉토리에 있는 URL경로이며 차단 해제 할 디렉토리 네이버의 ..