본문 바로가기
반응형

웹크롤링 2

[빅데이터] 웹 크롤링 : BeautifulSoup(2) : select, css selector, pandas [ 파이썬 스레딩 모듈을 사용해서 데이터 스크랩핑하기 ] find / find_all / select / select_one 1. css 선택자 사용해서 크롤링하기 : select() 메소드 BeautifulSoup이 제공하는 여러 가지 유용한 기능 중, CSS 선택자를 매개변수로 받는 select() 메서드를 사용해보자. from bs4 import BeautifulSoup html = """ test 도서 목록 자바 입문 HTML PYTHON """ soup = BeautifulSoup(html,"html.parser") 도서 목록을 가져오고 싶다. 도서목록은 태그의 자식인 태그 안에 있다. 의 id가 'main'이다. main의 자식 > h1을 가져오기 : select_one, select h1 =.. 2020. 10. 23.
[빅데이터] 웹 크롤링 : BeautifulSoup(1) find, xml 파싱, 태그 속성값 크롤링 빅데이터의 꽃은 단연 머신러닝이라 생각한다. 우리의 궁극적 목표는 머신러닝의 발자취를 따라가는 것. 머신러닝의 가장 기초는 데이터를 처리하는 데에 있다. ▼ 데이터 처리 단계 더보기 데이터 처리 단계 : [수집] -> [저장] -> [처리] -> [분석] -> [시각화] 웹에서는 기본적으로 [수집] -> [저장] -> [처리] -> [분석] -> [시각화] 단계로 이루어진다. 기본적으로 웹 스크래핑, IOT 센서, JSON/CSV/TEXT 등 공용,공개, 공공데이터, SQL, SNS 등의 상호 수집 데이터 등을 이용해서 데이터를 수집하는데, 이러한 데이터를 저장하는 것이 중요한 이유는 데이터 아키텍처의 시스템을 따르기 때문이다. 기업은 최소의 비용으로 최대 효율을 따지기 때문에 데이터 저장을 할 때에 클.. 2020. 10. 23.
반응형
LIST