본문 바로가기
국비교육

Python 14일차

by Diligejy 2019. 5. 20.

Scipy : 대용량 데이터 처리시 사용 파이썬 라이브러리

파일 입출력 : scipy.io

특수 함수 : scipy.special

    - Bessel 함수 scipy.sepcial.jn() (정수 n차 Bessel 함수)

        원통좌표계에서 변수 분리할 때 등장하는 특수 함수

    - 타원 함수 (scipy.special.ellip(), Jacobi 타원 함수, ...)

    - Gamma 함수 : scipy.special.gamma() Gamma 함수 log를 정확하게 제공

                         scipy.special.gammaln()도 있다.

    - Erf, Gaussian의 크기 : scipy.special.erf()

선형 대수 연산 : scipy.linalg

고속 Fourier 변환 : scipy.fftpack

최적화 : scipy.optimize

통계 및 난수 : scipy.stats

수치 적분 : scipy.integrate

신호 분석 : scipy.signal

이미지 처리 : scipy.ndimage //이미지를 배열로 가지고 온다 - 이미지를 조작하는게 편함

 

 

#2. 웹 크롤러(Web Crawler)는 웹문서, 이미지 등을 주기적으로 수집하여 자동으로 DB화하는 프로그램으로 웹 크롤러가 하는 작업을 웹 크롤링(Web Crawling)이라고 부른다.

 

- 보통 웹 크롤러를 사용하면 웹 문서의 복하본을 생성하며, 검색 엔진은 생성된 데이터를 인덱싱하여 빠른 검색을 할 수 있다.

 

1. BeautifulSoup : HTML과 XML(xpath) 파일로부터 데이터를 가져오기 위한 라이브러리 MultiProcessing에 강함

2. Requests : - 네트워크 소켓을 이용한 브라우저의 값을 리턴받는 라이브러리

                  - 웹페이지를 다운로드 할 때 필요한 객체 

단점 : 자바스크립트로 구현된 이벤트 값을 가져오지 못한다.

 

 

 

3. Scrapy : 파이썬으로 작성되었으며, spider를 작성하여 크롤링한다.

               정적 페이지 크롤링 전담

 

4. Selenium : 웹 어플리케이션을 위한 테스팅 프레임워크 웹 브라우저를 대신해 줄 Web Driver를 설치하고 Selenium으로 자동화하여 웹 사이트를 탐색한다.

 

로봇 배제 표준은 웹 사이트에 로봇이 접근하는 것을 방지하기 위한 규약으로, 

접근 제한에 대한 설명을 robots.txt에 기술한다.

http://news.naver.com/robots.txt 

http://media.daum.net/robots.txt

 

 

#3

# parser의 종류
# - html.parser : 파이썬 내장 라이브러리 
# - lxml : html 파서 / 외부 라이브러리 (속도 빠르다 )
# - lxml -xml : xml 파서  / 외부 라이브러리 (속도 빠르다 )
# - html5lib : html5 전용 파싱 외부 라이브러리

'국비교육' 카테고리의 다른 글

프로젝트  (0) 2019.05.22
Python 15일차  (0) 2019.05.21
Python 13일차  (0) 2019.05.17
Python 12일차  (0) 2019.05.16
Python 11일차  (0) 2019.05.15

댓글