[Python] Pandas 라이브러리 - DataFrame
·
Python/Module
Pandas는 Python Data Analysis Library의 약자이다. 직역하면 파이썬에서 데이터를 분석하기 위해 만들어진 라이브러리라고 할 수 있다. 물론 나도 파이썬에서 데이터를 분석 및 처리하기 위해 Pandas를 사용하게 되었고, 그 중에도 DataFrame을 다루는 법에 대해 기초적인 부분을 다뤄보고자 한다. DataFrame 판다스에서의 DataFrame은 여러가지 데이터 타입을 처리하여 구성할 수 있다. 예를 들어 List, Dictionary, series, ndarray 등이 있다. 또한 DataFrame은 행과 열로 데이터들을 정리해 표의 형태로 처리하는 자료구조를 의미한다. DataFrame 생성 방법 가장 많이 사용하는 두 가지의 데이터 타입인 List와 dictionary를..
[Python] BeautifulSoup 라이브러리
·
Python/Module
BeautifulSoup 설치 pip install beautifulsoup4 Window 운영체제를 사용하고 있다면 cmd에서, Mac 운영체제를 사용하고 있다면 terminal에서 설치! BeautifulSoup 기본 사용법 import requests from bs4 import BeautifulSoup news_url = 'https://news.naver.com/' # requests 모듈을 사용하여 해당 URL에 포함된 HTML정보를 로드한다. response = requests.get(news_url) # response에 저장된 HTML정보를 binary형식에서 text형식으로 바꾼 뒤, soup 객체로 반환한다. soup = BeautifulSoup(response.text, 'html...
[Python] 크롤링이 무엇인가?
·
Python/Knowledge
크롤링이란? - 크롤링(Crawling)의 사전적 의미는 기어다닌다는 의미를 지닌다. 어디를 기어다니는지에 대한 의문이 들텐데 다름아닌 웹(Web) 상을 기어다닌다고 생각하면 된다. - 이러한 말 뜻은 웹상을 기어다니며 데이터들을 긁어 모은다는 의미에서 유래된 것으로 알려져있다. 다르게 불리는 말들로는 웹 스크래핑(Web Scraping), 데이터 긁어 모으기 등이 존재한다. 기술적인 의미 - '크롤링'은 웹 상에 존재하는 자료들을 특정한 방식을 사용하여 데이터들을 수집함을 의미한다. 여기서 중요한 점은 웹 상의 정보에는 여러가지 종류가 있다라는 점이다. - '크롤링'은 정적인 문서가 대상이 될 수도 있고, API와 같은 서비스가 될 수도 있다. 정적인 자료를 대상으로 하는 것은 크롤링을 한번만 해서 정..
[Python] requests 라이브러리
·
Python/Module
- Requests 라이브러리는 파이썬에서 HTTP를 호출하는 프로그램을 작성할 때 가장 많이 사용되는 라이브러리이다. API Requests 라이브러리는 한눈에 알아보기 쉬운 직관적인 API를 제공한다. 대표적으로 사용되는 4가지 방식을 보자. GET : request.get() POST : request.post() PUT : request.put() DELETE : request.delete() Response(응답 상태) - HTTP를 호출하게 되면 응답 상태 코드를 반환 받게 되는데, 일반적으로 반환되어지는 코드를 보고 요청이 잘 처리 되었는지를 알 수 있다. - 만약 호출할 수 없는 주소이거나, 호출하는 과정에서 문제가 생겼다면 Error 코드가 이전에 발생할 확률이 높지만 만약 Error 코..