[Python] 크롤링이 무엇인가?
·
Python/Knowledge
크롤링이란? - 크롤링(Crawling)의 사전적 의미는 기어다닌다는 의미를 지닌다. 어디를 기어다니는지에 대한 의문이 들텐데 다름아닌 웹(Web) 상을 기어다닌다고 생각하면 된다. - 이러한 말 뜻은 웹상을 기어다니며 데이터들을 긁어 모은다는 의미에서 유래된 것으로 알려져있다. 다르게 불리는 말들로는 웹 스크래핑(Web Scraping), 데이터 긁어 모으기 등이 존재한다. 기술적인 의미 - '크롤링'은 웹 상에 존재하는 자료들을 특정한 방식을 사용하여 데이터들을 수집함을 의미한다. 여기서 중요한 점은 웹 상의 정보에는 여러가지 종류가 있다라는 점이다. - '크롤링'은 정적인 문서가 대상이 될 수도 있고, API와 같은 서비스가 될 수도 있다. 정적인 자료를 대상으로 하는 것은 크롤링을 한번만 해서 정..
[Python] 사용자 에이전트 : User Agent (headers)
·
Python/Knowledge
"사용자 에이전트"(user agent) 라는 용어의 의미는 '사용자를 대표하는 컴퓨터 프로그램으로, 웹의 맥락으로 보았을 때 브라우저를 의미한다. 브라우저 외에도 웹 페이지를 긁어가는 봇, 다운로드 관리자, 웹에 접근하는 다른앱도 사용자 에이전트입니다. [https://developer.mozilla.org/ko/docs/Glossary/User_agent] 접하게 된 경로 파이썬의 외장 모듈인 Requests 모듈을 사용할 때 웹에 존재하는 HTML 정보를 받아들여 사용하는 경우가 굉장히 많다. 하지만 모든 HTML 정보에 대해서 접근할 수 있는 것은 아니기 때문에 따로 header를 지정해줘야 하는 경우가 생긴다. 이 때 User Agent를 지정해 줌으로써 해당 문제를 해결하였는데 이러한 과정에서..
[Python] requests 라이브러리
·
Python/Module
- Requests 라이브러리는 파이썬에서 HTTP를 호출하는 프로그램을 작성할 때 가장 많이 사용되는 라이브러리이다. API Requests 라이브러리는 한눈에 알아보기 쉬운 직관적인 API를 제공한다. 대표적으로 사용되는 4가지 방식을 보자. GET : request.get() POST : request.post() PUT : request.put() DELETE : request.delete() Response(응답 상태) - HTTP를 호출하게 되면 응답 상태 코드를 반환 받게 되는데, 일반적으로 반환되어지는 코드를 보고 요청이 잘 처리 되었는지를 알 수 있다. - 만약 호출할 수 없는 주소이거나, 호출하는 과정에서 문제가 생겼다면 Error 코드가 이전에 발생할 확률이 높지만 만약 Error 코..