300x250
Crawler(크롤러)란?
크롤러는 땅을 파는 굴삭기를 이르는 명칭으로 최근에는 웹에서 정보를 자동화된 방식으로 수집하는 걸
웹 크롤러라고 부른다.
그렇다면 크롤러란 프로그램을 사용해서 얻을 수 있는 점이 무엇이 있는가 하면
정보의 홍수와도 같은 웹 상에서 더 많은 데이터를 수집하고 더 빨리 얻을 수 있게 하기 위하여
주로 크롤러를 사용하는데 이 분야가 적용될 수 있는 범위는 정말로 무궁무진 하다.
크롤러를 제작할 때에는 웹 분야에서 널리 쓰이는 Python 기반으로 만드는데
크롤러 기능을 제공하는 두 개의 모듈을 설치하면 된다.
1.BeautifulSoup
HTML&XML 파일 parsing library 하지만 html 코드로 나오기 때문에 추가적인 다듬기 작업이 필요하다.
2.Requests
response&request 처리 중 request에 해당하는 네임의 모듈
HTTP 요청을 주고받을 수 있도록 처리하는 라이브러리다.
3.Seleuinm
Beautiful Soup는 html에 대한 데이터만 얻어올 수 있지만
직접적인 웹 사이트의 접근을 통해 얻을 수 있는 데이터를
4.Scrapy
from bs4 import BeautifulSoup
import requests
i = int(input("페이지 수를 입력하시오 : "))
url = "https://store.musinsa.com/app/?n_media=27758&n_query=%EB%AC%B4%EC%8B%A0%EC%82%AC&n_rank=1&n_ad_group=grp-a001-01-000000014243257&n_ad=nad-a001-01-000000095050246&n_keyword_id=nkw-a001-01-000002707949946&n_keyword=%EB%AC%B4%EC%8B%A0%EC%82%AC&n_campaign_type=1&NaPm=ct%3Dkbtb2qds%7Cci%3D0yu0001%2DedbsT5FMvf0O%7Ctr%3Dsa%7Chk%3De73f5151442e5594a432afe6d2963653c7f79f37"
r = requests.get(url)
bs = BeautifulSoup(r.text, "lxml")
ls=bs.select("strong.title")
lists=[]
for l in ls:
lists.append(l.text)
print(lists)
-추후 업로드 예정-
300x250
'개발&코딩 > Python' 카테고리의 다른 글
n까지의 합 - Python Algorithm loop_basic (0) | 2021.01.03 |
---|---|
중간값 구하기 알고리즘 (Python_Algorithm, median) (0) | 2020.12.27 |
Python Algorithm 기초 공부1 (0) | 2020.12.13 |
[Python] numpy, random 라이브러리로 로또 번호 생성기 만들기 (0) | 2020.09.16 |
[Python] 함수와 사용법 (0) | 2020.09.11 |
댓글