본문 바로가기
개발&코딩/Python

무신사 홈페이지에서 키워드 수집해오기 (Python_Crawler) BeautifulSoup

by 우동이 2020. 12. 19.
300x250

Crawler(크롤러)란?

크롤러는 땅을 파는 굴삭기를 이르는 명칭으로 최근에는 웹에서 정보를 자동화된 방식으로 수집하는 걸

웹 크롤러라고 부른다.

 


그렇다면 크롤러란 프로그램을 사용해서 얻을 수 있는 점이 무엇이 있는가 하면

정보의 홍수와도 같은 웹 상에서 더 많은 데이터를 수집하고 더 빨리 얻을 수 있게 하기 위하여

주로 크롤러를 사용하는데 이 분야가 적용될 수 있는 범위는 정말로 무궁무진 하다.

 

크롤러를 제작할 때에는 웹 분야에서 널리 쓰이는 Python 기반으로 만드는데

 

크롤러 기능을 제공하는 두 개의 모듈을 설치하면 된다.

 

1.BeautifulSoup

HTML&XML 파일 parsing library 하지만 html 코드로 나오기 때문에 추가적인 다듬기 작업이 필요하다.

2.Requests

response&request 처리 중 request에 해당하는 네임의 모듈 

HTTP 요청을 주고받을 수 있도록 처리하는 라이브러리다.

3.Seleuinm

Beautiful Soup는 html에 대한 데이터만 얻어올 수 있지만

직접적인 웹 사이트의 접근을 통해 얻을 수 있는 데이터를 

4.Scrapy

 

 

 

 

from bs4 import BeautifulSoup
import requests
i = int(input("페이지 수를 입력하시오 : "))
url = "https://store.musinsa.com/app/?n_media=27758&n_query=%EB%AC%B4%EC%8B%A0%EC%82%AC&n_rank=1&n_ad_group=grp-a001-01-000000014243257&n_ad=nad-a001-01-000000095050246&n_keyword_id=nkw-a001-01-000002707949946&n_keyword=%EB%AC%B4%EC%8B%A0%EC%82%AC&n_campaign_type=1&NaPm=ct%3Dkbtb2qds%7Cci%3D0yu0001%2DedbsT5FMvf0O%7Ctr%3Dsa%7Chk%3De73f5151442e5594a432afe6d2963653c7f79f37"



r = requests.get(url)

bs = BeautifulSoup(r.text, "lxml")


ls=bs.select("strong.title")

lists=[]
for l in ls:
    lists.append(l.text)

print(lists)

-추후 업로드 예정-

300x250

댓글