본문 바로가기

파이썬/웹 크롤링

웹 크롤링 기본 - 파이썬 웹 크롤링

1.웹페이지에서 데이터 골라 가져오기

import requests
from bs4  import BeautifulSoup

url = "페이지 링크"
data = requests.get(url)
soup = BeautifulSoup(data.text) # 대상 페이지의 전체 데이터

웹페이지 요소 고르기

list = soup.select("CSS 셀렉터")
element = soup.select("CSS 셀렉터")[0]

내용 = op.find_all("td")[1].text
속성값 = op.find_all("td")[2].find("a").get("title")

문자열 포맷

for i in range(1,7):
  url = f"https://website/{i}"

2.데이터 가공하기

# 배열 여러개의 원소들을 순서대로 쌍 묶기
zip_data = list(zip(배열1, 배열2))
print(zip_data)

# 한 유닛에 소량의 정보 - 튜플

# 한 유닛에 대량의 정보 - 딕셔너리
dict = {}
dict["key"] = "value"
 
for key in dict.keys():
   print(key)
   
for value in dict.values():
   print(value)
   
for key, value in dict.items():
   print(key, value)
for item in dict.items():
   print(item)

3.CSV로 출력하기

import csv

with open('data.csv', 'w', newline='') as file:
    writer = csv.writer(file)
    writer.writerow(배열)
    writer.writerow(튜플)

파이썬 웹 크롤링
파이썬 웹 크롤링
파이썬 웹 크롤링
파이썬 웹 크롤링