[Python] 직업 사이트 크롤링 1 - kyeom

2022. 10. 31. 20:21Python/연습

728x90

◎ 잡코리아에서 원하는 직업의 정보를 크롤링 해서 엑셀 파일로 저장 해보자!


알고 있어야하는 내용

  1. HTML / div, li span, class, ul... 어떤식으로 구성 되어 있는지만 알아도 충분.
  2. BeautifulSoup / pip install beautifulsoup4 을 통해서 설치
from requests import get
from bs4 import BeautifulSoup

base_url = "https://www.jobkorea.co.kr/Search/?stext="
search_term = "data"

response = get(f"{base_url}{search_term}")
if response.status_code != 200:
    print("Can't request website")
else:
    soup = BeautifulSoup(response.text, "html.parser")
    jobs = soup.find_all('li', class_="list-post")   # 직업 정보(덩어리) 20개 찾기
    for job_section in jobs:    
        job_posts = job_section.find_all("div", class_="post") # 회사 하나당 들어 있는 post 조회
        for post in job_posts:
           job_info = post.find_all("div")  #crop, info, apply 조회
           job_info.pop(-1)     # apply내용 삭제
           for a in job_info: 
                anchors = a.find_all('a')
                anchor = anchors[1]
                link = anchor['href']
                print(link)

완성 된 코드는 아니고 중간 단계이다 지금은 직업의 정보들하고, 링크를 따로 저장하고 있는중이다.

achors[1]로 저장 했을 때는 왜 안되는지 찾고 있는중이다..

ahcors 자체를 프린트 해보면 두개의 링크가 들어있는데 이걸 하나로 인식하는건지..

728x90

'Python > 연습' 카테고리의 다른 글

[Python] 직업 사이트 크롤링 3 - Kyeom  (2) 2022.11.03
[Python] 직업 사이트 크롤링 2 - kyeom  (0) 2022.11.02