[Python] 직업 사이트 크롤링 1 - kyeom
2022. 10. 31. 20:21ㆍPython/연습
728x90
◎ 잡코리아에서 원하는 직업의 정보를 크롤링 해서 엑셀 파일로 저장 해보자!
알고 있어야하는 내용
- HTML / div, li span, class, ul... 어떤식으로 구성 되어 있는지만 알아도 충분.
- BeautifulSoup / pip install beautifulsoup4 을 통해서 설치
from requests import get
from bs4 import BeautifulSoup
base_url = "https://www.jobkorea.co.kr/Search/?stext="
search_term = "data"
response = get(f"{base_url}{search_term}")
if response.status_code != 200:
print("Can't request website")
else:
soup = BeautifulSoup(response.text, "html.parser")
jobs = soup.find_all('li', class_="list-post") # 직업 정보(덩어리) 20개 찾기
for job_section in jobs:
job_posts = job_section.find_all("div", class_="post") # 회사 하나당 들어 있는 post 조회
for post in job_posts:
job_info = post.find_all("div") #crop, info, apply 조회
job_info.pop(-1) # apply내용 삭제
for a in job_info:
anchors = a.find_all('a')
anchor = anchors[1]
link = anchor['href']
print(link)
완성 된 코드는 아니고 중간 단계이다 지금은 직업의 정보들하고, 링크를 따로 저장하고 있는중이다.
achors[1]로 저장 했을 때는 왜 안되는지 찾고 있는중이다..
ahcors 자체를 프린트 해보면 두개의 링크가 들어있는데 이걸 하나로 인식하는건지..
728x90
'Python > 연습' 카테고리의 다른 글
[Python] 직업 사이트 크롤링 3 - Kyeom (2) | 2022.11.03 |
---|---|
[Python] 직업 사이트 크롤링 2 - kyeom (0) | 2022.11.02 |