넷플릭스 크롤링 데이터 엑셀파일저장
636
7 câu hỏi đã được viết
! pip install selenium
from selenium import webdriver
browser = webdriver.Chrome('c:/인프라수업자료/chromedriver')
url = 'https://www.netflix.com/kr/browse/genre/839338'
browser.get(url)
html = browser.page_source
from bs4 import BeautifulSoup
soup = BeautifulSoup(html,'html.parser')
section_list = soup.select('section')
results = []
for section in section_list:
section_title = section.select('h2')[0].text
program_list = section.select('li')
for program in program_list:
program_title = program.select('span.nm-collections-title-name')[0].text
program_img = program.select('img')[0]['src']
program_link = program.select('a')[0]['href']
data = [section_title,program_title, program_img, program_link]
results.append(data)
import pandas as pd
df = pd.DataFrame(results)
df.columns = ['카테고리', '프로그램명', '이미지', '링크']
df.to_excel('c:/인프라수업자료/엑셀파일저장하기.xlsx')
section_title설정해줄 때 [0].text를 해줬는데도 엑셀파일 상에서 카테고리명이 저렇게 나타나요. 그리고 데이터 이미지도 일부분은 주소가 잘 써져있는데 일부분은 저렇게 나타나는데 왜그럴까요..??
Câu trả lời 1
0
동일한 코드로 테스트를 해봐도 이상이 없는데,, 이상하네요.
section_title = section.select('h2')[0].text
실제 실행하셨을때에는 위 코드가 아닌
section_title = section.select('h2')
코드로 실행이 되었을 것 같습니다.
(혹은,, 아래 부분에서 한번 더 실행이 되었을 수도 있을 것 같네요)
쥬피터노트북으로 실행중이시면
코드 하나 하나 정리해보면서 실행해보시는 것을 추천드립니다.
넥플릭스 이미지 주소의 경우에는
넷플릭스 크롤링(1page 크롤링) - 프로그램 정보 수집하기 강의에서 18분 이후부터 설명 드렸던 것 처럼
화면에 보이는 이미지만 가져오기 때문에 그렇습니다.
강의 내용 한번 더 확인 요청드려요
디스코드 소통창구는 없어졌나요 ??
0
4
1
FOREIGN KEY 정리하기, 영상대로 SQL코드 복붙해도 안되요.
0
3
1
모델 서빙과 관련된 강좌 출시 예정된 바가 있으신지 여쭤봅니다!
0
6
1
모델 서빙과 관련된 강좌가 출시되는지 질문드립니다.
0
4
1
20번강좌에 대한 질문입니다.
0
5
1
6-6
0
17
1
작업형 1 유형 부분
0
14
1
수강평 이벤트
0
21
2
작업형 1 (삭제예정, 구 버전)
0
34
2
강의노트는 어디있나요?
0
21
1
노션 학습 자료 권한 요청
0
17
1
수강기간 연장 문의드립니다.
0
25
1
2유형 레이블 인코딩 VS 원핫 인코딩
0
25
3
part2강의 문의사항입니다.
0
23
2
수강기간 연장 문의드립니다.
0
28
1
인덱스 슬라이싱
0
28
2
코드를 첨부해야하는 이유가 있나요?
0
22
2
소리가 겹쳐서 들려요
0
23
2
데스크톱과 노트북 연결
0
30
1
dict, zip
0
21
2
노션 : 파트3번 링크와 권한 , 파트4번 권한요청, 파트 5번도 미리 요청 드립니다.
0
27
4
크롤링 페이지 접속 에러
0
517
1
넷플릭스 크롤링
0
739
2
유튜브 크롤링 방법
0
387
1

