inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Làm chủ Crawling bằng cách thực hành cùng Data Workshop

Lưu vào tệp Excel

넷플릭스 크롤링 데이터 엑셀파일저장

650

jiwon6760

7 câu hỏi đã được viết

0

! pip install selenium

from selenium import webdriver

browser = webdriver.Chrome('c:/인프라수업자료/chromedriver')

url = 'https://www.netflix.com/kr/browse/genre/839338'

browser.get(url)

html = browser.page_source

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'html.parser')

section_list = soup.select('section')

results = []

for section in section_list:

    section_title = section.select('h2')[0].text

    program_list = section.select('li')

    for program in program_list:

        program_title = program.select('span.nm-collections-title-name')[0].text

        program_img = program.select('img')[0]['src']

        program_link = program.select('a')[0]['href']

        data = [section_title,program_title, program_img, program_link]

        results.append(data)

import pandas as pd

df = pd.DataFrame(results)

df.columns = ['카테고리', '프로그램명', '이미지', '링크']

df.to_excel('c:/인프라수업자료/엑셀파일저장하기.xlsx')

section_title설정해줄 때 [0].text를 해줬는데도 엑셀파일 상에서 카테고리명이 저렇게 나타나요. 그리고 데이터 이미지도 일부분은 주소가 잘 써져있는데 일부분은 저렇게 나타나는데 왜그럴까요..??

웹-크롤링 python

Câu trả lời 1

0

datago0ba0

 

동일한 코드로 테스트를 해봐도 이상이 없는데,, 이상하네요. 

section_title = section.select('h2')[0].text

실제 실행하셨을때에는  위 코드가 아닌

section_title = section.select('h2')

코드로 실행이 되었을 것 같습니다.

(혹은,, 아래 부분에서 한번 더 실행이 되었을 수도 있을 것 같네요)

 

쥬피터노트북으로 실행중이시면 

코드 하나 하나 정리해보면서 실행해보시는 것을 추천드립니다.

 

 

 

넥플릭스 이미지 주소의 경우에는 

넷플릭스 크롤링(1page 크롤링) - 프로그램 정보 수집하기 강의에서 18분 이후부터 설명 드렸던 것 처럼

화면에 보이는 이미지만 가져오기 때문에 그렇습니다. 

강의 내용 한번 더 확인 요청드려요

 

 

0

jiwon6760

감사합니다!!

2유형 작성관련 질문(일반 심화)

0

10

1

2유형 작성관련 질문

0

7

1

2유형 object컬럼 개수 다르면

0

10

1

코딩팡질문이요ㅠㅠ

0

12

1

관찰값과 기대값의 개념이 헷갈립니다.

0

11

1

작업형2 ID 컬럼 삭제 질문

0

20

2

2유형 작성관련 질문

0

10

1

memoryerror 질문

0

12

1

작업형 유형2 이렇게 고정 템플릿으로 가져가도 될까요?

0

13

0

ID 삭제 필수 인가요?

0

17

3

띄어쓰기

0

11

1

7회 기출문제 작업형1번 df 변환 후 저장되는 방식 질문

0

13

1

매일 사용시 토큰사용량

1

14

2

3 유형 귀무가설, 대립가설

0

19

2

공부 순서

0

11

1

인코딩 관련 질문 있습니다

0

21

2

작업형3 이원분산분석 sm에서불러오기 / anova_lm 차이

0

21

2

벡터저장소 코드 실행시 경고메시지가 나타납니다.

0

11

1

2유형 원핫인코딩 오류

0

22

2

시험장에서 주석 단축키 안될 때 많나요?

0

26

2

라벨인코딩 방식

0

24

2

크롤링 페이지 접속 에러

0

531

1

넷플릭스 크롤링

0

759

2

유튜브 크롤링 방법

0

394

1