pd.read_html(url) 시 에러가 납니다

학습자님, 강의 원작자인 박조은 강사님께 해당 사항을 문의드려

관련 오류를 해결 / 강의 자료에 반영 완료하였습니다.

라이브 강의 이후 네이버 일별 시세 페이지가 변경이 되어 일부 오류가 발생한 것으로 보입니다.

학습에 지장을 드려 정말 죄송합니다.

라이브 강의 이후 변경사항

네이버 증권 일별 시세의 웹페이지가 변경되어 기존의 방법으로는 불러올 수 없습니다.
일별 시세 페이지에서 브라우저가 아닐 때 응답을 하지 않기 때문인데 이 때 requests 라는 라이브러리를 통해 HTTP 요청을 보내고 웹사이트의 소스코드를 받아와서 table 태그를 찾는 방법으로 받아올 수 있습니다.
아래의 코드를 보면 requests를 통해 HTTP 통신을 보내고 beautifulsoup을 통해 HTML 페이지 내에서 table 태그를 찾습니다.
table 태그를 read_html로 불러오면 판다스의 데이터프레임으로 읽어올 수 있습니다.

requests를 통한 HTTP 요청

# 일별 시세 페이지를 읽어 올 때 브라우저가 아니면 응답을 하지 않기 때문에 브라우저 인 것 처럼 요청을 보냅니다.
# 응답으로 HTML 페이지 전체를 받아옵니다.
import requests

headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'}

response = requests.get(url, headers=headers)

BeautifulSoup 을 통한 table 태그 찾기

# BeautifulSoup 을 통해 html 페이지 내의 table 태그를 찾습니다.
from bs4 import BeautifulSoup as bs

html = bs(response.text, "lxml")
html_table = html.select("table")
len(html_table)

# html에서 찾은 table 태그를 pandas 로 읽어옵니다.
table = pd.read_html(str(html_table))
table[0].dropna()

페이지별 데이터 수집 함수 만들기
def get_day_list(item_code, page_no):
"""
 일자별 시세를 페이지별로 수집
 """
url = f"https://finance.naver.com/item/sise_day.nhn?code={item_code}&page={page_no}"

headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'}

response = requests.get(url, headers=headers)
html = bs(response.text, "lxml")
table = html.select("table")
table = pd.read_html(str(table))
df_day = table[0].dropna()
return df_day
수업 자료 파일에 해당 내용을 업데이트 해두었습니다.
colab을 다시 열어보시면 변경된 내용으로 실습을 해보실 수 있습니다.

인프런 커뮤니티 질문&답변

아래와 같이 코드 실행 시 에러가 납니다

라이브 강의 이후 변경사항

requests를 통한 HTTP 요청

BeautifulSoup 을 통한 table 태그 찾기

페이지별 데이터 수집 함수 만들기