-
카테고리
-
세부 분야
데이터 분석
-
해결 여부
미해결
pd.read_html(url) 시 에러가 납니다
21.02.14 16:01 작성 조회수 4.61k
0
아래와 같이 코드 실행 시 에러가 납니다
pd.read_html(url) 부분입니다
ValueError Traceback (most recent call last)
<ipython-input-28-5d8f83db45ac> in <module>()
----> 1 pd.read_html(url)
5 frames
/usr/local/lib/python3.6/dist-packages/pandas/io/html.py in _parse_tables(self, doc, match, attrs)
545
546 if not tables:
--> 547 raise ValueError("No tables found")
548
549 result = []
Watch Me Code: 주린이를 위한 파이썬 데이터 분석
개별 종목 수집하기: FinanceDataReader와 Pandas 내장함수를 활용한 주가 데이터 수집
강의실 바로가기
답변을 작성해보세요.
1
멀티캠퍼스
지식공유자2021.03.02
판다스 내장함수인 read_html의 경우, 읽어올 html 문서 내에 <table> 태그가 있어야 수집이 가능합니다.
위에서 설정하신 url 변수를 참조하시어, 마우스 우클릭 > 검사 (혹은 Inspect)를 눌렀을 때 <table>태그가 나오는 지 확인해보시기 바랍니다 =)
멀티캠퍼스
지식공유자2021.03.17
학습자님, 강의 원작자인 박조은 강사님께 해당 사항을 문의드려
관련 오류를 해결 / 강의 자료에 반영 완료하였습니다.
라이브 강의 이후 네이버 일별 시세 페이지가 변경이 되어 일부 오류가 발생한 것으로 보입니다.
학습에 지장을 드려 정말 죄송합니다.
라이브 강의 이후 변경사항
-
네이버 증권 일별 시세의 웹페이지가 변경되어 기존의 방법으로는 불러올 수 없습니다.
-
일별 시세 페이지에서 브라우저가 아닐 때 응답을 하지 않기 때문인데 이 때 requests 라는 라이브러리를 통해 HTTP 요청을 보내고 웹사이트의 소스코드를 받아와서 table 태그를 찾는 방법으로 받아올 수 있습니다.
-
아래의 코드를 보면 requests를 통해 HTTP 통신을 보내고 beautifulsoup을 통해 HTML 페이지 내에서 table 태그를 찾습니다.
-
table 태그를 read_html로 불러오면 판다스의 데이터프레임으로 읽어올 수 있습니다.
requests를 통한 HTTP 요청
- Requests: HTTP for Humans™ — Requests documentation
- Quickstart — Requests documentation # custom-headers
# 일별 시세 페이지를 읽어 올 때 브라우저가 아니면 응답을 하지 않기 때문에 브라우저 인 것 처럼 요청을 보냅니다.
# 응답으로 HTML 페이지 전체를 받아옵니다.
import requests
headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'}
response = requests.get(url, headers=headers)
BeautifulSoup 을 통한 table 태그 찾기
# BeautifulSoup 을 통해 html 페이지 내의 table 태그를 찾습니다.
from bs4 import BeautifulSoup as bs
html = bs(response.text, "lxml")
html_table = html.select("table")
len(html_table)
# html에서 찾은 table 태그를 pandas 로 읽어옵니다.
table = pd.read_html(str(html_table))
table[0].dropna()
페이지별 데이터 수집 함수 만들기
def get_day_list(item_code, page_no):
"""
일자별 시세를 페이지별로 수집
"""
headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'}
response = requests.get(url, headers=headers)
html = bs(response.text, "lxml")
table = html.select("table")
table = pd.read_html(str(table))
df_day = table[0].dropna()
return df_day
수업 자료 파일에 해당 내용을 업데이트 해두었습니다.
colab을 다시 열어보시면 변경된 내용으로 실습을 해보실 수 있습니다.
답변 1