inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

Watch Me Code: 주린이를 위한 파이썬 데이터 분석

개별 종목 수집하기: FinanceDataReader와 Pandas 내장함수를 활용한 주가 데이터 수집

pd.read_html(url) 시 에러가 납니다

5564

핫산

작성한 질문수 7

0

아래와 같이 코드 실행 시 에러가 납니다

pd.read_html(url) 부분입니다

ValueError                                Traceback (most recent call last)
<ipython-input-28-5d8f83db45ac> in <module>()
----> 1 pd.read_html(url)

5 frames
/usr/local/lib/python3.6/dist-packages/pandas/io/html.py in _parse_tables(self, doc, match, attrs)
    545 
    546         if not tables:
--> 547             raise ValueError("No tables found")
    548 
    549         result = []

python pandas numpy

답변 1

1

멀티캠퍼스

판다스 내장함수인 read_html의 경우, 읽어올 html 문서 내에 <table> 태그가 있어야 수집이 가능합니다.

위에서 설정하신 url 변수를 참조하시어, 마우스 우클릭 > 검사 (혹은 Inspect)를 눌렀을 때 <table>태그가 나오는 지 확인해보시기 바랍니다 =)

0

핫산

table 코드가 있는데도 그렇습니다.

0

멀티캠퍼스

학습자님, 강의 원작자인 박조은 강사님께 해당 사항을 문의드려
관련 오류를 해결 / 강의 자료에 반영 완료하였습니다.
라이브 강의 이후 네이버 일별 시세 페이지가 변경이 되어 일부 오류가 발생한 것으로 보입니다.
학습에 지장을 드려 정말 죄송합니다.

라이브 강의 이후 변경사항

  • 네이버 증권 일별 시세의 웹페이지가 변경되어 기존의 방법으로는 불러올 수 없습니다.

  • 일별 시세 페이지에서 브라우저가 아닐 때 응답을 하지 않기 때문인데 이 때 requests 라는 라이브러리를 통해 HTTP 요청을 보내고 웹사이트의 소스코드를 받아와서 table 태그를 찾는 방법으로 받아올 수 있습니다.

  • 아래의 코드를 보면 requests를 통해 HTTP 통신을 보내고 beautifulsoup을 통해 HTML 페이지 내에서 table 태그를 찾습니다.

  • table 태그를 read_html로 불러오면 판다스의 데이터프레임으로 읽어올 수 있습니다.

 
 

requests를 통한 HTTP 요청

# 일별 시세 페이지를 읽어 올 때 브라우저가 아니면 응답을 하지 않기 때문에 브라우저 인 것 처럼 요청을 보냅니다.
# 응답으로 HTML 페이지 전체를 받아옵니다.
import requests

headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'}

response = requests.get(url, headers=headers)
 

BeautifulSoup 을 통한 table 태그 찾기

# BeautifulSoup 을 통해 html 페이지 내의 table 태그를 찾습니다.
from bs4 import BeautifulSoup as bs

html = bs(response.text, "lxml")
html_table = html.select("table")
len(html_table)
 
# html에서 찾은 table 태그를 pandas 로 읽어옵니다.
table = pd.read_html(str(html_table))
table[0].dropna()

페이지별 데이터 수집 함수 만들기

def get_day_list(item_code, page_no):
"""
일자별 시세를 페이지별로 수집
"""
url = f"https://finance.naver.com/item/sise_day.nhn?code={item_code}&page={page_no}"

headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'}

response = requests.get(url, headers=headers)
html = bs(response.text, "lxml")
table = html.select("table")
table = pd.read_html(str(table))
df_day = table[0].dropna()
return df_day
수업 자료 파일에 해당 내용을 업데이트 해두었습니다.
colab을 다시 열어보시면 변경된 내용으로 실습을 해보실 수 있습니다.

multi_tool_agent.py 에서 arxiv tool 에러

0

11

1

로지스틱회귀, 회귀

0

32

2

가상 환경과 차이 도커 질문

0

17

1

자료 다운로드 위치 확인 부탁드립니다.

0

8

1

회귀 문제를 풀때 질문입니다.

0

33

1

불균형 처리 후 성능이 더 낮아졌다면,

0

47

2

실기 체험 제2유형 에러 문의

0

37

1

LIGHTGBM 으로 하면 pred값이 소수점 6자리까지 나오는게 맞나요

0

36

2

안녕하세요

0

16

2

3번문제 등분산 가정

0

36

2

작업형3 target 형 변환 질문

0

30

2

[작업형1] 연습문제 섹션1 ~ 10 의 section4

0

23

3

원핫인코딩과 레이블 인코딩에서 concat

0

45

2

agent 평가 관련 문의 드립니다.

0

15

1

제2유형 질문입니다.

0

39

2

WSL에서 Airflow 실행 시 로컬 venv 라이브러리 사용 여부 및 관리 방법

0

15

2

C()

0

36

2

작업형 2에서 strafity 적용 유무

0

45

2

수강 기간 연장 가능 여부 문의드립니다.

0

46

1

ols

0

37

2

2유형 작성관련 질문(일반 심화)

0

32

2

2유형 작성관련 질문

0

30

2

2유형 object컬럼 개수 다르면

0

37

2

구글 Collab 접속 불가능

0

407

3