inflearn logo
강의

Khóa học

Chia sẻ kiến thức

Mã Watch Me: Phân tích dữ liệu Python cho Joorin

Thu thập các cổ phiếu riêng lẻ: Thu thập dữ liệu giá cổ phiếu bằng các hàm tích hợp FinanceDataReader và Pandas

pd.read_html(url) 시 에러가 납니다

5562

hotsan

7 câu hỏi đã được viết

0

아래와 같이 코드 실행 시 에러가 납니다

pd.read_html(url) 부분입니다

ValueError                                Traceback (most recent call last)
<ipython-input-28-5d8f83db45ac> in <module>()
----> 1 pd.read_html(url)

5 frames
/usr/local/lib/python3.6/dist-packages/pandas/io/html.py in _parse_tables(self, doc, match, attrs)
    545 
    546         if not tables:
--> 547             raise ValueError("No tables found")
    548 
    549         result = []

python pandas numpy

Câu trả lời 1

1

sungeun6kim1465

판다스 내장함수인 read_html의 경우, 읽어올 html 문서 내에 <table> 태그가 있어야 수집이 가능합니다.

위에서 설정하신 url 변수를 참조하시어, 마우스 우클릭 > 검사 (혹은 Inspect)를 눌렀을 때 <table>태그가 나오는 지 확인해보시기 바랍니다 =)

0

hotsan

table 코드가 있는데도 그렇습니다.

0

sungeun6kim1465

학습자님, 강의 원작자인 박조은 강사님께 해당 사항을 문의드려
관련 오류를 해결 / 강의 자료에 반영 완료하였습니다.
라이브 강의 이후 네이버 일별 시세 페이지가 변경이 되어 일부 오류가 발생한 것으로 보입니다.
학습에 지장을 드려 정말 죄송합니다.

라이브 강의 이후 변경사항

  • 네이버 증권 일별 시세의 웹페이지가 변경되어 기존의 방법으로는 불러올 수 없습니다.

  • 일별 시세 페이지에서 브라우저가 아닐 때 응답을 하지 않기 때문인데 이 때 requests 라는 라이브러리를 통해 HTTP 요청을 보내고 웹사이트의 소스코드를 받아와서 table 태그를 찾는 방법으로 받아올 수 있습니다.

  • 아래의 코드를 보면 requests를 통해 HTTP 통신을 보내고 beautifulsoup을 통해 HTML 페이지 내에서 table 태그를 찾습니다.

  • table 태그를 read_html로 불러오면 판다스의 데이터프레임으로 읽어올 수 있습니다.

 
 

requests를 통한 HTTP 요청

# 일별 시세 페이지를 읽어 올 때 브라우저가 아니면 응답을 하지 않기 때문에 브라우저 인 것 처럼 요청을 보냅니다.
# 응답으로 HTML 페이지 전체를 받아옵니다.
import requests

headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'}

response = requests.get(url, headers=headers)
 

BeautifulSoup 을 통한 table 태그 찾기

# BeautifulSoup 을 통해 html 페이지 내의 table 태그를 찾습니다.
from bs4 import BeautifulSoup as bs

html = bs(response.text, "lxml")
html_table = html.select("table")
len(html_table)
 
# html에서 찾은 table 태그를 pandas 로 읽어옵니다.
table = pd.read_html(str(html_table))
table[0].dropna()

페이지별 데이터 수집 함수 만들기

def get_day_list(item_code, page_no):
"""
일자별 시세를 페이지별로 수집
"""
url = f"https://finance.naver.com/item/sise_day.nhn?code={item_code}&page={page_no}"

headers = {'user-agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36'}

response = requests.get(url, headers=headers)
html = bs(response.text, "lxml")
table = html.select("table")
table = pd.read_html(str(table))
df_day = table[0].dropna()
return df_day
수업 자료 파일에 해당 내용을 업데이트 해두었습니다.
colab을 다시 열어보시면 변경된 내용으로 실습을 해보실 수 있습니다.

슬랙에서 메시지 일부 잘림

0

5

1

ID 전처리 이유

0

7

1

데이터제공

0

5

1

예시문제 작업형3 꼬리질문2번

0

5

0

데이터 개수를 구할 때, len과 value_counts 차이

0

9

1

API 오류: EGW00201 - 초당 거래건수를 초과

0

11

1

작업형 2 제출방

0

7

1

인코딩 스케일링 순서

0

13

2

캐글 save version 할 시 md파일과 다름.

0

13

1

실제 시험에서도 공식을 문제에서 주는지

0

12

2

수강 연장 문의

0

11

2

작업형2 정리한 내용 확인 부탁드립니다 ㅜㅜ

0

17

1

dotenv, langchain_community 로드가 되지 않습니다.

0

10

1

Basic LLM Chain 에서 Paser 를 사용해 JASON 형식으로 바꾸는 부분에서 에러가 발생합니다

0

11

2

FMP API 유료

1

16

1

강의가 넘 좋아서 3번째 복습을 하고 있는데

1

15

2

예측에 사용하는 경제지표의 활용에 대해

1

17

2

14강 "" 사용 관련 질문

0

17

2

강의 자료를 어디서 확인 할 수 있나요?

1

21

3

FRED API

1

29

1

캐글 제출 점수

0

23

2

VCP 시그널 상태 추가 스크립트 에서 return_pct 조건

0

21

2

캐쉬가 업데이트 안됩니다.

0

20

2

구글 Collab 접속 불가능

0

404

3