데이터 사이언스

/

데이터 분석

[R] KOSPI/KOSDAQ 전 종목 데이터 수집 및 관리

증권시장에 사장되어있는 전 종목을 수집하고 관리하는 방법에 대해 배웁니다. 자동화를 통해 매일매일 주가를 새로 수집하고 업종별 종목 트렌드도 파악할수 있는 Dashboard까지 shiny를 통해 제작해 봅니다.

(4.9) 수강평 8

수강생 90

Thumbnail

중급자를 위해 준비한
[데이터 분석] 강의입니다.

이런 걸
배워요!

  • 코스피/코스닥 전 종목 수집

  • 업종별 종목 데이터 관리

  • 업종별 종목 트렌드 파악

🙆🏻‍♀ 모든 주식 데이터 수집 및 관리/업종별 종목 관리까지 자동화해보기 🙆🏻‍♂

KOSPI/KOSDAQ
전 종목 데이터 수집 및 관리

🗒 강의소개

KOSPI/KOSDAQ에 상장되어 있는 관심있는 종목 또는 모든 종목에 대하여 분석하고 싶으신가요?
분석을 하기 위해서는 데이터를 필요로 합니다.

이 강의는 우리나라 주식시장에 상장되어 있는 모든 종목을 수집 및 관리하는 강의입니다.
강의에서는 시간 관계상 모든 종목에 대하여 최근 3년치 데이터를 수집하지만,
3을 10으로 바꾸시면 쉽게 10년치 데이터를 수집을 할 수 있습니다.

오늘부터 최근 10년치 데이터뿐만이 아니라, 새로 발생하는 데이터 즉 다음 날 발생하는 데이터도 수집합니다.
자동화를 통해 주식시장이 거래가 완료되는 오후 네 시쯤 당일 거래된 데이터를 수집하여 매일 종목을 업데이트합니다.

아래 주소와 같은 Shiny Dash Board를 제작합니다. 

https://leegt.shinyapps.io/shiny/

(일정인원 이상 접속 시 접속이, 안될 수 있습니다)

🌈 종목 코드 받아오기

주식시장에 상장되어 있는 회사(종목)들은 모두 고유의 코드를 가지고 있습니다.
이 코드에 따라 크롤링하는 주소가 달라지게 됩니다.
그래서 각 회사별 고유 코드를 먼저 수집해옵니다.
더불어, 네이버 금융에서 가져올수 있도록 코드에 대한 전처리를 진행합니다.

🌈 전체 주식 종목 수집

각 종목별 네이버 금융 주소를 세팅한 후, 전 종목에 대하여 최근 3년치 데이터를 수집합니다.
3년치 기준으로 약 4시간이 걸렸으므로, 10년치는 12시간 정도면 수집이 완료될 것이라 생각합니다.

종목별 주식 일별 데이터를 수집한 후, 각 종목별 폴더를 생성 후 각각의 폴더 안에 저장합니다.
더불어, 에러가 발생할 경우를 대비해 예외처리까지 함께 진행해 줍니다.

🌈 일별 주식 수집 자동화

이렇게 매일매일 10년치 데이터를 긁어올 수는 없습니다. 매우 비효율적이기 때문이죠.
오늘 주식 거래가 끝나면 오늘의 주식 데이터만 수집 후 기존에 저장되어 있던 데이터에 합치는 방식으로 자동화를 진행합니다.
이제 우리는 매일 오후 네 시에 자동으로 모든 일별 주식 데이터를 업데이트할 수 있습니다.

🌈 업종별 주식 트렌드 파악 및 Shiny를 통한 Dash board제작

중장기적 주식 투자 관점에서 업종/테마별 트렌드를 파악하는 게 중요합니다.
업종별 주식 종목 코드를 수집하고, 이 종목들에 대한 데이터를 불러와 트렌드를 파악하고 시각화를 시켜봅니다.

🌈 전 과정 자동화

매일 주식시장이 끝나면, 일별 데이터를 추가적으로 수집하고 업종별 종목 관리 및 시각화까지 모든 과정을 자동화합니다.

✅ 반드시 확인해주세요!

본 강의는 <R로 하는 웹 크롤링 - 입문편>의 후속 강의입니다.
R언어 기초와 크롤링에 대해 기초적인 지식이 있다는 전제 하에 강의를 진행합니다.

R로 하는 웹 크롤링 - 입문편
R의 개념을 학습하고, 크롤링에 입문할 수 있습니다.

이런 분들께
추천드려요!

학습 대상은
누구일까요?

  • R을 기본적으로 할 줄 아시는 분

  • 주식데이터를 필요로 하시는 분

  • 투자를 하기 위한 기초 데이터를 쌓고 싶으신 분

안녕하세요
코코입니다.

학부에서는 통계학을 전공하고 산업공학(인공지능) 박사를 받고 여전히 공부중인 백수입니다.

 

수상

ㆍ 제6회 빅콘테스트 게임유저이탈 알고리즘 개발 / 엔씨소프트상(2018)

ㆍ 제5회 빅콘테스트 대출 연체자 예측 알고리즘개발 / 한국정보통신진흥협회장상(2017)

ㆍ 2016 날씨 빅데이터 콘테스트/ 기상산업 진흥원장상(2016) 

ㆍ 제4회 빅콘테스트 보험사기 예측 알고리즘 개발 / 본선진출(2016)

ㆍ 제3회 빅콘테스트 야구 경기 예측 알고리즘 개발 / 미래창조과학부 장관상(2015)

* blog : https://bluediary8.tistory.com

주로 연구하는 분야는 데이터 사이언스, 강화학습, 딥러닝 입니다.

크롤링과 텍스트마이닝은 현재는 취미로 하고있습니다 :) 

크롤링을 이용해서 인기있는 커뮤니티 글만 수집해서 보여주는 마롱이라는 앱을 개발하였고

전국의 맛집리스트와 블로그를 수집해서 맛집 추천 앱도 만들었었죠 :) (시원하게 말아먹..)

지금은 인공지능을 연구하는 박사과정생입니다.

 

 

 

 

커리큘럼

전체

23 ∙ 3시간 55분

수업 자료

가 제공되는 강의입니다.

  • 오리엔테이션

    01:47

강의 게시일: 2020년 03월 18일
마지막 업데이트일: 2020년 03월 25일

수강평

아직 충분한 평가를 받지 못한 강의입니다.
모두에게 도움이 되는 수강평의 주인공이 되어주세요!