inflearn logo
강의

講義

知識共有

Pythonによる証券データの収集と分析でシグナルとノイズを見分ける

[5.2 업종 테마 데이터 전처리] 시가총액 수치형태로 만들기 관련 문의

292

stevekhkim1996

投稿した質問数 1

1

안녕하세요 강사님!
 
우선 좋은 강의 만들어 주셔서 대단히 감사 드립니다.
 
다름이 아니라 강의를 듣던 중 아래와 같이 질문이 있어 문의 남깁니다.
제가 궁금한 부분은 아래에 나와 있는 파트 입니다.
 
- 강의부분 : (5.2) 업종/테마 전처리, [2/10] 코스피 코스닥 시가총액 전처리 - 정규표현식은 그저 거들 뿐 (10:00 ~ 12:00 사이)
 
위 이미지와 같이 시가총액을 조회 후 수치형태로 만들어 주기 위해 '억원' 뿐만 아니라 '조'단위 부분도 replace를 통해 없애주게 되는데요.
하지만 인덱스 4번의 경우 시가총액이 1조 641억원인데 아래와 같이 수치가 1641로 바뀌고 있습니다.
(즉, 10641억원이 아닌 1641억원으로 데이터가 반환되는 전처리 오류가 발생합니다.)
 
 
이런 경우 데이터 전처리가 잘못되게 될 거 같은데
아직 제가 파이썬 문법을 많이 아는 것이 아니어서 이런 경우엔 어떻게 전처리를 해주면 좋을 지 궁금합니다.
 
날씨가 갑작스레 많이 쌀쌀해졌는데 건강 유의 하시길 바랍니다!
 
감사합니다.

웹-크롤링 numpy pandas python seaborn matplotlib 웹 스크래핑 plotly

回答 2

1

stevekhkim1996

빠르고 친절한 답변 감사드립니다!!!

1

todaycode

안녕하세요.

오류로 혼란을 드려서 죄송합니다.  조 단위 이하의 값을 고려하지 못했네요.

아래의 방법으로 조 단위 백자리 값을 채워볼 수 있습니다.

 

# "시가총액을" 원본을 "시가총액(억원)"에 새로운 컬럼을 만들어 같은 값을 넣습니다.(사본생성) 
df["시가총액(억원)"] = df["시가총액"]
# "시가총액"에 "조"가 들어가지만 천단위가 아니라 , 가 들어가지 않는 값에 조 뒤에 0을 추가하도록 합니다.
df.loc[df["시가총액"].str.contains("조") &
       ~df["시가총액"].str.contains(","), "시가총액(억원)"] = df["시가총액"].str.replace("조", "조 0")
# "시가총액(억원)"이 잘 변경되었는지 확인합니다.
df.loc[df["시가총액"].str.contains("조") & 
       ~df["시가총액"].str.contains(","), "시가총액(억원)"]

# regex=True 는 수업에서는 사용하지 않았지만 경고메시지가 나와 추가했습니다. 없어도 동작합니다.
df["시가총액(억원)"] = df["시가총액(억원)"].str.replace("억원", "", regex=True)
df["시가총액(억원)"] = df["시가총액(억원)"].str.replace("조|,", "", regex=True)
df["시가총액(억원)"] = df["시가총액(억원)"].str.replace(" ", "", regex=True)
df["시가총액(억원)"] = df["시가총액(억원)"].str.strip()
df["시가총액(억원)"] = df["시가총액(억원)"].astype(int)
df["시가총액(억원)"]

# 변경된 값 확인하기
df.loc[df["시가총액"].str.contains("조") & ~df["시가총액"].str.contains(","), ["시가총액", "시가총액(억원)"]]

 

 

 

 

cufflinks 버전문제로 iplot() 미실행

0

40

2

[수정요청]직접 수집한 주가 데이터로 시각화해보기

0

50

2

pd.read_html(url, encoding='cp949') 에러

0

73

2

fdr.StockListing('KRX') 문제 발생

0

133

2

주식 자동매매 프로그램 제작 관련 조언 부탁드립니다

0

428

1

concat 을 통한 데이터 프레임 합치기 에러 문의

0

103

2

한글폰트 관련해서 문의드립니다.

0

229

2

데이터프레임 칼럼명 문의 드립니다.

0

238

3

금융데이터 수집의 모든것

0

144

2

녹화시점과 현재시점 컬럼명이 변경이 많이 되었을까요?

0

190

2

파이썬 증권 데이터 수집과 분석으로 신호와 소음 찾기 - 섹션1 [2/2]

0

173

1

Mac 환경에서 nbextensions 활성화 하는 방법

0

593

2

pd.concat(result.tolist()) 오류 문의

0

242

1

5.1 제약 데이터 수집 오류 해결

0

230

1

Table of contents 문의드립니다

0

208

2

concat을 통한 데이터프레임 합치기

0

548

2

Reindexing only valid with uniquely valued Index objects 오류 질문입니다.

0

489

1

데이터 비교시 데이터 불일치

0

409

1

dtype={"itemcode": np.object}) 을 dtype={"itemcode": object}) 으로 변경해야 하나요?

0

592

1

질문 : for문 풀어쓰기

0

487

1

파이참에서 Plotly 그래프 실행방법

0

1308

1

5.1 데이터프레임 병합(merge)

0

738

2

쥬피터노트북에서 실행파일 만들기

0

1447

1

주피터노트북 확장팩 설치가 안됩니다.

0

560

2