묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결파이썬을 활용한 머신러닝 딥러닝 입문
DBSCAN 질문
늘 강의 잘 듣고 있습니다! DBSCAN에서 Radius(R)와 Minimum Neighbor number(M)을 가르쳐주시고 Core, Border 개념을 소개해주셨는데 헷갈리는 부분이 있어 질문 드립니다. pdf 자료를 보며 R에 2unit 이렇게 되어 있는데 이 Unit이라는 건 데이터 포인트의 점 크기를 말하는 걸까요? 그리고 정한 M 값 이상의 데이터 포인트들이 R 안에 들어오면 Core고 Border는 R안에 데이터포인트가 M 보다 작은 수만큼 있는 경우, 다른 Core가 R 안에 있는 경우를 말하는 건가요? (R안에 다른 데이터포인트가 하나라도 있으면 Border인지 궁금합니다)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 memberes 파일 저장이 되지 않습니다.
작업형1 모의문제1에서 코딩을 하려고 입력했는데members파일이 저장되지 않아 시작을 하지 못하고 있습니다. 어떻게 해야될까요??
-
미해결파이썬을 활용한 머신러닝 딥러닝 입문
Feature Scaling 강의 질문 있습니다!
(1) Feature scaling 실습 강의를 듣다가 궁금한 점이 있어 질문드립니다! 타이타닉 자료에서 나이에 대한 결측치는 중간값으로 처리하고, Embarked의 경우 drop을 하는 걸로 알려주셨는데요 🙂 원래 없는 값인데 중간 값으로 결측치를 채워주는 것도 그렇구 다른 FEATURE값이 있는데 결측치가 있는 row라고 지워버리는 것도 그렇고 결측치가 주는 영향이 그만큼 크기 때문인가요?? 값이 비어있는 것보다는 평균으로라도 채워놓는 게 좋은 건지, 다른 feature 정보가 있더라도 결측치가 있는 row는 지우는 게 좋은 건지 feature engineering에 대해 제대로 이해하지 못한 것 같아 여쭤봅니다! (2) SKEW된 FARE에 log를 취해주셨는데요! 사실 그래프만 보면 parch도 sibsb도 한 쪽으로 쏠려있고 한 쪽이 많은 느낌인데 왜 fare만 skew로 log를 취해주신 걸까요? (3) 교재에서는 train_test_split 부분을 이렇게 해주셨는데요! X_train = df_titanic[:700]X_test = df_titanic[700:]y_train = X_train.pop('Survived')y_test = X_test.pop('Survived')X_train, X_test에서 survived 부분을 안 빼줘도 되는 건가요?? 늘 감사합니다!!
-
미해결파이썬을 활용한 머신러닝 딥러닝 입문
heatmap에서 numeric_only=True
타이타닉 탑승자 자료로 Feature scaling을 실습하는 강의에서, heatmap을 그리는 부분을 듣고 있는데요!g=sns.heatmap(df_titanic.corr(numeric_only=True),annot=True,cmap='coolwarm') 교재에는 이렇게 되어 있는데 실제 강의에서는 numeric_only=True 부분을 작성하지 않고도 똑같이 그리셨더라구요! 교재 코드에 해당 부분이 있는 이유가 궁금해 여쭤봅니다! 감사합니다 :)
-
미해결파이썬을 활용한 머신러닝 딥러닝 입문
pd.Series
랜덤포레스트와 그래디언트부스팅 강의에서 마지막에 FEATURE importance를 pd.series로 하는 과정이 나오는데, 그래프를 그리기 전 이 과정이 왜 필요한 건가요? 감사합니다!
-
미해결파이썬을 활용한 머신러닝 딥러닝 입문
Feature Scaling
feature scaling에서 X_test는 fit_transform이 아니라 transform만 해야한다고 하셨는데요! (logistic regression 실습 18분 부근) 어차피 X_train과 평균과 표준편차가 동일할 거라는 건 이해가 되지만, 미래 값인 X_test의 평균/표준편차를 구할 순 없다는 말씀은 이해가 잘 되지 않습니다 ㅠㅠ, 그리고 어차피 동일하다면 X_test에 fit_transform을 해도 같은 결과가 나와야 하는 거 아닌가요? 늘 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 에서 에러가 나는데 왜이럴까요 ?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요위와 같은 에러가 나서 info로 확인해봤는데 df는 데이터프레임형태였습니다..다시 실행해보아도 똑같이 나오는데 어디에서 문제가 있었던걸까요?
-
해결됨파이썬 알고리즘 트레이딩 파트1: 알고리즘 트레이딩을 위한 파이썬 데이터 분석
하드웨어 용량 사용 승인 요청 거부
안녕하세요. 강의 영상을 보면서 Korea Central 지역에 Quotas 요청을 보냈는데 아래와 같이 나오면서 승인이 안되네요QMS Update - Status: ResourceType: crpCores { Quota Bucket: TotalLowPriorityCores Status Description: Due to very high rates of Spot consumption, Microsoft is unable to approve additional quota at this time State: SpotVMNotAllowedForPayGCustomer Current Quota: 3 New Quota: 16 } Properties: [location, koreacentral] } Korea South 지역에 요청해도 동일하게 되지 않습니다. 어떻게 해야할까요?QMS Update - Status: ResourceType: crpCores { Quota Bucket: TotalLowPriorityCores Status Description: Due to very high rates of Spot consumption, Microsoft is unable to approve additional quota at this time State: SpotVMNotAllowedForPayGCustomer Current Quota: 3 New Quota: 16 } Properties: [location, koreasouth] }
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sort()함수를 이용한 문자 가나다순 정렬 관련 문의드립니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 데이터 분석을 위한 파이썬 기초2 / 2:44 관련 문의드립니다. sort()함수를 이용하면 list 내의 문자를 가나다순 정렬가능하므로, 해당 리스트에서 가나다순 정렬되면 아래와 같이 되어야할 것 같은데,to be: [동그라미', '네모', '세모',]강의 및 실습해보니, 다음과 같이 실행되어 문의드립니다.to be: ['네모', '동그라미', '세모']
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파이썬 기초 2강, 딕셔너리 부분에서 질문이 있습니다.
딕셔너리 파트 맨 첫번째 부분에서# dictbox = {'name' :' 네모' , 'level', 5}라고 적혀있었는데이거를 di = { } 형태로 바꿀 때 아레처럼 바꾸셨는데di = {'name' : 'sam' , 'level':5} 왜 '네모' 에서 'sam'으로 바뀌었는지 이해가 되지 않습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 기출유형(작업형1) 3번
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요 🙂5회 기출 작업형1의 3번 문제에서 마지막 답만 프린트 하는 부분에 loc 와 iloc 그리고 인덱스로 답을 프린트 하는 것에서 다른 답이 나와 헷갈리는 부분이라 확실하게 이해하고 가고싶어 질문드립니당!여기서 전체학생수(계)를 찾는 문제로 230이 나오게 마지막 풀이를 하려했는데 df["전체학생수(계)"][0]df.iloc[0,-2]df.loc[0,"전체학생수(계)"]이 3개가 다른 답이 나와 3개 전부 같은 부분을 찾는 게 아닌가 하여 질문드려요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝(랜덤포레스트) 에러 코드
섹션 4 머신러닝 공부하면서 선생님의 코드를 따라 실습하고 있는데요.이런 error가 나와서 다음으로 실행이 안됩니다 ㅜㅜ X_test[cols]에 결측치가 있다는거 같은데 어떻게 해야 할까요?
-
미해결파이썬 증권 데이터 수집과 분석으로 신호와 소음 찾기
concat을 통한 데이터프레임 합치기
# result를 list로 만들고 concat을 통해 DataFrame으로 만듭니다.# concat으로 데이터프레임을 합쳐줄때는 리스트 형태로 각 데이터프레임을 넣어주어야 합니다.pd.concat(result.tolist()) --------------------------------------------------------InvalidIndexError: Reindexing only valid with uniquely valued Index objectsdf_item = pd.concat(item_info, ignore_index=True)도 해보았고, 중복값도 없다고 나오는데 계속 이 부분에서 동일한 에러가 뜹니다.. 어떻게 해결해야 할까요? 이 앞부분까지는 모두 정상출력되었습니다!
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
빈도수가 1000개 이상인 데이터를 따로 담을 때 코드 질문 있습니다.
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 강좌에서 academy_count = df_academy["상권업종소분류명"].value_counts()후에academy_count_1000 = academy_count[academy_count > 1000]으로 데이터를 따로 담았는데 여기서 아래와 같은 academy_count를 따로 담지 않고 한번에 작성하는 코드academy_count_1000 = df_academy[df_academy["상권업종소분류명"].value_counts() > 1000]는 왜 오류가 나는 걸까요? 불리언 인덱싱 값을 시리즈 형태로 반환할 때, 새로 지정한 academy_count는 시리즈 형태이지만, df_academy는 데이터프레임이라서 오류가 나는 건가요??
-
미해결[리뉴얼] 처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화 전과정 익히기) [데이터분석/과학 Part1]
iplot, plotly 그래프 크기
주피터 노트북에서 그래프를 실행시키면 이렇게 세로가 항상 짧게 나오는건데 이건 코드상의 문제인가요? 아니면 주피터 노트북 설정의 문제일까요? 수업 내용 그대로 따라가고 있고 데이터도 동일한데 그래프 모양이 항상 직사각형이 나옵니다 ㅠ
-
미해결캐글 설문조사로 데이터 분석 입문하기
hue를 사용할 때
hue를 사용할 때 나타나는 Q2 색상 구분표의 위치는 변경할 수 없나요?
-
미해결[리뉴얼] 처음하는 파이썬 데이터 분석 (쉽게! 전처리, pandas, 시각화 전과정 익히기) [데이터분석/과학 Part1]
try , except 문 관련 질문 있어요
doc = pd.read_csv(PATH + filename, encoding='utf-8-sig') # 1. csv 파일 읽기 try: doc = doc[['Country_Region', 'Confirmed']] # 2. 특정 컬럼만 선택해서 데이터프레임 만들기 except: doc = doc[['Country/Region', 'Confirmed']] # 2. 특정 컬럼만 선택해서 데이터프레임 만들기 doc.columns = ['Country_Region', 'Confirmed'] 수업 내용 중 위 코드는 CSV 파일 갖고 올건데 컬럼 Country_Region, Confirmed 만 갖고 올거고 Country/Region 컬럼은 Country_Region 컬럼으로 바꿔줘.. 라는 의미잖아요? 그런데 실무를 하다보면 손으로 입력했을 시 Country-Region 으로도 입력되어 있을 수도 Country.Region 으로도 입력되어 있을 수도 있잖아요? 실수의 형태는 다양할테고요... 어쨌든 Country_Region 컬럼이 아니면 Country_Region 컬럼으로 바꿔달라! 라는 명령어를 쓰려면 try: doc = doc[['Country_Region', 'Confirmed' ]]except : doc.column = ['Country_Region', 'Confirmed'] 으로 작성하면 될란지요....
-
미해결캐글 설문조사로 데이터 분석 입문하기
q1_cols를 작성하는 부분에서 궁금한 점이 있습니다.
q1_cols = answer["Q1"].value_counts().sort_index().index.tolist()def show_countplot_by_qno(qno, fsize=(10, 6), order=None): if not order: order = answer[qno].value_counts().index.tolist() plt.figure(figsize=fsize) sns.countplot(data=answer, y=qno, order=order,palette="Blues_r" ).set_title(question[qno]) show_countplot_by_qno("Q1", order=q1_cols)not order 일 때는 tolist() 안해도 출력이 되는데왜 order를 변수로 넣을 때는 tolist() 안하면 에러가 발생하는지 궁금합니다.tolist() 붙여봐도 달라진게 없는것 같은데 어떤 방식인지 모르겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫 인코딩에서 0,1이 아니고 False,True가 나옴
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요원핫 인코딩에서 0,1이 아니고 False,True가 나옴
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 3회 작업형 2
안녕하세요 빅분기 기출 3회 작업형2 문제를 풀던중 데이터 분리와 원핫인코딩을 안하고 LabelEncoder와 랜덤 포레스트를 사용해서 문제를 풀어보았는데 마지막 csv 제출에서 데이터길이가 차이 나서 만들어지지 않는다고 뜨네요 어디를 잡아야하는지 몰라 문의드려요🥲올려주신 데이터가 아닌 다른 문제집에 있는데이터를 활용했는데 길이 차이가 나더라구여..