묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[개정판] 파이썬 머신러닝 완벽 가이드
Null 값을 평균으로 채우는 방법
안녕하세요, 선생님. 강의 15분 경에 다음과 같은 코드가 나옵니다만, 저는 분명 동일한 코드를 실행했는데 오류가 떠서 질문드립니다. house_df.fillna(house_df.mean(),inplace = True) TypeError: can only concatenate str (not "int") to str 이 코드가 Null있는 문자형 열까지 포함시켜 처리하기 때문에 오류가 나는 거 같은데, 혹시 원래 정상적으로 실행되는 코드인가요…? 책에 있는 코드도 동일한데 제가 실행시키면 에러가 나서 전 Null 있는 숫자혀여 열에 대해서만 각 열의 평균값으로 결측치를 채워서 실행했습니다. 만약 현재 버젼으로 정상적으로 실행이 되지 않는 코드라면 선생님께서 혹시 이 부분에 대해서만 새로 작성하신 코드를 여쭙고 싶습니다!방금 확인해보니까 jupyter notebook으로는 잘 실행되는데, vscode에서는 위와 같은 오류가 뜹니다. 혹시 이 오류가 뜨는 이유를 알 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
샘요 ㅠㅅ ㅠ?
작업형 1 문제 3에서요 조건으로 풀어주셨는데요. sum 대신 len 쓰는 건 말이 안될까요? 일단 답은 틀렸어요,,..한국말로 일대일 대응해서 코드를 적어보면, f3 컬럼에서 '실버'인 행의 갯수를 출력하려면 len을 쓸수 있지 않을까요? 그런데 값이 달라 질문드립니다 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
상관관계 오류
안녕하세요. 사내 구글 드라이브 접속이 불가하여주피터노트북으로 실습 진행 중인데,df.corr() 실행 시 아래와 같은 오류가 발생합니다. 찾아보니 pandas 버전에 따른 오류일 가능성이 있다는 글을 봤는데, 확인 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 분리
작업형2 에서 심장마비 확률 문제였는데요여기서 데이터 전처리를 할때 X_train.drop('id' , axis =1)X_test.pop('id)' 를 하고 데이터 분리할때 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('output', axis=1), train['output'], test_size=0.15, random_state=2022)이렇게 하신다고 했는데 위에서는 id를 드롭하고 분리할대는 'output'을 drop 하는건가요? 그리고 test는 왜 분리 하지 않는지 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3 예시문제 구 버전도 공부 해야 할까요 ?
작업형 3 구 버전도 공부해야 할까요 ? 아니면 신 버전만 공부 해도 될까요 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
답안 작성 관련 질문있습니다!
안녕하세요, 강의 잘 듣고 있습니다! 다름이 아니라 예전에 시험 응시 전략 강의를 듣는데 거기서'특정값 임의 대입 출력하지 말아라' 다 오답 처리 된다 라는 말씀을 하셨거든요. 그 때 이해한 게 만약 pvalue를 출력하고 싶으면 아래에서 b처럼 적지 말고 a처럼 적으라는 건가요? 설령 프린트문을 이용해서 pvalue가 0.00006인걸 확인해도요? result = stats.ttest_rel(df['bp_after'], df['bp_before'], alternative="less") print(round(result.statistic,2)) print(0.00006) 그리고 예시문제 작업형3(구버전) 강의에서 (c)번 문제 내용 중 하나가, 유의수준 0.05하에서 가설검정의 결과를 (채택/기각) 중 하나를 선택하시오. 이건데요, print('기각') 이런 게 안 된..다는거죠? 그 시험 문제에 체크하는 칸이 따로 있는 건가요? 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증 데이터 분리시
검증 데이터 분리 시 타겟하는 컬럼을 왜 빼는지 잘 모르겠습니다!!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분산분석 관련해서 질문이 있습니다 !
분산분석에서 정규성을 만족하지 못하면 kruskal 사용하는 건 알겠습니다 ! 근데 등분산성을 만족하지 못할 때는 어떻게 하나요 ?ttest 처럼 등분산 파라미터가 없는 것 같아서용..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이렇게 풀어도 가능한가요? (2가지 방법으로 해보았습니다)
import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") cols = train.select_dtypes(include = 'object').columns from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col]) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop('Segmentation', axis=1), train['Segmentation'], test_size=0.1, random_state=2022) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier() rf.fit(X_tr, y_tr) pred = rf.predict(test) submit=pd.DataFrame({'ID':test["ID"],'Segmentation':pred}).to_csv("003000000.csv", index=False) import pandas as pd train = pd.read_csv('train.csv') test = pd.read_csv('test.csv') n_train = train.select_dtypes(exclude = "object").copy() c_train = train.select_dtypes(include='object').copy() n_test = test.select_dtypes(exclude = "object").copy() c_test = test.select_dtypes(include='object').copy() cols1 = ['Age', 'Work_Experience','Family_Size'] from sklearn.preprocessing import RobustScaler rs = RobustScaler() n_train[cols1] = rs.fit_transform(n_train[cols1]) n_test[cols1] = rs.transform(n_test[cols1]) cols2 = ['Gender','Ever_Married','Graduated','Profession', 'Spending_Score', 'Var_1'] # 라벨 인코딩 from sklearn.preprocessing import LabelEncoder for col in cols2: le = LabelEncoder() c_train[col] = le.fit_transform(c_train[col]) c_test[col] = le.transform(c_test[col]) # 원핫 인코딩 # c_train = pd.get_dummies(c_train, columns = cols2) # c_test = pd.get_dummies(c_test, columns = cols2) # train = pd.concat([n_train, c_train], axis=1) # test = pd.concat([n_test, c_test], axis=1) # from sklearn.model_selection import train_test_split # X_tr, X_val, y_tr, y_val = train_test_split(train.drop('Segmentation', axis=1), train['Segmentation'], test_size=0.1, random_state=2022) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier() rf.fit(X_tr, y_tr) pred = rf.predict(test) submit=pd.DataFrame({'ID':test["ID"],'Segmentation':pred}).to_csv("002000000.csv", index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
표준화 스케일링 결과가 민맥스와 동일하게만 나옵니다.
# 표준화 StandardScaler (Z-score 정규화, 평균이 0 표준편차가 1인 표준 정규분포로 변경)n_train, n_test, c_train, c_test = get_nc_data() # 데이터 새로 불러오기from sklearn.preprocessing import StandardScalerdisplay(n_train.head(2))n_train[cols] = scaler.fit_transform(n_train[cols])n_test[cols] = scaler.transform(n_test[cols])display(n_train.head(2))안녕하세요. 스케일링에서 민-맥스 스케일링과 표준화 스케일링을 차례대로 수행했습니다. 위 코드를 실행하기 전에 말씀하신 것처럼 새로 불로오기도 했구요. 그런데 표준화 스케일링의 결과가 민-맥스 스케일링과 완전히 동일하게 출력됩니다. 즉, -마이너스 값이 전혀 없이 전부 민맥스처럼 0~1사이 값만 나옵니다.데이터 새로 불러오기를 하고, 위 표준화 스케일링을 실행해도 민맥스 스케일링의 값이 출력되는 이유는 무엇일까요? *질문 작성후 로버스트 스케일러 설명 부분에서 스케일러를 지정하기를 말씀하셔서 보니까 스케일러 불러오기를 안했네요. 스스로 해결이 되었습니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 문제 질문!
작업형 2번에서 예측해야하는 컬럼의 값이 0 또는 1인경우0인지 또는 1인지 (2진분류)를 예측하는 것과0일 확률 또는 1일 확룰을 구하는 것의 차이점이 무엇일까요?작성하는 코드가 다른건가요?! 섹션11 작업형 2번 강의를 듣다가 궁금해졌습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
타깃 데이이터 유형 질문입니다.
안녕하세요..ㅎ분류 문제에서 타깃 데이터가 수치형으로 표기 되어 있으면, 문자형으로 변환하지 않고 그냥 사용하나요? 기출 4회 2유형 문제에서 타깃이 1~4로 되어 있는데, 이것을 object로 변환해서 처리하니까, 오히려 에러가 나오네요? (randomforestclassifier 사용시)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
구름 테스트 환경 실행에 실패하였습니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 그대로 복붙했는데 밑에 프로세스 실행되는것도 없이 그냥 바로 실행에 실패했습니다, 코드를 확인하라고 뜨는건 뭔가요,,,
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[작업형3 예시문제] 문제 설명 부탁드립니다
소문제 3번 문제가 이해되지 않습니다. 로지스틱 회귀모형에서 변수가 한 단위 증가한다는 것의 의미와 왜 np.exp를 사용하는지 추가 설명 부탁드립니다ㅜㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 7/8(섹션2 ) 강의자료 어딨나요?
강의 7/8(섹션2 ) 강의자료 어딨나요? 코드 일일이 타이핑하고 있는데, 오류가 자꾸 나네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
저의 코드도 정답 처리로 될까요?? y_test채점 결과 0.789 나왔습니다
import pandas as pd train = pd.read_csv("train.csv") test = pd.read_csv("test.csv") cols = train.select_dtypes(include='object').columns from sklearn.preprocessing import LabelEncoder for col in cols: le = LabelEncoder() train[col]=le.fit_transform(train[col]) test[col]=le.transform(test[col]) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train.drop("TravelInsurance", axis=1), train["TravelInsurance"], test_size=0.1, random_state=2022) from sklearn.ensemble import RandomForestClassifier rf = RandomForestClassifier(random_state=2022, max_depth=8, n_estimators=600) rf.fit(X_tr, y_tr) y_pred = rf.predict_proba(test) submit = pd.DataFrame({"index":test.index, "y_pred": y_pred[:,1]}).to_csv("990906.csv", index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
궁금해서 문의남깁니다.
챕터 5-2 관련 질문입니다.강의 따라서 그대로 수행했고중간에 RandomRegressor의 경우 강사님께서 훈련을 잘못 적용하신 것 까진 이해를 했습니다.다만 궁금한건 xgboost로 훈련을 한 경우검증데이터로 r2 score를 도출했을 경우엔 0.27로 다른 회귀분석을 하는 경우보다 높게 나왔습니다만,최종적으로 평가하는 y_test와 x_test 모형에서는 결과값이...-0.03400982959617549 라는 비정상적인 값이 나옵니다...올려진 sheets 중 y_test값이 잘못 된것인지...값이 이상하여 문의 댓글 남깁니다. 제가 사용한 코드는 proba = xg.predict(test) y_test = pd.read_csv("y_test.csv") print(r2_score(y_test, proba))였고 하필 강의 말미에도 총 평가점수가 나오진 않아있어 문으드립니다. 답변 기다리겠습니다.
-
미해결차량 번호판 인식 프로젝트와 TensorFlow로 배우는 딥러닝 영상인식 올인원
장시간 Training이 필요한 Colab 실습 진행시 유의사항 관련 질문입니다
!python train.py \ --training_data_path="./data/ICDAR2015/train_data/" \ --checkpoint_path="/content/drive/MyDrive/Colab Notebooks/east_resnet_50_rbox"python3: can't open file '/content/train.py': [Errno 2] No such file or directory위 코드에 대해 자꾸 에러가 생기는데 해결방법을 알고 싶습니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 1 정답은 항상 정수형으로 출력?
선생님! 작업형1은 정수형으로 print되야 한다고 해서 항상 print(int( )) 이런 식으로 int를 안에 넣어서 정답을 작성하는 것인가요?예를들어 문제1도 5674 만 나오도록 해야하는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터분석을 위한 파이썬 기초 2 강의와 관련된 질문
안녕하세요. 좋은 강의 감사합니다. 데이터분석을 위한 파이썬 기초 2 강의 부분을 들으면서 질문 사항이 몇개 생겨서 글을 남기게 되었습니다 질문 1번TypeError: list.append() takes exactly one argument (2 given)리스트에서 append 메소드?(=함수?) 사용시 1개 값만 추가가능한데요. 여러개 값?(=원소?)을 한번에 추가하는 메소드? 가 있을까요? 질문 2번딕셔너리에서 키로 값(밸류) 바꾸는 거(예: dict['name'] = '네모')와 유사한 방식으로, 키의 이름(예 'name'을 '이름'으로)을 바꾸는 방법이 있나요?? 질문 3번슬라이싱 연습에서# 마지막 앞 단어 print(listbox[-2])로만 해도 같은 값 나오는데 이렇게 알고 외워도 괜찮나요?마지막 단어 출력하려면 [-1]니까 그거보다 앞이라서 -2로 외우면 편하게 되울거 같아서요.