묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2유형 label encoding
작업형 2유형 라벨 인코딩 할 때다른 교재에서는 X_train 과 X_test 데이터를 모두 fitting 시키던데수업에서 다룬 X_train은 fit_transform 시키고 X_test는 Transform만 시키는 방식과어떤 차이가 있는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오즈비 노션 어디 있나요?
어디 있는지 보이지가 않네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2에서 변수를 변환 할 때 문의 드립니다.
작업형 2에서 변수 unique 수에 따라서 원핫 혹은 라벨 인코딩을 한다고 하던데 보통 몇개를 기준으로 하나요 ? unique 가 많을 때 원핫이 유리한지 라벨인코딩이 유리한지.. @ @ 헷갈려서요..
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리(공식 예시문제 작업형2)
예시 문제에서 pd.concat을 써보고 싶어서 이렇게 써봤는데 이때 그러면 라벨링 할때 fit_transform만 써도 괜찮은가요? 따로 또 transform을 안해줘도 괜찮나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
logit 이나 ols 사용할때 앞에 C( )를 붙이는 이유?
ANOVA를 배울때는 ols 사용할때 독립변수 앞에 C()를 붙이는것이 분산분석은 범주형 분석이기에 앞에 C를 붙인다고 생각했는데요~로지스틱 회귀분석은 독립변수가 수치형, 종속변수가 이산/명목형으로 알고있는데.. Gender 앞에 C를 붙이는 이유가 있을가요? 오히려 Gender은 수치로 바꿔줘야할것 같은데.. 혹시 C 의 의미가 수치형->범주형, 범주형->수치형으로 양쪽 모두 바꿔주는 역할인건지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션6 시험환경살펴보기(제2유형)
시험환경 체험링크 타고 들어가 강의랑 같이 보고 있는데, 링크에서는 train, test 2개의 데이터셋만 제공 되있고, 문제 내용도 조금 차이가 있는거 같습니다. 확인 좀 부탁드리겠습니다 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
4회 기출 작업형2
섹션14 작업형2 어떤 부분이 문제일까요 ㅠㅠ?ValueError: could not convert string to float: 'Healthcare' 이런 오류가 뜹니다.. target = train.pop('Segmentation')test_ID = test.pop('ID') # 연속형 변수 스케일링num = ['Age', 'Work_Experience', 'Family_Size']from sklearn.preprocessing import RobustScalerscaler = RobustScaler()train[num] = scaler.fit_transform(train[num])test[num] = scaler.fit_transform(test[num]) # 범주형 변수 원핫인코딩cols = ['Gender', 'Ever_Married', 'Graduated', 'Spending_Score']train = pd.get_dummies(data = train, columns = cols)test = pd.get_dummies(data = test, columns = cols) # 평가from sklearn.ensemble import RandomForestClassifiermodel = RandomForestClassifier()model.fit(train, target)pred = model.predict(test) # 제출pred = model.predict(test)pd.DataFrame({'ID': test_cust_id, 'Segmentation': pred}).to_csv('003000000.csv', index=False)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션 11 작업형2 구버전 문의
피처엔지니어링 부분에서from sklearn.preprocessing import LabelEncoder cols = ['주구매상품', '주구매지점'] for col in cols: le = LabelEncoder() X_train[col] = le.fit_transform(X_train[col]) X_test[col] = le.transform(X_test[col]) X_train.head()이 코드 실행했을때 ValueError: invalid literal for int() with base 10: '골프' 이런 에러가 뜨는데 이유가 무엇인가요..?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
goorm 작업환경에서 코딩 중 엔터 칠 때마다 들여쓰기 되는 현상
30,32~36번 부분 처럼엔터 칠 때마다 들여쓰기가 기본으로 되어지는데... 이거 어떻게 원래대로 돌릴 수 있을까요...??초기화 버튼을 눌러도 계속 이렇게 되네요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회기출문제 작업형2 검증데이터 분리 질문
섹션13 3회 기출유형(작업형2)6:15검증데이터 분리에서 (('TravelInsurance', axis = 1), train['TravelInsurance'], test_size = 0.1, random_state = 1204)위에 알려주신 방법 말고 (train, train[‘TravelInsurance’], test_size = 0.1, random_state = 1204)전처리 단계에서 불필요한 컬럼으로 간주하고 drop 후에 분리에서 윗 줄처럼 해도 될까요? 만약 안된다면, 괄호 안에 앞 2개가 매번 달라서 어떻게 입력해야할지 잘 모르겠어요. 이 문제에서 drop 방법은 왜 사용 안하신건지 궁금합니다. 제출할 때 'index' = test.index로 들어가는것도 왜 그런지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출유형 작업형 2번 관련
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하십니까지금 공부 중에 nunique 사용 법에 대한 문의 입니다.아래와 같이 코딩하면값은X_train.describe(include = 'O').nunique() 를 사용하면Warehouse_block 4 Mode_of_Shipment 4 Product_importance 4 Gender 4 dtype: int64 로 나오는데요 실제 문제에서 알려주신 코딩으로 하면X_train[['Warehouse_block', 'Mode_of_Shipment', 'Product_importance', 'Gender']].nunique()각 5, 3, 3, 2가 나오네요차이점이 무엇인지 궁금합니다..!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
macro
다중분류에서 쓰는 average = 'macro'가 무슨 의미일까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 유형2 제출 질문
작업형 유형2 제출시 아래와 같이 csv 파일을 제출할 텐데pred = model.predict_proba(test)pd.DataFrame({ 'pred':pred[:,1]}).to_csv('result.csv',index=False)아래와 같이 csv파일 확인하고 출력되는 값이 있는 코드 그대로 제출해도 괜찮나요?print(pd.read_csv('result.csv')) 아니면 print(pd.read_csv('result.csv')) 부분을 확인하고 주석처리하고 제출해야 하나요...?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제 2 -문제6 질문입니다!
이렇게 작성해도 되는지 질문드립니다!!값은 정상적으로 출력됐는데, 밑에<ipython-input-163-67625b6c418c>:16: UserWarning: Boolean Series key will be reindexed to match DataFrame index. df = df[cond1]이런 오류코드가 같이 딸려나와요.. 시험장에서 이런 오류가 같이 딸려나오면 감점인가요? 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
시험환경에서 print(help(pandas.corr)) 은 안먹나요?
안녕하세요.시험환경에서 dir과 help를 써서 힌트를 얻고 싶습니다.예를들어 회귀분석 상관관계 corr()에 대한 힌트를 얻으려면 어떻게 해야할까요?
-
미해결Data Engineering Course (1) : 빅데이터 하둡 직접 설치하기
jdk 설치 유무 문의
인터넷 보면서 자바 환경 변수 설정을 해보았는데 혹시 제대로 된 것이 맞을까요..? ㅠㅠ자바 환경 변수 부터 쉽지 않네요 -- 자바 설치sudo apt-get install openjdk-8-jdk -- 자바 버전 확인 tghong@redhat7-1:~$ java -version openjdk version "1.8.0_382"-- 설치 경로 확인? tghong@redhat7-1:~$ readlink -f $(which java) /usr/lib/jvm/java-8-openjdk-amd64/jre/bin/java sudo vi /etc/profileexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 export PATH=$PATH:$JAVA_HOME/bin source /etc/profile -- 확인 tghong@redhat7-1:~$ echo $JAVA_HOME/usr/lib/jvm/java-8-openjdk-amd64tghong@redhat7-1:~$ echo $PATH | grep java/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin:/usr/games:/usr/local/games:/snap/bin:/usr/lib/jvm/java-8-openjdk-amd64/bin
-
미해결Data Engineering Course (1) : 빅데이터 하둡 직접 설치하기
apt-get install openjdk-8-jdk 설치 문의
안녕하세요 강사님! 먼저 인프런에서 하둡을 공부 할 수 있도록 강의 내주셔서 너무 감사합니다! jar 파일 압축이 풀리지 않아 방법을 찾던 중 sudo apt-get install openjdk-8-jdk* 으로 설치가 잘 되었습니다혹시 이 방법으로 해도 문제가 없을까요..? 자바를 해본 적이 없는 상황에서 자바 설치 방법이? 강의와 다른데 그 이후 환경 변수 셋팅 구축 방법 및 하둡 설치는 달라지는 것이 없나요? 클라우드 환경이라 터미널에서 wget 으로 다운 받았는데 gzip 파일이 아니라는 에러가 나오는 이유가 무엇일까요.. 혹시.. wget 으로 다운 받을 수 있는 자바 1.8버전을 영상 아래 코멘트 한줄만 남겨 주실 수 있으신가요..ㅠ
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
섹션7] 과제 2번 질문
섹션7] 과제2번 질문있습니다. users1 = [(0, "ALEX"), (1, "BERT"), (2, "CURT"), (3, "DONT")] subs1 = [(0, "Writing"), (0, "Gym"), (1, "Swimming")] userRDD = sc.parallelize(users1) subsRDD = sc.parallelize(subs1) mergedRDD = userRDD.rightOuterJoin(subsRDD) mergedRDD.map(lambda value : value[1][0] + " loves " + value[1][1]) 조인되어서 collect 되었을 때 데이터 구조가 key (leftvalue, rightvalue) 이렇게 반복구조가 되는 것 같은데 답이 ['ALEX loves Writing'] 이것만 나오는 것이 아니라 ['ALEX loves Writing', 'ALEX loves Gym', 'BERT loves Swimming'] 이렇게 나오는 이유를 모르겠습니다. 좋은 강의 잘 듣고 있습니다. 감사합니다. 아래와 같은 양식으로 질문을 남겨주세요 🙂수업을 들으시면 이해하기 어려운 부분이 있으면 상세히 질문을 남겨주세요.서로 Tone and Manner 를 지키며, 즐거운 수업 시간을 만들어보아요.잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 작2
from sklearn.metrics import mean_squared_errormse=mean_squared_error(y_val,pred)rmse=mse**0.5rmse(y_val,pred) 이렇게 쳤더니 TypeError Traceback (most recent call last) <ipython-input-71-c64d244aa8ba> in <cell line: 1>() ----> 1 rmse(y_val,pred) TypeError: 'numpy.float64' 에러가 나오네요ㅜ 왜그런가요?from sklearn.metrics import mean_squared_errormse=mean_squared_error(y_val,pred)rmse=mse**0.5rmse이렇게 치면 애러 안나오고 값이 출력되요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신 버전)
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요문제 지문에서알려주는 제출 CSV 파일 형식은 0, 1, 1, 0 ... 이런 predict 결과값인데0.11385 와 같이 predict_proba 확률값으로 결과를 제출해도 괜찮은 이유가 궁금합니다!roc_auc가 predict_proba 로 해야한다면 predict_proba로 모형 성능테스트를 하고 제출은 predict로 해야하는 것이 아닌가... 라는 의문이 들어서 문의드립니다