묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 채우는건 0혹은 중앙값? 어떤걸 추천하시는지요?
현재 구름환경 들어와서 2유형 풀어보고있는데요혹시 결측치값은 어떤걸로 채우는걸 가장 추천하실런지요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님~ 답변부탁드립니다 ㅠ저는 원핫인코딩으로 했더니 평가가 850대로 나오는데요
그리고 저는 원핫인코딩으로 했는데 mse가 850점대로 나오네요.. 이러면 안되는거지요? import pandas as pd train=pd.read_csv("churn_train.csv") test=pd.read_csv("churn_test.csv") #데이터전처리 train=train.drop('customerID',axis=1) test=test.drop('customerID',axis=1) #타겟값 설정 target=train.pop("TotalCharges") #원핫인코딩 train=pd.get_dummies(train) test=pd.get_dummies(test) test.head(5) #데이터분할하기 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val= train_test_split(train, target, test_size= 0.2, random_state=100) #랜포 불러와서 모델링하기 from sklearn.ensemble import RandomForestRegressor model=RandomForestRegressor(n_estimators=500,max_depth=5,random_state=2022) model.fit(X_tr, y_tr) pred = model.predict(X_val) #성능평가MAE(Mean Absolute Error) from sklearn.metrics import mean_absolute_error mean_absolute_error(y_val,pred) pred = model.predict(test) result=pd.DataFrame({"pred" : pred}) result.to_csv("111.csv",index=False)
-
미해결Airflow 마스터 클래스
Dag 에러가 나는데 모르겠어요
안녕하세요. Broken DAG: [/opt/airflow/dags/dags_python_with_op_kyargs.py] Traceback (most recent call last): File "/home/airflow/.local/lib/python3.12/site-packages/airflow/models/baseoperator.py", line 508, in apply_defaults result = func(self, kwargs, default_args=default_args) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/home/airflow/.local/lib/python3.12/site-packages/airflow/models/baseoperator.py", line 959, in init raise AirflowException( airflow.exceptions.AirflowException: Invalid arguments were passed to PythonOperator (task_id: regist2_t1). Invalid arguments were: kwargs: {'op_kyargs': {'email': '@naver.com', 'phone': '010'}}이런 에러가 왜 난거져?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2에서 질문 있습니다.
y_train을 Replace로 train = xtrain.pop('income').to_frame('income')y_train = y_train['income'].replace('>50K', 1).replace('<=50K', 0) 인코딩을 했는데요화면에서는 '>50K', '<=50K' 각각 나타내어 지고 있습니다. [1,0]으로 보여져야 하는거 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증 데이터 분할 질문 드립니다.
작업형2 New 내용에서 검증 데이터 분할 시 화면에는 train, y_train, test로 데이터 명이 되어 있는데요.각각 인코딩이 완료된 데이터로 분할하는거 맞는거죠?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 이상치 제거 부분
영상보다가 처음에 결측치 제거 부분에서 실수로 "value"부분에서 따옴표를 넣어 test의 age컬럼이 object형식으로 저장되었습니다그래서 이상치 파트에서 문자랑 정수가 섞여 조건문 작성시에 오류가 발생하였는데다시 원래대로 결측치 있는 부분을 fillna(vlaue)로 저장시키는 방법은 없나요?test파일을 test = test_backup.copy() 이렇게 해놔야 하나요?value = int(train["age"].mean()) print("평균값: ", value) train["age"] = train["age"].fillna(value) test["age"] = test["age"].fillna("value")
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
train_oh, test_oh 의미
train와 test의 데이터가 15개로 동일하지만 train_oh와 test_oh의 데이터는 왜 다른지 궁금합니다..제가 정확히 train_oh와 test_oh는 각각 train과 test의 문자데이터를 수치형 데이터로 변환하는것으로 이해했는데 그렇다면 train과 train_oh의 데이터 갯수는 동일해야 하는것이 아닌 의문이 들어 질문남깁니다 ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출1 작업형2 코드 질문
import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")#1 문제정의 #분류 (ROC_AUC ), TARGET = '성별' 제출할 데이터 2482개 # 사용자 코딩#2EDA print(train.shape, test.shape) #제출할 데이터 2482개print(train.info()) print(train.isnull().sum())print(test.isnull().sum()) #환불금액 결측치 2295개 #3 데이터 전처리 #결측치 처리 aa = train['환불금액'].mode()[0] print(aa)train['환불금액'] = train['환불금액'].fillna(aa)test['환불금액'] = test['환불금액'].fillna(aa)print(train.isnull().sum())print(test.isnull().sum())target = train.pop('성별')train = pd.get_dummies(train)test = pd.get_dummies(test)test = ★test.reindex(columns=train.columns, fill_value=0)#검증데이터 분리 from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size =0.2, random_state=0)print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)#학습 및 예측from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state=0)rf.fit(X_tr, y_tr)pred = rf.predict_proba(X_val)from sklearn.metrics import roc_auc_scoreroc_auc = roc_auc_score(y_val, pred[:,1])print(roc_auc)pred = rf.predict_proba(test)submit = pd.DataFrame({'pred':pred[:,1]})submit.to_csv('result.csv', index=False)print(pd.read_csv('result.csv').head(3))print(pd.read_csv('result.csv').shape)# 답안 제출 참고# 아래 코드는 예시이며 변수명 등 개인별로 변경하여 활용# pd.DataFrame변수.to_csv("result.csv", index=False) 기출1회작업형2번 문제 중 결측치를 최빈값으로 채운 뒤 코드 작성하였지만 오류가 떴습니다. 검색결과 train과 test의 컬럼 개수가 다르다고 합니다. Q. ★test.reindex(columns=train.columns, fill_value=0) 해당 코드를 추가하면 정상적으로 돌아가는데 해당 코드를 추가해도 답에 이상이 없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀 평가지표 관련해서 질문드립니다!
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 안녕하세요다름이 아니라 강의에서 회귀 중 MAPE, RMSE, RMSLE 등은 sklearn.metrics에 없다고 따로 외워야 한다고 하셨는데요 사이킷런 홈페이지 들어가봤는데 다 적혀있기는 해서, 혹시 이제는 metrics 통해 그대로 사용하면 되는 게 맞는지 여쭙습니다!제가 확인한 사이트도 링크 첨부하였습니다. https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_log_error.html
-
해결됨(2025) 일주일만에 합격하는 정보처리기사 실기
11:29 C언어 문제
gets(n)이 n을 입력받는 함수라는 거 이해했고,근데 name() 에 ()가 있어서 () 에 홍길동을 입력받는건가요? name이 똑같이 n에다가 덮어쓴다는게 뭘 보고 알 수 있는건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 작업형3 2-1문제
예를 들어, Feature4가 있다고 가정하고 이것이 ERP와의 상관관계가 -0.999라고 한다면 답은 Feautre1인가요? Feature4인가요?(즉, 상관관계가 높은 값을 고를 때는 절대값을 취해서 고려하나요?)
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
7회 작업형3 1-2문제 코드가 같은데 결과값이 다릅니다 ㅠ
아래와 같이 똑같이 입력했는데 결과값이 아예 다른데 무엇이 문제일까요?ㅠㅠimport pandas as pd df=pd.read_csv("clam.csv") df #데이터분할에서 만들기 train = df.iloc[:210, : ] test=df.iloc[210: , : ] #로지스틱 회귀모델 만들기 #잔차이탈도는 로짓에서 볼수없고 glm에서 볼수있다. from statsmodels.formula.api import glm import statsmodels.api as sm model = glm("gender~ age + length + diameter + height + weight", data=train, familiy=sm.families.Binomial()).fit() print(model.summary())
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주가 다른 컬럼의 스케일링 방법 질문
스케일링도 데이터 프레임별 범위에 따라 fit() 할 프레임을 구분해줘야할까요?train['a'] 컬럼이 1~100 범위이고test['a'] 컬럼은 1~200 범위라면B먼저 fit하고 A는 transform 을 해줘야하나요?아니면 각각 fit_transform 해야할까요? 범주형 컬럼 인코딩의 경우를 생각해보니 문득 위와 같은 상황에서 어떻게 해야하는지 궁금하네요.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
df.dropna(subset = 'views') VS df.dropna(subset = ['views'])
df.dropna(subset = 'views') VS df.dropna(subset = ['views'])대괄호 쓴것과 안쓴것에 큰 차이가 있나요? 결측치가 들어있는 행은 똑같이 사라지는 것 같습니다.
-
해결됨(2025) 일주일만에 합격하는 정보처리기사 실기
28분 23년1회 java문제 다시
설명을 들어서a=10 static.b = a니까 static.b++의 출력값은 10이고, 이후 11이 된다고 이해를 했는데,그러면 그 아래 출력값 a가 10 이면 그대로 똑같이 10이 아니라왜 st.a는 class Static의 20을 가져오나요? 두번째 출력값은 바로 위 출력값에서 계산된 걸 가져왔는데 네번째 출력값은 왜 가장 위의 클래스 거를 가지고 오는지 개념이 이해가 안됩니다
-
해결됨(2025) 일주일만에 합격하는 정보처리기사 실기
28분 문제..
28분대에 있는 23년 1회 JAVA 문제인데요.출력값 처음에Static.b++는 a=10 static.b=a 때문에 출력값 10인 건 이해가 되고,st.b는 왜 0이 아니고, 11인지 이해가 안되고.. 마지막 출력값 st.a은 왜 10이 아니고 20인지 이해가 안되네요. 기출문제부터 따라가기 너무 힘든데 이거 강의를 다시 들어야하나요? 혼자서 문제를 풀면 문제 설명하는 흐름대로 생각이 잘 안나는 것 같아요
-
해결됨(2025) 일주일만에 합격하는 정보처리기사 실기
13:40 di가 ..
질문이 2개인데요...문제 풀이영상을 보면sum + (input[a][b]) * di ; input[a][b]에 %10을 넣으면 뭐 때문에 순차적으로 0 , 10, 100, 1000, 00000, 100000 이렇게 되는지 이해가 안되고, 2번째는di가 1부터 시작을 하고 di*2면 2,4,6,8,10 이렇게 커지는거 아닌가요? 그렇다면 2의2승 2의3승 2의4승 2의5승 이렇게 커지지 않으니까 계산이 안되는 것 같은데 ㅠ.. 좀 어렵네요
-
미해결데이터분석가 서류탈락? 알려드릴게요, 되는 포트폴리오
독학으로 데이터분석 취업 관련 질문 입니다!
안녕하세요! 강의 너무 잘 들었습니다. 덕분에 데이터분석 학습 과정에 대한 로드맵을 설정할 수 있었습니다.다름 아니라 독학으로 데이터분석 취업하기 파트에 질문이 있어 글 남겼는데요, 책을 통한 학습을 제시해주셨는데책 대신 강의 (예를들면 인프런의 강의들) 로 교체해도 무방한지아니면 책으로 하는게 더 좋을지 강의자님의 고견 구하고자 합니다.저의 백그라운드 및 목적 및 목표 설명드리자면비전공자로 현재 데이터분석 부트 캠프를 진행중이며부트캠프 수업 과정과는 별개로 스스로의 커리큘럼을 추천해주신 강의 커리큘럼을 참고해서 진행하려고 합니다.목적은 일련의 학습과정을 통해 포트폴리오를 작성할 만한 실력을 쌓는 것 이며, 이에 도달하는 과정을 최대 6개월 가능하면 3개월 이내로 줄이는 것이 목표 입니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
설정 문의!
사진과 같이 corr 쓰고 ( 괄호를 쓰면 저렇게 함수 설명창이 나옵니다.. 글자를 가리게 되므로 끄고 싶은데, 설정에서 체크박스 다 해제했는데도 뜨네요..ㅠ 어떻게 없애야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 문제3
# your code import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/main/p1/members.csv") #1 #print(df.shape) df = df.dropna(subset=['views']) #print(df.shape) #2 df['f3'] = df['f3'].fillna(0) df['f3'] = df['f3'].replace('silver',1) df['f3'] = df['f3'].replace('gold',2) df['f3'] = df['f3'].replace('vip',3) print(int(df['f3'].sum()))이렇게 작성 후 실행하면 결과가 밑에 처럼 나옵니다.133 <ipython-input-57-2ecc61ea0b50>:14: FutureWarning: Downcasting behavior in `replace` is deprecated and will be removed in a future version. To retain the old behavior, explicitly call `result.infer_objects(copy=False)`. To opt-in to the future behavior, set `pd.set_option('future.no_silent_downcasting', True)` df['f3'] = df['f3'].replace('vip',3)문제 3번에서 두번째 점과 관련된 질문입니다.강의에서 알려주신 넘파이를 꼭 사용해야 하나요?이전 강의에서 넘파이에 대한 내용이 따로 언급이 없으셔서 혼자 문제 풀어볼 때 넘파이 사용하지 않고 풀어본 것인데.. 깔끔하게 133만 나오지 않아서요ㅜㅜ