질문 & 답변 - 인프런 | 커뮤니티

묻고 답해요

169만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형 모의문제2 실제 제출 파일 질문

model = RandomForestRegressor() model.fit(X_tr,y_tr) pred = model.predict(y_val)이렇게 해서 검증데이터로 예측해서 모델 평가하고 실제로 제출할 떄에는 pred = model.predict(test) 로 예측해서test_id, pred로 형성된 데이터프레임을 제출하는게 맞는거죠??

이다혜 · 2024.11.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

121

답변

3
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

풀이2번 방식 문의

X_tr, X_val, y_tr, y_val = train_test_split(train[cols], target, test_size = 0.2, random_state = 0) 이렇게 했으면 X_tr에 train[cols]가 들어가게 되는거같은데모델 학습시model.fit(X_tr) 이렇게만 해줘도 안되나요?꼭 model.fit(X_tr[cols])까지 한번더 해줘야하나요?

wsyang · 2024.11.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

114

답변

2
미해결
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

drop과 dropna차이가 뭔가요?

모의문제1,2 유형 풀고 있는데 문제1에서는 dropna가 주로 나오고 유형2에서는 drop이 나오던데 drop과 dropna의 차이가 뭔가요?

zizizi207 · 2024.11.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

342

답변

2
해결됨
세계 대회 진출자가 알려주는 코딩테스트 A to Z (with Python)

7576번 풀이 코드 관련 질문

안녕하세요 선생님. 7576번 토마토 문제를 풀기 위해 코드를 짜서 제출했는데 자꾸 틀렸다고 처리가 되어서 어디가 문제인지 궁금하여 질문드리려 합니다. time matrix 대신에 visit matrix를 쓰는거 말고는 예시답안과 거의 일치하는것 같은데 어디가 문제일까요?import sys from collections import deque def bfs(cands): global data, N, M, min_dist, dx, dy visit = [[False] * M for _ in range(N)] q = deque() for (i,j) in cands: q.append([i,j,0]) visit[i][j] = True while q: x,y,dep = q.popleft() min_dist[x][y] = min(min_dist[x][y], dep) for di, dj in zip(dx,dy): ni = x + di nj = y + dj if (0<= ni < N) and (0<=nj<M) and (not visit[ni][nj]) and (data[ni][nj] == 0): q.append([ni,nj,dep+1]) visit[ni][nj] = True dx = [0,1,0,-1] dy = [1,0,-1,0] M, N = map(int, input().split()) data = [] for _ in range(N): data.append(list(map(int, input().split()))) min_dist = [[1e6]*M for _ in range(N)] cands = [] for i in range(N): for j in range(M): if data[i][j] == 1: cands.append((i,j)) if data[i][j] == -1: min_dist[i][j] = -1 bfs(cands) val = max(max(min_dist)) if val == 1e6: print(-1) else: print(val)

purplejay · 2024.11.17 · 세계 대회 진출자가 알려주는 코딩테스트 A to Z (with Python)

투표점수

0

조회수

134

답변

1
미해결
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

logit 범주형 C() 처리

안녕하세요! 작업형 3번중 종속변수 말고 범주형 변수에는 C()를 다 붙여도 된다고 하셨는데 수강생 작성model = logit("Survived~ C(Gender) + C(SibSp) + C(Parch) + C(Fare)", data=df).fit() print(model.summary()) 로 작성하게 되면 에러가 발생합니다!혹시 이유를 알 수 있을까요?에러는 참고로 남기겠습니다! > Warning: Maximum number of iterations has been exceeded. Current function value: inf Iterations: 35Makefile:6: recipe for target 'py3_run' failedmake: *** [py3_run] Error 1/usr/local/lib/python3.12/site-packages/statsmodels/discrete/discrete_model.py:2385: RuntimeWarning: overflow encountered in exp return 1/(1+np.exp(-X))/usr/local/lib/python3.12/site-packages/statsmodels/discrete/discrete_model.py:2443: RuntimeWarning: divide by zero encountered in log return np.sum(np.log(self.cdf(q * linpred)))Traceback (most recent call last): File "/goorm/Main.out", line 23, in <module> model = logit("Survived ~ C(Gender) + C(SibSp) + C(Parch) + C(Fare)", data=df).fit() ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/statsmodels/discrete/discrete_model.py", line 2601, in fit bnryfit = super().fit(start_params=start_params, ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/statsmodels/discrete/discrete_model.py", line 243, in fit mlefit = super().fit(start_params=start_params, ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/statsmodels/base/model.py", line 582, in fit Hinv = np.linalg.inv(-retvals['Hessian']) / nobs ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/numpy/linalg/linalg.py", line 561, in inv ainv = umathlinalg.inv(a, signature=signature, extobj=extobj) ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^ File "/usr/local/lib/python3.12/site-packages/numpy/linalg/linalg.py", line 112, in raiselinalgerror_singular raise LinAlgError("Singular matrix")numpy.linalg.LinAlgError: Singular matrix 강사님 작성model = logit("Survived ~ C(Gender) + SibSp + Parch + Fare", data=df).fit() print(model.summary())에러없음

루루 · 2024.11.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

157

답변

2
미해결
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

y_train

y_train = train.pop("price")를 하는 이유가 궁금합니다.

shs4166 · 2024.11.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

101

답변

3
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

5회

이 과정은 왜 거치는 것이고, 왜 transmission을 택했는지 궁금합니다.

shs4166 · 2024.11.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

62

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

일반적으로 for문이 들어가는 부분

강의를 듣다보면 for문으로 레이블인코딩을 쉽게 하는 걸로 배웠습니다 헌데 Scaling 할때는 for문이굳이 필요 없나요?cols = ['Age', 'AnnualIncome', 'FamilyMembers', 'ChronicDiseases'] display(n_train.head()) n_train[cols] = scaler.fit_transform(n_train[cols]) n_test[cols] = scaler.transform(n_test[cols]) n_train.head() 이런식으로 바로 cols를 집어넣으시던데,labelEncoding때에만 for로 하는 경우가 궁금합니다.

김치현 · 2024.11.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

68

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

간단질문

안녕하세요?1번 : statsmodels.api.stats 에서의 anova_lm 2번 statsmodels.stats.anova에서의 anova_lm 이 두개는 다른건지요? 일원분산분석을 할때는 2번으로,, 이원분산분석은 1번으로 되어 있어서요.. 차이가 있는건지요?

kccjjang · 2024.11.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

81

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형 2 - 라벨인코더

작업형2를 풀때, 라벨인코더를 해서 풀고 마지막에 오류로, Train에서는 라벨인코더가 되었는데.. Test데이터에서는 라벨인코더가 되지 않음을 확인하였습니다. gpt는 이 이유가, train간 test데이터 사이에 항목이 달랐기 떄문에 이런 오류가 났다고 설명하는데...(예를 들어 train에 라벨인코더한 항목이 A.B.C로 되어있다면 test데이터는 A,B,C,D로 되어있어 나는 오류) 그럼 라벨인코더를 쓸때는 꼭, train, test간 데이터 종류/갯수가 같은것을 확인하고 쓸 수 밖에 없는건가요..?? 이런경우 그냥 더미변수처리를 해야하는걸까요?ㅠㅠ

cpfk1004 · 2024.11.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

113

답변

2
해결됨
직장인에게 꼭 필요한 파이썬-아래아한글 자동화 레시피

2-6. 필드속성 수정하기 에서 "자료다운" 버튼 클릭 시 오류가 뜹니다.

2-6. 필드속성 수정하기 에서 "자료다운" 버튼 클릭 시 오류가 뜹니다. "자료다운" 버튼 클릭 시 나타나는 오류화면은 아래와 같습니다.확인 및 "자료다운" 가능하도록 정정 부탁드립니다. 감사합니다.

learner · 2024.11.17 · 직장인에게 꼭 필요한 파이썬-아래아한글 자동화 레시피

투표점수

1

조회수

89

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

concat 관련

여기서 concat을 사용하는 이유가 X_train과 y_train을 df로 합치기 위해서인데,labelencoding은 왜 X_train으로 진행하신건가요? X_train.select_dtypes(include = 'object')가 아닌df.select_dtypes(include = 'object')가 아닌짛 해서요.

김치현 · 2024.11.17 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

113

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

iloc

iloc[0:,-2]0인 이유가 뭘까요?

shs4166 · 2024.11.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

51

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

다중회귀모델 독립변수 인코딩

다중회귀모델을 학습할 때 독립변수에 포함된 범주형변수를 인코딩 안 하고 학습했을 때의 결정계수값과 인코딩 했을 때의 결정계수 값이 다르게 나오는데, 이런 경우 인코딩을 하고 계산하는 게 맞는건가요? 전자는 자동으로 처리가 된 것 같은데 시험에서는 어떤걸 정답으로 쳐주는지 궁금합니다!

gniddup5 · 2024.11.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

82

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

uint8 , bool

bool이라고 나왔는데 맞나요..?

shs4166 · 2024.11.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

68

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

시나공 빅분기 교재관련 문의(p.177) 및 정오표관련

시나공 빅분기 교재관련 문의p.177 25번 문제에서시간간격이 1일 이하인 사용자를 제외하고 계산하라고 했는데cond1 = time_interval > 0 로 되어 있는데cond1 = time_interval > 1 이 되어야 하는게 맞지 않을까요??혹시 " > 0 " 으로 풀이한 이유가 있을까요?? ps. 교재관련 정오표를 찾고 있는데 어디서 찾을 수 있을까요??

안형렬 · 2024.11.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

232

답변

3
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

2유형 성능향상(분할관련)

안녕하세요. 2유형에서 성능을 올리려면 데이터 분할을 안하면 된다고 들었는데요 그러면 분할자체를 하지않고 랜포에 rfr.fit(train) 이렇게 학습시키면되나요? 이런 케이스도 코드예시 올려주시면 좋겠어요 아에 분할을 안하는 2유형 전체코드요

Bruce Lee · 2024.11.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

65

답변

1
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

문제8, 문제9 풀이에서 numeric_only=True 옵션

문제8, 문제9 풀이에서 numeric_only=True 옵션에 대해서궁금해서 질문해요문제 8번 풀이에서df =df.groupby(['city','f2']).sum(numeric_only=True).reset_index()df =df.groupby(['city','f2']).sum(numeric_only=True).reset_index() 에서는 컬럼 'city' 와 'f2' 컬럼이수치형 자료라 numeric_only=True 를 설정해야 하는 건가요!? 문제 9번 풀이에서 groupby 로 월 별 데이터 개수를 구할 때는 count(numeric_only=True) 로 설정하면 오류나는 이유는 뭔가용..??? month 가 숫자형이어서 그런가요 아니면 count 가 설정할 필요가 없어서인가요 ? ㅠ.ㅠ numeric_only=True 를 어느 때 써야하고 안 써야하는지 구분하는게 정확히 어떤 기준인지 궁금합니다

jnj0713 · 2024.11.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

192

답변

2
해결됨
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

들여쓰기

들여쓰기를 했는데도 에러가 뜨는 데 왜일까요?

shs4166 · 2024.11.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

74

답변

1
미해결
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

작업형2 한가지 방법으로 풀기

#train['환불금액']=train['환불금액'].drop#test['환불금액']=test['환불금액'].droptrain=pd.get_dummies(train)test=pd.get_dummies(test)target=train.pop('성별')from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train,target,test_size=0.2,random_state=0)from sklearn.ensemble import RandomForestClassifiermodel=RandomForestClassifier(random_state=0)model.fit(X_tr,y_tr)pred=model.predict(test)submit=pd.DataFrame({'pred':pred})submit.to_csv('result.csv',index=False)a=pd.read_csv('result.csv')print(a.head()) 위와 같이 한가지방법으로 풀기와 동일하게 진행하였는데 model.fit(X_tr,y_tr) 에서 오류가 납니다. 결측치가 있는 '환불금액'열을 삭제해도 동일한데 한가지방법으로 푸는 코드에 오류나 잘못된 부분이 있을가요?.

FU · 2024.11.16 · [퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)

투표점수

0

조회수

213

답변

3

인기 태그

주간 인기글