묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
랜덤포레스트로만 밀어도 문제없나요?
여러가지를 써보고 가장 좋은걸 선택하는게 베스트겠지만.. 다 외우기 어렵다고하면 랜덤포레스트 하나로만 우직하게 밀고가도 합격에 문제없을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
어떤식으로 공부를 해야 좋을까요?
1강부터 쭉 강의를 들으면서 노트북 보고있는데 어렵긴한데.. 일단 한번 쭉 들어보고 차근차근 정리를 해야할까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
자료 다운로드해서 어디에 올려야하나요..?
잘몰라서.. 계속 노트북 링크로만 하고있습니다.방법이 어떻게 될까요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
머신러닝 인코딩(labelencoder)관련 질문
작업형 2 머신러닝 모의2번 문제에서 labelencoder할때, 명령어가 le = LabelEncoder()로 지정하고 아래와 같이 transform할때 fit을 넣고 다음에는 안넣는데, 추측하기로는 train 데이터에서 object 유니크 수를 파악하고 이에 맞는 것으로 변형하기 때문에 fit을 쓴것 같습니다. 그렇다면 trian이랑 test랑 유니크 수가 다르다고 하면 아래와 같이 쓰면 안되지 않나요? 아니면 알아서 잘 수치화가 진행되는걸까요? 일전에 강의에서는 train과 test에서 유니크 수가 다르면, 두 데이터를 상하로 합쳐서 같이 적용하고 나눈다고 들었어서 여쭤봅니다.train[col] = le.fit_transform(train[col]) test[col] = le.transform(test[col])
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번, 수치형 변수 스케일링 굳이 해줘야 하나요?
작업형 2유형 문제 궁금한게 있습니다.수치형 변수 스케일링을 하셨는데, 시험에서도 저 코드를 꼭 써야 하나요?저거를 임의로 판단을 해서 하는건가요? (마지막에 성능 지표로 확인해서 임의 판단인지) 아니면 시험장에서도 문제에서 명시가 되어있는걸까요?혹여나, 문제에서 명시 되어 있지 않는데 굳이 저걸 했다가 감점을 받지 않나 해서요저걸로 가점이 된다면, 항상 모든 문제에 수치형 변수 스케일링을 추가 해줘야 하는거 아닌가요?왜 문제 마다 수치형 스케일링을 해주는 경우도 있고 아닌 경우도 있고.... 이해가 안갑니다그리고 RobustScaler를 적용 하셨는데, MinMaxScaler로 해도 되나요? (다른 수치형 스케일링을 써도 되는지 여쭤봅니다)그리고 하이퍼 파라미터도 문제에 명시 안되어있는데, 저것도 임의 판단해서 쓰는건지 궁금하네요.시험 문제에는 저렇게 간략하게 나오는건가요? 문제에서 딱.. 하이퍼파라미터 적용.. 수치형 스케일링 적용... 이렇게 나오는게 아닌걸까요??너무 추상적이에요...만약 저렇게 추상적이게 나온다면, 임의로 성능 지표를 확인해가며, 수치형이 있다면 스케일링을 적용해보고, 하이퍼 파라미터가 성능 지표가 높게 나온다면 적용해보고... 이렇게 해야하는건가요?(외람된 질문이지만, 성능 지표가 너무 높게 나와도 안좋은거 아닌가요? 과적합 문제라던지요..)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제 7번, 풀이 코드 cond = df.iloc[1] > mean_2001 관련
저는 저 부분을 아래와 같이 for문 안에 if구문으로 처리 하고 싶었는데...if구절에서 i 값을 찍어보면 처음 값만 데이터 그대로 나오고.. 그 담부턴 어뚱한 값이 나오네요..뭘 잘못한걸까요? ㅠㅠmean_2001 = df.iloc[1].mean() print(mean_2001) #print(df.iloc[1]) #cond = df.iloc[1] > mean_2001 #sum(cond) for i in list2001: if i > mean_2001: print(i)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회 기출 1번 문제
1번 문제 코드를 짜보았는데 결과 값이 조금 다른 것 같아서 질문 드립니다import pandas as pd df = pd.read_csv("https://raw.githubusercontent.com/lovedlim/inf/refs/heads/main/p1/members.csv") df.nlargest(10, 'views') m=df.loc[21,'views'] df.iloc[:10,-1]=m cond=df['age']>=80 df[cond]['views'].mean()
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형3(ver. 2023-2) / 로지스틱 회귀 내용 포함(필수)
제목과 같이, 로지스틱 회귀 내용에 대한 코드는 없나요? 삭제된것일지 궁금합니다. 필수적으로 들어야하나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2 질문 드립니다(결과)
이런식으로 코드를 진행 했는데결과가 문자로 안나오고 숫자로 나오는데 혹시 원핫인코딩을 하지 않고 레이블 인코딩을 진행해서 그런건가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
return함수
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요빅데이터 왕초보입니다 하지만 선생님 믿고 따라가려고 강의시작하였습니다..함수 부문에서return함수를 쓰는 이유가 정확하게 와닿지 않아서요..그냥 뭔가 미지수, a,b~로 도출하는것 같은데..return함수 쓰는거랑 안쓰는거랑 차이?점이 정확하게 무엇일까요 감사합니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8회 2유형 customerID
customerID를 필요 없다며 drop하셨는데,drop을 안하고 진행하면 에러가 나나요?굳이 뺄 필요가 없는 것 같아 타겟값만 전처리를 하고 레이블인코딩 진행했더니 최종 제출 파일 생성 시 에러가 납니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
3회 기출 작업형 1. 문제 2번
import pandas as pd df = pd.read_csv('year.csv') # print(df.head()) df.info() # print(df.shape) df = df.T # print(df.shape) m = df.loc[:,1].mean() # print(m) # 110.18407960199005 sum(df.loc[:,1] > m)이렇게 풀었는데 결과값이 91이 나오더라구요.풀이를 보니 year.csv를 불러올 때 index 관련된 내용이 있던데 그걸 사용하지 않으면loc[2000] 이런 것들을 사용할 수 없게 되는건가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
loc[2000]
loc[2000] 같은 경우에 2000이 숫자형 타입이라 작은 따옴표를 안넣어주는건데실제 시험에서 그럼 df.dtypes 명령어를 통해서 미리 숫자형인지 문자형인지 파악하고 풀이를 진행하는 방향이 맞는걸까요? 강의 중엔 따로 언급이 없으셔서 질문드립니다!! 항상 감사합니다
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
앞으로의 공부 방향
생각보다 판다스 이론 공부하는데 머리 속에 쉽게 들어오지 않내요.(파이썬 진도는 다 나감)지금 제가 판다스 15 내장함수 중인데그동안에 하나 넘어갈 때 마다 좀 진도는 늦게 나가도코랩에서 주석을 이용해서 몇번씩 반복을 하면서 나가고 있어요.이런식으로 해서 과연 끝까지 다 나갈지는 의문이긴 한데어떤식으로 하는게 좋은지 한번 조언 듣고자 글 올렸어요.시간 되면 답변 부탁합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
29강 작업형 2 회귀
list(train.columns[train.dtypes == object])# 인코딩을 위해 train + test print(train.shape, test.shape) df = pd.concat([train, test]) print(df.shape)<< 인코딩과정에서 이 두가지를 꼭 해야할까요 분류형문제에선 이 두가지를 안했었는데 회귀형문제에서는 unique수가 많이 차이나서 한다고 하셨는데 이 두가지 안하고 그냥 그 unique수 많은 컬럼을 삭제한 뒤에 원핫인코딩을 진행하면 안되나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출 작업형02
6회 기출 다중분류 문제에서XGB를 사용하면 오류가 나는데 이유가 뭘까요? from xgboost import XGBClassifiermodel = XGBClassifier(random_state=0, verbose=-1) /usr/local/lib/python3.12/dist-packages/xgboost/sklearn.py in fit(self, X, y, sample_weight, base_margin, eval_set, verbose, xgb_model, sample_weight_eval_set, base_margin_eval_set, feature_weights) 1756 or not (classes == expected_classes).all() 1757 ): -> 1758 raise ValueError( 1759 f"Invalid classes inferred from unique values of `y`. " 1760 f"Expected: {expected_classes}, got {classes}" ValueError: Invalid classes inferred from unique values of `y`. Expected: [0 1 2 3 4], got ['High' 'Low' 'Medium' 'Very High' 'Very Low']
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리 작업중 원핫인코딩으로 통일해서 알려주셨는데, 랜덤포레스트 모델을 사용한다면 레이블인코딩을 사용해도 상관없을까요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 연장 문의드립니다.
안녕하세요 강사님.저번에 응시했던 실기 10회 시험을 아쉽게 불합격해서, 이번 11월 29일에 치뤄질 실기 11회 시험을 응시하기 위해 강의를 다시 보고자 합니다.그러나 제가 1년 전에 강의를 구매해서 11월 4일에 강의가 만료되는 상황입니다.염치없지만 혹시 10일정도 강의 연장 가능한지 여쭤봅니다..! ㅠ 감사합니다.(참고로 제 이메일은 duddms0268@gmail.com 입니다.)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
파일합치기 관련하여 문의드립니다.
안녕하세요.2회기출문제의 경우 특이하게 train데이터가 2개로 나뉘어 제공되었는데 concat 함수로 작업을 하셨는데 id가 공통적으로 있긴 하지만, 동일한 순서로 되어있는지 알수 없어서 merge 함수를 사용하여 on = "id" 옵션을 추가하여 train데이터를 하나로 만들었는데concat, merge, join 어떤 걸 사용해도 괜찮을까요 ? 언제나 답변해주셔서 감사합니다 :)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 연장 관련하여 문의드립니다.
안녕하세요. 퇴근후딴짓 빅데이터 분석기사 실기를 수강중인 학생입니다. 다름이 아니라 빅데이터 분석기사 실기 시험이 11월29일인데 강의 만료일이 11월13일이라 실기 시험 전 16일동안 강의를 듣지 못하네요. ㅠㅠ 시험전까지 동영상을 복습하면서 시험을 준비했으면 하는데요. 시험일까지 수강 기간을 연장할 수 있는지 문의드립니다.감사합니다.