묻고 답해요
169만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리 및 피처엔지니어링 단계에서 데이터 분할 관련
전처리 및 피처엔지니어링 단계에서 범주형 컬럼과 수치형 컬럼을 굳이 4개의 데이터로 나누지 않고var1 = ['A', 'B', 'C'] (범주형 컬럼 리스트)var2 =['D', 'E', 'F'] (수치형 컬럼 리스트) from sklearn.preprocessing import MinMaxScaler, LabelEncoder col = train.select_dtypes(exclude='O').columns cols = train.select_dtypes(include='O').columns scaler = MinMaxScaler() train[col] = scaler.fit_transform(train[col]) test[col] = scaler.fit_transform(test[col]) # 범주형 변수 인코딩 for i in cols: le =LabelEncoder() train[i] = le.fit_transform(train[i]) test[i] = le.transform(test[i])이런식으로 해도 될까요? 추가적으로 수치형 데이터의 스케일링은 필수가 아닌가요?(일부 회차에서 수치형 데이터는 스케일링하지 않아서 여쭤봅니다!)
-
해결됨[2026]빅분기 실기! 기출 문제 풀이로 한 방에 합격하기(파이썬)
8회 기출문제 파일
8회 기출문제 파일(.ipynb)은 github에 있지 않은 거 같은데, 어디서 받을 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 전처리시 궁금한점
데이터 전처리 강의 내용 중에X_train 데이터와 X_test 데이터의 결측치를 동일하게 채워주라고 말씀해주셨고,X_train의 행삭제는 가능하지만 X_test의 행삭제는 하면 안된다고 말씀해주셨습니다. 이렇게 되면 X_train에서 결측치가 있다고 행삭제를 해버리면X_test에서는 결측치가 있는 행이 그대로 남아있을텐데X_train의 행삭제로 결측치를 해소하는 방법이 어떤 의미가 있는지 이해가 잘 되지 않아 문의드립니다.
-
미해결파이썬/장고 웹서비스 개발 완벽 가이드 with 리액트 (장고 4.2 기준)
conda-forge postgresql 과 multithreading
강의에서 설명하지 않으신 내용인데요 가능한지 궁금하여 여쭈어봅니다.Conda-forge 내에 postgresql package가 있습니다. (Postgresql | Anaconda.org)물론 서비스 시에는 database 서버를 따로 두는게 좋다는건 수업 때 설명으로 이해하였습니다. 그러나 실 서비스 시 postgresql를 사용할 것이라면 개발 시에 sqlite 대신 위 package를 사용하는게 만약 더 적합할까요?배포 과정 설명 시에 로드 밸런서가 작업을 서버에 할당해준다고 설명해 주셨는데, 보아하니 각 작업을 싱글 쓰레드로 할당하는 것 처럼 보였습니다. 장고의 경우 View 단에 multithread로 작업할 내용이 있다면, 어떻게 처리해야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 5회 1유형 2번문제
2번문제보면 len 말고 sum사용하면 안되나요??
-
미해결실전도커: 도커로 나만의 딥러닝 클라우드 컴퓨터 만들기
RDP 셋업시 문제가 발생합니다.
az vm open-port --resource-group kaggle-linux-gpu_group --name kaggle-linux-gpu --port 3389Please run 'az login' to setup account. 상기와 같이 az login 을 하라고 하는데 인터넷에서도 해결법을 찾기가 쉽지 않네요. 도움 부탁드립니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
표본검정할때!!
표본검정 관련 기출이 없어서 물어봅니다. 혹시,, 정규성이랑, 분산 뭐 이런거 만족한다고했을떄, ttest_1samp, rel, ind 로 풀잖아요,, 근데 정규성이랑 분산만족못하면 비모수 검정까지 하잖아요, 그럼 비모수 검정하고, 다시 ttest 해줘야하는 건가요? 아니면 비모수 검정까지 한 p 값을 적으면 되는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일러와 라벨 인코딩 순서
1) 수치형 데이터만 뽑아서 스케일러를 한 후에 범주형 데이터를 라벨인코더하는 것이 맞는지, 2) 아니면 범주형 데이터를 라벨 인코더 하고 전체 데이터를 스케일러를 해도 될지 궁금합니다. minmax말고 standardscaler를 활용하려고 합니다. 3) 또한, scaler할 때는 타겟값인 (y_tr)값을 제외하고 스케일러를 돌려야할지요?
-
미해결Airflow 마스터 클래스
db 통신 라이브러리 사용에 궁금한 부분이 있습니다.
안녕하세요 강사님! 강의 잘 보고 있습니다! 다름이 아니라 개인적으로 공부를 하면서 db와의 통신 부분에서 궁금한 부분이 생겨서 질문드립니다! 에어플로우를 공부하면서 mysql 컨테이너도 함께 띄워서 db와의 통신을 공부하고 있고, 현재 db에 접속해서 저장된 데이터를 불러오고, 새로운 데이터를 insert하는 실습을 하고 있습니다. 몇몇 소스 코드를 보면 데이터를 불러오기 위해서 db와 연결하거나, db의 데이터를 조회할 때는 psycopg2나 pymysql과 같은 라이브러리를 사용하고, 수집 후 전처리된 데이터를 저장 할 때는 SQLAlchemy를 사용하는 코드들을 많이 봤는데, 이렇게 작업에 따라서 다른 라이브러리를 사용하는 이유를 알 수 있을까요?? 제가 알기로는 psycopg2나 pymysql, SQLAlchemy 모두 데이터 조회, 저장 기능을 전부 사용가능한걸로 아는데 어떤 이유에서 작업별로 다른 라이브러리를 사용하는지 궁금합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 정답 제출할 때
체험환경에서 작업형3 정답을 기록할 때 이전 체험 페이지에서 print한 정답을 확인할 수 없던데, 3개의 소수점 데이터를 외워서 정답에 기록해야 하는건가요? 보통 정답을 기록하는 방식이 있는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
범주형 변수 인코딩 관련 질문입니다
올려주신 코드를 다시 학습하기에는 머리가 너무 복잡해서 ..카테고리가 같더라도 데이터셋을 합친 후 인코딩 실행, 이후 분리해줘도 크게 상관 없죠 ?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
레이블 인코딩 오류가 떳나 안떳다 해요
이 오류가 뜨는데, 코딩에는 문제가 없어서 앞에서 부터 다시 실행하면 오류 안뜨다가 다시 재 실행하면 뜨다가 합니다... 선생님 해주신 그대로 따라하면서 공부하고 있기 때문에 틀린 부분은 없습니다.또한 똑같은 코딩을 실행해도 어떨땐 되고 어떨땐 안되서 난감합니다. 어떻게 해야 할까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2유형 랜덤포레스트 회귀 작업중 워닝 메시지
데이터 결측치 전처리 하는데 이렇게 코드 작업을 했더니 워닝 메시지가 뜨는데시험환경에서도 수정이 필요할까요?# 데이터 전처리 _ 결측치 대체 df['fuel_type'].fillna(df['fuel_type'].mode()[0], inplace = True) df['accident'].fillna(df['accident'].mode()[0], inplace = True) df['clean_title'].fillna(df['clean_title'].mode()[0], inplace = True) [워닝메시지]<ipython-input-37-b2145d16d236>:15: FutureWarning: A value is trying to be set on a copy of a DataFrame or Series through chained assignment using an inplace method. The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy. For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object. df['fuel_type'].fillna(df['fuel_type'].mode()[0], inplace = True)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
predict_proba(test)에서 오류가 나요
혼자 문제를 풀어보고 있는데요 여기서 마지막에 평가할때 pred=rf.predict_proba(test) 에서 계속 오류가 납니다..이렇게 오류가 나는 이유가 뭘까요,,,원래 하던데로 그대로 하고 있는데요ㅠ문제가 roc로 평가하는거라서 predict_proba로 하고 있어요
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출 8회 데이터 drop
저는 데이터를 drop하지 않고 그냥 바로 target = train.pop['타켓컬럼']한뒤 바로 train =pd.get_dummies(train)test =pd.get_dummies(test) 를 바로해주는데,, 꼭 id값을 drop 해야하나요? 안하면,, 결과가 많이 안좋나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sum()함수 질문
안녕하세요.저는 지금까지 실습을 할 때 sum()함수의 괄호 안에 아무것도 넣지 않고 진행을 했습니다.그런데 9회 실기 응시가이드 영상을 보니 괄호 안에 sum(numeric_only=True) 를 넣으라고 하셨는데요.그냥 sum함수를 쓸 때마다 무조건 sum(numeric_only=True)를 넣으면 되는 건가요?아니면 9회 실기 응시가이드 영상에서 보여주신 대로 에러가 발생할 때만 넣어주면 되는 건가요?numeric_only=True를 어떤 상황에서 넣어야 되는건지 정확히 모르겠어서 질문 남깁니다.
-
미해결고수가 되는 파이썬 : 동시성과 병렬성 문법 배우기 Feat. 멀티스레딩 vs 멀티프로세싱 (Inflearn Original)
threadpoolexecutor.submit 실행 시 순차 실행
안녕하세요 py_ad_1_5.py 파일 관련 강의 듣다가 질문 드립니다. threading.Thread로 스레드 직접 두 개 만들어서, start()를 했을 때는 두 작업이 병렬적으로 진행되는 것으로 보였는데요 (First, Second에 해당하는 logging이 번갈아 찍혔습니다)하지만, executor.submit으로 실행시에는 First task에 해당하는 logging이 전부 끝난 다음에 Second task에 해당하는 logging이 시작되는 것을 확인했습니다. submit으로 실행시에는 내부에 join이 있다거나 별도의 동작이 있는 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로지스틱회귀모형에서 C()
안녕하세요.작업형3 로지스틱회귀모형 캐글 문제를 보니 Pclass에만 C()처리하고, Gender는 object형임에도 C()처리 하지 않으셨더라구요. C()는 범주가 3개 이상일 때만 해당되고 범주가 2개일 때는 처리하지 않아도 된다고 이해하면 될까요?model = logit("Survived ~ C(Pclass) + Gender + SibSp + Parch", data=df).fit()
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
np_exp를 쓸필요가 없나요?
섹션5 모델링 평가(회귀) 파트입니다 # RandomForestRegressor from sklearn.ensemble import RandomForestRegressor model = RandomForestRegressor() model.fit(X_tr, y_tr) pred = model.predict(X_val) rmse(np.exp(y_val), np.exp(pred)) # 4691.498598226366 베이스라인 # 4722.06683465538 스탠다드스켈러 # 4705.862619729388 민맥스 스켈러 # 4627.730520367604 log
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출2회 2유형 concat
기출 2회는 특이하게, X_train, y_train , X_test 데이터가 있잔하여,, df = pd.concat([x_train, y_train['reached~~']], axis =1)df 로 합치는 이유가 뭔가요? 어차피 df데이터를 따로 활용하는 것도 아니고,, train_test_split 할때도, X_train, y_train 따로 넣어주잖아요,,, 굳이 해야하는 과정인가요?? 분리되어있으면 target = train.pop(['ddd']) 과정을 굳이 안해도 되는 ,, 상황 아닌가요??