묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
결측치 처리 시
삭제할지 다른 값으로 채울지 어떻게 결정하나요? 보통 문자이고 수가 많으면 삭제하는 게 더 나을까요?수는 웬만하면 삭제보단 채우는 게 나을까요?
-
미해결실전! 스프링 데이터 JPA
Sort 인터페이스는 잘 사용 안하나요?
안녕하세요.강의 초반에 Sort인터페이스와 Pageable인터페이스를 말씀해주셨는데, 이후에 Sort에 대해서는 언급이 없으셔서 질문드립니다. 주로 Pageable을 사용하고 Sort는 사용을 잘 안하는것일까요? Sort를 사용하는 경우는 어떤 경우에 주로 사용하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출8회 작업형2 test 컬럼 삭제
CustomID를 삭제할 때 test 데이터에서도 완전히 삭제를 하는게 맞나요?train 데이터에서 삭제하는게 정석. 하지만 최종 파일 제출에 붙여야 하기 때문에 test 데이터에는 아래와 같이 pop함수를 를 써서 보관을 해둬야한다고 하셨던거 같아서요ㅜㅜex) test_id = test.pop('id')
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5가지 평가지표를 다 구하라고 했는데
predict_proba로 제출한 이유는 뭔가요?? roc_auc를 제외하곤 나머지 평가지표를 구할필요가 없지 않나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제3 - 8번
해당 코드를 실행하면 다음과 같이 데이터가 결합됩니다 ... ㅠㅠ
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
lightgmb
lightgbm을 사용하지 않는 이유는 뭔가요? random보다light가 더 높게 나오는데 둘 다 사용해버ㅏ야 하는 거 아닌가요?
-
미해결10주완성 C++ 코딩테스트 | 알고리즘 코딩테스트
4-H
안녕하세요 제가 이 문제를 풀었을 떄 큰돌님과 다른 부분이 있어서, 효율성 측면에서 많이 떨어지는 코드인지 궁금해서 질문 드립니다!http://boj.kr/f1e7e2f7cf8c4ecfb4961534aebacdf4
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Section 6. 노트북 가격 예측
# 결측치 처리(범주형)c_cols = ['Model', 'Series', 'Processor', 'Processor_Gen', 'Hard_Disk_Capacity', 'OS']train[c_cols] = train[c_cols].fillna("X")test[c_cols] = test[c_cols].fillna("X")# 결측치 처리(수치형)n_cols = ['RAM']train[n_cols] = train[n_cols].fillna(-1)test[n_cols] = test[n_cols].fillna(-1)1. 결측치 처리를 문제에서 결측치 처리 하라는 말 없어도 그냥 하는건가요?2. 범주형은 문자열 X로 하는건가요? 그냥 하는건지?3. 수치형은 -1로 한건가요? 왜 -1로 한건가요?# 원핫인코딩combined = pd.concat([train, test])combined_dummies = pd.get_dummies(combined)n_train = len(train)train = combined_dummies[:n_train]test = combined_dummies[n_train:]4. 합쳐서 인코딩한게.. 그 오브젝트 유니크 수가 트레인이랑, 테스트가 달라서 한거 맞을까요? 제가 코딩한 거는 target=train.pop('Price') c_cols=['Model','Series','Processor', 'Processor_Gen', 'Hard_Disk_Capacity','OS'] train[c_cols]=train[c_cols].fillna("X") test[c_cols]=test[c_cols].fillna("X") n_cols=['RAM'] train[n_cols]=train[n_cols].fillna(-1) test[n_cols]=test[n_cols].fillna(-1) print(train.isnull().sum().sum()) print(test.isnull().sum().sum()) df=pd.concat([train, test]) df=pd.get_dummies(df) train=train.iloc[:len(train)] test=test.iloc[len(train):] from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) from sklearn.ensemble import RandomForestRegressor rf=RandomForestRegressor(random_state=0) rf.fit(X_tr, y_tr) pred=rf.predict(X_val) from sklearn.metrics import r2_score r2_score(y_val, pred) 이렇게했는데 ~~~~~~(72, 9) (19, 9) (72,) (19,)---------------------------------------------------------------------------ValueError Traceback (most recent call last)/tmp/ipython-input-2530691866.py in <cell line: 0>()31 from sklearn.ensemble import RandomForestRegressor32 rf=RandomForestRegressor(random_state=0)---> 33 rf.fit(X_tr, y_tr)34 pred=rf.predict(X_val)356 frames/usr/local/lib/python3.12/dist-packages/pandas/core/generic.py in array(self, dtype, copy)2151 ) -> np.ndarray:2152 values = self._values-> 2153 arr = np.asarray(values, dtype=dtype)2154 if (2155 astype_is_view(values.dtype, arr.dtype)ValueError: could not convert string to float: 'Lenovo' 이렇게 오류가 납니다그전까지는 뭔가 잘 실행됐는데 랜덤포레스트이후??오류가 납니다
-
해결됨비전공자도 이해할 수 있는 AWS 입문/실전
EC2 컴퓨팅 리소스에 연결 vs 연결 안 함
강의에선 EC2 컴퓨팅 리소스에 연결 안 함을 선택했는데, 연결하는 것과 어떠한 차이가 있나요? 강의 예제의 경우엔 EC2 컴퓨팅 리소스에 연결하는 방법은 적절하지 않은 방법인가요? 이미 완강했는데 잠깐 복습하면서 궁금해서 여쭤 봅니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
Section 4. 이직 여부 예측
이 문제에서 train과 test 합쳐서 원핫인코딩combined = pd.concat([train, test])combined_dummies = pd.get_dummies(combined)n_train = len(train)train = combined_dummies[:n_train]test = combined_dummies[n_train:]한 이유가city 컬럼에서 트레인 유니크 개수>테스트 유니크 개수라서 사용했다고 이해했는데,, 맞을까요?2. 제가 코드 한거는print(train.shape, test.shape)# print(train.isnull().sum())# print(test.isnull().sum())print(train.info())print(test.info())print(train.describe(include="O"))print(test.describe(include="O"))a=set(train['city'])b=set(test['city'])print(a-b)print(b-a)target=train.pop('target')df=pd.concat([train, test])df=pd.get_dummies(df)train=train.iloc[:len(train)]test=test.iloc[len(train):]from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(target, train, test_size=0.2, random_state=0)print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state=0)rf.fit(X_tr, y_tr)pred = rf.predict_proba(X_val)이렇게 하니까 ~~~~~~(12260,) (3066,) (12260, 13) (3066, 13)---------------------------------------------------------------------------ValueError Traceback (most recent call last)/tmp/ipython-input-1337250417.py in <cell line: 0>()24 from sklearn.ensemble import RandomForestClassifier25 rf = RandomForestClassifier(random_state=0)---> 26 rf.fit(X_tr, y_tr)27 pred = rf.predict_proba(X_val)4 frames/usr/local/lib/python3.12/dist-packages/sklearn/utils/validation.py in check_array(array, accept_sparse, accept_large_sparse, dtype, order, copy, force_writeable, force_all_finite, ensure_all_finite, ensure_non_negative, ensure_2d, allow_nd, ensure_min_samples, ensure_min_features, estimator, input_name)1091 "if it contains a single sample."1092 )-> 1093 raise ValueError(msg)10941095 if dtype_numeric and hasattr(array.dtype, "kind") and array.dtype.kind in "USV":ValueError: Expected a 2-dimensional container but got <class 'pandas.core.series.Series'> instead. Pass a DataFrame containing a single row (i.e. single sample) or a single column (i.e. single feature) instead.이런 에러가 나옵니다ㅠ분할까지는 했는데,, 랜덤포레스트부터 오류가 뜹니다
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
4회 2유형 1번 문제
X_train과 X_test DataFrame에 ID column을 drop안하고 모델을 돌리신걸로 보입니다.RandomForestClassifier 같은 경우 ID drop안하고 모델을 돌려도결과에는 상관없는지 질문 올립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 질문있습니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 선생님roc-auc 는 프레딕프로바를 사용하면 좋다고하셨는데요. 제가 왕초보에다가 기간이 얼마 안남아서 혹시 그냥 predict로 통일해서 사용해도 괜찮을까요? 즉 40점 만점을 목표로 predict로 통일해도 predict proba와 유의미한 차이가 있을까요?
-
미해결한 입 크기로 잘라먹는 실전 프로젝트 - SNS 편
회원가입, 로그인 요청 시 400 에러
안녕하세요강의 열심히 듣고 있는데 회원가입, 로그인 성공하고 요청 보낼 때 요청이 잘 들어왔다가 한 0.5초 뒤에 400에러로 바뀝니다.코드는 모든 부분이 똑같은데 혹시 왜 이러는걸까요??의심가는 행동은 section05를 다 듣고 section06 폴더를 만들고 section05에서 사용한 파일을 그대로 복사하여 사용 중인데, 이 부분에서 문제가 있을까요?
-
미해결Vue.js 끝장내기 - 실무에 필요한 모든 것
node 10버전 사용
안녕하세요.윈도우 환경에서 강의를 듣고 있습니다. 윈도우에서 nvm을 사용할 경우 nvm-setup.exe(최신 1.2.2v)를 사용해야 한다기에 다운로드를 받고 node 10버전을 설치하려고 하니 다음과 같은 오류가 발생합니다..node 10을 직접 다운로드 하는 방법 밖에는 없을까요..??
-
미해결딥러닝 기반 이미지·객체 인식: CNN에서 YOLO·DETR까지
실습 강의 화질이 너무 안좋아요
5k모니터로 보고있는데 강의 화질이 별로라 화면상에 코드가 깨지는게 참다참다 더이상 못봐주겠네요.. 강의보다 눈 나빠질거같습니다2025년도 8월 5일에 촬영하셧는데대체 어떻게 녹화를하신건지..고화질로 녹화 하시고 인코딩하셔도 용량얼마 안될텐데.. 아쉽네요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
합쳐서 원핫인코딩
df=pd.concat([train, test]) df=pd.get_dummies(df) train=train.iloc[:len(train)] test=test.iloc[len(train):] print(train.shape, test.shape)print로 컬럼 수 일치하는지 반드시 확인이라고 햇는데 어떤 컬럼수가 어떤거랑 일치해야하는거죠?? 아 그리고 이렇게 분리를 다시 했으면train_test_split 이 코딩은 더 안해도되나요? 이것도 또 해야하나요?X_tr, X_val, y_tr, y_val 이요
-
해결됨GPT로 자동 월급받는 방법, AI시대 돈버는 사람은 따로있다[AI수익화 1위 작가]
카톡방 링크알수있을까요?
- 학습 관련 질문을 남겨주세요. 구체적으로 적을수록 좋아요!- 마크다운과 단축키를 활용하면 글을 더 편하게 작성할 수 있어요.- 커뮤니티 질문 & 답변에 비슷한 내용이 있었는지 먼저 검색해보세요.- 서로 예의를 지키며 존중하는 분위기를 함께 만들어가요.- 잠깐! 인프런 서비스 관련 문의는 1:1 문의하기를 이용해 주세요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 연습문제 섹션3
Section 3. 항공권 가격 예측# 컬럼 삭제train = train.drop('flight', axis=1)test = test.drop('flight', axis=1)컬럼삭제한 이유는 무엇이죠?print(train.describe(include="O"))print(test.describe(include="O"))이걸 돌려봤는데트레인에서 플라이트 유니트 1153테스트에서 플라이트 유니크가 4502 이렇게 달라서 컬럼 삭제하는건가요?어떨 때 컬럼 삭제해야하는지, 또 시험에 어떤 형식이 나올때 삭제해야하는지 궁금합니다 2.제가 코딩을 print(train.shape, test.shape)train=pd.get_dummies(train)test=pd.get_dummies(test)print(train.shape, test.shape)from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)이렇게 했는데(10505, 11) (4502, 10)(4502, 9) (4502, 10)(4502, 37) (4502, 930)---------------------------------------------------------------------------ValueError Traceback (most recent call last)/tmp/ipython-input-2712245612.py in <cell line: 0>() 20 print(train.shape, test.shape) 21 from sklearn.model_selection import train_test_split---> 22 X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0) 23 print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape)3 frames/usr/local/lib/python3.12/dist-packages/sklearn/utils/validation.py in check_consistent_length(*arrays) 473 uniques = np.unique(lengths) 474 if len(uniques) > 1:--> 475 raise ValueError( 476 "Found input variables with inconsistent numbers of samples: %r" 477 % [int(l) for l in lengths]ValueError: Found input variables with inconsistent numbers of samples: [4502, 10505]이렇게 오류가 뜹니다
-
미해결죽음의 Spring Batch: 새벽 3시의 처절한 공포는 이제 끝이다.
상용 시스템에서 Spring Batch H2 DB
킬구형우리 매니저는 무슨 이유인지 mysql, postgres처럼 RDB를 무지무지 싫어해, 어떤 말을 해도 RDB는 절대 안된다고 하걸랑그런데 하필이면 Spring Batch가 RDB를 필요로 한단 말이지! 매일 밤마다 상용 서버의 로그 데이터를 분석하고 다른 데이터 소스로 보낼 정도로만 쓰려고 하는데, Spring Batch RDB로 H2 file mode나 sqllite로 Spring Batch를 돌려도 문제가 없을까 헝헝... 나 슬퍼
-
미해결유니티 시스템 프로그래밍 Pt.1 - 상용 게임 구현을 위한 핵심 시스템 올인원 패키지
UserDataManager 코드 질문입니다.
using System.Collections; using System.Collections.Generic; using UnityEngine; public class UserDataManager : SingletonBehaviour<UserDataManager> { public bool ExistsSavedData { get; private set; } public List<IUserData> UserDataList { get; private set; } = new List<IUserData>(); protected override void Init() { base.Init(); UserDataList.Add(new UserSettingData()); UserDataList.Add(new UserGoodsData()); } public void SetDefaultUserData() { for(int i = 0; i < UserDataList.Count; i++) { UserDataList[i].SetDefaultData(); } } public void LoadUserData() { ExistsSavedData = PlayerPrefs.GetInt("ExistsSavedData") == 1 ? true : false; if(ExistsSavedData) { for (int i = 0; i < UserDataList.Count; i++) { UserDataList[i].LoadData(); } } } public void SaveUserData() { bool hasSaveError = false; for(int i =0; i < UserDataList.Count; i++) { bool isSaveSuccess = UserDataList[i].SaveData(); if(!isSaveSuccess) { hasSaveError = true; } } if(!hasSaveError) { ExistsSavedData = true; PlayerPrefs.SetInt("ExistsSavedData", 1); PlayerPrefs.Save(); } } }위 코드의if(!hasSaveError) { ExistsSavedData = true; PlayerPrefs.SetInt("ExistsSavedData", 1); PlayerPrefs.Save(); }이 부분에서 PlayerPrefs에 "ExistsSavedData"를 1로 저장해주는 이유가 있나요??제 짧은 생각으로는 ExistsSavedData가 어차피 true로 처리되기 때문에 필요가 없지 않을까라는 의견입니다이와 더불어 LoadUserData()에서도 PlayerPrefs.GetInt()를 안하고 if(ExistsSavedData) 문만 가지고는 안되는지 궁금합니다. 강의 잘 듣고 있습니다. 감사합니다!