묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이상치 확인 이후!
만약 describe로 이상치가 있는 것 같다고 하면,이상치를 그냥 나두고 진행시켜도 되나요??후기 보니 이상치를 제거했다거나, 대체했다는 내용보다는그냥 그대로 두고 진행한 사람들이 대부분인 거 같아서...아니면 그냥 없애고 진행해도 되나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 한가지 방법으로 풀기(기출5)
작업형2 한가지 방법으로 풀기에서 기출 5번의 rmse 부분에 대한 질문입니다. # RMSE(Root Mean Squared Error) from sklearn.metrics import mean_squared_error def rmse(y_true, y_pred): mse = mean_squared_error(y_true, y_pred) return mse ** 0.5 result = rmse(y_val, pred) print('\n rmse:', result) # RMSE(Root Mean Squared Error) from sklearn.metrics import mean_squared_error mse = mean_squared_error(y_val, pred) rmse = mse**0.5 print(rmse) 위의 부분은 원래 답이고, 아래 부분은 제가 작성한 부분입니다.따로 함수를 안 만들고, 제가 작성한 방식으로 해도 괜찮은가요?
-
해결됨(2025) 일주일만에 합격하는 정보처리기사 실기
반복문+조건문 문제 풀이
반복문+조건문 문제풀이예제2번에서 2의 배수이거나 3의 배수에서 5의배수와 6의 배수를 빼라는걸로 이해했습니다. 그래서 풀이는2의 배수 : 10123의 배수 : 674더하면 1686 이 되고이중 6의 배수는 두 번 들어갔으니6의 배수 : 337을 빼면 1349가 됩니다.그 후 && 뒷항 조건을 적용하면1349 에서 6의배수(337) 을 한 번 더 빼고5의 배수중에서 숫자 5는 2와 3의 배수에 포함되지 않기 때문에10의 배수 : 20215의 배수 : 134를 또 빼고 30의 배수는 한번만 뺏어야 되었는데 총 3번이 빠졌으니 30의 배수를 두 번 더하여 나온 값이 810 입니다. 혹시 풀이가 이게 맞을까요 ?1012+674-337-337-202-134+67+67 = 810다른 간단한 풀이도 있는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
검증데이터를 안쓰면
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요만약 기출 3회 2유형에서 roc-auc 이지만 검증데이터를 안쓰면(검증과정을 생략한다면) predict_proba를 안하고 predict만 해서pred = rf.predict(test)만 해서 submit = pd.DataFrame({'pred':pred})submit.to_csv("result.csv")만 해도 될까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 T2-4 집 값 예측
안녕하세요캐글 집 값 예측을 풀고있는데 궁금한 점이 있습니다.결측치 값이 굉장히 많이 있는 데이터에서는 결측치 처리를 하지 않고 예측 데이터에서 아예 포함하지 않는 것이 더 낫나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
회귀 분석 (범주형 변수)
강의 복습하면서 한번 더 정리하면서 외워가는 중입니다. 섹션 8 강의에서 범주형 변수는 판다스의 pd.get_dummies(drop_first=True)로 원핫인코딩 처리한다고 강의하셨습니다. 해당 강의 복습하다 보니, 섹션 10 작업형 3번 문제풀이 하면서 범주형 변수에 C( ) 씌워서 summary 하신게 생각났고 섹션 8 강의의 범주형 변수 부분에다 한번 시도해봤습니다import pandas as pd df = pd.DataFrame({ '매출액': [300, 320, 250, 360, 315, 328, 310, 335, 326, 280, 290, 300, 315, 328, 310, 335, 300, 400, 500, 600], '광고비': [70, 75, 30, 80, 72, 77, 70, 82, 70, 80, 68, 90, 72, 77, 70, 82, 40, 20, 75, 80], '플랫폼': [15, 16, 14, 20, 19, 17, 16, 19, 15, 20, 14, 5, 16, 17, 16, 14, 30, 40, 10, 50], '투자':[100, 0, 200, 0, 10, 0, 5, 0, 20, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], '유형':['B','B','C','A','B','B','B','B','B','B' ,'C','B','B','B','B','B','B','A','A','A'] }) from statsmodels.formula.api import ols model = ols("매출액 ~ 광고비 + C(유형)", data=df).fit() print(model.summary())그러고 둘다 확인해보니 OLS Regression Results 결과 수치별로 비교해봤는데 같더라고요. 그럼 범주형 변수에 그냥 C( ) 씌워서 하는게 코딩이 더 간편할 거 같은데 pd.get_dummies(drop_first=True)를 사용해야 하는 뭔가 다른 이유, 혹은 C( )로 커버할 수 없는 게 있어서 그런건지 궁금합니다. 답변 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
scipy 관련 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요from scipy import stats랑 from scipy.stats import chi2_contingency 두가지의 차이점이 궁금합니다어떤건 scipy고 어떤건 scipy.stats인지 모르겟어요ㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일은 대부분 df 알고 있으나 train을 넣는 건 컬럼이 아니라 train 데이터 전체를 넣는 게 아닌가요?
아 ! 사이킷런에서 제공하는 스케일은 대부분 데이프프레임을 입력인 줄은 알고 있으나, train은 컬럼명 지정이 아닌 train 데이터 전체를 사용하신 게 아녔었나용?? (이전 질문)이상치에 민감하지 않도록 Rubust scaler 사용하실 때는scaler = Rubustscaler()하시고, scaler.fit_trasnform(train)scaler.transform(test) 하셨던 걸로 기억하는데왜 여기서는 scaler.fit_transform(df[['socre']])로 진행하신 걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
target = test.pop()
작업형 2에서는 target = train.pop('')으로 train데이터에서 target을 추출했는데 작업형 3의 오류율 구하는 문제에서는 target = test.pop('gender')으로 test데이터에서 target을 추출한 것 같습니다.(train에서 추출하면 오류가 발생하긴 하더라구요) 작업형 3에서는 왜 target을 test에서 추출하는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
roc_auc_score 오류 해결방법
multi_class must be in ('ovo', 'ovr') 라고 오류뜨는데 해결 방안이 있을까요..?
-
해결됨2주만에 통과하는 알고리즘 코딩테스트 (2024년)
17611번 자바
import java.util.*; public class Main { public static void main(String[] args) { Scanner sc = new Scanner(System.in); int n = sc.nextInt(); int[] x = new int[1000001]; int[] y = new int[1000001]; // 첫 번째 꼭짓점 int firstW = sc.nextInt() + 500000; int prevH = sc.nextInt() + 500000; int prevW = firstW; // 나머지 꼭짓점 for (int i = 1; i < n; i++) { int w = sc.nextInt() + 500000; int h = sc.nextInt() + 500000; if (prevW == w) { // 수직선 y[Math.min(prevH, h)]++; y[Math.max(prevH, h)]--; } else { // 수평선 x[Math.min(prevW, w)]++; x[Math.max(prevW, w)]--; } prevW = w; prevH = h; } // 마지막 꼭짓점과 첫 번째 꼭짓점 연결 if (prevW == firstW) { // 수직선 y[Math.min(prevH, firstW)]++; y[Math.max(prevH, firstW)]--; } else { // 수평선 x[Math.min(prevW, firstW)]++; x[Math.max(prevW, firstW)]--; } // 큰 값 찾기 int xMax = 0; int yMax = 0; for (int i = 1; i < 1000001; i++) { x[i] += x[i - 1]; // 이전 값이랑 누적합 y[i] += y[i - 1]; xMax = Math.max(x[i], xMax); // 큰 값 비교 yMax = Math.max(y[i], yMax); } System.out.println(Math.max(xMax, yMax)); } }안녕하세요 17611번 문제 자바로 풀고있습니다.백준 게시판과 인터넷에 공유된 풀이가 거의 없어 커뮤니티에 질문 올리게 되었습니다. 문제에서 주어진 예를 테스트 했을 때는 잘 작동하는데, 제출시에(40%쯤) '틀렸습니다' 라고 나옵니다. 해당 코드로는 작동하지 않는 반례 또는 식의 오류를 알려주세요. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 제출시 질문있습니다
roc-auc가 평가지표일경우 predict_proba를 사용해 제출 하는것이 좋다고 하셨는데 이 경우에 제출해야하는 것은 항상 1일확률인지 궁금합니다 혹시 0일 확률을 제출해야하는 경우도 있나요? 감사합니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
캐글 vs 기출 복습
안녕하세요 선생님완강은 했는데요캐글에서 새로운 문제 풀기 vs기출 문제 빈칸으로 다시 풀면서 복습하기 중에 하나만 해 볼 수 있는 시간적 여유가 남은거 같아서요 둘중에는 무엇을 추천하시나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
제출 변수
선생님 유형 2번 제출할때 컬럼은 문제에 적힌대로(ex)id, 확률~)이렇게 적고, 행은 test데이터와 똑같은 행으로 나오면 되는게 맞는거죵??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 3유형
작업형 3유형에 대해 문제를 많이 풀어보고 싶은데 혹시 기출문제 말고도 출제 예상문제 같이 풀어볼 수 있는 문제가 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
섹션 17 인코딩할 때 에러가 난다면? 을 듣고 궁금한 점이 생겼습니다.
train = pd.DataFrame({ '과일': ['사과', '배', '포도'], '색상': ['빨강', '노랑', '보라'], '가격': [5000, 7000, 10000] }) test = pd.DataFrame({ '과일': ['딸기', '배', '포도'], '색상': ['빨강', '노랑', '보라'], '가격': [15000, 7000, 10000] })이 상태에서, Label Encoding을 진행할 경우ValueError: y contains previously unseen labels: '딸기'라는 오류 문구가 뜹니다.선생님께서는 이렇게, train과 test의 카테고리가 다를 경우, train과 test의 데이터를 합친 이후, Label Encoding을 진행하고, 그 후 분리하라고 강의에서 설명하셨습니다.하지만 해당 방법을 시험에서 적용하지 못할 경우, 그 대안으로, 차라리 train과 test의 과일 컬럼을 아이에 삭제하고 수행해도, 문제 풀이에는 큰 지장이 없을까요? roc_auc_score, accuracy, 등의 평가지표가 조금 낮게 나오고, 정상적으로 제출에는 이상이 없는지, 아니면 제출 자체에도 이상이 생기는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
if문
강의 17:50에서#age가 1이상인 데이터만 살림이 부분을 if문으로 풀이하는 방법이 궁금합니다.
-
미해결실습으로 끝장내는 웹 크롤링과 웹 페이지 자동화 & 실전 활용
ftp 로긴 문제입니다. ㅜ
강의 내용 외 개인적인 실습 사이트의 질문은 답변이 제공되지 않습니다.문제가 생긴 코드, 에러 메세지 등을 꼭 같이 올려주셔야 빠른 답변이 가능합니다.코드를 이미지로 올려주시면 실행이 불가능하기 때문에 답변이 어렵습니다.답변은 바로 제공되지 않을 수 있습니다.실력 향상을 위해서는 직접 고민하고 검색해가며 해결하는 게 가장 좋습니다.쿠팡 아이템 리스트를 html로 작성해서 호스팅 주소에 올리는 과정입니다. 파이썬 파일 돌리면 로그인 과정에서 실패합니다. 주소 id pw는 제대로 입력한 것 확인 했는데 무엇이 문제인지 알려주세요...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
TypeError: SimpleTable object is not callable
이 에러는 어느 부분에서 잘못 작성하여 나오는 걸까요?모든 프린트 문에서 다 이렇게 떠요ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
sum과 len의 차이점이 궁금합니다.
문제에서 데이터수를 구하라고 할 때, sum이나 len을 사용하곤 하는데요.어떨때 보면 sum으로 구할때와 len으로 구할때의 값이 다릅니다. 실례를 들어보면 [캐글 , 작업형1, 26번에서]menu컬럼에 "라떼" 키워드가 있는 데이터의 수는?df['menu'].str.contains('라떼').sum()len(df['menu'].str.contains('라떼'))이렇게 sum과 len으로 구할 때 답이 다르게 나옵니다.혹시 어떨 때 sum과 len을 써야할까요? 둘다 같은 의미로 알고 있는데.. 제가 잘못 이해하고 있는걸까요.?