묻고 답해요
160만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
유형2질문입니다.
좋은 영상 잘보며 열공 하고 있습니다. 질문1 . 유형2에서 결과 제출할때 pred 이란 변수를 사용하는데, 어떤 책에선 y_pred 이란 변수를 사용하기도 하더라구요. 문제를 읽었을때 변수명에 대한 설명은 없어보이는데, 정해진 변수명이 있나요? 질문2. 유형2는 성능 측정모형(mse, rmse 등)을 알려주고 있습니다. 제가 만약 분류도, 회귀도 무조건 랜덤포레스트만 사용하겠다고 하면 사실 저 성능 측명하는건 굳이 코드에 안짜도 되지요? 채점답변이 csv 파일만 적절하면 되는게 맞는지요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 풀이과정 질문입니다.
전처리, 피처엔지니어링 할 때, 언제 무엇을 해야할지 헷갈립니다.가령 데이터가 어떨 때, 어떤 것을 스케일링 해야하는지 헷갈립니다. 기출문제 풀이에서 스케일링을 한 경우도 있고, 안 한 경우도 있다보니 정리가 잘 안되는 느낌입니다.get_nc_data로 n과 c를 나눴다가 다시 concat으로 합친 경우가 있는가 하면, 어떤 회차에서는 그냥 스케일링도 없이 원핫인코딩만 해버리는 경우도 있어서, 언제 어떤 방식으로 전처리를 해야할지 감이 잘 안옵니다. 저런 기준을 잘 모르겠습니다.또, target열을 value_counts()하는 것은 알겠는데, 어떤 회차에서는 또 이것을 pop하기도 해서, 어떨때 pop을 하는 것인지도 분간이 잘 안갑니다ㅠ로그, 지수 수치 변환도, 수치형 데이터가 어떨 때 하고 어떨 때 안하는지 헷갈립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
1유형 6회 기출
sum(axis=1) 을 항상 꼭 써줘야 하나요?행 방향 열방향이라고 하셨는데지금 행 방향 1행으로 다 더하니까 axis=0 아닌가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
분산이 다르면 독립표본검정 사용
이제 levene검정을 통해서 분산이 다르면 독립표본검정을 실시하면 되는데,만약 같으면 무엇을 사용해야하나요???
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
iloc 관련 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 선생님!2회 기출유형 (작업형1) 5분경에 df.iloc를 통해서 10개의 데이터를 대체하는 게 있는데요, 이전에 판다스 강의하실 때 iloc의 경우 :10이면 9까지만 포함되는 걸로 기억하는데 제 기억이 잘못된 걸까요?loc는 [0:9]면 9까지고, iloc는 [0:9]면 8까지로 기억하는데 헷갈리네요 ㅠㅠ 한 번만 다시 설명 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
로버스트 스케일링
기출 3회차 2유형문제로버스트 스케일링을 하는 이유가 무엇인가요?처음부터 수치형 데이터인데, 왜 로버스트 스케일링으로 변환해서 머신러닝안에 넣어주는 건가요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
5회 작업형1 2번문제
1차이 나는 이유가 있을까요..?정답은 1986 2130144 인데143이 나옵니다. 코딩이 잘못된 부분이 있을까요? import pandas as pd df = pd.read_csv("5-2bmi.csv") df['bmi']=df['Weight']/(df['Height']/100*df['Height']/100) print(df) cond1=df['bmi']>=18.5 cond2=df['bmi']<23 cond3=df['bmi']>=23 cond4=df['bmi']<25 print(len(df[cond1&cond2]),len(df[cond3&cond4])) print(abs(len(df[cond1&cond2])-len(df[cond3&cond4])))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
오류 코드와 해결방법요청
too many indices for array: array is 1-dimensional, but 2 were indexed 저장을 하려면 이런 오류가 자꾸뜨는데 확인부탁드립니다. submit=pd.DataFrame({'CLIENTNUM':test_id, 'Attrition_Flag': pred[:,1]})
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
6회 기출문제 작업형3 마지막 문제 신뢰구간 질문
mean /mean_se/mean_ci_lower/mean_ci_upper/obs_ci_lower/obs_ci_upper/6회 기출문제 작업형3 마지막 문제 신뢰구간 구하는 문제에서 위와 같이 표가 나왔는데요. obs_ci_lower/obs_ci_upper 이 구간이 아니고mean_ci_lower/mean_ci_upper 이 구간 인건가요?
-
해결됨실무에서 사용하는 클라우드 보안 프로그래밍 (AWS, Python, Terraform)
s3 bucket 생성 에러
안녕하세요 너무 질문을 자주 올리는거 같아 민망하네요 ㅎㅎ..강의 수강 중 궁금한 점이 있어 질문드립니다. s3 배포 시 제약조건?멀티 프로바이더 부분에서 s3 배포 시, 서울 리전에만 배포가 안됩니다. (still creating 무한루프)제가 배포하려는 코드는 아래와 같습니다.# provider.tf provider "aws" { region = "ap-northeast-2" } provider "aws" { alias = "apne3" region = "ap-northeast-3" } # main.tf resource "aws_s3_bucket" "apne2" { bucket = "tf-apne2-hb" } # 오사카 리전 resource "aws_s3_bucket" "apne3" { bucket = "tf-apne3-hb" provider = aws.apne3 }서울 리전에 배포할 때 해당 버킷명을 사용할 때만 배포가 안되며, 다른 버킷명이나 다른 리전에 배포하면 잘 배포가 됩니다. 콘솔에서 위와 동일하게 생성해보면 "the ap-northeast-2 location constraint is incompatible for the region specific endpoint this request was sent to." 와 같은 에러가 떨어지는데 처음보는 경우라 혹시 알고 계신게 있는지 궁금해서 질문 남깁니다. vpc 배포 후 provider 변경 resource "aws_vpc" "apne2" { cidr_block = "10.0.0.0/16" } resource "aws_vpc" "apne3" { cidr_block = "10.0.0.0/16" }위처럼 배포 시 서울 리전에 vpc가 2개 생성됐습니다.이후 apne3 vpc 리소스에 provider = aws.apne3을 추가한 후 plan 해보면 서울 리전에 vpc가 삭제되고 오사카 리전에 생기는게 아닌, 서울 리전에도 남고 오사카 리전에도 새로 추가가 됩니다.tfstate 파일에서도 provider와 속성값들이 변경은 되는데 기존 리소스는 왜 삭제되지 않는지 궁금합니다. 추가로 제가 질문을 거의 매일 남기는거 같아서 좀 죄송스럽습니다. 차라리 큰 챕터가 끝낼따마다 궁금한걸 정리한 후 한번에 질문드리면 더 나으실까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
예시문제 작업형2(신 버전)에서 첫번째방법으로만 풀어도 점수 다 받을수있나요?
강의명 : 예시문제 작업형2(신 버전) 🆕 updated 2023.11 선생님, 해당강의에서 보여주신 2가지 방법 중,1번째 방법으로만 제출해도 점수를 온전히 다 인정받을수있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형 2번 데이터 분리 과정 질문
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 좋은 강의 감사드립니다.작업형2번에서 데이터를 분리할 때 train, target2.train(타겟드랍), train(타켓)이렇게 train을 그대로 쓸 때와 타겟을 없앤 train을 쓸 때의 차이가 헷갈립니다. 그리고 타겟으로 뺄 때외 안뺄때는 편의 차이인지 이유가 있는지 궁금합니다. 감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 C() 질문 드립니다.
안녕하세요~ 작업형3 C() 관련해서 이렇게 이해하면 될까요? 범주형 값일 때, 경우1. ols(회귀), logit(로지스틱회귀)문자형 → 자동 처리수치형 → C() 경우2. 분산분석독립변수 == 범주형 변수 → 숫자만 C()로 묶어도 되고, 독립 변수 모두를 각각 C()로 묶어도 됨 항상 좋은 강의 감사합니다!😊
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
2회차 작업형 1 문제 3 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요cond1 = df['age'].mean() + df['age'].std() * 1.5 cond2 = df['age'].mean() - df['age'].std() * 1.5 out1 = df['age'] > cond1 out2 = df['age'] < cond2 print(df['age'][out1 | out2].sum())print(df[(cond1)|(cond2)]['age'].sum())아래 코딩처럼 cond1 ,cond2 를 괄호로 묶으신 이유가 있을까요?? 위 방법처럼 묶지 않았을 때 같은 정답 나왔습니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리 질문입니다.
뭔가 알면 알수록 계속 욕심이 생깁니다..(시험 때 어떻게든 score를 높이기 위해..)총구매액, 최대구매액, 환불금액 같은 경우는 숫자가 너무나도 크기 때문에, StandardScaler를 쓰면 좋을 것 같아 보입니다. StandardScaler는 그 해당 컬럼 값의 max값과 min값이 1000이상 차이나면 사용하면 좋을까요?어떤 경우에 쓰면 좋을지 방향성을 알고 싶습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
numeric_only=True는 실제 시험에서 작성해야하나요?
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요판다스에서 .corr사용했을 때 오류가 떠서 numeric_only=True같이 입력했는데 시험때도 써야하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 문제1 질문
앞에서부터 70% 데이터 중 views 컬럼의 3사분위 수에서 1사분위 수를 뺀 값을 아래와 같이 풀이했는데, 코드가 실행되지 않는 이유가 궁금합니다.df = df[:int(len(df) * 0.7)] cond3 = df['views'].quantile(0.75) - df['views'].quantile(0.25) df[cond3]
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
스케일링
왜 모의고사 문제들은 범주형 데이터를 라벨링만하고수치형 데이터들은 스케일링 진행을 따로 하지않았나요???크게 상관없이 없는건가요? (꼭 할 필요없나요?)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 작업형 2 질문!
여유 없으면 랜덤포레스트 모델 하나만 해도 크게 지장없는 걸로 알고 있습니다. 근데 모델 구성 중에 max_depth 이나 random_state에 따라 점수가 차이가 날 수 있는 건 당연한데,이 차이가 많이 날 수 있나요...? 저번 시험에서 max_depth 설정한 사람과 안한 사람 차이 점수가 10점 이상 난 걸로 알고 있어서...ㅠ그리고 예를들어 모델 검증으로 max_depth=7이 max_depth=5가 더 좋은 평가지표가 나왔는데,실제 test랑 비교했을 때 max_depth=5가 더 좋을 수 있는 것 아닌가요...?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 놀이터 캐글
T1-21 문제 풀어보고 있는데요, 캐글에서 올려주신 코드로 작성한 결과와 제가 작성한 코드의 결과가 달라 질문 드립니다. (*제가 작성한 전체 코드는 맨 아래에 있습니다.) 바로 아래 코드에 대한 출력값은 90, 30, 30, 30 입니다. (답은 167.0 으로 출력됩니다.) 이를 통해 이상값 처리와 데이터 분할 모두 옳게 했다고 볼 수 있는데, 답은 165가 아닌 167이 나와서 도대체 어디서 잘못된건지 모르겠습니다. 답변 주시면 감사하겠습니다!# print(len(df['age'])) # print(len(df['age'].iloc[:30])) # print(len(df['age'].iloc[30:60])) # print(len(df['age'].iloc[60:90]))import pandas as pd import numpy as np df = pd.read_csv('../input/bigdatacertificationkr/basic1.csv') # print(df.head()) # print(df.info()) cond1 = df['age'] > 0 cond2 = df['age'] == round(df['age'], 0) df = df[cond1 & cond2] # print(df.head()) # print(len(df['age'])) # print(len(df['age'].iloc[:30])) # print(len(df['age'].iloc[30:60])) # print(len(df['age'].iloc[60:90])) median1 = df['age'].iloc[:30].median() median2 = df['age'].iloc[30:60].median() median3 = df['age'].iloc[60:90].median() print(median1+median2+median3)