묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
전처리 방법
작업형 3의 문제## 심장마비 확률이 높은사람? - 성별, 나이, 혈압, 콜레스테롤, 공복혈당, 최대 심박수 등의 컬럼이 있음 - 평가: ROC-AUC, 정확도(Accuracy), F1 을 구하시오 - target : output (1:심장마비 확률 높음, 0:심장마비 확률 낮음) - csv파일 생성 : 수험번호.csv (예시 아래 참조) ~~~ 위와 같은 문제가 실제 시험 환경에서 문제 양식과 비슷한가요? 저렇게 문제가 나오면 전처리를 어떻게 해야 하는지... 궁금합니다. 만약, 시험 환경 문제가 저렇게 나온다면..결측치 제거를 그냥 컬럼을 보고 아무 컬럼이나 제거를 해도 되는지. 그게 채점 규정에 맞을지. 그리고 결측치 제거시, fillna()를 쓰는데 아무 값이나 넣어도 되는지. fillna(method='bfill') 이런걸 써도 되는지. 이상치 제거도 그냥 이것도 임의로 뭔가 이상치 인거 같다 싶으면 제거 하는건지..이게 채점 규정에 맞을지... 애매 한거 같은데요. ============그리고 혹시나 시험 유형이 저렇게 안나온다면,문제를 좀 더 명확하게 서술 해주셔야 할 거 같아요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
원핫인코딩 후 컬럼 개수 불일
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 print(train.info()) print(test.info()) print(train.isnull().sum()) print(test.isnull().sum()) print(train.head()) print(test.head()) target = train['총가스사용량'].pop # import sklearn # print(sklearn.__all__) print(train.shape, test.shape) train = pd.get_dummies(train) test = pd.get_dummies(test) print(train.shape, test.shape)상기 처럼 코딩 후,컬럼값이 26, 25로 불일치하게 나와요. 왜일까요...(3196, 6) (1476, 5) (3196, 26) (1476, 25)그래서 그 이후 값들도 에러가 떠요 from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state = 0)--------------------------------------------------------------------------- TypeError Traceback (most recent call last) /tmp/ipython-input-3028840780.py in <cell line: 0>() 1 from sklearn.model_selection import train_test_split 2 ----> 3 X_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state = 0) 4 frames/usr/local/lib/python3.12/dist-packages/sklearn/utils/validation.py in _num_samples(x) 397 if hasattr(x, "shape") and x.shape is not None: 398 if len(x.shape) == 0: --> 399 raise TypeError( 400 "Input should have at least 1 dimension i.e. satisfy " 401 f"`len(x.shape) > 0`, got scalar `{x!r}` instead." TypeError: Input should have at least 1 dimension i.e. satisfy `len(x.shape) > 0`, got scalar `array(<bound method Series.pop of 0 9077.8 1 10105.5 2 8603.6 3 11076.8 4 10781.4 ... 3191 12294.7 3192 10410.7 3193 10473.8 3194 9657.9 3195 9961.5 Name: 총가스사용량, Length: 3196, dtype: float64>, dtype=object)` instead.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 모의문제2
안녕하세요 혹시 문제에서는 전처리시에 열을 삭제하고, cols = ['name', 'host_name', 'last_review', 'host_id']열을 삭제하고, 값이 비어 있는거 train['reviews_per_month'] = train['reviews_per_month'].fillna(0) test['reviews_per_month'] = test['reviews_per_month'].fillna(0) 이렇게 채우는게 문제에서 지시 사항이 없었는데, 작업을 해도 되는건가요?명확한 지시 사항이 있어야 하는게 아닌가 싶어서 여쭤봅니다.시험 환경에서 저렇게 데이터를 삭제하거나 이상치를 처리 하는거 결측치 처리를 임의로 해도 되는지 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2-모의문제 1번 검증 데이터 분리
from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split( train.drop('Attrition_Flag', axis=1), train['Attrition_Flag'], test_size=0.2, random_state=2022 )선생님, 데이터 분리 작성할 떄, train.drop('Attrition_Flag', axis=1) 이 부분이 이해가 가지 않아요.Attrition_Flag 컬럼은 pop함수로 따로 빼놓는거로 알고 있는데, 여기서 왜 drop으로 삭제를 하고, 뒤에 train['Attrition_Flag']를 다시 넣는건지 모르겠어요.. + 데이터 분리 전에, 먼저 target에 Attrition_Flag를 따로 분리시켜놓고 split함수를 작성해도 되나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2에서 결측치 처리
결측치를 삭제할지, 결측치를 채울지는 본인이 선택하면 되는걸까요?결측치 삭제할때 행, 열 , 특정 열 삭제 중 뭘 선택해야할지 좀 복잡해보여서그냥 결측치를 채우는 방식으로 하고싶은데 결과값이 많이 달라질까 궁금합니다
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의고사 데이터파일 오류
안녕하세요.다름이 아니라 작업형1 모의문제를 풀고자 데이터를 다운 받았는데 사진과 같이 데이터에 오류가 생기는데혹시 어떻게 해결할 수 있을까요? 노트북으로 다운 받았는데 오류가 생기길래 폰으로 다운을 받고 노트북으로 옮겼더니 또 오류가 생겼으며 메일을 통하여 다운받아도 똑같이 오류가 나네요ㅠㅠ 혹시 엑셀 버전 차이 때문일까요?
-
미해결[왕초보] [누적 5,000명+] Python 프로그래밍 기초 완성 로드맵
for-else는 언제 쓰나요?
안녕하세요. for-else는 언제 쓰나요? 궁금합니다.답변 감사합니다.
-
해결됨[왕초보] [누적 5,000명+] Python 프로그래밍 기초 완성 로드맵
요즘 바이브코딩이 대세인데 파이썬을 배워야하는 이유가 뭘까요?
열심히 수강중인 학생입니다.좋은 강의 정말 감사합니다. 개인적으로 궁금하여 문의드립니다. 요즘 바이브코딩이 대세인데 파이썬을 배워야하는 이유가 뭘까요?
-
해결됨[왕초보] [누적 5,000명+] Python 프로그래밍 기초 완성 로드맵
코드에서 오류를 찾는 팁이 있을까요?
코드에서 오류를 찾는 팁이 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코딩 내용이 같이 출력됨
코딩을 하던 중 위와 같이 결과 창에 코딩 내용? 같은 문자들이 같이 출력됩니다.비슷한 경우가 종종 발생하는데 어떻게 해결할 수 있나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
선생님, 강의 연장 관련하여 문의드립니다..
안녕하세요, 선생님. 강의 잘 듣고 있는 재직자입니다.저번 시험부터 준비하려고 했지만, 프로젝트가 겹쳐서 마지막 시험인 이번 회차까지 넘어오게 되었네요...수강 기간이 11월 1일까지인데, 혹시 이번 시험인 11월 말까지만 강의 연장이 가능한지 여쭤보고 싶습니다.마지막 기회인만큼 정말 열심히 하겠습니다..!답변 기다리고 있겠습니다. 감사합니다! 제 이메일은 (areuwho112@gmail.com) 입니다!
-
미해결베개 투자법: 자면서 돈 버는 AI 주식 자동 매매 머신
mcp서버 설치 문의
{ "mcpServers": { "filesystem": { "command": "cmd", "args": [ "/c", "npx", "-y", "@smithery/cli@latest", "run", "@smithery-ai/filesystem", "--key", "4fcb4b94-c3b0-4d0c-adec-af00fcb82857", "--profile", "tall-shark-glGEAE" ] } } } { "mcpServers": { "filesystem": { "command": "cmd", "args": [ "/c", "npx.cmd", "-y", "@modelcontextprotocol/server-filesystem", "C:\\Users\\zzzz5\\Documents\\GitHub\\test-github\\documents" ] } } }2번째 소스코드로 진행해도 상관없나요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수강기한 연장 문의
혹시 수강기한을 시험날까지 연장할 수 있을까요? 어떻게 하면 될 지 도움 부탁드립니다.감사합니다,
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실제시험 본 이후에 가채점 가능한가요?
안녕하세요 이번 11월29일에 처음 시험을 보는데,작업형1과 3의 답을 수험표에 적어올수있을것 같은데혹시 강사님이 모범답안을 올려주시나요?미리 가채점을 할수있으면 좋을것 같아서 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
컬럼별 결측치 처리방법
안녕하세요?결측치를 처리할때 평가지표 결과를 통해 점수가 높은 방법으로 결측치를 처리하는게 좋다고 하셨는데만약 train에 결측치가 포함된 컬럼이 3개일때 각각 컬럼마다 다양한 방법의 결측치 처리방법을 적용하여 결과값을 비교하면서 최적값을 찾아야하는지, 아니면 결측치가 있는 컬럼 3개에 대해서는 한가지 방법의 결측치 처리방법을 적용해도 되는지 궁금합니다.컬럼이 3개일때 각 컬럼마다 여러가지 결측치 처리방법을 적용하면서 비교하면 경우의 수가 많을것같아 질문드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
챌린지 참여
챌린지 참여 쿠폰을 발행받았는데 유효기간 경과로 소멸되어버렸습니다재발행이 불가한걸로 확인되는데 참여하려면 결제해야되는걸까요???
-
해결됨실리콘밸리 엔지니어와 함께하는 Apache Airflow
Queue 강의를 듣고 난 후에 대한 질의
Queue에 대한 질문이 몇가지가 있습니다. 큐를 지정할 때는 무조건 큐의 이름을 지정해 줘야 하나요? 자동으로 비어 있는 woker에 큐를 할당하는 방법은 없나요?cpu_intensive라는 woker에 여러개의 큐가 동시에 요청이 왔을 경우 동기적으로 처리하나요?큐를 생성하면 해당 큐의 물리적 자원은 어떻게 할당 되는 것인가요?대체로 하나의 DAG에서 강의에 예시와 같이 여러 개의 큐를 사용하는 경우가 있을까요?워커를 많이 만들어 환경을 구성하는 사례는 어떤 사례가 있는지 알 수 있을까요? 내용 확인 부탁드립니다.
-
해결됨15일간의 빅데이터 파일럿 프로젝트
gcc 설치 에러
안녕하세요 빅디님 ! gcc 설치 중에 오류가 나서 yum repository 삭제 후 다시 시도해 보았는데, 계속 오류가 나서 질문 드립니다. ㅠㅠ 어떤게 문제일까요..? yum repo 삭제는 다음과 같이 진행 하였습니다. [root@server02 ~]# cd /etc/yum.repos.d/ [root@server02 yum.repos.d]# rm -rf remi.* remi-* [root@server02 yum.repos.d]# [root@server02 yum.repos.d]# cd /var/cache/yum/ [root@server02 yum]# rm -rf x86_64 [root@server02 yum]# [root@server02 yum]# yum clean headers Loaded plugins: fastestmirror, refresh-packagekit, security Cleaning repos: base cloudera-manager extras updates 0 header files removed [root@server02 yum]# yum clean packages Loaded plugins: fastestmirror, refresh-packagekit, security Cleaning repos: base cloudera-manager extras updates 0 package files removed [root@server02 yum]# yum clean metadata Loaded plugins: fastestmirror, refresh-packagekit, security Cleaning repos: base cloudera-manager extras updates 0 metadata files removed 0 sqlite files removed 0 metadata files removed yum install -y gcc* 명령어 입력시 발생하는 오류 입니다.[root@server02 ~]# yum install -y gcc* Loaded plugins: fastestmirror, refresh-packagekit, security Setting up Install Process Loading mirror speeds from cached hostfile Could not retrieve mirrorlist http://mirrorlist.centos.org/?release=6&arch=x86_64&repo=os&infra=stock error was 14: PYCURL ERROR 6 - "Couldn't resolve host 'mirrorlist.centos.org'" Error: Cannot find a valid baseurl for repo: base 추가로, CentOS-Base.repo 파일 내용 첨부드립니다. [root@server02 yum.repos.d]# cat CentOS-Base.repo # CentOS-Base.repo # # The mirror system uses the connecting IP address of the client and the # update status of each mirror to pick mirrors that are updated to and # geographically close to the client. You should use this for CentOS updates # unless you are manually picking other mirrors. # # If the mirrorlist= does not work for you, as a fall back you can try the # remarked out baseurl= line instead. # # [base] name=CentOS-$releasever - Base mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=os&infra=$infra #baseurl=http://mirror.centos.org/centos/$releasever/os/$basearch/ gpgcheck=1 gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6 #released updates [updates] name=CentOS-$releasever - Updates mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=updates&infra=$infra #baseurl=http://mirror.centos.org/centos/$releasever/updates/$basearch/ gpgcheck=1 gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6 #additional packages that may be useful [extras] name=CentOS-$releasever - Extras mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=extras&infra=$infra #baseurl=http://mirror.centos.org/centos/$releasever/extras/$basearch/ gpgcheck=1 gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6 #additional packages that extend functionality of existing packages [centosplus] name=CentOS-$releasever - Plus mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=centosplus&infra=$infra #baseurl=http://mirror.centos.org/centos/$releasever/centosplus/$basearch/ gpgcheck=1 enabled=0 gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6 #contrib - packages by Centos Users [contrib] name=CentOS-$releasever - Contrib mirrorlist=http://mirrorlist.centos.org/?release=$releasever&arch=$basearch&repo=contrib&infra=$infra #baseurl=http://mirror.centos.org/centos/$releasever/contrib/$basearch/ gpgcheck=1 enabled=0 gpgkey=file:///etc/pki/rpm-gpg/RPM-GPG-KEY-CentOS-6 감사합니다.
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
broadcast Join과 boradcast + UDF 차이
안녕하세요!좋은 강의 잘 듣고 있습니다!강의를 듣던 중 궁금한게 생겨서 질문 남깁니다UDF + broadcast 대신에 아래 방법으로 lookup테이블을 활용해서BROADCAST JOIN한다면 스파크 내부적으로 다르게 동작하는지,다르게 동작한다면 어떤 상황에서 각각 이점이 있는지 궁금합니다lookup_df = spark.createDataFrame( [(k, v) for k, v in meta.items()], ["occupation_id", "occupation_name"] ) df_result = interviewer_count.join( broadcast(lookup_df), on="occupation_id", how="left" )감사합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 연습문제 책
책에 있는 작업형1 연습문제에 대한 데이터 코드들은 어디서 확인할 수 있을까요? 인프런에서 확인할 수 있나요?