묻고 답해요
161만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
axis=0, axis=1 개념 정리했습니다. 검토바랍니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 작업형1 모의고사2 2분지점 문제4에서 정리했습니다. axis=0 (기본값) → 행을 따라 연산, 열을 기준으로 결과 반환sum(axis=0): 각 열(Column)의 합계 계산count(axis=0): 각 열별 NaN 제외 개수 반환drop(axis=0): 행(Row) 삭제 axis=1 → 열을 따라 연산, 행을 기준으로 결과 반환sum(axis=1): 각 행(Row)의 합계 계산count(axis=1): 각 행별 NaN 제외 개수 반환drop(axis=1): 열(Column) 삭제연산(sum, count 등)은 axis=0이면 열 기준, axis=1이면 행 기준으로 수행되고, 반면에 삭제(drop)는 반대로 axis=0이면 행 삭제, axis=1이면 열 삭제가 됩니다. 이 내용이 맞는지 검토 바랍니다.맞다면 (sum, count 등)과 달리 삭제(drop)시에는 반대로 적용되는지가 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
axis=0, axis=1의 정확한 워딩 문의드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요 작업형1 모의고사2 2분지점 문제4에서object컬럼을 삭제할 때 축 axis=1로 하라고 했는데. 여기서 axis=1은 object 행을 삭제한 건가요? object 열을 삭제한 건가요? 그 전에 axis=0은 열을 기준으로 하고, axis=1은 행을 기준으로 한다. 강의 시 이 둘의 개념을 의식적으로 구분하지 않고 워딩하셔서 이 경우 해석이 뒤죽박죽 입니다. 정리해보면 axis=0은 열을 기준으로 하고, axis=1은 행을 기준으로 한다는 것은 맞는데표에서 "object 컬럼을 없앨 경우 워딩은 object(컬럼:열)을 삭제한다고 하지 않고, object(컬럼)의 전체 행 데이터가 삭제되는 것"이니 "object 행 삭제"라고 부른다?이렇게 되는 건가요? 정확한 워딩을 부탁드립니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의고사1 1번 문제 재질문 드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형1 모의고사1 1번 문제 f1의 결측치를 중앙값으로 채우는 문제에서 다시 보니, f1의 중앙값이 결측치의 합계(31+28+4=63)개와 일치했습니다. 그래서 중앙값?이 대체 무슨값인지 궁금했습니다. 결측치 합계액과 일치하는 것이 우연의 일치인지 결측치 합계액을 의미하는지 궁금합니다. f1컬럼에 중앙값 63을 채웠다는 <아래 이미지> 0~99까지 f1컬럼의 행(?)의 인덱스 옆 숫자?가 결측치를 채운 값이라는데 의미를 이해 못했습니다. 이후 df['f1']으로 저장한 후 print(df.isnull( ).sum( ))을 통해 결측치를 채운 이후값이 f1 0으로 떨어지는데 이 개념을 이해 못했습니다. 쉽게 한 번 정리 부탁드립니다. 기초통계량 describe( )에는 평균(mean)만 있고, 최빈값(mood), 중앙값(meadian)이 없다는 사실을 확인했습니다.왜 없는지 모르겠군요. 기초통계량 확인할 때와는 달리 이번 문제는 초기에 데이터를 하나씩 들여다 봐서 전체 데이터의 윤곽을 이해하지 못한 채 진행이 되는 느낌입니다. 의문인 것은 기초통계량의 50%(2사분위수)와 중앙값의 개념 차이입니다. 개념이 약해서 중앙값, 평균값, 2사분위수의 개념이 전반적으로 흔들립니다. 50%와 중앙값은 같은 건지 다른건지 궁금합니다.
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코렙에서 수업자료를 불러오는 방법 알려주세요.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요다시 올립니다.구글드라이브에 퇴근후1차 폴더를 만들었습니다.작업형1 모의고사1 강의에서 제공한 수업자료를 구글드라이브에 올렸습니다. 그런데 퇴근후1차 폴더에 들어가지 않았군요.코렙을 열었습니다. 자 이제 수업자료를 어떻게 연동하여 끌고 오나요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
금일 새벽에 올린 제 질문이 검색이 안되고 있습니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요금일 새벽에 올린 제 질문이 검색이 안되고 있습니다. 임의로 삭제가 될 수 있는 것인가요?확인 바랍니다.
-
해결됨파이썬을 활용한 머신러닝 딥러닝 입문
feature scaling 부분
안녕하세요. feature scaling 부분에그래프 예시 (before, after) 에 표준정규화를 거치면 분포가 다 같아지는것처럼 그려졌는데각각 다른 분포를 가진 데이터들이 전부 같은 분포로 바뀌게 되면 서로 다른 데이터의 의미자체를 잃어버리는것 아닌가요? 감사합니다.
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
세션4 범주형 데이터 분석 패턴 강의 질문
히트맵 및 막대그래프를 만들 때 아래와 같은 오류가 나옵니다..!ㅠㅠ1. heatmaptrain.corr(numeric_only=True).iplot(kind='heatmap', colorscale='Blues')ValueError: Invalid property specified for object of type plotly.graph_objs.layout.XAxis: 'titlefont'2. 막대그래프 df.iplot(kind='bar')ValueError: Invalid value of type 'builtins.str' received for the 'color' property of bar.marker.line Received value: 'rgba(255, 153, 51, np.float64(1.0))'
-
미해결금융데이터 분석을 위한 판다스 활용법
Anaconda Prompt 에서 pip install jupyter_contrib_nbextensions 에러
Anaconda Prompt 에서 pip install jupyter_contrib_nbextensions 에러가 발생합니다.최종적으로. note: This error originates from a subprocess, and is likely not a problem with pip. ERROR: Failed building wheel for jupyter_contrib_nbextensions Running setup.py clean for jupyter_contrib_nbextensionsFailed to build jupyter_contrib_nbextensionsERROR: Failed to build installable wheels for some pyproject.toml based projects (jupyter_contrib_nbextensions) 이런 메세지가 나오는데. 구글링이나 쳇got로도 해결이 안되네요 ㅠㅠ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 범주형 데이터 분석
안녕하세요,수업시간에 작업형3 독립성 검정(범주형 데이터 분석)에서 아래와 같은 방법들을 알려주셨는데요, 어디까지가 방법1이고 어디부터가 방법2인지 알 수 있을까요? 시험에서는 가장 쉬운 방법으로 하고 싶은데요, 독립성 검정에서 가장 간단하고 쉽게 코드를 작성하려면 어떻게 작성하면 되는건지 알려주시면 감사하겠습니다. 그리고 수업 노트에 빈칸으로 된 파일이 안 올라와 있던데, 올려주시면 감사하겠습니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
수강연장 문의
안녕하세요! 11/13일 만료인데요 혹시 11/29까지만 연장이 가능할지 문의 드립니다 jeonghui71@naver.com 연락 부탁 드려요!
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
자세한 설명 부탁드려요 ㅜ
강사님 안녕하세요우선 너무 잘 듣고 있고 좋은 강의 정말 감사합니다 .그런데 수업 내용이 자꾸 현재 버전과 달라서 너무 헷갈려요..설명하시는 단축키나, 어디에 들어가 어떻게 입력해야하는지방법에 대한 설명 없이 내용뿐인 것들이 있어 따라가기 어려운듯해요 ㅜ profiling 한글폰트설정 부록 강의 올려주신 부분에서터미널 들어가서 경로를 입력하라고 하시는데어떤 형식으로 어디부터 어디까지 써서 입력해야하는지 모르겠어요..~/opt/anaconda3/lib/python3.12/site-packages/pandas_profiling 이렇게 따라 입력하면 저는 아무 반응도 안일어나는데 어떻게 해야할까요?
-
미해결공공데이터로 파이썬 데이터 분석 시작하기
seaborn 라이브러리 호출하였으나 그래프가 안 그려져요
안녕하세요! 교육 차근차근 따라하면 듣고 있는데요..seaborn 시각화 생성되지 않아 문의 드립니다.제가 놓친 것이 있을지요..아래 코드 참고 부탁 드려요
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
실기시험 항목과 작업형 유형간 설명을 바랍니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요빅분기 실기 작업형 1유형, 2유형, 3유형은대체 무엇을 묻기 위해어떤 기준으로 구분한 것인지 그 설명을 듣고 싶습니다. 그래서 무엇을 정리하고 준비해야 하는지에 대한 정리를 실제 작업형 1,2,3유형 문제를 두고 설명해 주시기 바랍니다.즉, 작업형 문제를 바로 풀기에 앞서이 문제는 무엇을 묻기 위한 문제로 배경지식으로는 무엇이 필요한 것인지문제에 출제 문제의 설명(출제 포인트)을 달아 주시기 바랍니다.빅분기 실기 항목은 데이터수집작업, 전처리작업, 모형구축작업, 모형평가작업이라고 나와 있는데 이것이 각각 작업형 1~3유형에 어디에 해당하는지 설명이 없고, 작업형 1~3유형 또한 데이터수집작업, 전처리작업, 모형구축작업, 모형평가작업 중 어디에 해당하는지 설명이 없습니다. 이러한 내용이 정리되었으면 좋겠습니다. GPT에 물으니 아래와 같은 답변이 나왔는데 맞는지도 검토바랍니다. 빅데이터분석기사 실기 시험에서 작업형 문제는 제1유형, 제2유형, 제3유형으로 구분됩니다. 각 유형은 문제 해결 방식과 요구되는 기술적 접근법이 다릅니다. 작업형 문제 유형별 특징작업형 제1유형 (30점, 3문제, 각 10점)주요 내용: 데이터 전처리 및 기초적인 데이터 분석요구되는 기술:데이터 정리(결측치 처리, 이상치 제거)데이터 변환(스케일링, 원-핫 인코딩 등)간단한 통계 분석(평균, 중위수, 표준편차 등)예제: 주어진 데이터셋에서 특정 열의 결측치를 평균값으로 대체하시오. 작업형 제2유형 (40점, 1문제, 가장 배점 높음)주요 내용: 머신러닝 모델 구축 및 평가요구되는 기술:데이터셋 분할(훈련/테스트 세트)머신러닝 알고리즘 적용(랜덤포레스트, XGBoost 등)모델 성능 평가(정확도, RMSE 등)예제: 주어진 데이터를 이용하여 고객 이탈 여부를 예측하는 분류 모델을 구축하고, 정확도를 출력하시오. 작업형 제3유형 (30점, 2문제, 각 15점)주요 내용: 데이터 시각화 및 고급 데이터 분석요구되는 기술:데이터 시각화(히스토그램, 박스플롯, 산점도 등)군집 분석(K-means, DBSCAN 등)연관 분석(Apriori, FP-Growth 등)예제: 주어진 데이터를 이용해 군집 분석을 수행하고, 각 군집의 평균값을 시각화하시오.시험에서 중요한 점작업형 제2유형(40점)이 가장 중요하므로, 모델 구축과 평가 연습이 필수입니다.시험 환경은 구름IDE 기반이므로, Python(Pandas, Scikit-learn, Matplotlib 등)에 익숙해져야 합니다.제1유형과 제3유형은 기본적인 데이터 처리 및 시각화 능력을 평가하므로, 이를 빠르게 해결할 수 있도록 연습이 필요합니다.
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
pandas 2.2.2, xgboost 2.1.3 에러 해결 방법
xgboost 2.1.3 버전의 XGBRegressor 사용시 pandas 2.2.2에서는 pd.util.version이 제거되었으므로 "AttributeError: module 'pandas' has no attribute 'util'"에러 발생하여 xgboost 라이브러리 코드를 수정해야 함경로: $ANACONDA3_HOME/lib/python3.12/site-packages/xgboost/data.py수정 후 주피터 재시작 # 기존 def is_pd_sparse_dtype(dtype: PandasDType) -> bool: """Wrapper for testing pandas sparse type.""" import pandas as pd if hasattr(pd.util, "version") and hasattr(pd.util.version, "Version"): Version = pd.util.version.Version if Version(pd.__version__) >= Version("2.1.0"): from pandas import SparseDtype return isinstance(dtype, SparseDtype) from pandas.api.types import is_sparse return is_sparse(dtype) # 변경 def is_pd_sparse_dtype(dtype: PandasDType) -> bool: """Wrapper for testing pandas sparse type.""" import pandas as pd from pandas import SparseDtype return isinstance(dtype, SparseDtype)
-
미해결[리뉴얼] 처음하는 파이썬 머신러닝 부트캠프 (쉽게! 실제 캐글 문제 풀며 정리하기) [데이터분석/과학 Part2]
sklearn v1.5.1
from sklearn.metrics import root_mean_squared_error from sklearn.metrics import root_mean_squared_log_error y_pred = [11, 22, 33, 44] y_true = [10, 20, 30, 40] print("RMSE: ", root_mean_squared_error(y_true, y_pred)) print("RMSLE: ", root_mean_squared_log_error(y_true, y_pred))
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
용어 질문
리턴의 의미를 정확히 모르겠습니다단순이 함수 정의된 값을 반복해서 받는다는 의미인건지;;
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
코드 질문입니다
def hello(): print("안녕하세요!") # 함수 호출 print(hello()) 안녕하세요! None위에 hello()로 단순이 결과값을 도출했을때에는 아래 답변 안녕하세요!만 나왔었는데 print(hello())했을 경우에는 아래에 None까지 나와서 문의드립니다
-
미해결머신러닝/딥러닝 소개 및 학습을 위한 파이썬 속성 과정
맥환경
맥에서는 아나콘다네비게이터만 있는데 어떻게 해야하나요?
-
미해결머신러닝/딥러닝 소개 및 학습을 위한 파이썬 속성 과정
아나콘다로 하는 이유?
아나콘다를 사용하는 이유가 무엇인가요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[재질문] 이전 질문을 다시 드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요이전 질문을 다시 드립니다. 질문과는 이질적인 답변이 올라와서 질문을 정확히 전달하기 위해 이미지로 정리하였습니다.확인 요청에 대한 답변을 부탁 드립니다.아울러 아래는 실제 강의 내용입니다. 부산에서 알려진 찍먹 비율이 60%정도고 부먹이 40%정도라고 알려져 있다라고 하구요,수원에서 관찰을 했어요. 찍먹이 1, 부먹이 2라고 하겠다. 수원데이터가 찍먹 1,1,2,2,1 이런 식으로 데이터 값이 나오겠죠. 수원에서 관찰된 데이터가 관찰값이고 부산에 %가 기대도수, 기댓값이다. 나온 관찰값과 기대도수를 카이제곱함수에 넣어주면 끝나는 거다.scipy에 stats모듈이 있고 여기에 카이제곱이 있다.첫 번째 파라미터가 관찰된 빈도리스트고 두 번째 파라미터가 기대빈도 리스트다. 빈도로 넣어주셔야 한다. 이게 가장 중요하다. -> (관찰된 빈도 리스트[ ], 기대빈도 리스트[ ])수원은 카운터 하면 된다. 1이 3개, 2가 2개 즉[3,2] 이렇게 카운터 하면 된다. 기대빈도리스트. 그러니까 지금 퍼센트(%)로 되어 있는데 실수로 퍼센트(%) 그대로 넣는 분들이 계시거든요. 0.6이 있고 0.4가 있다. 이것을 빈도로 변경해줘야 한다. 그래서 수원의 총 개수를 구하고 5개네요. 5씩 곱해주면 된다. [0.6*5, 0.4*5] 이렇게 리스트를 만들고 카이제곱검정에다가 첫 번째 관찰된 빈도리스트 수원값을 넣고, 두 번째 기대빈도 리스트에 부산 데이터를 넣어주면 끝나는 거다. -> 관찰된빈도리스트[수원값], 기대빈도리스트[부산값]이렇게 실행하면 검정통계량 값과 p벨류 값을 구할 수 있다.