이야기를 나눠요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형2 성별예측 문제
https://dataq.goorm.io/exam/116674/체험하기/quiz/4여기서 하는 성별예측 문제에서 import pandas as pdtrain = pd.read_csv("data/customer_train.csv")test = pd.read_csv("data/customer_test.csv")# print(train.shape, test.shape)# print(train.info())# print(train.isnull().sum())# print(test.isnull().sum()) #결측치 처리 (환불금액)train['환불금액'] = train['환불금액'].fillna(0)test['환불금액'] = test['환불금액'].fillna(0)# print(test.isnull().sum())# print(train['성별'].value_counts()) #인코딩target = train.pop('성별')train = pd.get_dummies(train)test = pd.get_dummies(test)#검증 데이터 분리from sklearn.model_selection import train_test_splitX_tr, X_val, y_tr, y_val = train_test_split(train, target, test_size=0.2, random_state=0)# print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) from sklearn.ensemble import RandomForestClassifierrf = RandomForestClassifier(random_state=0)rf.fit(X_tr, y_tr)pred = rf.predict_proba(X_val)# print(pred) from sklearn.metrics import roc_auc_scoreroc = roc_auc_score(y_val, pred[:,1]) #예측 및 파일생성pred = rf.predict_proba(test)submit = pd.DataFrame({ "pred":pred[:,1]})submit.to_csv("result.csv", index=False)# print(pd.read_csv("result.csv"))이렇게 코딩을 했는데 예측 및 파일 생성에서 pred = rf.predict_proba(test) 여기 부분이 오류가 뜨는데 왜 그런가요 ㅠㅠ > Makefile:6: recipe for target 'py3_run' failedmake: *** [py3_run] Error 1Traceback (most recent call last): File "/goorm/Main.out", line 43, in <module> pred = rf.predict_proba(test) File "/usr/local/lib/python3.9/dist-packages/sklearn/ensemble/_forest.py", line 674, in predict_proba X = self._validate_X_predict(X) File "/usr/local/lib/python3.9/dist-packages/sklearn/ensemble/_forest.py", line 422, in validateX_predict return self.estimators_[0]._validate_X_predict(X, check_input=True) File "/usr/local/lib/python3.9/dist-packages/sklearn/tree/_classes.py", line 407, in validateX_predict X = self._validate_data(X, dtype=DTYPE, accept_sparse="csr", File "/usr/local/lib/python3.9/dist-packages/sklearn/base.py", line 437, in validatedata self._check_n_features(X, reset=reset) File "/usr/local/lib/python3.9/dist-packages/sklearn/base.py", line 365, in checkn_features raise ValueError(ValueError: X has 73 features, but DecisionTreeClassifier is expecting 74 features as input.이렇게 뜹니다,,
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
문제2
안녕하세요. 좋은 강의 감사드립니다.덕분에 잘 배우고 있습니다. 문제 2.주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함.그리고 30% 미만, 20% 이상인 결측치가 있는 컬럼은 최빈값으로 값을 대체하고'f3'컬럼의 'gold' 값을 가진 데이터 수를 출력하세요! 문제2를 대하고 순간 다음과 같은 고민을 했었습니다.1번을 수행하여 'f1'컬럼의 결측치 행을 삭제한 후 2번을 하려니 'f3'컬럼의 결측치 갯수가 18개만 남더군요.그럼 18개는 최초 데이터 100개의 20% 미만일까?그렇지 않다. 'f1'컬럼 결측치를 제거한 후 데이터 갯수 69개의 20%~30%(14~20)에 해당한다.그렇다면 'f3'컬럼의 최빈 값은 'f1'컬럼의 결측치를 제거하기 전의 값을 사용해야할까 아니면 결측치 제거 후의 값을 사용해야 할까?결과적으로는 어떤 방식으로 하던 답은 56으로 일치했지만 주어진 데이터에 따라 다른 값이 나올 수도 있을 것 같습니다.혼돈을 없애기 위해 문제 2의 문항 순서를 바꾸면 어떨까요?30% 미만, 20% 이상인 결측치가 있는 컬럼은 최빈값으로 값을 대체하고주어진 데이터에서 결측치가 30%이상 되는 컬럼을 찾고 해당 컬럼에 결측치가 있는 데이터(행)를 삭제 함. 'f3'컬럼의 'gold' 값을 가진 데이터 수를 출력하세요!
-
15일간의 빅데이터 파일럿 프로젝트
수강기간 연장
안녕하세요 강사님,유익하고 좋은 강의를 만들어주셔서 감사드립니다.수강하지 못한 부분들이 많이 있는데 수강기간 연장을 요청 드리고 싶습니다ㅜㅜ
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[1유형]
안녕하세요.1유형은 부분점수가 있다고 하는데값을 출력하고 그 때마다 제출 버튼을 눌러야지 채점이 되는건가요?1유형에도 문제가 3개 있으면제출 버튼을 3번 누르면 되는 건가요? 2유형은 마지막에 파일 생성하면 끝이 나는 건가요?3유형도 궁금합니다!!
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
맥북으로 공부
안녕하세요 강사님올해 말 실기 시험 목표로 강의를 수강 중인 학생입니다. 강의 수강 중 문득 걱정이 되는게 있어서 문의 드립니다. 맥북 단축키 같은것도 알려주시고 당장 수강하는데는 별 문제없다고 생각하는데, 시험장에 맥북을 들고 갈 순 없는 노릇이니.. 혹시 맥북으로 공부해 갔을때 발생할 수 있는 문제와 그에 대처방법이 혹시 있을까요?
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 연장
안녕하세요 강의 수강생인데요 ㅠ 이번 실기 치르는데 제가 작년부터 강의를 결제해서 듣고 있어서요 혹시 다음주까지 연장할 수 있는 기능이나 방법이 있을까요 ?
-
빅데이터/텍스트마이닝 분석법 (LDA,BERTtopic,감성분석,CONCOR with ChatGPT)
BERTopic 분석 방법
안녕하세요 선생님제가 LDA분석방법으로 연구를 진행중인데 이 LDA분석 방법의 단점을 개선한 방법으로 딥러닝 방식인 BERTopic 분석 방법이 최근 등장해서 연구논문에 조금씩 등장하는걸 확인했습니다.그래서 이 분석 방법에 흥미가 생겨 어떻게 할 수 있는지 인터넷, 책 등을 아무리 찾아봐도 직접적으로 연구에 어떻게 적용해서 하는 건지, 딥러닝 방식이라 학습시키는 데이터(말뭉치)는 또 어떻게 준비하는 건지.. 도통 모르겠고 도움을 받을 수 있는 길이 없는거 같아서 답답한 마음에 한번 여쭤봅니다.혹시 연구논문에 적용가능한 BERTopic 분석 방법에 대한 강의를 올려주실 계획은 없으실지 궁금합니다!
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
계속 진도를 빼는 게 맞을까요? 나을까요?
안녕하세요비전공자 직장인입니다.퇴근후 딴짓 님 강의를 열심히 듣고 있습니다. 현재 작업형2 모의문제 2를 혼자서 풀고 있는데,단순한 결측치 찾고, 샘플 찾고, 그런 것들은 하겠는데이거를 모델링 하는 거에서부터 사실 멘붕입니다. 작업형1 모의문제를 풀 때도 똑같이 강의를 듣던것보다 더 어려워서 멘붕이 왔었습니다. 일단은 모르겠는 부분은 인지한 상태로 다시 반복하겠다는 의지로 계속 강의를 듣는 게 맞겠죠? 반복이 답이겠죠??
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
강의 듣고
강의를 한번 쭉 듣고나서는 이 강의 기출을 반복하면되나요???합격하신 분들은 이 강의만 반복적으로 돌려서 합격하셨다는건지아님 얼른 듣고 추가적으로 더 무엇을 했다는것인지무엇을 해야하는지 궁금합니다.
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
꼭 암기해야하는 코드나 파트...
선생님, 강의 열심히 보고 있는데제가 5월 중순부터 시작하면서 조금 일찍 시작했는데도 불구하고암기 할 게 너~~~~~~무 많아서 큰일입니다 ㅠㅠ 단권화 시키려고 실기용 교재를 샀는데정말 정말 이것만큼은 꼭! 외우고 가야하는 코드나 문법같은거를 정리해주실 수 있나요? (강의나...파일로) 사실 고득점 합격은 바라지도 않고 60점 턱걸이로라도 너무 붙고싶습니다!
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
이번 실기일까지 강의를 듣고 싶어요.
삭제된 글입니다
-
실리콘밸리 엔지니어와 함께하는 Redis
강의 내용 정리 후 포스팅 문의
안녕하세요 해당 강의를 듣고 주관적인 견해를 포함하여 강의 내용을 정리 후에 퍼블릭한 블로그에 포스팅하고 싶은데, 괜찮을지 문의드립니다 ! 물론 게시글 상단에 해당 강의 링크와 강의 내용을 참고하여 작성했다는 코멘트는 포함할 예정입니다.
-
[무료]기초 텍스트마이닝: 앱 리뷰 분석 with 파이썬(40분 완성)
웹크롤링 강의
안녕하세요 선생님빅데이터 분석에 관심이 있어 파이썬을 1도 모르는 상태에서 시작해 현재 선생님의 강의를 통해 많은 도움을 받고 있습니다.현재 텍스트 마이닝 분석 방법으로 쓴 논문들을 보면 쇼핑몰 댓글 부터 해서 각종 SNS(페이스북, 인스타그램 등)의 댓글을 분석한 논문들을 많이 살펴볼 수 있는데 현재 파이썬 초보로서 데이터를 수집하는 과정(웹크롤링)이 제일 중요하고도 어려운 것 같습니다.현재 텍스톰이나 빅카인즈 같은 웹사이트를 이용하는 것 말고 파이썬 으로 다양한 데이터를 직접 웹크롤링 해서 데이터를 수집하는 방법을 집중적으로 다룬 강의는 거의 찾아보기 어렵더라구요..ㅠㅠ블로그 등에 검색해보면 코드가 공개된 것도 있지만 여기저기 코드 방식이 다 다양하고 막상 적용해서 실행해보면 또 에러 생기고 이유는 모르겠고 답답하더라구요. SNS 채널 및 쇼핑몰 댓글 등을 웹크롤링 하는 과정을 하나하나 다 보여주는 강의가 있으면 좋겠다고 생각하고 있는데 혹시 이렇게 여러 채널의 웹크롤링 과정만 다룬 강의를 올려주실 계획은 없으신지요?
-
15일간의 빅데이터 파일럿 프로젝트
클라우데라 CCA 자격증 관련 문의
클라우데라 CCA 자격증 관련 문의강사님 안녕하세요? 강의를 듣다 하둡 관련 자격증을 찾아보니 CCA 자격증이 있던데 취득했을시 관련분야 취업에 우대를 해주는지 궁금합니다. 정보가 적어 여기에 문의 드립니다.
-
15일간의 빅데이터 파일럿 프로젝트
맥북 사용
맥북 사용에 따라 vmware-fusion을 통해 실습 진행하려고 하는데 가상머신 구성해주신게 버츄얼박스에만 적용되나요???
-
15일간의 빅데이터 파일럿 프로젝트
학습 방향에 대한 조언을 듣고 싶습니다.
안녕하세요. "실무로 배우는 빅데이터 기술" 교재와 15일간의 빅데이터 파일럿 프로젝트 강의에 열정을 쏟고 있는 학생입니다. 커뮤니티 게시판에 '고민있어요' 배너를 보고, 제 학습과 관련된 고민을 나누고자 글을 쓰게 되었습니다.제 경험을 간단히 소개하자면, 약 2년간 직장에서 파이썬을 활용하여 크롤링, 분산 처리, API, DB 관리 등을 통해 데이터 수집 및 모델링 업무를 해왔습니다. 이후 데이터 엔지니어로 전환하면서, 본격적으로 이 분야를 공부하기 시작했습니다. Hadoop 생태계나 리눅스는 이전에는 이름만 들어본 적이 있었는데, 이번 강의를 통해 직접 프레임워크를 구축하고 설정하며, 데이터를 쌓아보는 경험은 정말 뜻깊습니다. 특히 Cloudera나 Git에서 'bigdata2nd-master' tar 파일을 받아 시스템을 구축하는 과정을 통해 전체적인 워크플로우와 업무에 대한 이해를 넓힐 수 있었던 점은 다른 어떤 강의보다 만족스러웠습니다. 처음 프레임워크를 하나하나 구축하고 설정하는 과정이 매우 어렵게 느껴졌는데, 이번 강의를 통해 크게 성장할 수 있었습니다.강의 중 강사님께서는 프레임워크 자체에 집착하기보다는, 요구사항을 통해 세부적인 요구사항을 도출하고, 이를 해결하는 방법에 중점을 두라는 조언을 주셨습니다. 프레임워크가 어떻게 활용되는지를 이해하고, 실제 문제 해결에 적용하는 방향으로 학습하라는 조언은 매우 감사했습니다.하지만, 저의 고민은 여기서 시작됩니다. 저만의 공부와 업무를 진행할 때, 대부분의 경우 도커 컨테이너 내에서 conf, yaml, Dockerfile 등을 직접 구성하거나 수정해야 할 것으로 압니다. Cloudera를 사용하지 않고 직접 프레임워크를 설계하며 공부를 해보고 싶은데, 이에 관련된 다른 강의나 학습 방향에 대한 조언을 구할 수 있을까요? 긴 글 읽어주셔서 감사합니다.
-
[핵집] 2025 빅데이터 분석기사(필기)_과목 1~2
강의, 교재 학습 방법 문의
수강평 보니까 커리큘럼과 교재 순서를 일부러 다르게 했다고 하던데그러면 강의는 교안을 받아서 학습하고 책은 따로 공부하면 될까요
-
15일간의 빅데이터 파일럿 프로젝트
수간 기한 연장 부탁드립니다 ㅠ
안녕하세요 선생님! 🙂 수강기간 연장 부탁드립니다 ㅠㅠ
-
[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빠르게 코딩하기 위한 단축기 문의 (팁)
코딩을 시작하지 얼마 안되어서 주로 코딩하실때 자주 사용하시는 단축기 팁이 있을지 문의드립니다. 현재 알고 있는건 아래가 전부인데요. Tap (줄 들여쓰기) shift + tap (줄 들여쓰기 반대로) 혹시 몇가지 조언해주실 수 있으신지요? (#이나 ''' ~ ''' 를 통해 한번에 주석처리 하는 단축기도 궁금하고.. 이밖에 코딩 속도를 높이기 위한 단축기가 있을지 궁금합니다)
-
[실전]텍스톰 TEXTOM 실전 강의: 빅데이터 논문 작성을 위한 텍스트 분석/텍스트마이닝
샘플로 제시해주신 참고문헌 출처 부탁드리겠습니다!
N-gram 분석은 N개 단어의 연쇄를 확률적인 수치를 산출하고 시각화하는 방법으로 대용량의 문서에서 특정 단어 뒤에 위치하는 단어나 음절의 빈도를 정량적인 수치로 나타낼 수 있다(Kang & Lee, 20019). 단어 간 연결방향이 화살표를 통해 시각화되며 화살표의 굵기 크기를 통해 연결강도가 결정된다(Yoo et al., 2019). 또한 연관 단어 간 관계성을 분석하면 단어간 관계 파악에 용이다하다(Kim, 2020). 본 연구에서는 Textom에서 제공하는 N-gram 텍스트마이닝 기법 시 데이터의 흐름과 이해를 하기 위해 가장 먼저 기초 분석 자료로 활용되는 기법이기도 하다. 단어빈도에 기반한 분석은 전체 문서 내에서 특정 단어의 풀현 빈도를 나타낸다. 문서 내에 특정 단어가 등장하는 횟수를 나타내며 이수치값이 클수록 문서에서 자주 사용하는 단어임을 의미한다(Jang et al.,2018). 높은 출현 빈도를 나타내는 단어는 대체로 연구주제와 관련된 함축된 의미를 내재하고 핵심 단어로 작용 할 수도 있다(Lee,2022).