묻고 답해요
160만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
- 
      
        
    미해결모두의 한국어 텍스트 분석과 자연어처리 with 파이썬
감성 분석을 하려면 어떤 부분을 공부해야 하나요?
프로젝트에서 감성 분석과 주제 찾는 작업이 필요합니다.주제 찾기는 강의를 통해 배울수 있을거 같은데요 감성 분석은 어떤것을 공부하면 좋을까요?
 - 
      
        
    미해결[핵집] 2025 빅데이터 분석기사(필기)_과목 1~2
통합 강의 자료 요청
안녕하세요.통합 강의 자료 요청 드립니다.jis22u@gmail.com감사합니다.
 - 
      
        
    미해결15일간의 빅데이터 파일럿 프로젝트
호스트 불량 문제에 관하여
안녕하세요, 강사님. 강의대로 진행했음에도 불구하고 계속 사진처럼 빨갛게 뜹니다. 제가 처음에 클라우데라 매니저 설치할 때 실수를 반복하여 클러스터를 세 번 정도 설치했다가 삭제하고 마지막으로 한 번 더 제대로 설치했는데, 이전에 설치했던 parcel 혹은 다른 잔여 파일이 남아서 그런 걸까요? parcel을 설치할 때마다 c 디스크 공간이 줄어들었던 걸 보면 잔여 파일이 남은 것 같긴 한데 어떻게 삭제해야 할까요?
 - 
      
        
    해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
BroadCast 지원 가능 메모리 문의
안녕하세요.최근부터 Spark 강의를 듣고있는데 이해하기 쉽게 설명 해주셔서 감사합니다. Broadcast에 대해서 설명을 해주셨는데 Join 대상이 큰 빅데이터 이거나, meta에 큰 데이터를 담을 경우에는 Broadcast를 사용 하지 못한다고 설명해주셨는데요, 혹시 Broadcast에서 지원할 수 있는 최대 메모리가 있을까요? 그리고 Join대상 데이터가 A, B, C, D ID로 이뤄진 TB 사이즈의 테이블이라고 했을 경우 meta에 A, B, C, D ID에 대한 Name을 Brodcast할 경우 위 테이블과 맵핑하여 사용이 가능할까요?
 - 
      
        
    해결됨[2025] SQLD 문제가 어려운 당신을 위한 노랭이 176 문제 풀이
DATA_FORMAT문제
DATE_FORMAT(날짜, 형식)문자열을 지정된 날짜 형식으로 포맷팅하는 함수입니다.이 문제의 경우 DATE_FORMAT 함수는 MySQL에서 지원되며, 반환 값은 문자열이므로 조건이 맞지 않습니다.예: DATE_FORMAT('2022-11-02', '%Y-%m-%d') → '2022-11-02' (문자열) 학습노트에 DATA_FOMAT함수 문자열 조건이 맞지않는다고 써져있는데 3번문항이 '2022-11-02' 이렇게 문자열로 나와야한다는건가요..?그럼3번문항도 ''로 감싸진 문자열이아니니틀렸다는건가요 ?
 - 
      
        
    해결됨[2025] SQLD 문제가 어려운 당신을 위한 노랭이 176 문제 풀이
노랑이 39P 15번문제
FROM (SELECT (LENGTH(C1) -LENGTH(REPLACE(C1,CAR(10))+1 CCFROM TAB1 이부분에서 LENGTH(REPLACE(C1,CAR(10))+1+1이라는게 C1의 ROWNUM1이 >ROWNUM2를 가르키나요? 저는 C1 ROW1을 공백제거해서 2C2ROW2를 공백제거해서 3 해서2+3=5 여기에 +1일해서 6이 정답인줄알았는데+1이 정확히 뭘의미하는지잘모르겠어요ㅜ
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
종자와 비료의 p밸류값
8:42에서 종자의 p밸류값은 7.254117e-10비료의 p밸류값은 1.835039e-03으로 나오는데요.둘다 귀무가설을 기각하여 '토마토수'에 영향을 준다는 사실은 이해를 했습니다. 궁금한 점은 p밸류값이 종자가 비료보다 훨씬 수치가 작은데 그렇다면 '종자'가 '비료'보다 토마토수에 더 영향을 끼친다고 해석해도 괜찮은가요?
 - 
      
        
    미해결15일간의 빅데이터 파일럿 프로젝트
하이브쿼리에서 에러가 나요...
 - 
      
        
    미해결15일간의 빅데이터 파일럿 프로젝트
하이브쿼리에서 에러
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
모델링및평가(분류) 17:30초 지점 질문드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요모델링및평가(분류) 17:30초 지점에서검증용 데이터 분리를 설명하기에 앞서그 위에 문제2가 있는데문제2가 검증용 데이터분리와 연관되나요.즉, 검증용 데이터분리는 문제1에 연장인지 문제2에 해당하는지를 묻습니다.
 - 
      
        
    미해결[핵집] 2025 빅데이터 분석기사(필기)_과목 1~2
강의 교안
안녕하세요 강의 통합 자료 요청 드립니다. anaglory@naver.com 입니다.
 - 
      
        
    미해결15일간의 빅데이터 파일럿 프로젝트
Hbase에 적재된 데이터 확인시 에러
APi오류가 뜹니다..
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
CV error
CV를 사용하였는데 하기와 같은 오류가 등장했습니다 : --> 98 raise InvalidParameterError( 99 f"The {param_name!r} parameter of {caller_name} must be" 100 f" {constraints_str}. Got {param_val!r} instead." InvalidParameterError: The 'scoring' parameter of cross_val_score must be a str among {'f1', 'jaccard_micro', 'positive_likelihood_ratio', 'adjusted_rand_score', 'jaccard_weighted', 'homogeneity_score', 'average_precision', 'precision_weighted', 'rand_score', 'roc_auc_ovr', 'roc_auc_ovr_weighted', 'precision', 'explained_variance', 'jaccard_macro', 'recall_macro', 'f1_macro', 'normalized_mutual_info_score', 'precision_samples', 'neg_root_mean_squared_log_error', 'r2', 'neg_negative_likelihood_ratio', 'precision_micro', 'neg_max_error', 'mutual_info_score', 'precision_macro', 'f1_micro', 'v_measure_score', 'completeness_score', 'neg_mean_squared_error', 'accuracy', 'neg_brier_score', 'recall_samples', 'jaccard_samples', 'neg_root_mean_squared_error', 'neg_mean_absolute_percentage_error', 'jaccard', 'f1_samples', 'matthews_corrcoef', 'neg_median_absolute_error', 'neg_mean_gamma_deviance', 'recall_micro', 'neg_mean_absolute_error', 'neg_log_loss', 'roc_auc_ovo_weighted', 'd2_absolute_error_score', 'roc_auc', 'adjusted_mutual_info_score', 'recall', 'recall_weighted', 'balanced_accuracy', 'f1_weighted', 'top_k_accuracy', 'roc_auc_ovo', 'neg_mean_squared_log_error', 'fowlkes_mallows_score', 'neg_mean_poisson_deviance'}, a callable or None. Got 'f1-macro' instead.제가 작성한 코드도 함께 공유 드립니다 : import pandas as pd train=pd.read_csv('train.csv') test=pd.read_csv('test.csv') train=train.drop('ID', axis=1) test_id=test.pop('ID') print(train.shape, test.shape) print(train.head()) print(test.head()) print(train.info()) print(test.info()) print(train.isnull().sum()) print(test.isnull().sum()) y=train.pop('Segmentation') print(y.info(), y.shape) y=y-1 int_cols=train.select_dtypes(exclude='object').columns train[int_cols].corr() cat_cols=train.select_dtypes(include='object').columns print(train[cat_cols].describe(include='object')) print(test[cat_cols].describe(include='object')) for i in cat_cols: train[i]=train[i].astype('object') test[i]=test[i].astype('object') for i in cat_cols: print(train[i].value_counts()) print(test[i].value_counts()) from sklearn.preprocessing import RobustScaler scaler=RobustScaler() for i in int_cols : train[i]=scaler.fit_transform(train[[i]]) test[i]=scaler.transform(test[[i]]) from sklearn.preprocessing import LabelEncoder le=LabelEncoder() for i in cat_cols: train[i]=le.fit_transform(train[i]) test[i]=le.transform(test[i]) print(train.head()) print(test.head()) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val=train_test_split(train, y, test_size=0.2, random_state=2025) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) from sklearn.ensemble import RandomForestClassifier rf=RandomForestClassifier(n_estimators=50, max_depth=7, random_state=2025) rf.fit(X_tr, y_tr) y_pred_rf=rf.predict(X_val) from lightgbm import LGBMClassifier lgbm=LGBMClassifier(random_state=2025) lgbm.fit(X_tr, y_tr) y_pred_lgbm=lgbm.predict(X_val) from xgboost import XGBClassifier xgb=XGBClassifier(random_state=2025) xgb.fit(X_tr, y_tr) y_pred_xgb=xgb.predict(X_val) y_pred_xgb=y_pred_xgb+1 from sklearn.metrics import f1_score print(f1_score(y_val, y_pred_rf, average='macro')) print(f1_score(y_val, y_pred_lgbm, average='macro')) print(f1_score(y_val, y_pred_xgb, average='macro')) from sklearn.model_selection import cross_val_score scores=cross_val_score(rf, train, target, scoring='f1-macro', cv=5) print(scores) print(scores.mean())
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
XGBClassifier 사용 에러
XGBClassifier 를 사용해서 target을 분류하려고 하는데, 아래와 같은 에러가 나타납니다 : ValueError: Invalid classes inferred from unique values of y. Expected: [0 1 2 3], got [1 2 3 4]LabelEncoder를 사용해서 processing 도 다 했고, LGBMClassifier랑 RandomForestClassifier는 다 잘 돌아가는데 XGBClassifier만 저런 오류가 나타나네요;;; 참고를 위해 지금까지 작성한 코드 하기로 공유 드립니다 : import pandas as pd train=pd.read_csv('train.csv') test=pd.read_csv('test.csv') train=train.drop('ID', axis=1) test_id=test.pop('ID') print(train.shape, test.shape) print(train.head()) print(test.head()) print(train.info()) print(test.info()) print(train.isnull().sum()) print(test.isnull().sum()) y=train.pop('Segmentation') y=y.astype('object') y=y.astype('category') print(y.info(), y.shape) int_cols=train.select_dtypes(exclude='object').columns train[int_cols].corr() cat_cols=train.select_dtypes(include='object').columns print(train[cat_cols].describe(include='object')) print(test[cat_cols].describe(include='object')) for i in cat_cols: train[i]=train[i].astype('object') test[i]=test[i].astype('object') for i in cat_cols: print(train[i].value_counts()) print(test[i].value_counts()) from sklearn.preprocessing import RobustScaler scaler=RobustScaler() for i in int_cols : train[i]=scaler.fit_transform(train[[i]]) test[i]=scaler.transform(test[[i]]) from sklearn.preprocessing import LabelEncoder le=LabelEncoder() for i in cat_cols: train[i]=le.fit_transform(train[i]) test[i]=le.transform(test[i]) print(train.head()) print(test.head()) from sklearn.model_selection import train_test_split X_tr, X_val, y_tr, y_val=train_test_split(train, y, test_size=0.2, random_state=2025) print(X_tr.shape, X_val.shape, y_tr.shape, y_val.shape) y_val=y_val.astype('category') y_tr=y_tr.astype('category') from sklearn.ensemble import RandomForestClassifier rf=RandomForestClassifier(n_estimators=100, max_depth=5, random_state=2025) rf.fit(X_tr, y_tr) y_pred_rf=rf.predict(X_val) from lightgbm import LGBMClassifier lgbm=LGBMClassifier() lgbm.fit(X_tr, y_tr) y_pred_lgbm=lgbm.predict(X_val) from sklearn.metrics import f1_score print(f1_score(y_val, y_pred_rf, average='weighted')) print(f1_score(y_val, y_pred_lgbm, average='weighted')) from xgboost import XGBClassifier xgb=XGBClassifier() xgb.fit(X_tr, y_tr) y_pred_xgb=xgb.predict(X_val)
 - 
      
        
    미해결15일간의 빅데이터 파일럿 프로젝트
파이썬 설치 시 에러
Error: Cannot find a valid baseurl for repo: centos-sclo-rh파이썬 설치 시 계속 에러가 뜹니다.미러설정도 했습니다.
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
model fit 할 때 unknown label 오류
강의에서 나온 내용 중 pd.get_dummies를 제외하고 동일하게 했는데 RandomForestClassifier로 모델링을 하려고 하니 아래와 같은 오류가 나타납니다 : Unknown label type: unknown. Maybe you are trying to fit a classifier, which expects discrete classes on a regression target with continuous values.
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 분리하기 문의드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요라이브러리 및 데이터불러오기 20분지점 주어진 데이터 분리하기 train=pd.read_csv("train.csv")test=pd.read_csv("test.csv") 가 주어졌습니다. 이게 어느 단계에서의 작업이며, 데이터를 왜 분리하는지, 어떤 데이터를 분리하는지에 대해 전반적인 설명이 없어서 지금의 학습과정을 이해할 수 없습니다.train과 test가 주어졌다면 타겟레이블을 생성하는 과정이 아닐까 추측해 봤지만,여기서는 income을 삭제했는데 왜 삭제했는지이해가 안 갑니다. 설명을 바랍니다.
 - 
      
        
    미해결15일간의 빅데이터 파일럿 프로젝트
redis-cli 데이터 적재 확인
HBase에 적재까지는 확인했는데 redis에는 아무것도 안뜹니다...
 - 
      
        
    해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
가독성을 높이는 임시변수명 정하는 방법 문의
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형1 모의고사 풀어보기 6분 38초 지점 문의입니다. 위에서 2번의 a는 “data1-2.csv”를 저장하기 위해 생성한 아무 의미 없는 임시변수인지. 종전에 df로 저정하던 것을 a로 바꾼 이유가 있는지. 어떤 의미를 지니는지. 여기서는 (1)data1-2.csv의 데이터프레임을 의미한다고 보고 5번에 a는 “data1-2.csv”에서 임의로 선택한 ['s1','s2','s3','s4','s5','s6'] 컬럼명만 저장한 즉 (2)data1-2.csv에서 -> ['s1','s2','s3','s4','s5','s6'] 컬럼명만 남긴 결과값을 담은 임시변수명인지. 그럼 (1)과 (2)의 의미가 다른데 임시변수명 a로 동일하여 혼란스러워 가독성 문제도 야기되어 보입니다. 이어서 6번 (3)a=a[cols]에서 변수 a는 5번값 a['s1','s2','s3','s4','s5','s6'] 컬럼명을 담은 a와 무엇이 다른지? 같은 의미가 아닌지. 질문은 원데이터에서 1차 가공 후 2차 데이터를 뽑고 2차 데이터에서 3차 가공 후 3차 데이터를 뽑는다면 처음과 마지막에 저장하는 변수를 동일하게 할 것인가 달리 할 것인가. 무엇이 가독성이 좋은가에 관한 질문 같습니다. 일단 이러든 저러든 상관 없는 것이라면무엇이 가독성이 좋은 변수 저장 방식인지 여쭤봅니다.
 - 
      
        
    미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
cols 변수 문의 드립니다.
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요작업형1 모의고사 풀어보기 6분 지점에서 cols 변수에 대해서도 단순한 임시 변수가 아닌 일부 조건을 담은 변수인 경우에는 구분해서 설명이 되면 좋겠어요. 적어도 자신이 임의로 만든 변수와 외부에서 일정 조건을 포함한 변수를 가져다 쓰는 경우에는 이를 구분해줄 필요가 있습니다. 아니 구분해줘야 한다고 생각을 합니다. 이게 결과값을 저장하기 위해 임시로 폴더명을 정한 건지, 이미 고정된 의미를 가진 파일 명을 포함하고 있는건지 구분을 못하면 개념을 이해 못하고 있는 것이 됩니다. 전자에 해당한다고 판단하여 cols 라는 이름을 따라서 쓰지 않고 임의로 바꿀 경우에는 학습자가 혼란스러워지겠죠.