묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결실습으로 배우는 프로메테우스 - {{ x86-64, arm64 }}
보강 강의 A.11.005 교육 영상 및 자료 문의
질문 답변을 제공하지만, 강의 비용에는 Q&A는 포함되어 있지 않습니다. 다만 실습이 안되거나, 잘못된 내용의 경우는 알려주시면 가능한 빠르게 조치하겠습니다![질문 전 답변]1. 강의에서 다룬 내용과 관련된 질문인가요? [예 | 아니요]2. 인프런의 질문 게시판과 자주 하는 질문에 없는 내용인가요? [예 | 아니요]3. 질문 잘하기 법을 읽어보셨나요? [예 | 아니요](https://www.inflearn.com/blogs/1719)4. 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.[질문 하기]안녕하세요A.11.005.프로메테우스에 미리 지정된 메트릭 이야기 강의를 수강하려고 하였지만, 수강자료나 영상이 따로 없는것인지 빈화면으로 출력됩니다. 해당 강의는 향후 업데이트 되는것일까요?그리고 공지사항에 따로 글이 없없어 같이 질문을 남깁니다.A.11.012. 공개된 프로메테우스 데모 사이트 강의 사이의 A.11.006~A.11.011은 따로 있는것인지 아니면 해당 숫자는 의미가 없는것인지 알 수 있을까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형3 범주형 변수 관련 질문
선생님 안녕하세요!작업형3 로지스틱 회귀모형을 진행할 때범주형 데이터는 C()로 묶어서 하라고 말씀해주셨는데, 강의에서 만약 범주형 데이터인지 헷갈린다면 모두 C()로 묶어서 하라고 하셨던 것으로 기억하는데그렇게하면 에러가 뜨는데 왜일까요??# 2. # 로지스틱 회귀모형 from statsmodels.formula.api import logit # model = logit('Survived ~ C(Gender) + C(SibSp) + C(Parch) + C(Fare)', data=df).fit() --> error # print(df.head()) model = logit('Survived ~ C(Gender) + SibSp + Parch + Fare', data=df).fit() print(model.summary()) # print(model.params['Parch']) # 답 : -0.201Warning: Maximum number of iterations has been exceeded. Current function value: inf Iterations: 35 Makefile:6: recipe for target 'py3_run' failed make: *** [py3_run] Error 1 /usr/local/lib/python3.9/dist-packages/statsmodels/discrete/discrete_model.py:1819: RuntimeWarning: overflow encountered in exp return 1/(1+np.exp(-X)) /usr/local/lib/python3.9/dist-packages/statsmodels/discrete/discrete_model.py:1872: RuntimeWarning: divide by zero encountered in log return np.sum(np.log(self.cdf(q*np.dot(X,params)))) Traceback (most recent call last): File "/goorm/Main.out", line 26, in <module> model = logit('Survived ~ C(Gender) + C(SibSp) + C(Parch) + C(Fare)', data=df).fit() File "/usr/local/lib/python3.9/dist-packages/statsmodels/discrete/discrete_model.py", line 1983, in fit bnryfit = super().fit(start_params=start_params, File "/usr/local/lib/python3.9/dist-packages/statsmodels/discrete/discrete_model.py", line 230, in fit mlefit = super().fit(start_params=start_params, File "/usr/local/lib/python3.9/dist-packages/statsmodels/base/model.py", line 579, in fit Hinv = np.linalg.inv(-retvals['Hessian']) / nobs File "<__array_function__ internals>", line 5, in inv File "/usr/local/lib/python3.9/dist-packages/numpy/linalg/linalg.py", line 545, in inv ainv = _umath_linalg.inv(a, signature=signature, extobj=extobj) File "/usr/local/lib/python3.9/dist-packages/numpy/linalg/linalg.py", line 88, in _raise_linalgerror_singular raise LinAlgError("Singular matrix") numpy.linalg.LinAlgError: Singular matrix
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
random_state 값에 따라서 값이 큰 차이가 나는 경우가 있나여 ?
안녕하세요 2유형을 공부하는 중에 train_test_split의 random_state 값에 따라서 값의 편차가 크게 차이 나는 것을 발견했습니다. # random_state = 1 : 0.8643817947300534 # random_state = 2023 : 0.7804496038326884이 정도로 차이가 나는데 테스트 값에는 크게 영항이 없는 것인가요 ? 다른 코드들은 모두 동일했습니다 ! import pandas as pd import warnings warnings.filterwarnings('ignore') train= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/stroke_/train.csv') test= pd.read_csv('https://raw.githubusercontent.com/Datamanim/datarepo/main/stroke_/test.csv') train = train.drop('id',axis=1) test_id = test.pop('id') y_train = train.pop('stroke') # 결측치 채우기 train['bmi'] = train['bmi'].fillna(train['bmi'].mean()) test['bmi'] = test['bmi'].fillna(train['bmi'].mean()) train['age'] = train['age'].str.replace('*','').astype('int') # StandarScaler # print(train.info()) # train.nunique() cols = ['age','avg_glucose_level', 'bmi'] from sklearn.preprocessing import MinMaxScaler scaler = MinMaxScaler() train[cols] = scaler.fit_transform(train[cols]) test[cols] = scaler.transform(test[cols]) # LabelEncoder from sklearn.preprocessing import LabelEncoder le = LabelEncoder() train['gender'] = le.fit_transform(train[['gender']]) test['gender'] = le.fit_transform(test[['gender']]) # get_dummies train = pd.get_dummies(train) test = pd.get_dummies(test) cols = ['ever_married_No','work_type_Govt_job','Residence_type_Rural','smoking_status_Unknown'] train = train.drop(cols,axis=1) test = test.drop(cols,axis=1) from sklearn.model_selection import train_test_split X_tr,X_val,y_tr,y_val = train_test_split(train,y_train,test_size=0.2,random_state=2023,stratify = y_train) from sklearn.ensemble import RandomForestClassifier model = RandomForestClassifier(random_state=2023,n_estimators = 200) model.fit(X_tr,y_tr) pred_val = model.predict_proba(X_val) from sklearn.metrics import roc_auc_score roc_auc_score(y_val,pred_val[:,1]) # random_state = 1 : 0.8643817947300534 # random_state = 2023 : 0.7804496038326884
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1, 작업형3 답안제출 문의드립니다
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세요안녕하세요 실기 답안 제출 방식이 6회->7회 변경된 것 같습니다.작업형1, 작업형3 답안 제출 방식이 혼동스러워서, 문의드립니다. 제6회 빅데이터분석기사 실기 자격검정 안내제7회 빅데이터분석기사 실기 자격검정 안내 6회에서는 별도의 (답안제출)공간이 없었기 때문에 코드 작성 구간에 print()문으로 답안을 기입했던 것으로 유추가 됩니다. 그렇다면 7회에서는 (풀이용)에 작성하는 코드는 채점에 미반영되며, 오로지 (답안제출)로만 채점반영 한다고 판단하면 될까요? 작업형1, 작업형3 코드 작성 화면에도 <제출> 버튼이 있기에, (풀이용)에 별도로 print()문 작성 및 제출해야 하는 것인지 의문이 들었습니다. 사소하지만, 정확하게 알고 넘어가지 않으면 0점 받을 수도 있는 사안이기에 질문 드립니다. 감사합니다.
-
미해결
groupby 질문
# city와 f4를 기준으로 f5의 평균값을 구한 다음, f5를 기준으로 상위 7개 값을 모두 더해 출력하시오 (소수점 둘째자리까지 출력) # - 데이터셋 : basic1.csv # - 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작 # - File -> Editor Type -> Script import pandas as pd df = pd.read_csv("../input/bigdatacertificationkr/basic1.csv") df.head() # city와 f4별 f5의 평균 값 (멀티인덱스 출력) df = df.groupby(['city', 'f4'])[['f5']].mean() print(df) 여기서는 명확하게 그룹화 한 후에 평균값을 구하라고 명시되어 있어서 mean()을 썼지만 '''''''''''''''''''''''''''''''''''''''''''''''''''''''''''''' # 주어진 데이터에서 상위 10개 국가의 접종률 평균과 하위 10개 국가의 접종률 평균을 구하고, 그 차이를 구해보세요# (단, 100%가 넘는 접종률 제거, 소수 첫째자리까지 출력)# - 데이터셋 : ../input/covid-vaccination-vs-death/covid-vaccination-vs-death_ratio.csv# - 오른쪽 상단 copy&edit 클릭 -> 예상문제 풀이 시작# - File -> Editor Type -> Scriptimport pandas as pddf = pd.read_csv("../input/covid-vaccination-vs-death/covid-vaccination-vs-death_ratio.csv")# print(df.head())df2 = df.groupby('country').max() #시간에 따라 접종률이 점점 올라감df2 = df2.sort_values(by='ratio', ascending = False) 여기서는 왜 groupby 뒤에 max()를 썼는지 이해를 못하겠어요,,그리고 그 밑에 ratio 를 내림차순 정렬하는데 by= 의 의미를 모르겠어요,,보통 내림차순 정렬은 df.sort_values('ratio', ascending=False) 로 하는데,, 여기서는 왜 by 쓴건가요?
-
미해결Java TPC 실전프로젝트 (Java API 활용)
강의 들으면서 잘 안되는 부분이 있어서요~
moquitto 관련 부분 작동이 되는지 확인해봐주실수 있나요?WARNING: An illegal reflective access operation has occurredWARNING: Illegal reflective access by org.eclipse.paho.client.mqttv3.internal.FileLock (file:/C:/eGovFrame-4.0.0/maven/repository/org/eclipse/paho/org.eclipse.paho.client.mqttv3/1.2.5/org.eclipse.paho.client.mqttv3-1.2.5.jar) to method sun.nio.ch.FileLockImpl.release()WARNING: Please consider reporting this to the maintainers of org.eclipse.paho.client.mqttv3.internal.FileLockWARNING: Use --illegal-access=warn to enable warnings of further illegal reflective access operationsWARNING: All illegal access operations will be denied in a future releaseERR0[Ljava.lang.StackTraceElement;@6021afeb이런 에러가 뜨는데 왜그런지 모르겠네요... maven이 아니라 일반 자바프로젝트에서 jar파일로 해봐도 ERR0[Ljava.lang.StackTraceElement;@6021afeb 이 메세지가 계속 뜨네요
-
미해결Django 프레임워크 제대로 배우기 Part.1
구름 IDE에서 django-admin startproject [프로젝트 이름]가 안되요.
django-admin startproject [프로젝트 이름]이 안되서 django-admin startproject [프로젝트 이름] . 같이 . 을 뒤에 붙여주니 강의에서 말씀하신대로 되더라구요. 혹시 이 .의 의미가 뭔지 알 수 있을까요 ?
-
미해결
시계열데이터 주단위 합계
캐글 T1- 22에서 주단위 합계 구할 때df = df.set_index('Date') 이 작업을 해주는 이유가 뭔가요? 이 이후에 df_w = df.resample('W').sum() 리샘플로 주단위 합계를 구하는데 이 전에 셋인덱스가 꼭 필요하더라구요,, 그리고 제 질문 게시글에 T2-4 집값예측 두가지 질문 답변 달았는데 답변이 없으셔서 질문 또 남깁니다,,
-
해결됨자바와 스프링 부트로 생애 최초 서버 만들기, 누구나 쉽게 개발부터 배포까지! [서버 개발 올인원 패키지]
Failed to configure a DataSource: 'url' attribute is not specified and no embedded datasource could be configured.
GET API까지는 잘 하다가 인텔리제이 껐다가 다시 키고 POST API 수업따라 코드 작성 후 서버 실행하니 라는 오류가 발생합니다...
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
기출6회 작업형3 1번문제 질문
선생님 안녕하세요! 기출6회 작업형3에서 질문드립니다.선생님 강의 풀이에서는 ob = df['항암약'].value_counts().sort_index().to_list() ex = [0.1 * 20, 0.05 * 20, 0.15 * 20, 0.7 * 20]from scipy import stats stats.chisquare(ob, ex)이렇게 사용하셨을때 정상적으로 답안이 제출되더라고요. ob값을 제일 쉽게 구하기 위해서, df['항암약'].value_counts().sort_index() 한 뒤,나온 수를 ob값에 넣어두고 풀면 위와 같은 오류가 나오는데 어떻게 풀 수 있을까요? ㅜㅜ
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
넘파이 std,var 와 판다스 var(), std() 문의
강의에 따르면 아래와 같이case1은 서로 같고, case2도 서로 같아야 하는데 다르게 나옵니다. 뭐가 문제일까요..?df를 np.array로 받아서 판다스로 std를 구하는데 변화가 있는건가요..? a = [1,3,5,7,8,9,10,14]df = np.array(a)case1: df.std() = np.std(df,ddof=1)case2: df.std(ddof=0) = np.std(df) df.std() #3.8548np.std(df,ddof=1) #4.1209df.std(ddof=0) #3.8548np.std(df) #3.8548
-
미해결재고시스템으로 알아보는 동시성이슈 해결방법
MySQL named lock과 redis를 사용한 분산락 구현의 차이점
안녕하세요 강사님, 유익한 강의 잘 듣고 있습니다. 😀강의를 듣던 중 분산락을 구현하는 더 좋은 방법이 무엇일지 궁금해서 질문 남깁니다.강의 중에선 MySQL named lock이 트랜잭션 종료 시 수동으로 락을 반환해야한다는 점 때문에 관리가 어렵다는 단점이 있다고 언급하셨는데요, 레디스를 사용했을 때와 비교해서 named lock이 분산락을 구현하는데 있어 더 불리한 점이 있나요? 구글링을 좀 해봤는데 네임드락은 클러스터 환경에서 분산 락 제공이 불가능하고, 추가로 zookeeper 같은 분산락 관리자를 사용해야한다고 하는데.. 잘 이해가 안되어서 여쭤봅니다. 오히려 기존에 MySQL을 사용하고 있다면 네임드락을 사용하는게 레디스 추가 비용 없이 분산 락을 구현할 수 있는 방법이라는 생각이 드는데요, 강사님은 어떻게 생각하시는지 궁금합니다. 참고로 제가 읽었던 분산락 관련 블로그 주소입니다. https://velog.io/@this-is-spear/MySQL-Named-Lock
-
미해결대세는 쿠버네티스 (초급~중급편)
externalTrafficPolicy 질문입니다.
apiVersion: v1 kind: Service metadata: name: svc-2 spec: selector: app: pod ports: - port: 9000 targetPort: 8080 nodePort: 30001 type: NodePort externalTrafficPolicy: Localkind: Service apiVersion: v1 metadata: name: svc-2 namespace: default uid: fb123857-fa60-42d3-ab9c-f03a1a7b6348 resourceVersion: '814181' creationTimestamp: '2023-11-27T12:38:12Z' managedFields: - manager: dashboard operation: Update apiVersion: v1 time: '2023-11-27T12:38:12Z' fieldsType: FieldsV1 fieldsV1: f:spec: f:externalTrafficPolicy: {} f:internalTrafficPolicy: {} f:ports: .: {} k:{"port":9000,"protocol":"TCP"}: .: {} f:nodePort: {} f:port: {} f:protocol: {} f:targetPort: {} f:selector: {} f:sessionAffinity: {} f:type: {} spec: ports: - protocol: TCP port: 9000 targetPort: 8080 nodePort: 30001 selector: app: pod clusterIP: 10.100.174.243 clusterIPs: - 10.100.174.243 type: NodePort sessionAffinity: None externalTrafficPolicy: Local ipFamilies: - IPv4 ipFamilyPolicy: SingleStack internalTrafficPolicy: Cluster status: loadBalancer: {} 워커 2번 주소로 반복적으로 실험해봤는데 워커노드가 2개가 번갈아서 나오는게 정상적인건지 확인차 질문드려봅니다.워커 1번 주소로는 pod-1만 노출이 되고있습니다.워커 2번 주소도 마찬가지로 pod-2만 응답해야되는게 아닌가요?
-
미해결Vue3 완벽 마스터: 기초부터 실전까지 - "기본편"
객체안에 배열있을때
객체안에 배열 안에 있는 값들을 나열하고싶을때는 어떻게 하나요?
-
미해결처음 만난 AWS
클라우드 스토리지 서비스
네이버 마이박스나 구글 드라이브처럼 사진을 저장해놓는 클라우드 스토리지 서비스를 만들고 싶습니다이런 서비스들은 클라우드 컴퓨팅을 운영하는 회사들 특히 대기업들이 많이 하고 있는데요개발이나 운영에 다른 서비스들보다 힘든가요? 왜 스타트업들은 많이 없는지 궁금합니다또 이런 스토리지 서비스를 aws를 통해 제공하면 비용문제가 심각한가요? 일단 서비스 개발과 업그레이드를 하면서 고객을 확보하고 나중에 좀 커졌을때 따로 데이터센터를 만든다고 하면 어떨까요??
-
미해결홍정모의 따라하며 배우는 C++
#include 오류가 발생합니다
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.강의와 같이 작성했는데 오류가 발생합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 분리할때 stratify=y 옵션을 적용하는 방법과 효과 등에 대해
분류 문제에서 학습 데이터와 검증 데이터를 분리할 때 stratify=y 옵션을 사용하는 것을 강조하는 글을 본 적이 있습니다.반드시 사용하는 것이 좋은가요?특히 실기시험에서 효용성이 있는지 궁금합니다.
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
데이터 분리할때 stratify=y 옵션
데이터 분리할때 stratify=y 옵션을 강조하는 글을 본적 있습니다. 이렇게 설정하여야 하는 이유가 있나요?빅분기 실기 시험에서 어떤 효용이 있을까요?
-
미해결이득우의 언리얼 프로그래밍 Part3 - 네트웍 멀티플레이 프레임웍의 이해
Multicast RPC가 연관성으로 돌아간다고 했는데 DistanceSquared가 적용 안되는것 같아요
프로퍼티 복제에서는 Distance에 따라 연관성 따져서 통신 되고 안되고 했던 것 같은데요. Multicast RPC는 멀리 떨어져도 통신 하던데 무엇을 잘못 한 건지 아니면 Multicast RPC는 그냥 AlwaysRelevant 모드인 연관성인지 궁금합니다.
-
해결됨10주완성 C++ 코딩테스트 | 알고리즘 코딩테스트
7-N 붙일 수 있는 최대크기의 종이를쓴다
증명 까진 안되나요 일종의 그리디 인가요