묻고 답해요
160만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
[교재문의]p.192쪽 풀이 중 궁금점
안녕하세요 제가 책보면서 공부중인데 코딩을 할 때 아래와 같이 코딩을 하다보니 에러가 뜨더라구요result = df['차이'].min()에서 ['차이'] 이거를 빼고 하니까 되던데... 컬럼명을 넣고 안넣고에서 어떤 차이가 있는건가요..? import pandas as pd df = pd.read_csv("delivery_time.csv") # df.info() df['실제도착시간']=pd.to_datetime(df['실제도착시간']) df['주문시간']=pd.to_datetime(df['주문시간']) # df.info() df['차이']=(df['실제도착시간']-df['주문시간']).dt.total_seconds()/60 df = df.groupby('앱종류')['차이'].mean() df result = df['차이'].min() print(result)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의고사 시험환경
시험환경으로 이동하면 실제 체험용 문제가 나오는데요, 문제 파일이 data/employee_performance.csv 인데 어디로 들어가야 하나요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
빅분기 11회도 10회차랑 동일하게 준비하면 될까요??
10회 때랑 강의목록은 달라지지 않은 것 같은데 똑같이 준비하면 될까요??
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
제출버튼
학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!질문과 관련된 영상 위치를 알려주면 더 빠르게 답변할 수 있어요먼저 유사한 질문이 있었는지 검색해보세제출버튼이 없습니다. 어떻게 해야하나요
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
자주 활용되는 파이썬 예제중 평균 함수에 대한 질문입니다
올려주신 원본 코랩 자료에서 시행할 때는 문제없이 나오는데 사본으로 직접 제가 작성하였을 때는 다음과 같은 오류 메시지가 뜹니다. 수업을 그대로 따라가면서 작성하였는데, 혹시 추가로 제가 빠트린 부분이 있는 건가요?
-
미해결[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
18. 작업형1 모의문제 1 문제 3번에서
이런식으로 133 아래에 지저분한 수식이 붙는데 왜 그런걸까요?
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
교재 작업형1 연습문제 24,25번
24번# 사용자별로 주문 거리의 합계와 평균 계산 df_distance = df.groupby('user')['거리'].sum()# 주문 거리의 합계가 50km 이상인 사용자만 필터링 cond = df_distance >= 50 df_distance = df_distance[cond] 25번# 1회 이하 주문 제외cond1 = time_interval>0m = time_interval[cond1].mean()선생님, 위 두 문제에서 df_distance 와 time_interval은 단순히 변수인가요? 그 뒤에 cond를 붙여준 것의 의미를 모르겠어요..변수에 변수를 합한 건가요? 교재 예시에 많이 나오는 df= df[cond] 코드는 cond변수 값을 df파일에 저장한다는 건가요? cond는 조건식에서만 사용하는 거죠? 그리고 25번 문제에서 시간간격이 1일 이하인 사용자 제외니까 time_intreval >0이 아니라 1인데 오류인거 같습니다.
-
미해결[2025년 최신 기출 반영] 빅데이터 분석 기사 실기 시험 100% 합격 ! 기출 문제의 패턴이 보인다 !
링크가안보여요 어디에올라와있는거죠대체 ? 구글코랩파일이요
구글코랩파일이 안보여요 링크가 어디있죠
-
미해결실리콘밸리 리더가 알려주는 빅데이터 처리 (Spark)
Free Edition을 사용하는 방법
CSV, PARQUET, DELTA 파일 성능 비교하고 DELTA의 Time Travel 사용하기Pandas vs. Spark 100M & 1B 레코드 처리 성능 비교하기Shuffling JOIN과 Broadcast JOIN 학습하기이 3가지 실습과정 영상을 올ㄹㅕ주시면 좋겠습니다. 예제를 통한 판다스와 스파크 성능 비교부터 실습을 어떻게 진행해야할지 막막하네요.
-
해결됨[2025] SQLD 문제가 어려운 당신을 위한 노랭이 176 문제 풀이
실전문제3회 41번문제
분기별 매출 실적과 전년 동기 대비 증감률 문제요1번이나 3번이나 동일한 결과값 아닌가요?:실제 두개값 minus하니까 일치하는걸로 나오던데요.. 1번보기:SELECT YEAR, QUARTER, AMOUNT,LAG(AMOUNT) OVER (PARTITION BY QUARTER ORDER BY YEAR) as PREV_AMOUNT,ROUND((AMOUNT - LAG(AMOUNT) OVER (PARTITION BY QUARTER ORDER BY YEAR)) /LAG(AMOUNT) OVER (PARTITION BY QUARTER ORDER BY YEAR) * 100, 2) as GROWTH_RATEfrom SALES; 3번보기:SELECT YEAR, QUARTER, AMOUNT,LAG(AMOUNT, 4) OVER (ORDER BY YEAR, QUARTER) as PREV_AMOUNT,ROUND((AMOUNT - LAG(AMOUNT, 4) OVER (ORDER BY YEAR, QUARTER)) /LAG(AMOUNT, 4) OVER (ORDER BY YEAR, QUARTER) * 100, 2) as GROWTH_RATEFROM SALES;
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
작업형1 모의문제1 - 2번
지문에선 결측치가 30%이상이 되는 컬럼을 찾으라고 했는데, 강사님께서는 len(df)*0.3 을 하셨더라구요. 이건 전체 행 수의 30%를 계산한거 아닌가요?df.isnull().sum() / len(df) * 100 을 통해 나온 값 중에서 30% 이상인 컬럼들을 찾아야하는거 아닌지 여쭤봅니다.지문에선 결측치가 있는 컬럼은 최빈값으로 대체하라고 했는데, 어떤 컬럼의 최빈값이라는게 안나와있기 때문에 df['f3'] == 'gold')이렇게 f3컬럼이라고 지정하는게 맞는지, 아니면 30%미만, 20%이상인 결측치가 있는 컬럼은 '해당 컬럼의' 최빈값으로 대체하고 라고 이해하는게 맞는지 여쭤봅니다!
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
리스트 출력 시 순서 문제
인덱스와 문자의 순서가 잘못 출력되는 것 같아요... 원인이 뭘까요ㅠㅠㅠ?
-
해결됨실리콘밸리 엔지니어와 함께하는 Apache Flink
Flink 2.0 버전부터 스칼라를 더이상 지원하지 않네요
"3. Apache Flink와 Apache Spark의 차이점" 강의에서 Scala와 Java를 메인으로 지원한다고 하셨지만 Flink 1.17에서 deprecated 되었고 2.0부터는 더이상 지원하지 않네요. Scala 유저로서 안타깝습니다 ㅠ 강사님은 현업에서 자바로 사용하고 계신가요? 참고: https://cwiki.apache.org/confluence/display/FLINK/FLIP-265+Deprecate+and+remove+Scala+API+support
-
미해결[2025] SQLD 문제가 어려운 당신을 위한 노랭이 176 문제 풀이
실전문제 3회차 18번
부서별 급여가 가장 높은 직원을 조회하는 SQL문 문제에서 보기중에 아래 2개가 동일한것 같은데 1번보기랑 3번보기랑 같은거 같은데 왜 답이 3번이예요? 1번 쿼리에 문제가있나요?1. SELECT * FROM EMPLOYEE WHERE (DEPT_ID, SALARY) IN (SELECT DEPT_ID, MAX(SALARY) FROM EMPLOYEE GROUP BY DEPT_ID); 3.SELECT * FROM EMPLOYEE E WHERE SALARY = (SELECT MAX(SALARY) FROM EMPLOYEE WHERE DEPT_ID = E.DEPT_ID)
-
해결됨[퇴근후딴짓] 빅데이터 분석기사 실기 (작업형1,2,3)
체험환경 작업형3 소문제 3번 정규성 검정
체험환경 작업형3의 3번 소문제에 '독립표본 t-검정을 수행하고 p-값을 구하여라.' 라고 되어있으므로, a) 'stats.ttest_ind'를 사용하는 것을 이해하였고,b) 소문제 1~2번의 문제 흐름상 '등분산성을 가진다.'라고 가정되어'equal_var=True'(dafault 값이지만)를 입력하신 것도 이해하였습니다. 궁금한 점은,제가 문제 풀이 후에, 궁금해서 아래와 같이 shapiro 정규성 검정과 levene 등분산성 검정을 해보았는데,shapiro 정규성 검정에서 정상 그룹 데이터가 정규성을 따르지 않는 결과가 나왔습니다. 그렇다면 원래는 비모수 검정(만위트니유)를 해야한다고 생각되는데, 그냥 문제에서 요구한 대로 ttest_ind를 사용해서 푸는 게 맞는건지 헷갈립니다. [실행했던 코드]a = df.loc[df['Classification'] == 1]['log'] b = df.loc[df['Classification'] == 2]['log'] print(stats.shapiro(a)) print(stats.shapiro(b)) print(stats.levene(a,b)) print(stats.ttest_ind(a, b))[출력 값]ShapiroResult(statistic=np.float64(0.9521376332731428), pvalue=np.float64(0.03589547584091299)) ShapiroResult(statistic=np.float64(0.9801637075675661), pvalue=np.float64(0.3916017054819772)) LeveneResult(statistic=np.float64(1.8175868256604175), pvalue=np.float64(0.18027345425360713)) TtestResult(statistic=np.float64(-3.0286077921788532), pvalue=np.float64(0.003039226943143319), df=np.float64(114.0))
-
미해결실리콘밸리 엔지니어와 함께하는 Apache Flink
Data Sink Topology 질문 있습니다
이 부분도 이해가 잘 안 가서 추가로 질문드려요. Sink 과정을 자세히 쪼개보면 SinkWriter, Committer, Global Committer로 나눌 수 있는데, SinkWriter로 로컬에 데이터를 임시로 쓰면 Committer가 커밋을 수행한다는 내용이 맞나요? 그리고 Topology 용어도 궁금한데요 Topology가 네트워크 시간에 노드들을 연결해놓은 방식이라고 배웠었는데요 여기서 Topology가 어떤 뜻으로 사용되나요? (강의 덕분에 단어도 많이 알아가네요) 마지막으로 flink 문서를 찾아보니 SinkWriter, Committer, Global Committer 클래스가 삭제 되었다고 나오는데요, 버전업이 되면서 이제는 이런 방식으로 동작하지 않는 건가요? 답변 미리 감사드립니다.. 🙌 저는 오늘 이까지 들으려구요. 휴가 잘 다녀오세요!!!
-
미해결모두의 한국어 텍스트 분석과 자연어처리 with 파이썬
Component 수는 어떻게 지정을 해야 할까요?
LDA나 NMF 에서 component 수를 어떤 것을 참고해서 최적의 수를 찾을 수 있을까요?군집에서 엘보우플롯이나, 실루엣 스코어를 참고했는데, 혹시 이렇게 참고할 만한 것이 있을까 궁금합니다.
-
해결됨실리콘밸리 엔지니어와 함께하는 Apache Flink
State Management & Fault Tolerance 부분 설명이 하나도 이해가 안 돼요
안녕하세요 강사님, 강의 중 이 페이지가 도저히 이해가 안 돼서 추가적으로 (되도록이면 한글로) 풀어서 설명 부탁드려도 될까요? 질문드릴 내용과 제가 이해한게 맞는지 확인하는 부분 두 부분으로 나눠서 작성해두었습니다. [질문드릴 내용]First Class Support에 대해서 궁금합니다. 왜 First Class라는 용어를 사용하나요?Periodic checkpointing, Robust의 차이가 궁금합니다. 유추상.. Periodic checkpointing은 주기적으로 체크포인트를 지정해서 체크포인트 기준으로 다시 동작시키기 때문에 중복 처리를 할 수 있는데, Flink는 exactly once를 지원하기 때문에 무조건 한 번만 실행함을 보장하는 건가요?Backpressure는 데이터가 많이 들어와 병목이 생길 때 처리인데, Spark는 지원 범위가 좁고 Flink는 세밀하게 지원 가능한건가요?추가로 fine-grained 용어가 무슨 뜻인지도 궁금합니다. [제가 이해한게 맞는지 확인 부탁드려요]maintain state across events: flink가 event 기반으로 동작하고, 이벤트간의 상태를 알고 있다는 뜻인가요?Spark이 Standalone하고 윈도우 사이에 연결이 없다: 추측상 데이터를 윈도우 단위로 잘라서 처리하고, 윈도우끼리 상태를 공유하지 않는다는 뜻 맞을까요? [설명 스크립트]Apache Flinke Better Fault Tolerancee-Consistency를 가지고요.Across Events 간의 maintain 합니다.예를 들어서 유저 간의 세션 데이터를 다 계속 모아서 사용할 수가 있어요.그에 반해서 Spark는 심플하고요.Standalone, 윈도우 간에 연결하는 게 없고요.Light, Stateful, Workload라고 생각하시면 됩니다.스파크는 스테이트풀 스트림을 베이직 서포트만 한다 고 하는 거고요.Flink는 Across 이벤트별로 스테이트를 메인테인하기 때문에 First Class Support로 시작할 때부터 그런 식으로 만들었습니다.체크포인트 측면에서도 Spark는 Periodically 체크 포인트를 하지만 Flink는 Robust, Exactly Once 체크포인트를 지원해서 아 주 작은,very low한 오버헤드를 가지고 있습니다Backpressure 같은 경우는 데이터가 엄청나게 많이 들어오잖아요 그럴 경우에 어떻게 핸들할 건가 기본적인 것만 스파크는 서 포트를 하구요 fine-grained 하지않습니다.그에 반해서 이제 Flink 같은 경우에는 백프레셔 메카니즘이 기본적으로 빌트인되어있기 때문에 Smooth flow control과 stability가 같이 들어 있습니다.
-
미해결데이터분석 준전문가(ADsP) 자격증 대비
Sampling Bias
Sampling Bias 가 표본편의라고 나오는데 맞는 말인지요? 표본편향 아닌가요? 반복적으로 편의라고 나오는데 편향이 아니고 편의라고 하는 이유를 알고 싶어요.
-
해결됨확률과 통계 101
표본의 분위수 구하는 방법
표본의 분위수를 구하는 방법에 대한 설명이 조금 헷갈렸습니다.데이터를 오름차순으로 정렬하고,'α 분위수는 α * 100% 위치의 값이다'라고 하셨는데,'위치'가 단순히 데이터의 개수로 따져서n * α 를 가리키는 건지,아니면 데이터 범위 안에서{x_(n) - x_(1)} * α + x_(1) 에 가까운 값의 sub index를 찾고자 하는 건지 혼동됩니다.