묻고 답해요
148만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
crontab 결과가 market.log 에 저장이 안돼요ㅠ
crontab 결과가 market.log 에 저장이 안돼요ㅠcrontab 내용 오타 없는지도 계속 확인했고, 파일 실행도 직접했을 때는 환율 잘 나와요. 로그 파일도 자동 생성이 됐는데cat market.log 하면 아무것도 뜨지 않네요ㅠ 이유가 뭘까요?
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
rdd, dataframe, spark sql 각각 언제 사용할까요?
제목 그대로입니다. spark로 처리를 할때 rdd, dataframe, spark sql.. 3가지 방식이 있어보이는데 각각 언제 사용하는게 좋을까요..? 방법이 많다보니까 언제 무엇을 사용해야 할 지 해깔리네요
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
코딩 프로그램
수업에서 사용하고 계시는 코딩 프로그램이 무엇인가요?philip@philp해서 화면이 나오는데, 이건 어떤걸 사용해서 해야하는 걸까요?주피터 노트북 얘기해 주셔서 그걸로 하고 있는데, 아예 안되는 것들이 많아서요, 그리고 왔다갔다 하면서 하시던데, 어떤걸 사용하고 계시는 걸까요?
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
색션2 실습 practice 1 질문드립니다.
아래와 같은 양식으로 질문을 남겨주세요 🙂교수님이 작성해주신 코드와 동일하게 작성하였는데 실행이 url링크만 나옵니다 왜그럴까요 ㅠㅠ
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
색션2 실습 Carwling에 practice 1 부분 질문드립니다.
아래와 같은 양식으로 질문을 남겨주세요 🙂수업을 들으시면 이해하기 어려운 부분이 있으면 상세히 질문을 남겨주세요.서로 Tone and Manner 를 지키며, 즐거운 수업 시간을 만들어보아요.실제 기상청 RSS에 가보면 mid-term 다음에 rss3.jsp로 나와있는것을 확인 할 수 있는데아래 교수님이 써주신 코드는 mid-term 다음에 lss3.jsp로 작성해 주셨습니다.# api 주소는 밑에거를 가져와 api_addr = "http://www.kma.go.kr/weather/forecast/mid-term-lss3.jsp" 실행을 해보니 rss3.jsp는 실행이 안되고lss3.jsp는 실행이 됩니다. 왜 그런 것일까요? 문의 드립니다!
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
yahoo finacne 데이터 다운로드 안됩니다.
yahoo finance data 는 "Gold subscription" 부터 가능하다고 합니다. 샘플 자료 공유 해주세요.
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
강의 후반부에 나온 실습 코드는 어디서 받을 수 있나요?
강의 후반부에 나온 lecture25에 대한 코드가 강의 자료에 없는 것 같습니다. 혹시 있다면 어디서 받을 수 있나요?
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
섹션2 가상환경 설치 오류
안녕하세요. 섹션2 실습 진행 중 가상환경 설치 부분부터 막히고 있어 문의드립니다ㅠㅠ 다른 질문들 찾아보고 virtualbox 우분투 환경에서 진행 중입니다. python3 설치 방법, pip 설치 방법을 따로 안내해주시지 않아서 구글링 해서 진행했는데, 자꾸 오류가 나네요.우분투 버전이 24.04.01 입니다. 버전 차이에서 오는 오류일까요? 오류 내용을 보고 구글링해봐도 해결이 어려워 도움 요청합니다ㅠㅠ
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
cdc 기반의 스트리밍 데이터 처리
안녕하세요. 강의 잘듣고 있는 도중에 질문이 있어 글을 작성하게 되었습니다. 현재 cdc 기반으로 iceberg 테이블에 operation(insert, update, delete) 정보들을 적용해서 데이터를 적재하고 있습니다. 이부분까지는 DMS -> kinesis -> lambda-> firehose -> iceberg 순서로 문제없이 적재를 진행하고 있지만 이런형식으로 운영중인 iceberg 테이블 10개를 join 시켜 datamart에 현재는 1주일에 한번씩 전체를 삭제 후 insert하는 비효율 적인 방식으로 마트를 운영중에 있습니다. 이것을 개선시키기 위해 적재중인 iceberg 테이블들에 변경된 데이터들을 5분 10분 단위로 종합해 datamart 테이블에 변경 분에 한해서만 insert, update, delete를 반영해주고자 하는데 강의를 듣다보니 spark streaming을 활용해서 뭔가 해결을 할 수 있을것 같은데 혹시 이부분에 대한 아이디어에 대해서 조언을 구할 수 있을까요? 10개의 테이블에 대해서 10분간 발생한 변경 점들을 종합해 datamart에 반영을 해주려고 하는데 아직 제대로 감이 잡히지 않아서 질문드렸습니다.
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
broadcast 코드 예시 관련 질문
안녕하세요.broadcast 예제코드에서는 이미 aggregation된 dataframe(코드에서 interviwer_count)에 대해서 udf 실행을 위해서 meta 딕셔너리를 broadcast한 다음에 udf를 실행하는 것으로 이해하였는데요.실제 운영하는 상황에서는 이런 경우에는 이미 aggregation이 된 dataframe이 먼저 만들어질 것이기 때문에 meta 딕셔너리를 dataframe으로 만든 후 join하는 것과 큰 차이가 없지 않나요?해당 코드에서 broadcast를 함으로써 다른 방법(join 등)에 비해 얻는 이점이 어떤 건지 궁금합니다.
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
재생에 문제가 생겼어요 라는 메세지가 자꾸 뜨네요
질문은 많으시면 많을수록 좋습니다. 가능한 빠른 답변 드리겠습니다.원활한 답변을 위해, 자세한 질문 사항 부탁드려요 :D
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
수강기간연장가능할까요?
생각보다 진도를 못나가서 혹시 연장이 가능한가요?
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
스트리밍 예제 실행 시 py4j.protocol.Py4JNetworkError 발생
안녕하세요! 강의를 듣고 스트리밍 코드를 주피터 노트북으로 실행하고 netcat을 통해 입력해도 아무것도 출력되지 않아서 도커 안으로 들어가서 spark-submit으로 직접 파이썬 파일로도 실행해봤는데 위 에러가 계속 발생합니다 😬 도커는 수도 권한 주어서 docker run -d -p 9010:8888 -p 4040:4040 --name sparkling --restart always -v /Users/nespola/Desktop/sparkling/sparkdata:/home/jovyan/sparkdata --user root -e NB_GID=100 -e GRANT_SUDO=yes jupyter/all-spark-notebook로 실행했는데 제가 무슨 부분을 놓치고 있는걸까요?
-
해결됨스파크 머신러닝 완벽 가이드 - Part 1
spark 추가 학습 관련 질문
선생님 안녕하세요?좋은 강의 진심으로 감사드립니다. 이전에 질문드렸을때 part2 는 나올 계획이 없다고 답변주셨는데요혹시 spark를 좀 더 심화해서 공부해보고 싶은데 추천해주실 만한 책이나 자료가 있으실까요? 원서도 상관이 없습니다.물론 spark best book top 10 이런식으로 구글링하면 추천도서가 나오긴 하지만.. 혹시 선생님께서 개인적으로 좀 좋은 교재라고 생각하셨던 도서나 자료가 있으신지 궁금합니다.
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
Repartition과 Coalesce에 대해 궁금한 점이 있어요!
안녕하세요 선생님.Repartition & Coalesce 에 강의를 보다가 궁금한 점이 있습니다. 현재 현업에서 Repartition을 수행하여 partition 한 데이터를 한 번 더 repartition 해주고 있는데요..예를들어 파티션 개수가 1개이고 -> 파일 개수가 100개라고 가정할 때, // count 가 100개 -> 1개로 줄이려고 함(ex) hdfs dfs -count {path}/{partition_key}={partition_value}/ 파일 개수를 1개로 줄이고자 할 때는, repartition을 수행하는 것 보단, coalesce 를 수행하여 1개로 줄이는 게 더 적합하다는 (왜냐하면 wide shffling을 진행하기 때문에..?) 이야기 이실까요? 이 부분을 잘 이해를 못 했습니다 ㅠㅠ. 감사합니다!
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
수강 기한 연장이 가능할까요?
안녕하세요 강사님어느새 수강기한이 얼마 남지 않아서..혹시 연장할 수 있는 방법이 있는지 문의드립니다.좋은 강의 감사드립니다!
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
강의 연장 문의
안녕하세요, 수강 기한이 얼마 안 남았는데, 기간 연장이 가능할까요?미리 감사드립니다
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
wb.json , pandas.json 파일을 jupyter notebook 환경에서 read 가 안됩니다..ㅠ
현재 AWS Glue 4.0 docker 이미지를 내려 받아 pyspark 커널에서 사용 중이며 섹션 8 판다스 환경에서 airbnb..csv, analyzed_americsv_2023.csv 파일은 문제 없이 잘 열리는데 Json 파일만 열리지 않습니다..ㅠ Renderer Failure: wb.jsonUnexpected non-whitespace character after JSON at position 6858 (line 2 column 1) file_name = "wb.json" df = sqlContext.read.json(file_name) df.printSchema pyspark.sql.utils.AnalysisException: Path does not exist: file:/home/glue_user/workspace/wb.json __ file_name = "pandas.json" df = sqlContext.read.json(file_name) df.printSchema return_value = get_return_value( File "/home/glue_user/spark/python/pyspark/sql/utils.py", line 196, in deco raise converted from None pyspark.sql.utils.AnalysisException: Path does not exist: file:/home/glue_user/workspace/pandas.json pandas.json 윈도우 로컬 환경에서 열면두번째 행에서 첫번째 에서 빨간줄이 나옵니다 혹시 각 딕셔너리를 담는 변수는 따로 필요가 없을까요?
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
pyspark 현업에서 로컬 개발 및 운영
안녕하세요. 좋은 강의 감사합니다.scala를 이용하여 spark streaming을 배포할 때, 주로 shadow jar 파일을 생성하고 해당 파일을 이용하여 배포하는 걸로 알고 있는데, pyspark 같은 경우는 현업에서 어떤 방법으로 배포를 하고 있을까요? 1. 강의에서 소개해준 것처럼 파일 단위로 배포를 하는지 다른 방법으로 배포를 하는지 궁금합니다. 2. 강의에서 도커를 이용하여 빠르게 개발 및 배포하는 방법을 소개해주셨는데, 현업 로컬 환경에서도 주로 도커를 이용하여 개발을 하고 계실까요? 감사합니다.
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
Spark Structured Streaming Gracefully shutdown 질문
안녕하세요. 좋은 강의 재밌게 수강하고 있습니다.Spark Structured Streaming Fault Tolerance 강의에서 아래와 같이 gracefully 하게 스트리밍을 종료할 수 있다고 말씀 주신 부분에서 질문이 있습니다..config("spark.streaming.stopGracefullyOnShutdown", "true")현재 업무에서 Spark Streaming을 사용했을 때 아래 코드와 같이 파라미터에 명확하게 stopGracefully 이 존재하여서 이를 이용하여 스트리밍을 안전하게 종료했습니다.def stop(stopSparkContext: Boolean, stopGracefully: Boolean): Unit 하지만, Spark Strucutred Streaming으로 전환했을 때 이러한 파라미터가 존재하지 않아서, 아래 링크를 참고하여 직접 구현하였습니다. https://stackoverflow.com/questions/45717433/stop-structured-streaming-query-gracefully 강의에서 알려주신 것처럼 아래와 같이 사용하면 동일하게 Structured Streaming도 Gracefully하게 종료할 수 있다고 이해하면 될까요? .config("spark.streaming.stopGracefullyOnShutdown", "true")Gracefully 스트리밍을 종료 한다라는 의미가 현재 처리 중인 마이크로 배치까지는 모두 다 처리 및 체크포인트 작성까지 한 후 스트리밍 종료로 이해하면 될까요?마지막으로, DR 같이 스트리밍 종료가 아닌 클러스터가 모두 비정상적으로 종료되었을 경우 Gracefully 옵션이 적용되지 않는 케이스를 경험 했는데, 이런한 케이스는 현업에서 주로 어떻게 대처하고 있을까요?(예를 들어 체크 포인트 등이 불일치하게 스트리밍이 종료)감사합니다.