묻고 답해요
164만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결실리콘밸리 리더가 알려주는 빅데이터 처리 (Spark)
실습 code 강의자료 문의
친절한 설명과 함께 강의자료를 공유해 주셔서 감사합니다.그런데 현재 강의자료로 올려주신 pdf 외에, 실습에 사용하신 code도 공유해주실 수 있을까요~?수업 중, 내용흐름을 이해하는데 코드를 별도로 볼 수 있다면 큰 도움이 될 것 같습니다.현재는 실습 중 사용된 변수가 어디에서 정의되었는지, 다시 확인하려면 강의를 돌려보면서 확인해야하는 애로사항이 있습니다.
-
해결됨실리콘밸리 리더가 알려주는 빅데이터 처리 (Spark)
강의자료 다운로드 문의
제게 꼭 필요한 강의를 알기쉽게 강의해 주셔서 감사합니다.다름아니라, 강의 중에 교수님께서 강의자료를 올려놓았으니 다운로드 받으라고 하시는데, 어디에서 강의자료를 다운로드 받을 수 있을까요?
-
해결됨Kafka & Spark 활용한 Realtime Datalake
Ansible과 NAT 환경에서 발생 가능한 root 권한 노출 리스크에 대한 질문
안녕하세요, 선생님. 이전 강의에서 저희는 외부에서 직접적으로 private subnet에 접근하지 못하도록 하기 위해 NAT 인스턴스를 생성하고, outbound 트래픽 규칙도 사용자 지정으로 변경하였습니다. 이를 통해 NAT 인스턴스가 외부 접근을 차단하는 일종의 방화벽 역할을 한다고 이해하고 있습니다. 이 구조는 다음과 같이 2단계 방화벽을 형성한다고 생각됩니다:1. 클라이언트에서 NAT로의 접근2. NAT에서 private 서버로의 접근그런데 Ansible에서 ansible_ssh_private_key_file 옵션만으로 .pem 파일을 지정하면 별도의 계정 정보 없이도 private 서버에 접근이 가능하다는 점이 조금 놀라웠습니다. 아마도 ansible.cfg나 inventory에 특정 설정이 추가되어 있어 가능한 것 같긴 하지만, 실제로 .pem만 존재해도 root 권한 접근까지 이어질 수 있다는 점에서 우려가 되었습니다. 특히, 악의적인 사용자가 만약 public NAT 인스턴스에 접근할 수 있는 상황이라면, ansible-playbook 파일과 become: yes 옵션을 활용해 손쉽게 private 서버의 root 권한을 획득할 수 있을 것으로 보입니다. 이런 보안 리스크를 줄이기 위해서는 어떤 식의 아키텍처 개선이나 운영 전략이 필요할지, 보안적으로 권장되는 방식이 있다면 조언을 듣고 싶습니다.항상 감사합니다.
-
해결됨Kafka & Spark 활용한 Realtime Datalake
Ansibleplaybookclone&playbook실행 안됩니다
pdf 3-7 20페이지에git clone https://github.com/hjkim-sun/datalake-ansible-playbook-season1.gitansible_playbooks 실행 하면username과 pw를 입력하라고 나오는데 어떻게 해야되는건가요?
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
데이터 로드 및 로딩 된 파일 데이터 목록 조회 방
안녕하세요! 기본적인 질문인데..titanic_train.csv 로드하는 방법 중 아래 과정중 마지막 과정 다음으로 어떻게 해야하나요? 영상 상 별다른 버튼 클릭(Create Table with UI나 Create Table in Notebook) 및 저장 없이 진행 된 듯 보이는데, 그냥 두 번째 캡처본의 'Create Table in Notebook' 누르니까 코드가 실행 되며 display, show등 작동은 합니다. 기본 디폴트 데이터 경로가 /FileStore/tables/ 인 건가요?? 로드한 titani_train.csv 이런 데이터 목록을 어디에서 볼 수 있을 지도 여쭙니다. 좌측 메뉴에서 Catalog 누르면 캡처본처럼 Data라는게 뜨는데 아무런 테이블(데이터)가 없다고 뜨네요.. 근데 코드는 실행이 되니 어찌 된 건 지 잘 모르겠습니다ㅜㅡㅜ
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
클러스터 버전 설정
강의에서 새로운 클러스터 생성할 때 10.0 ML (includes Apache Spark 3.2.0, Scala 2.12) 로 설정하시잖아요..!아무래도 강의 생성 시기랑 연도 차이가 나다보니 지금은 해당 버전은 안 뜨는데 10.4 LTS ML로 해도 무방할까요?? 아래 스크린샷처럼 more 버튼도 없어서 구버전 생성에 어려움을 겪고 있습니다ㅜ (UI가 많이 다르지만, community.cloud.databricks.com 으로 접속한 페이지 맞습니다...!)
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
instacart market basket analysis
안녕하세요. 강사님 수업 잘 듣고있습니다.캐글에서 위의 데이터셋을 찾을 수 없는데 혹시 해당 데이터셋을 가지고 있으실까요?가지고 계시다면 공유를 받아볼 수 있을까요?
-
해결됨따라하며 배우는 실전 스파크 Part1
anaconda 설치
강의 섹션5 실습부분을 진행하려고 합니다.Anaconda Prompt 가 나오는데 이전 강의에서 아나콘다 설치에 대한 내용이 없어 문의 드립니다.알아서 설치하고 강의 진행하면 되는 걸까요?
-
미해결Kafka & Spark 활용한 Realtime Datalake
강의안 문제
강의안이 다 안 올라와 있는 것 같습니다
-
미해결Kafka & Spark 활용한 Realtime Datalake
데이터레이크 구성요소
영상 화면이 안나오는것 같습니다!!
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
BroadCast 지원 가능 메모리 문의
안녕하세요.최근부터 Spark 강의를 듣고있는데 이해하기 쉽게 설명 해주셔서 감사합니다. Broadcast에 대해서 설명을 해주셨는데 Join 대상이 큰 빅데이터 이거나, meta에 큰 데이터를 담을 경우에는 Broadcast를 사용 하지 못한다고 설명해주셨는데요, 혹시 Broadcast에서 지원할 수 있는 최대 메모리가 있을까요? 그리고 Join대상 데이터가 A, B, C, D ID로 이뤄진 TB 사이즈의 테이블이라고 했을 경우 meta에 A, B, C, D ID에 대한 Name을 Brodcast할 경우 위 테이블과 맵핑하여 사용이 가능할까요?
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
crontab 결과가 market.log 에 저장이 안돼요ㅠ
crontab 결과가 market.log 에 저장이 안돼요ㅠcrontab 내용 오타 없는지도 계속 확인했고, 파일 실행도 직접했을 때는 환율 잘 나와요. 로그 파일도 자동 생성이 됐는데cat market.log 하면 아무것도 뜨지 않네요ㅠ 이유가 뭘까요?
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
rdd, dataframe, spark sql 각각 언제 사용할까요?
제목 그대로입니다. spark로 처리를 할때 rdd, dataframe, spark sql.. 3가지 방식이 있어보이는데 각각 언제 사용하는게 좋을까요..? 방법이 많다보니까 언제 무엇을 사용해야 할 지 해깔리네요
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
코딩 프로그램
수업에서 사용하고 계시는 코딩 프로그램이 무엇인가요?philip@philp해서 화면이 나오는데, 이건 어떤걸 사용해서 해야하는 걸까요?주피터 노트북 얘기해 주셔서 그걸로 하고 있는데, 아예 안되는 것들이 많아서요, 그리고 왔다갔다 하면서 하시던데, 어떤걸 사용하고 계시는 걸까요?
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
색션2 실습 practice 1 질문드립니다.
아래와 같은 양식으로 질문을 남겨주세요 🙂교수님이 작성해주신 코드와 동일하게 작성하였는데 실행이 url링크만 나옵니다 왜그럴까요 ㅠㅠ
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
색션2 실습 Carwling에 practice 1 부분 질문드립니다.
아래와 같은 양식으로 질문을 남겨주세요 🙂수업을 들으시면 이해하기 어려운 부분이 있으면 상세히 질문을 남겨주세요.서로 Tone and Manner 를 지키며, 즐거운 수업 시간을 만들어보아요.실제 기상청 RSS에 가보면 mid-term 다음에 rss3.jsp로 나와있는것을 확인 할 수 있는데아래 교수님이 써주신 코드는 mid-term 다음에 lss3.jsp로 작성해 주셨습니다.# api 주소는 밑에거를 가져와 api_addr = "http://www.kma.go.kr/weather/forecast/mid-term-lss3.jsp" 실행을 해보니 rss3.jsp는 실행이 안되고lss3.jsp는 실행이 됩니다. 왜 그런 것일까요? 문의 드립니다!
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
yahoo finacne 데이터 다운로드 안됩니다.
yahoo finance data 는 "Gold subscription" 부터 가능하다고 합니다. 샘플 자료 공유 해주세요.
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
강의 후반부에 나온 실습 코드는 어디서 받을 수 있나요?
강의 후반부에 나온 lecture25에 대한 코드가 강의 자료에 없는 것 같습니다. 혹시 있다면 어디서 받을 수 있나요?
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
섹션2 가상환경 설치 오류
안녕하세요. 섹션2 실습 진행 중 가상환경 설치 부분부터 막히고 있어 문의드립니다ㅠㅠ 다른 질문들 찾아보고 virtualbox 우분투 환경에서 진행 중입니다. python3 설치 방법, pip 설치 방법을 따로 안내해주시지 않아서 구글링 해서 진행했는데, 자꾸 오류가 나네요.우분투 버전이 24.04.01 입니다. 버전 차이에서 오는 오류일까요? 오류 내용을 보고 구글링해봐도 해결이 어려워 도움 요청합니다ㅠㅠ
-
해결됨실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
cdc 기반의 스트리밍 데이터 처리
안녕하세요. 강의 잘듣고 있는 도중에 질문이 있어 글을 작성하게 되었습니다. 현재 cdc 기반으로 iceberg 테이블에 operation(insert, update, delete) 정보들을 적용해서 데이터를 적재하고 있습니다. 이부분까지는 DMS -> kinesis -> lambda-> firehose -> iceberg 순서로 문제없이 적재를 진행하고 있지만 이런형식으로 운영중인 iceberg 테이블 10개를 join 시켜 datamart에 현재는 1주일에 한번씩 전체를 삭제 후 insert하는 비효율 적인 방식으로 마트를 운영중에 있습니다. 이것을 개선시키기 위해 적재중인 iceberg 테이블들에 변경된 데이터들을 5분 10분 단위로 종합해 datamart 테이블에 변경 분에 한해서만 insert, update, delete를 반영해주고자 하는데 강의를 듣다보니 spark streaming을 활용해서 뭔가 해결을 할 수 있을것 같은데 혹시 이부분에 대한 아이디어에 대해서 조언을 구할 수 있을까요? 10개의 테이블에 대해서 10분간 발생한 변경 점들을 종합해 datamart에 반영을 해주려고 하는데 아직 제대로 감이 잡히지 않아서 질문드렸습니다.