묻고 답해요
130만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
[섹션5] 실습 2 수업에서 S3 advanced assignment 질문 드립니다.
안녕하세요, 선생님. 이 글의 제목에 관련된 질문을 드리고 싶습니다.저는 코딩을 할 때 주로 Windows 환경에서 해왔고 그래선지 Python code를 실행시킬 때 script 실행을 하는 경험이 없었고 함수 지향 프로그래밍을 하면서 네임 내장 함수를 써가며 script 실행 시 argument를 사용하게 끔 코딩해본 적이 없습니다.본 강의에서 앞선 수업 때 이런 내용에 대해 다뤄주신 적이 있다면 모르겠지만, 그게 아니다보니 선생님께서 이 수업에서 내주신 숙제가 조금 overtraining처럼 느껴집니다. 관련 자료를 뒤져가며 공부하는게 도움이 될 수도 있겠지만 사정이 있어서 빠르게 본 강의를 마스터하고 싶은 마음이 큽니다. 선생님께서 답안을 주시면 그것가지고 공부를 하고 싶습니다. 허락해주신다면요.. 감사합니다.
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
강의 자료
안녕하세요, 선생님.지금 섹션2 Data Acquisition[Advanced] 파트를 듣고 있는데수업에서 보여주시는 자료들을 수강생들이 구할 수는 없는지 궁금합니다. 수업 중에 선생님께서 자료에 있는 링크를 누르시면서 "여기 링크를 누르셔서 이 페이지를 확인해보시면~" 와 같은 흐름으로 이어지는 부분이 있는데, 이렇다 보니 자료가 더욱 필요하다고 느껴져 여쭤봅니다.그리고 섹션7에 있는 [실습 및 과제 데이터]를 다운받아서 압축 해제를 시도해보니 10%에서 멈추는 현상이 있습니다. 사용하는 압축해제 프로그램은 7zip입니다. 현재 사용하는 Laptop이 기업용이라 라이센스 문제가 생기지 않는 프로그램을 쓰고 있습니다. 프로그램 문제보단 압축파일 문제이지 않을까 싶은데 확인 부탁드립니다.감사합니다.
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
본 강의에서 사용되는 OS
안녕하세요, 선생님. 강의에서 사용되는 Linux를 혹시 Docker 위에서 돌려도 괜찮을까요? 제가 Docker 사용에 능숙하지는 못해서 GUI환경은 구축하지 못했는데 혹시 CLI로만 수업을 따라간다고 했을 때 문제가 생기는 점이 있을지 궁금합니다.
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
EMR 환경시 분산처리가능하게하는 conf 설정 문의
EMR 환경에서 spark_app = SparkSession.builder.appName(app_name).getOrCreate() 하면 자동으로 분산처리가 되나요? 아니면 conf를 따로해줘야하는지요? 따로 할경우는 어떻게 conf를 잡으면 될까요?
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
word.txt 파일이 없습니다. 추가 부탁드립니다. ㅎ
질문은 많으시면 많을수록 좋습니다. 가능한 빠른 답변 드리겠습니다.원활한 답변을 위해, 자세한 질문 사항 부탁드려요 :D
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
Spark를 이용하여 binary file -> parquet, csv 변환 가능여부
안녕하세요.mssql에서 벌크 백업한 binary 파일을 spark를 이용하여 parquet, csv 등 파일 변환이 가능한지.. 질문 드립니다. 감사합니다.
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
SPARK 2 강의 오픈
안녕하세요.SPARK 2 강의는 언제 오픈할 예정일까요?
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
Spark ML 모델 서빙
안녕하세요. 강의 수강 하면서 많은 도움이 되었습니다.실무에서 Spark ML를 통해 학습한 모델을 저장 후 서빙할 때 어떤 방식으로 진행하는지 궁금하여 질문 드립니다.저는 이전에 파이썬 사이킷런을 이용할 때, tensorflow 도커 이미지를 이용하여, rest api로 웹 서비스에서 사용할 수 있도록 진행 했었는데, Spark ML로 학습한 모델도 동일하게 진행하면 되는지 다른 방식으로 진행하는지 궁금합니다. 또한, 강의에서 LightGBM이 Spark 분산처리로 진행할 때, 성능이 좋지 못하게 나온다 라고 보여주셨는데, 실무에서 분류 계열 지도학습을 할때, 랜덤포레스트 또는 XGBoost를 주로 사용 하시는지도 궁금합니다!감사합니다.
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
mac os ) zip 파일 dataframe 오류
안녕하세요 :-) 수업 잘 듣고 있습니다.다름이 아니라 맥os 환경에서 보여지는 파일 형태가 달라서 문의드립니다.맥 os 환경에서는, order_products_prior.csv.zip 파일을 풀고나면 하나의 csv파일만 나옵니다. 강의 동영상에서 처럼 압축을 푼 뒤에 여러가지의 파일과 폴더가 묶여 나오지 않습니다. 따라서 zip 파일 안에서 csv 파일을 다시 압축을 하고 싶지만 정상적으로 되지 않습니다. 제가 혹시나 해서 압축을 푼 뒤에 다시 csv 파일을 압축해 보았지만 결과는 다른 수강자님께서 겪고 있으셨던 화면과 동일했습니다. (zip 파일안에 다양한 파일이 존재한다는 오류)혹시 제가 잘못하고 있던 것이라면 첨언 부탁드립니다 감사합니다.
-
해결됨스파크 머신러닝 완벽 가이드 - Part 1
ModuleNotFoundError : No module named 'mmlspark' - 20230218
안녕하세요 spark 공부하면서 취준하고 있는 대학생입니다.좋은 강의 제공해주셔서 감사합니다 :-)다름이 아니라, 코드에 궁금한 점이 생겨서 문의 드립니다.mmlspark lightgbm 설치 후에 아래에 있는 코드를 실행 해야 하나요? Hyperlink로 접속을 해 봤는데 오류가 있는 거 같습니다.스파크 프레임워크로 처음 공부를 해 봐서 제가 틀린 걸 수도 있습니다. 도움 부탁드립니다:-)
-
미해결스파크 머신러닝 완벽 가이드 - Part 1
TrainValidationSplit과 randomSplit 사용 질문
안녕하세요. 좋은 강의 감사합니다.TrainValidationSplit 수강 중 질문이 있습니다.TrainValidationSplit를 이용하여 학습과 검증 비율을 trainRatio 파라미터를 이용하여 나누게 되는데, TrainValidationSplit을 사용할 시 randomSplit은 사용할 필요가 없나요? 아니면 사용하는 경우가 있을까요? CrossValidator은 교차 검증 k fold 방식으로 알고 있는데, randomSplit에서 나눈 비율로 교차 검증을 진행하는 걸로 이해하면 될까요?예를 들면 randomSplit 0.8(학습) 0.2(검증) 으로 나누었다면, 해당 비율로 교차검증을 진행하는지 궁금합니다.마지막으로 현재 업무에서 스파크 스트리밍을 사용하고 있고 scala 기반으로 되어 있기 때문에 scala를 이용한 ml 도입을 고려하고 있습니다. 이때 강의에서 진행하는 pyspark과 비교하여 제공하지 않는 기능이라던지 고려해야 할 사항이 있을까요? 감사합니다!
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
parquet read시 partition 개수
안녕하세요parquet을 read할때, 파티션 개수는 저장할때의 partition으로 고정될까요??parquet을 read 할때 partiton 1개당 size가 너무 커서, partiton 개수를 늘려서 read 하고 싶습니다. 혹시 방법이 있을까용? 감사합니다.
-
미해결실리콘밸리 엔지니어에게 배우는 파이썬 아파치 스파크
대용량 데이터 Join
안녕하세요대용량 데이터 join 방법에 대해 질문드립니다.source A,B,C가 있고 A와 B를 union 하고 C를 조인해야 하는 상황입니다. A, B, C 각각은 모두 대용량 데이터입니다.하지만, 이 코드를 실행하면 spark 내부적으로 C를 2번 read해 A와 C를 조인하고, B와 C를 조인하는 DAG이 생성되는 것을 UI에서 확인했습니다. 이에, C를 1번만 read하게 만들기 위해서 cDF.persist(StorageLevel.DISK_ONLY)를 중간에 삽입해, 원래 의도대로 A와 B를 union하고 C를 조인하도록 DAG을 변경하였습니다. 이런 상황에서 persist를 사용하지 않고 해결할 방법이 있을까요?