spark 엔지니어가 되는방법?
803
작성한 질문수 9
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
답변 3
0
안녕하세요 권 철민 강사님 ! 위의 분과 비슷한 질문?을 드리고 싶습니다
저는 데이터 엔지니어 진로를 희망하고 현재 airflow 라는 기술을 배우고 있습니다
이 airflow 라는 기술을 스파크나 하둡 플랫폼 얹어야 하는데
둘 중 파이썬 기반인 스파크를 선택하였는데
스파크에 대한 지식이 부족하다보니 인프런의 유일한 권 철민 강사님 스파크 강의를 찾아오게 되었습니다
질문 :
이 강의는 etl 파이프라인 등 데이터 엔지니어링 구축 보다 머신러닝쪽인거 같은데
데이터 엔지니어링 쪽으로도 공부할 수 있는 파트가 있나요..?
데이터 엔지니어쪽 파트와 연관이 있다면 1탄부터 추후 나오는 2탄까지 모두 강의 신청하겠습니다!ㅠㅠ
0
선생님 답변 감사드립니다. 질문자는 아니지만 답변에 추가로 문의드립니다.
답변 중에 SQL을 추가로 공부해보라는 말씀이
1. "고급" SQL 문법을 공부하라는 뜻인가요?(예 : 서브쿼리, windowing 등등)
2. 아니면 이것이 아니라, 더 높은 수준의 SQL 구조나 프로그램 작동원리(?) 를 공부하라는 뜻인가요?
만약 2라면, 2를 공부할 수 있는(또는 무엇을 공부해야 할지 알아볼 수 있는) 방향이나 책, 강의 를 추천해주실 수 있으시면 정말 감사하겠습니다!
0
안녕하십니까,
1. 음, 개인적으로는 서브쿼리와 window 함수가 고급 SQL 문법이 아니라 기본이라고 생각되지만, 보는 사람에 따라서는 그렇게 생각될 수도 있겠군요. 아뭏튼 서브쿼리, window함수등을 포함한 SQL기본 사항은 탄탄하게 갖추면 좋습니다. 데이터 파이프라인이든, 스파크든 결국은 SQL을 많이 활용해서 데이터 가공을 합니다.
2. SQL의 작동원리는 성능적인 부분이 강하니까, 별도 영역이라고 생각합니다. SQL을 잘사용한다는 것은 데이터 세트를 잘 다루고, 집합을 잘 만든다는 의미 입니다. 이게 좀 추상적이어서 글로 설명하기는 어렵지만, 결국은 원천데이터를 ETL등을 통해서 DW든, DM 형태든 정제된 분석 데이터 세트로 만들어야 하는데, 그럴려면 SQL을 이용해서 원하는 집합을 자유자재로 만들 수 있어야 합니다.
이게 단순히 SQL만 알아서는 안되고, 부지런히 데이터를 가공해 보면서 실력을 키워나가야 하는 부분입니다. 당연히 Join, 서브쿼리, Group by, Group by case when, window함수는 기본적으로 알고 이들을 활용해서 집합을 만들수 있는 능력을 꾸준히 키워 나가면, 어느새 SQL을 잘 활용하는 경지에 이를 것입니다.
0
아하! 즉, 데이터베이스에 대한 컴퓨터공학 적인 지식이 아니라, sql을 활용해서 현실 문제를 얼마나 잘 해결할 수 있는지를 말씀하신 것이었군요
연휴인데 답변 정말 감사드립니다. 새해 복 많이 받으세요!
0
안녕하십니까,
이 분야가 워낙 빨리 변하기 때문에 제가 섵불리 어떤 분야의 수요나 전망을 예측하지는 못할 것 같습니다만 아래와 같이 부족한 답변 달아봅니다.
먼저 oracle sql과 tensorflow정도를 아시면, 신입으로 취직하기에는 충분한 스펙으로 개인적으로 생각합니다.
강사님 안녕하세요 ㅎdatabricks환경에 대한 설
0
29
3
데이터 브릭스 이슈
0
94
2
데이터 브릭스 가입
0
85
2
pyspark local 설치
0
84
2
community edition 가입 문의
0
97
2
데이터 로드 및 로딩 된 파일 데이터 목록 조회 방
0
162
2
클러스터 버전 설정
0
124
3
instacart market basket analysis
0
173
3
spark 추가 학습 관련 질문
0
226
2
MLOps 관련 MLFLow 및 Databricks 모델 서빙
0
382
1
train파일 업로드 중에 해당 경로가 없다고 뜹니다
0
369
2
강의가 재생되지 않음
0
260
2
후속 강의 계획 질문드립니다.
0
367
1
spark_xgboost_lightgbm 강의부분 관련
0
466
1
spark환경에서 데이터 수정에 관하여 질문이 있습니다.
1
315
1
Spark를 이용하여 binary file -> parquet, csv 변환 가능여부
0
564
1
SPARK 2 강의 오픈
0
495
1
Spark ML 모델 서빙
0
563
1
mac os ) zip 파일 dataframe 오류
0
666
1
ModuleNotFoundError : No module named 'mmlspark' - 20230218
0
623
1
TrainValidationSplit과 randomSplit 사용 질문
0
396
1
현업에서는 scala-spark를 사용하나요? py-spark를 사용하나요?
0
514
1
cluster 생성 Database runtime version 질문
0
274
1
Pandas vs Spark: 비용, 처리시간 비교
0
1233
1





