데이터 엔지니터의 현 트렌드가 궁금합니다
안녕하세요
완강후 카산드라 db 와 stream join한 강의를 다시 보고 카산드라에 대한 개념에 공부를 하던 와중 데이터 엔지니어의 현 트렌드에 대한 내용이 갑자기 궁금한데 물어볼곳이 없어서 질문을 좀 드려봅니다..
제가 생각하기에 현 트렌트가
데이터 엔진 프레임워크 : spark
스케줄링 및 파이프라인 형성등 : airflow
웨어하우스 : presto
nosql : mongodb
rdb : postgres
message broker : kafka
분석툴 : tableau
등등 이정도로 요즘 잘나가는 프로그램들인것 같은데 맞을까요?
spark stream을 사용하면서 mongodb 보다 cassandra를 사용하는게 좀더 효율이 좋은가요?
개발자도 결국 트렌드에 맞게 공부하는게 자신의 커리어를 잘 쌓는게 아닐까 하는 생각이 요즘 계속 머리속에 맴도네요
Answer 1
1
안녕하세요 준혁님,
회사마다 다르긴 하겠지만, 기본적으로는 준혁님이 말씀하신 툴을 사용하고 있습니다 ㅎㅎㅎ 잘 알고 계시네요. 근데 요즘이 아니라 위의 언급하신 툴들은 벌써 5년이상된 툴들은데 아직도 많은 회사에서 사용하고 있습니다.
데이터가 작다면 Mongodb가 관리하기 편하겠지만, 데이터가 커지면 아무래도 Cassandra를 쓰는 것이 그 안정성을 위해 좋습니다.
마지막으로 데이터 엔지니어링쪽 산업은 프론트엔드와 벡엔드와는 다르게 트렌드를 잘 타지 않습니다. 그게 데이터 엔지니어링 직군에 장점이라면 장점이죠. 하지만, 얕게 아는 것보다는 깊게 아셔야 자신의 커리어나 몸값에 많은 도움이 되실 겁니다.
도움이 되셨길 바라겠습니다. 걱정이 많으시다면, 멘토링을 신청하시는 것이 좋을 듯 합니다. 저도 멘토링을 열어놓긴 했지만, 굳이 제가 아니어도 되니 많은 조언을 받으시는게 복잡한 마음에 해결에 도움이 될 듯 합니다.
databricks에 cluster 메뉴가 없습니다.
0
43
2
주피터 사용 및 도커 설치
0
90
2
S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문
0
76
2
broadcast Join과 boradcast + UDF 차이
0
62
2
append 모드 사용 시 집계
0
63
2
CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.
0
107
2
BroadCast 지원 가능 메모리 문의
0
88
2
rdd, dataframe, spark sql 각각 언제 사용할까요?
0
185
2
강의 후반부에 나온 실습 코드는 어디서 받을 수 있나요?
0
195
3
cdc 기반의 스트리밍 데이터 처리
1
230
2
broadcast 코드 예시 관련 질문
0
126
2
재생에 문제가 생겼어요 라는 메세지가 자꾸 뜨네요
0
113
1
스트리밍 예제 실행 시 py4j.protocol.Py4JNetworkError 발생
0
213
2
Repartition과 Coalesce에 대해 궁금한 점이 있어요!
1
165
1
pyspark 현업에서 로컬 개발 및 운영
1
335
1
Spark Structured Streaming Gracefully shutdown 질문
1
443
2
PySpark Runtime Architecture 내용 중 질문이 있습니다!
1
212
1
docker 설치 이후에 터미널 여는 부분에서 막혔습니다
1
458
2
app-<timestamp>-<executor_id> 폴더가 spark-events 내부에 생기게 하고 싶습니다.
1
275
1
pyspark.SparkContext 실행 오류 관련 질문
2
378
1
스파크 아키텍쳐 관련 문의 드립니다.
1
351
2
3.0에서 추가된 shuffle_hash, shuffle_replicate_nl hint는 어떤 상황에서 쓰는게 좋을까요?
1
316
1
스칼라강의도 제작하신다고 하셨는데 계획하고 계실까요??
1
290
2
pyspark / spark 차이점 질문드립니다.
1
1156
1

