inflearn logo
강의

Course

Instructor

Learn Python Apache Spark from Silicon Valley Engineers

데이터 엔지니터의 현 트렌드가 궁금합니다

Resolved

469

cfd03183769

5 asked

1

안녕하세요

완강후 카산드라 db 와 stream join한 강의를 다시 보고 카산드라에 대한 개념에 공부를 하던 와중 데이터 엔지니어의 현 트렌드에 대한 내용이 갑자기 궁금한데 물어볼곳이 없어서 질문을 좀 드려봅니다..

  1. 제가 생각하기에 현 트렌트가

데이터 엔진 프레임워크 : spark

스케줄링 및 파이프라인 형성등 : airflow

웨어하우스 : presto

nosql : mongodb

rdb : postgres

message broker : kafka

분석툴 : tableau

등등 이정도로 요즘 잘나가는 프로그램들인것 같은데 맞을까요?

  1. spark stream을 사용하면서 mongodb 보다 cassandra를 사용하는게 좀더 효율이 좋은가요?

개발자도 결국 트렌드에 맞게 공부하는게 자신의 커리어를 잘 쌓는게 아닐까 하는 생각이 요즘 계속 머리속에 맴도네요

머신러닝 빅데이터 apache-spark

Answer 1

1

altoformula

안녕하세요 준혁님,

  1. 회사마다 다르긴 하겠지만, 기본적으로는 준혁님이 말씀하신 툴을 사용하고 있습니다 ㅎㅎㅎ 잘 알고 계시네요. 근데 요즘이 아니라 위의 언급하신 툴들은 벌써 5년이상된 툴들은데 아직도 많은 회사에서 사용하고 있습니다.

  2. 데이터가 작다면 Mongodb가 관리하기 편하겠지만, 데이터가 커지면 아무래도 Cassandra를 쓰는 것이 그 안정성을 위해 좋습니다.

마지막으로 데이터 엔지니어링쪽 산업은 프론트엔드와 벡엔드와는 다르게 트렌드를 잘 타지 않습니다. 그게 데이터 엔지니어링 직군에 장점이라면 장점이죠. 하지만, 얕게 아는 것보다는 깊게 아셔야 자신의 커리어나 몸값에 많은 도움이 되실 겁니다.

 

도움이 되셨길 바라겠습니다. 걱정이 많으시다면, 멘토링을 신청하시는 것이 좋을 듯 합니다. 저도 멘토링을 열어놓긴 했지만, 굳이 제가 아니어도 되니 많은 조언을 받으시는게 복잡한 마음에 해결에 도움이 될 듯 합니다.

databricks에 cluster 메뉴가 없습니다.

0

43

2

주피터 사용 및 도커 설치

0

90

2

S3 폴더 구조에 따른 Static Partition Pruning, DPP 질문

0

76

2

broadcast Join과 boradcast + UDF 차이

0

62

2

append 모드 사용 시 집계

0

63

2

CDC 기반 스파크 아키텍처 구현 방법이 궁금합니다.

0

107

2

BroadCast 지원 가능 메모리 문의

0

88

2

rdd, dataframe, spark sql 각각 언제 사용할까요?

0

185

2

강의 후반부에 나온 실습 코드는 어디서 받을 수 있나요?

0

195

3

cdc 기반의 스트리밍 데이터 처리

1

230

2

broadcast 코드 예시 관련 질문

0

126

2

재생에 문제가 생겼어요 라는 메세지가 자꾸 뜨네요

0

113

1

스트리밍 예제 실행 시 py4j.protocol.Py4JNetworkError 발생

0

213

2

Repartition과 Coalesce에 대해 궁금한 점이 있어요!

1

165

1

pyspark 현업에서 로컬 개발 및 운영

1

335

1

Spark Structured Streaming Gracefully shutdown 질문

1

443

2

PySpark Runtime Architecture 내용 중 질문이 있습니다!

1

212

1

docker 설치 이후에 터미널 여는 부분에서 막혔습니다

1

458

2

app-<timestamp>-<executor_id> 폴더가 spark-events 내부에 생기게 하고 싶습니다.

1

275

1

pyspark.SparkContext 실행 오류 관련 질문

2

378

1

스파크 아키텍쳐 관련 문의 드립니다.

1

351

2

3.0에서 추가된 shuffle_hash, shuffle_replicate_nl hint는 어떤 상황에서 쓰는게 좋을까요?

1

316

1

스칼라강의도 제작하신다고 하셨는데 계획하고 계실까요??

1

290

2

pyspark / spark 차이점 질문드립니다.

1

1156

1