colab에 하둡이 설치되어 있는 걸까요?

Question

Colab에 pyspark가 미리 설치되어 있지는 않지만 !pip install pyspark 명령으로 설치 후 사용 가능하더라구요. Colab에 자바와 하둡, 스파크가 이미 설치되어 있는 것으로 생각해도 될까요? 제가 강의로 이해하기로는 하둡에 있는 일부 기능- 맵리듀스를 스파크가 대체할 수 있는데, 기존 하둡과 호환성을 위해 다른 부분은 하둡 그대로 두고 그 부분만 스파크로 대체해야 하고 그래서 하둡도 필요하고 스파크는 자바로 되어 있으니 자바도 필요하고, 스파크 설치 후 이것을 파이썬으로 래핑한 pyspark를 실행하는 것으로 그렇게 생각하고 있는데 이게 맞는지 모르겠습니다. SparkContext가 생성되면서 내부적으로 스파크 어플리케이션이 실행되나요? 아니면 데몬같은 것이 실행중인 상태인 걸까요? 너무 모른 채로 질문드려서 죄송합니다.

미쿡엔지니어 · Answer

안녕하세요, Spark는 Hadoop이 없는 상태에서도 구동 가능합니다. 애초에 디자인을 할때, 다른 툴처럼 Hadoop Eco system위에서 수행 가능하게 만든게 아니라 독립적으로 사용할 수 있도록 만들어 놓았기 때문입니다. pip install pyspark 실행해 보셔서 아시겠지만, 스파크는 하나의 툴일 뿐이기 때문에 Hadoop이 없어도 구동가능합니다. HDFS(하둡 파일 시스템)은 Colab에 자동으로 설치되어 있지 않습니다. 필요하시다면, https://github.com/anjalysam/Hadoop를 참고하셔서 설치하시면 될 듯 합니다. 다른 질문에 관해서는 Hadoop은 파일로 Map Reduce를 했었는데, 그게 너무 느리다보니, 파일 자체를 메모리에 올려서, 똑같은 역할을 더 빠르게 수행하는 걸로 바뀐 것뿐입니다. 또한, Spark는 자바가 아니라 Scala로 만들어졌으며, PySpark가 몇가지를 변경해 Python으로 사용할 수 있게끔 편의를 제공하고 있습니다. 마지막 질문에 대한 답변은 PySpark는 Python API를 사용해서 SparkContext와 SparkSession 오프젝트를 만들고 이게 시작 포인트가 되어 Spark와 통신을 합니다. SparkContext자체가 클러스터와 연결되어 분산 컴퓨팅을 지도하고 SparkSession은 데이타부분인 DataFrame과 DatasetAPI를 관리합니다.