데이터 저장 공간 관련 문의 드립니다.

Question

안녕하세요 하둡 에코시스템은 여러가지 소프트웨어로 구성이 되어 있는거 같은데요

기존 시스템의 경우 데이터가 저장되는 공간은 DB로만 보면 되었던거 같은데

하둡에서는 수집된 데이터가 저장되는 공간이 HDFS, HIVE, Hbase 등 여러공간에 다 저장이 되어 있다고 봐야 하나요?

그럼 컴플라이언스 관점에서 저장시 암호화 요건을 갖추려면 모든 저장공간에 암호화한 상태로 보관을 해야 하는건지 문의 드립니다.

Answer

안녕하세요! Doo-min Song님!아~주! 좋은 질문 주셨습니다! ㅎDB도 결국 파일로 저장되는거 아시죠?!다만 HDFS, Hive, Hbase, Kafka 등과의 차이는 스키마의 의존성이 강하냐 약하냐 입니다.빅데이터 저장소들은 스키마에대한 의존성이 약합니다. 비정형성 데이터를 대규모로 안전하게 받아주고. 이후 필요시 스키마를 정의해 유연하게 처리 하기 위한 스키마마온리드(읽는 시점에 스키마를 정의)  또는 key/value 매커니즘에 중점을 두었기 때문입니다. 그래서 첫번째 질문의 답은 여러곳(디렉토리, 메모리, 서버 등)에 저장 되는게 맞지만 그 원리는 DB와 많이 다르다 입니다두번째 답변은 빅데이터의 Volume Varity Velocity 특성 때문에 매우 어려운 주제인데요..그래서 RDB 방식과 유사하면서도 크게 차이가 남니다.보안이 필요한 데이터만 분리해 별도 저장하고 접근제어를 철저히 하기도 하고요,암복호화 솔루션을 이용해 필드별로 암호화해 저장하기도 하고요,수집/적재 할때 비식별화해 저장 하기도 하고요,애초에 개인 정보는 제외 하기도 하고요,이는 빅데이터의 활용유형에 따라, 인더스트리에 따라, 조직 문화에 따라 다른데 예를들어..분석이 중심인 빅데이터 시스템은 3,4번 또는 4번 방식 위주로 처리 합니다. DW 또는 마켓팅에 활용되는 빅데이터 플램폼은 1,2번 위주로 처리를 합니다.빅데이터의 철학과 가장 궁합이 잘맞는건 4번입니다. 빅데이터의 목적이 과거의 대규모 데이터에서 보이지 않았던 패턴과 미래 가치를 발견 및 분석 하는것이기 때문에 개개인의 식별정보는 필요하지 않기 때문이죠~ ^^좋은 질문 감사합니다. -빅디 드림

dominicus

데이터 저장 공간 관련 문의 드립니다.

이 글과 비슷한 Q&A

상품 목록조회를 하려고 하는데 데이터가 안불러와져요

CustomFilter 의 비동기 방식 request / response 메시지 관련

캐글 필사전략 영상에서.. 화면을 못찾겠어요ㅠㅠ

Spring Cloud Gateway - Load Balancer 1강 보완 요청