• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 엔지니어링

  • 해결 여부

    미해결

데이터 저장 공간 관련 문의 드립니다.

24.01.31 12:12 작성 24.01.31 12:12 수정 조회수 91

0

안녕하세요 하둡 에코시스템은 여러가지 소프트웨어로 구성이 되어 있는거 같은데요

기존 시스템의 경우 데이터가 저장되는 공간은 DB로만 보면 되었던거 같은데

하둡에서는 수집된 데이터가 저장되는 공간이 HDFS, HIVE, Hbase 등 여러공간에 다 저장이 되어 있다고 봐야 하나요?

그럼 컴플라이언스 관점에서 저장시 암호화 요건을 갖추려면 모든 저장공간에 암호화한 상태로 보관을 해야 하는건지 문의 드립니다.

답변 1

답변을 작성해보세요.

0

안녕하세요! Doo-min Song님!

아~주! 좋은 질문 주셨습니다! ㅎ

DB도 결국 파일로 저장되는거 아시죠?!

다만 HDFS, Hive, Hbase, Kafka 등과의 차이는 스키마의 의존성이 강하냐 약하냐 입니다.

빅데이터 저장소들은 스키마에대한 의존성이 약합니다. 비정형성 데이터를 대규모로 안전하게 받아주고. 이후 필요시 스키마를 정의해 유연하게 처리 하기 위한 스키마마온리드(읽는 시점에 스키마를 정의) 또는 key/value 매커니즘에 중점을 두었기 때문입니다.

그래서 첫번째 질문의 답은 여러곳(디렉토리, 메모리, 서버 등)에 저장 되는게 맞지만 그 원리는 DB와 많이 다르다 입니다

두번째 답변은 빅데이터의 Volume Varity Velocity 특성 때문에 매우 어려운 주제인데요..

그래서 RDB 방식과 유사하면서도 크게 차이가 남니다.

  1. 보안이 필요한 데이터만 분리해 별도 저장하고 접근제어를 철저히 하기도 하고요,

  2. 암복호화 솔루션을 이용해 필드별로 암호화해 저장하기도 하고요,

  3. 수집/적재 할때 비식별화해 저장 하기도 하고요,

  4. 애초에 개인 정보는 제외 하기도 하고요,

이는 빅데이터의 활용유형에 따라, 인더스트리에 따라, 조직 문화에 따라 다른데 예를들어..

분석이 중심인 빅데이터 시스템은 3,4번 또는 4번 방식 위주로 처리 합니다.

DW 또는 마켓팅에 활용되는 빅데이터 플램폼은 1,2번 위주로 처리를 합니다.

빅데이터의 철학과 가장 궁합이 잘맞는건 4번입니다. 빅데이터의 목적이 과거의 대규모 데이터에서 보이지 않았던 패턴과 미래 가치를 발견 및 분석 하는것이기 때문에 개개인의 식별정보는 필요하지 않기 때문이죠~ ^^

좋은 질문 감사합니다. -빅디 드림

dominicus님의 프로필

dominicus

질문자

2024.01.31

자세한 답변 감사드립니다. 그럼 2번과 같이 필드별로 암호화해서 저장한다는 의미는 데이터 레이크 단계가 아닌 웨어하우징 단위에서부터 가능하다고 보면 되는것일까요?

안녕하세요! 빅디 입니다.

2번 방식의 암호화는 데이터 레이크 > 웨어하우스 > 마트 어느 단계에서나 다 적용 될 수 있습니다.

이때 일반 RDB의 투명암호화/명시적암호화 처럼 적용 되기는 어렵습니다.

간혹 하이브의 테이블에 SerDe와 암호화 모듈을 적용해서 명시적 암호화처럼 사용 하기도 하지만...대규모 빅데이터의 탐색/분석시 암복호화의 오버드가 지나칠만큼 크게 발생하여 아~주 특별한 경우만 사용합니다.

대신 민감한 데이터 일자라도 원본을 유지해 저장하고,

해당 민감 데이터에 대한 접근 및 비식별화를 태그 기반으로 관리하게 됩니다.

예를들어 하이브의 테이블 정보를 관리하는 메타카달로그가 있고, 이 카달로그에 민감한 정보가 있는 테이블의 필드에 "보안"이라고 태깅정보를 부여 합니다. 그리고 "보안" 태깅을 특정 권한에 매핑하면, 민감 데이터에 접근할 때마다, "보안" 태깅이 있으면 사용자 권한을 체크해서 민감 데이터를 볼 수 있는 권한이 있는 사용자에게만 허용하게 됩니다.

빅데이터의 보안 분야가 쫌 어렵습니다. ^^;;

당장은 우선순위를 낮추고, 나중에 좀 더 집중적으로 공부해 보세요~

-빅디 드림