• 카테고리

    질문 & 답변
  • 세부 분야

    데이터 분석

  • 해결 여부

    미해결

태블로 데스크탑에서 대용량데이터연결 문의드립니다

23.12.09 11:47 작성 조회수 134

0

태블로 데스크탑에서 데이터 연결 질문입니다. 태블로 데스크탑으로 Hive쿼리를통해서 row count 기준 1억 줄 정도 되는 데이터를 연결 하니 매번 데이터를 읽는것만 1시간이 걸리는데요. 혹시 대시보드를 퍼블리시(게시) 전 에는 1만줄 정도만 읽고, 퍼블리시(게시) 할 때는 1억줄 읽는다던지 이런 옵션이 별도로 있을까요?데이터 저장 방법 지정 추출할 데이터의 양 지정에서 샘플 1만줄만 나오도록 해서 대시보드작성하고 그리고 게시 후에태블로웹으로 가서 샘플 1만줄 해제하고 게시하면 될까하는 생각이 들기는 합니다.

답변 1

답변을 작성해보세요.

0

글로써 설명된 부분이라 정확한 상황을 이해한 것인지는 모르겠지만, 저 이해를 기반으로 회신드려봅니다

 

데이터를 연결하고, 조인 등의 준비하는 창에서 데이터 원본 필터를 걸 수 있습니다. 이 과정에서 1만 건 정도만 될 수 있도록 적절히 필터를 걸어보시면 어떨까 싶습니다 (연도로 걸든, 아님 다른 차원으로 적절히 걸어서, 데이터의 row 개수를 줄일 수 있도록)

 

그리고 작업 공간으로 넘어가게 되면 필터된(가벼워진) 데이터셋을 가지고 시각화 작업을 진행할 수 있습니다. 모든 분석 및 화면 작업이 끝나셨다면, 데이터 원본 필터를 해제하여 원래 가지고 있던 1억건의 데이터를 모두 불러들여올 수 있습니다

 

그리고 게시를 하면 되지 않을까 싶은데...

 

근본적인 대응 방법은 아니라고 생각되는게, 위의 과정으로 진행한다고 해도 중간중간에 대기시간이 길어질 가능성이 충분히 있거든요.

 

제가 추천을 드리고 싶은 방법은 1억건의 데이터를 태블로 위로 직접 당겨오지 마시고, 분석 요건을 잘 검토해서 최대한 group by를 통해 row 개수를 줄이는 것이 중요합니다. 실제 원본을 데이터 (태블로 밖에서) 선 가공을 통해 가볍게 만드신 후에, 그렇게 만들어진 분석용 데이터를 태블로 위에 올리는게 좋은 방법인 것으로 사료됩니다!