inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

15일간의 빅데이터 파일럿 프로젝트

5.수집 파일럿 실행 3단계 - 플럼 기능 구현

jar 파일 문의

251

찐찐

작성한 질문수 12

0

안녕하세요! 강의 잘 듣고 있습니다.

다름이 아니라, 로그파일(jar)을 보며 흥미가 생겼는데요.

(우선 컴공 전공자가 아니라는 점 밝힙니다...^^;;)

만약 공공데이터포털같은 곳에서 오픈 api(json형식으로 서비스키가 주어지는 방식)를 받아 이런 것을 플룸으로 수집하고 싶다면, 이 또한 jar파일로 변환(??)하여 저장하면 되는건가요?? 궁금합니다!

jar bigdata Hadoop Flume Kafka Impala redis ZooKeeper 데이터 엔지니어링

답변 1

0

Big.D

안녕하세요! 찐찐님!

API로 제공 되는 데이터를 수집 하는건 다른 접근이 필요 합니다.

기술적으로는 크롤링 또는 오픈API 연동으로 볼 수 있습니다.

플럼은 크롤링 및 API 수집에 적합한 소프트웨어는 아니고 로그/파일 수집에 최적화된 도구 입니다.

그래서 파일럿 프로젝트에서도 가상의 스마트카 시뮬레이터가 만들어낸 스마트카의 로그 데이터를 수집하기 위해 플럼 에이전트가 이용된것입니다.

인터넷 상의 컨텐츠 또는 API를 수집하기 위한 크롤링 기술로는..

파이썬 진영의 Scrapy
자바에서는 Nutch 또는 Heritrix 등이 있습니다.

위와 같은 내용으로 접근해 알아 보시면 될 것 같습니다.

- 빅디 올림 

주제영역3 데이타 조회 문의

0

32

2

환경 세팅 후 클라우데라매니저 삭제시

0

60

2

수강 기간 연장 부탁드립니다ㅠ

0

56

2

클라우데라 매니저 접속 불가 및 로그인 정보 문의

0

82

2

gcc 설치 에러

0

114

3

클러스터 설정 오류

0

83

2

클라우데라 클러스터 설치로 안넘어가짐

0

116

2

버추어박스 5.0 설치

0

138

2

워크플로우 예약 실행시 테이블은 생성되는데 데이터가 들어가지지 않습니다.

0

76

2

Hue 500 Error 어떻게 해결할 수 있나요?

0

146

3

환경세팅 질문있습니다.

0

102

2

버쥬얼박스

0

71

2

호스트 불량 문제에 관하여

0

104

2

하이브쿼리에서 에러가 나요...

0

164

3

하이브쿼리에서 에러

0

116

1

Hbase에 적재된 데이터 확인시 에러

0

145

2

파이썬 설치 시 에러

0

155

2

redis-cli 데이터 적재 확인

0

138

2

카프카 토픽 생성에서 에러

0

136

2

HDFS 명령어를 치는데 오류가 납니다

0

131

2

가상환경 내보내기

0

106

1

SpoolDIR 폴더로 옮기

0

99

2

cpu usage 에러

0

111

2

쿼리 실행시 10000 에러

0

121

2