inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

Data Engineering Course (1) : 빅데이터 하둡 직접 설치하기

리듀스 단계 구현 이론편 ( Theory Reducer Python in the Wordcount MapReduce Application)

[내용 참고] (3:25~4:05) 파일생성 시 중복 복사?

187

Cho

작성한 질문수 15

0

강사님 안녕하세요. 강의 잘 보고 있습니다.

유익한 강의 만들어 주셔서 감사합니다.

아주 사소한 부분이긴 한데.. 혹시 저처럼 따라하시다가 결과가 달라서 의아해 하신 분이 계실 것 같아서 글 남깁니다.

Gutenberg.org 사이트에서 책을 복사하셔서 nano로 The-Plant-Of-Illusion-By-Donald-A-Wollheim.txt 파일을 생성하여 내용을 붙여넣기 하실 때 중복복사된 것 같아요.

웹사이트에서 palin text의 size는 492kb(4:00)

강사님이 생성하신 txt 파일 size는 991144(5:13) 입니다. 

참고로 제가 생성한 txt 파일 size는 495572 입니다. 

input 에서 파일 다운로드해서 확인(8:12)하실 때 text line이 16926임 (원본 : 8463)확인됩니다. output 결과물의 count도 당연히 두배로 표시되네요.

감사합니다.

데이터 엔지니어링 Hadoop bigdata

답변 1

0

Billy Lee

안녕하세요.. 

수강생분의 말씀대로 유익한 강의를 잘 듣고 있으시니 흐뭇하네요.

현재 유익한 강의임에도 제가 복사하면서 중복 복사를 한 것 같습니다. 

말씀해주신 대로 해당 텍스트 파일을 구글 파일로 받아 윈도우로 plain txt파일을 받아보니

34kb로 되었네요. 사이즈가 많아진 걸 보니 중복복사하게 되었네요.

의문점을 잘 받아들이고 다시 진행하면서 결과 확인 한 뒤, 수정해보도록 하겠습니다. 

다시 한 번 죄송하고요. 수정한 뒤 강의 수정을 하면서 답변을 다시 달도록 하죠.. 좋은 하루 되세요.

토론토에서 

빌리 올림

start-dfs.sh가 작동하지 않습니다.

0

459

1

우분투 버전 문의

0

364

1

Namenode 폴더 format 도중 발생한 오류입니다.

0

574

1

우분투 설치 도중 오류 문의드립니다.

1

983

1

put, copyFromLocal과 get, copyToLocal

0

402

1

특정 부분에서의 미동작

0

423

3

Ubuntu 환경에서 jdk 압축 해제시 오류 발생 관련하여 질문드립니다!

0

560

2

12강 _- 하둡 분산 파일 시스템에서 파이썬 맵퍼와 리듀서 소스 구현 실전편 ( Build Mappe..) ==> 4분37초 부분

0

245

1

하둡 설치 및 셋팅 중 에러.....

1

268

1

질문이 있습니다!!

0

472

4

hadoop 명령 put 실패

0

885

1

안 됩니다

0

510

3

포맷 오류

0

251

1

월별로 뽑고 싶다면?

1

215

1

Rack이 정확히 의미하는 것이 무엇인가요?

1

6137

1

배경음악이 너무 커요

0

311

2

포맷이 안됩니다.

0

237

1

강의에서 사용하신 하둡 설치 wget 주소에서 404 not found가 떠서

0

743

3

선생님 혹시 WSL2로도 학습이 가능할까요?

1

268

1

log4j...에러문제입니다 ! ㅠㅠ

2

291

2

기준설정

0

233

1

이클립스 에러

0

180

1

자바에서 밑부분이 안나와요!

1

249

1

명령어 질문

0

166

1