55,000원
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
렉과 노드의 차이는 뭔가요?
데이타들이 멀티플 렉에 들어간다고했는데 렉과 노드의 차이가 뭔지 좀 의미가 헷갈립니다.
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
storage overhead설명시에 이해가 안갑니다.
팀원들이 총 3개로 파일을 나누고 replication factor를 3으로 해서 총 9개 블럭이 되는데 설명화면 반으로 나눠서 왼쪽은 replcation factor값이 3이여서 총 9개 블럭인데 갑자기 왜 9블럭x 1 replica 값을 계산 하며 여기서 replica 1이 왜 나오며,..replication factor와는 어떤 차이가 있습니까? 오른쪽화면은 9블럭에서 값자기 또 replica2는 왜 나와서 18블럭이 되나요? replication factor값이 이미 3이 있는데...느닺없이 왼쪽은 1을 곱하고 오른쪽 화면은 2를 곱하는게 뭔지 도무지 이해가 안갑니다. 왜 갑자기 오른쪽에서 2배로 replica를 올리고 비용부담과 IO과부하는 당연하다고 표현하신건가요? replication값 3으로 복제는 이미 끝난거 아닌가요? 곧이어서 replication 곧 3배의 높은 비용이 되는 중복이라는 이런 문제점들의 솔루션을 하둡2.0은 아직 안고있었다. 라고 표현하시고 erasure coding이 나왔다고 하는데 왜 위의 먼저 언급한 설명들이 필요한건가요? 인과관계도 판단이 안되구요 ㅠ 아래 내용들은 강사님의 말을 그대로 적어봤습니다. 읽고 읽어봐도..진짜...초보로써 저 말들이 이해가 되어야 하는건가 싶습니다. ============================================================================== 우선 block replica에 대한 문제점부터 살펴보자. 하둡의 팀원을 샘플텍스트를 3개로 나누기로 결정했따. (example.txt 384M) replication factor를 3으로 가정. A(128M)- A1,A2,A3 B(128M)- B1,B2,B3 C(128M)- C1,C2,C3 총 9개로 쪼개져 클러스터에 배포 전환된다. storage overhead 100%로 자리를 잡는다. 다만 encoding으로 replica를 중복처리하게 되어...각각 block들의 replica는 각각 2개 중복처리 저장이 되기도 합니다. 이제 하나의 replica 를 가진 결과값과 비교할때 현재 block size chuncks의 replica는 1개 기준으로 storage overhead는 200%의 결과값을 가져온다. replica를 2배로 복제하였기 때문에 overhead는 2배값인 200% 의 결과값으로 storage는 2배로 많아지는 비용부담과 IO과부하는 당연하다. 또한 3배의 기본 replication 곧 3배의 높은 비용이 되는 중복이라는 이런 문제점들의 솔루션을 하둡2.0은 아직 안고있었다. 그런 resource와 IO성능개선을 위하여 erasure coding기술을 도입하게된다. 하나의 raid는 운영체계적으로 혹은 논리적으로 하나의 하드디스크로 인식이 되지만 내용의 다양한 sector크기에서 수 메가바이트 데이타 공간까지 다양한 범위로 파티션하는 작업이기에 기존의 중복처리로 여러대 복수 노드들로 인지하는것보다는 시간과 리소스를 적게 잡아먹게된다. 기존하둡 팀원들의 상의 결과에 의하여 나타난 하둡2.0 에 중복데이터들은 총 9개의 블럭들로 디스크 스페이스는 9개의 블록에 해당되는 노드들로 구성되어 리소스를 많이 잡아먹게 된다. 그러나 하둡3.0의 erasure coding은 한 블럭안에 두개의 데이타블럭들을 오버헤드 하도록 돕는다. 이는 기존의 storage overhead를 반으로쪼개므로 디스크 노드갯수가 줄어드는 경험을 하게 된다. 결과적으로 50%의 storage overhead를 요구한다는점으로 기존의 50%의 storage overhead 요구한다는 블록수는 줄어들게 된다. 한개의 파일내에 블럭들을 더 많이 쪼개어도 기존에 중복저장방식에 50%서버 증대수를 대폭 줄어들게 되는것이다.
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
v3.x버전부터는 replica개념이 없어진건가요?
클러스터(여러서버군, 여러노드들)에 분산처리하는 다수의 대량 중복 디스크를 가지기보다는 여러대의 디스크에 균형을 이루어 여러대의 디스크에 입출력을 작업하도록 이뤄지게 되어있다.라고 말씀하셨는데 대량데이타를 나눠서 여러블록에 저장하고 또 중복으로 copy해서 가지고 있는게 2.x이라면 3.x 버전에는 erasure개념으로 replica개념이 없이 즉, 중복저장되지 않고 그냥 균형있게 각각 여러 그리드내 블럭에 분산저장된다고 보면 되는건가요? 그렇게 되면 네임노드로부터 메타데이타를 읽고 데이타 노드에 가서 읽고 쓰기할때 메카니즘또한 많이 바뀌게 되겠네요?
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
federation에 대해
2.0 아키설명때 federation설명부분에서 네임노드는 모든 네임노드에 네임스페이스에 소속이 되어있다는 말이 무슨 말인가요?;;;~에 ~에 ~ 라고 말씀하셨는데 말씀하신 구문이 이해가 안가가네요 ㅠㅠ 그리고 또한 각각 네임노드마다 싱크가 안되면 각각 네임노드마다 데이타노드 메타정보를 각각 다른 정보를 가지고 있는거 아닌가요? 독립적으로 정보를 가지고 있다고 하셨고 하나의 네임노드가 죽어도 다른 네임노드로 대체할수있다고 하셨는데 각각 다른 정보를 가지고 싱크도 안되는데 그러면 하나의 네임노드가 죽으면 일부 데이타 노드는 사용못하는거 아닌가요? 어떻게 대체 가능한건가요?
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
발음때문에 이해가 떨어지는경우가 있습니다.
음..어차피 나중에 강좌를다시 만든다면 한국말이 좀 뭔가 연결이 매끄럽지 않다는걸 꼭 말씀드리고 싶습니다. 이것때문에 오히려 집중도 흐려지고 제대로 맘먹고 이해해볼려는 의지가 사소한것에 꺽입니다. ㅠ 강의자체도 첨이라 어렵지만 솔직히 도움도 많이 되지만 정말 외국분이 한국말 어색하게 하는 그런 느낌이라 제 귀가 안좋은건지 모르겟지만 강의마다 한두번정도 마치 번역기 돌려놓은 발음이 나옵니다. ㅠㅠ 가령 1분 41~42초 "병합되어 요기 됨으로 " 라는 말이 나옵니다. 하나하나 한국말은 조사에 의해서 의미가 달라지고 해석도 달라집니다. 그러다 보니 이해가 잘 안됩니다. 제가 강사님의 말을 한국말로 받아 적기도 해가는데 이런경우가 많습니다. 몇번을 돌려들어도....안들리는건 안들리네요 ㅠ 영어회화 반복첯취하는것처럼요 ㅠㅠ나중에 강좌새로만들때는 직접 듣고 아닌부분은 재녹음같은거 필요하지 않을까요?
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
distcp명령어에 대해
hadoop distcp /user/etc/xml/distcptest/odark.xml /user/etc/xml/distcptest/target 추후에 클러스터내에 네임노드들간에 데이터 전송과 복제가 가능하며 이 distcp 명령어는 일반적인 파일 파일복제나 복사보다는 맵리듀스상에서 다량의 데이타 파일들을 더욱 빠르게 복제하는 효과라고 말씀하셨는데 영상에서는 파일시스템 즉 클러스터내의 데이타 노드에 있는 특정 파일을 다른 target디렉토리로 맵리듀스를 이용하여 copy하는경우만 보여주셨는데.... 어떻게 네임노드들간에 복제에 이용하는거죠? hdfs-site.xml 에 설정된 namenode 디렉토리에 있는 데이타파일 복제를 얘기하시나요? 여기 namenode안에는 아무것도 없는데..... 그리고 네임노드들 간이라는게 active <-> standby 간에 얘기하시나요? 아니면 master <-> secondary 네임도드간을 얘기하는건가요? 어떤경우에 이런 distcp복제를 이용하나요?
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
네임노드 포맷
ㄴ 선생님 강의 이부분에서요. 저는 ls 했을때도 다르고 네임노드 포맷도 안되어서요 ㅜ 네임노드랑 데이터 노드 위치는 입니다. 제 실행 화면입니다. 어느부분을 고쳐야 할까요 ?? ㅜㅜ
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
이 부분이 안돼요 ㅜ
mv 부분부터 안돼요 ㅠㅜ
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
vim /etc/environment 이부분이 안돼요
- 학습 관련 질문을 남겨주세요. 상세 이렇게 나오는데 어떻게 해야할까요?
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
hadoop 클러스터 메카니즘이 넘 헷갈립니다.
사소한 질문에도 성의껏 답변주셔서 너무 존경스럽고 감사합니다. 솔직히 너무 이해가 안되서 짜증섞이인 마음으로 질문드렸던게 오히려 죄송하네요~~ ㅠㅠ 강좌는 단일 노드(standalone ) 방식이라 클러스터 개념을 생각하면서 더 헷갈리기 시작합니다. 그래서 여기저기 검색해보면서 이해를 해보려는데 개념이 부족한부분들을 질문좀 올릴까 합니다. 1. 실전에서 구성이 네임노드, 데이터 노드 각각 모두 개별 서버인거지요? 그러면 이 클러스터를 구성하기 위해 hadoop을 설치할때는 별도 hdfs client 서버에서 네임노드(즉, master 노드) 와 데이터노드를 설정과함께 클러스터 구성 명령어(hadoop설치명령어)를 날리나요? 아니면 master노드에서 강좌에서 하시는 hadoop을 설치하나요? 어디에서 설치해야 하나요? 클라이언트 서버가 있다면 이곳에서 다른 네임노드1대와 나머지 데이타노드 3대를 묶을수있도록 한번에 hadoop설치 명령어 및 cli명령어도 날려야 할텐데..어떻게 이런명령어를 날릴수있도록 인터페이스를 구성할수있는거죠? 2. 두번째는 HDFS 은 데이타를 분산저장하는 파일시스템(네임노드+데이터노드)이라고했는데 즉, 저장 용도라면 wordcount 맵리듀스가 실행된 후 생성되는 output폴더가 HDFS의 파일시스템에 놓인 결과물인가요? 데이타 노드가 여러개인데 output폴더는 어느 데이타 노드 폴더위치에 놓이나요? 또한 wordcount.txt input 데이타를 각 노드에서 분산해서 map을 만들고 분산처리를 할텐데 이때 일정 사이즈만큼 데이타 노드가 각각 분산처리하기 위해 임시저장용도로 hdfs가 쓰이는건가요? 이런때도 replica개념이 들어가나요? 이 hdfs 가 분산처리 파일시스템이라는말만 익숙할뿐 실제 분산처리 결과 저장용으로 쓰이고 또 input데이타를 나눠가지고 저장하고 또 태스크 트래커가 작업할때 이용할수있는 나눠가진 데이타 임시저장용도로 쓰이는건지..이 제가 이해한게 맞는건지 궁금합니다. 3. 마지막으로 분산처리한 결과를 다시 hdfs에 복제저장하는건지...... 이렇게 제가 개념을 못잡는게~~ input이라는 입력데이타를 다 쪼개서 나눠가져가서 트래커가 각각 일을 처리할텐데....그때는 hdfs개념이 없이 트래커가 알아서 각자 input데이타를 쪼개서 나눠가져서 일을 처리하고 그 결과를 hdfs에 저장하고 그 결과가 하나의 output폴더로 보여지게 되는건지.. 너무 그림이 안그려지네요 ㅠㅠ hdfs는 저장용도인데...어느시점에서 개입하게되는건지가 궁금합니다. 맵리듀스를 분산처리하기 위해 output을 나눠서 분산저장하기 위할때 그때 hdfs가 필요한건지...그렇다면 이건 왜 굳이 replica까지 필요할까 싶기도하구요..또한.결과물이 output나올때 hdfs에 저장되는건지... 4. 마지막으로 hive 라는걸 얼핏봤는데 강좌와는 별개입니다. 답변주실지 모르겠네요 가령 wordcount.txt input파일을 이용해 테이블을 만들고 그 테이블을 이용해 word, count 컬럼을 갖는 결과 테이블을 hive쿼리를 이용해서 create table wordcount_result이라고 생성을 하면 이 테이블 데이타를 파일로 저장을 해야 로컬스토리지로 가져올텐데 어떻게 파일로 저장하여 로컬 스토리지로 반대로 가져올수있는걸까요?
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
jps부분 이 진행이 안되어 문의 드립니다.
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
갑자기 왜 hadoop-streaming.jar
열심히 mapper.py , reduce.py 파일 만들어놓고 느닺없이 왜 hadoop-streaming.jar를 이용하신건가요? 저건 갑지기 왜나온거지요???
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
hadoop jar 명령어사용시 input
맵리듀스 실행하기 위해 hadoop jar ~ 명령어 쓰고 wordcout input output이라고 썼는데 output은 input경로를 참조해서 생성된다고 하셨는데.. 그럼 input경로는 어디에도 주어지지 않았는데 어떻게 그 input경로를 찾았는지 궁금하고 또 무슨 파일을 분석하라고 주어지지도 않았고 txt파일인지..무슨파일인지 주어지지도 않았는데... 무조건 input 폴더안에 있는 그 어떤 파일이던 무조건 다 분석하는건지...이해가 안가네요....
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
rack
rack이 여러개인데...하나의 파일이 여러 rack에 분산저장될수있는건지... 아니면 하나의 rack으로만 저장되는건지..나중에 찾을때는 어떤 rack에 있는건지...어떻게 찾나요?
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
이해가 진짜 안되네요 ㅠㅠ
write architecure 화면에서 읽기프로세스 메카니즘을 살펴보자고 한말이 무슨뜻인가요?~~~write request인데..왜자꾸 읽기요청을 한다고 하는지...ㅠㅠ
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
hadoop install
- hadoop insttall 수업 자료는 없나요?.
- 해결됨빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
WordDriver 실행 시 NullPointerException Error 발생관련 문의드립니다.
안녕하세요 강사님 강의 유익하게 듣고 있습니다. 다름이 아니라 WordDriver를 실행시키면 Exception Error가 발생하여 구글링을 통해 찾아보았지만 완벽한 해답을 찾지 못하여 문의드립니다. 어떻게 하면 에러를 해결할 수 있을까요? 2021-07-12 17:22:08,281 WARN [main] util.NativeCodeLoader (NativeCodeLoader.java:<clinit>(60)) - Unable to load native-hadoop library for your platform... using builtin-java classes where applicable 2021-07-12 17:22:08,897 WARN [main] impl.MetricsConfig (MetricsConfig.java:loadFirst(136)) - Cannot locate configuration: tried hadoop-metrics2-jobtracker.properties,hadoop-metrics2.properties 2021-07-12 17:22:08,973 INFO [main] impl.MetricsSystemImpl (MetricsSystemImpl.java:startTimer(378)) - Scheduled Metric snapshot period at 10 second(s). 2021-07-12 17:22:08,974 INFO [main] impl.MetricsSystemImpl (MetricsSystemImpl.java:start(191)) - JobTracker metrics system started 2021-07-12 17:22:09,282 WARN [main] mapreduce.JobResourceUploader (JobResourceUploader.java:uploadResourcesInternal(149)) - Hadoop command-line option parsing not performed. Implement the Tool interface and execute your application with ToolRunner to remedy this. 2021-07-12 17:22:09,290 WARN [main] mapreduce.JobResourceUploader (JobResourceUploader.java:uploadJobJar(482)) - No job jar file set. User classes may not be found. See Job or Job#setJar(String). 2021-07-12 17:22:09,366 INFO [main] input.FileInputFormat (FileInputFormat.java:listStatus(292)) - Total input files to process : 2 2021-07-12 17:22:09,411 INFO [main] mapreduce.JobSubmitter (JobSubmitter.java:submitJobInternal(202)) - number of splits:2 2021-07-12 17:22:09,549 INFO [main] mapreduce.JobSubmitter (JobSubmitter.java:printTokens(298)) - Submitting tokens for job: job_local579481131_0001 2021-07-12 17:22:09,551 INFO [main] mapreduce.JobSubmitter (JobSubmitter.java:printTokens(299)) - Executing with tokens: [] 2021-07-12 17:22:09,688 INFO [main] mapreduce.Job (Job.java:submit(1569)) - The url to track the job: http://localhost:8080/ 2021-07-12 17:22:09,690 INFO [Thread-23] mapred.LocalJobRunner (LocalJobRunner.java:createOutputCommitter(501)) - OutputCommitter set in config null 2021-07-12 17:22:09,700 INFO [main] mapreduce.Job (Job.java:monitorAndPrintJob(1614)) - Running job: job_local579481131_0001 2021-07-12 17:22:09,714 INFO [Thread-23] output.FileOutputCommitter (FileOutputCommitter.java:<init>(141)) - File Output Committer Algorithm version is 2 2021-07-12 17:22:09,714 INFO [Thread-23] output.FileOutputCommitter (FileOutputCommitter.java:<init>(156)) - FileOutputCommitter skip cleanup _temporary folders under output directory:false, ignore cleanup failures: false 2021-07-12 17:22:09,715 INFO [Thread-23] mapred.LocalJobRunner (LocalJobRunner.java:createOutputCommitter(519)) - OutputCommitter is org.apache.hadoop.mapreduce.lib.output.FileOutputCommitter 2021-07-12 17:22:09,844 INFO [Thread-23] mapred.LocalJobRunner (LocalJobRunner.java:runTasks(478)) - Waiting for map tasks 2021-07-12 17:22:09,845 INFO [LocalJobRunner Map Task Executor #0] mapred.LocalJobRunner (LocalJobRunner.java:run(252)) - Starting task: attempt_local579481131_0001_m_000000_0 2021-07-12 17:22:09,886 INFO [LocalJobRunner Map Task Executor #0] output.FileOutputCommitter (FileOutputCommitter.java:<init>(141)) - File Output Committer Algorithm version is 2 2021-07-12 17:22:09,886 INFO [LocalJobRunner Map Task Executor #0] output.FileOutputCommitter (FileOutputCommitter.java:<init>(156)) - FileOutputCommitter skip cleanup _temporary folders under output directory:false, ignore cleanup failures: false 2021-07-12 17:22:09,941 INFO [LocalJobRunner Map Task Executor #0] mapred.Task (Task.java:initialize(626)) - Using ResourceCalculatorProcessTree : [ ] 2021-07-12 17:22:09,948 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:runNewMapper(768)) - Processing split: hdfs://localhost:9000/user/mapreduce2/input/Ireland-And-The-home.txt:0+495572 2021-07-12 17:22:10,025 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:setEquator(1219)) - (EQUATOR) 0 kvi 26214396(104857584) 2021-07-12 17:22:10,026 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:init(1012)) - mapreduce.task.io.sort.mb: 100 2021-07-12 17:22:10,026 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:init(1013)) - soft limit at 83886080 2021-07-12 17:22:10,026 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:init(1014)) - bufstart = 0; bufvoid = 104857600 2021-07-12 17:22:10,026 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:init(1015)) - kvstart = 26214396; length = 6553600 2021-07-12 17:22:10,031 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:createSortingCollector(409)) - Map output collector class = org.apache.hadoop.mapred.MapTask$MapOutputBuffer 2021-07-12 17:22:11,334 INFO [main] mapreduce.Job (Job.java:monitorAndPrintJob(1635)) - Job job_local579481131_0001 running in uber mode : false 2021-07-12 17:22:11,336 INFO [main] mapreduce.Job (Job.java:monitorAndPrintJob(1642)) - map 0% reduce 0% 2021-07-12 17:22:11,351 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:flush(1476)) - Starting flush of map output 2021-07-12 17:22:11,374 INFO [LocalJobRunner Map Task Executor #0] mapred.LocalJobRunner (LocalJobRunner.java:run(252)) - Starting task: attempt_local579481131_0001_m_000001_0 2021-07-12 17:22:11,376 INFO [LocalJobRunner Map Task Executor #0] output.FileOutputCommitter (FileOutputCommitter.java:<init>(141)) - File Output Committer Algorithm version is 2 2021-07-12 17:22:11,376 INFO [LocalJobRunner Map Task Executor #0] output.FileOutputCommitter (FileOutputCommitter.java:<init>(156)) - FileOutputCommitter skip cleanup _temporary folders under output directory:false, ignore cleanup failures: false 2021-07-12 17:22:11,376 INFO [LocalJobRunner Map Task Executor #0] mapred.Task (Task.java:initialize(626)) - Using ResourceCalculatorProcessTree : [ ] 2021-07-12 17:22:11,378 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:runNewMapper(768)) - Processing split: hdfs://localhost:9000/user/mapreduce2/input/The-Plain-book.txt:0+33520 2021-07-12 17:22:11,387 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:setEquator(1219)) - (EQUATOR) 0 kvi 26214396(104857584) 2021-07-12 17:22:11,387 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:init(1012)) - mapreduce.task.io.sort.mb: 100 2021-07-12 17:22:11,387 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:init(1013)) - soft limit at 83886080 2021-07-12 17:22:11,387 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:init(1014)) - bufstart = 0; bufvoid = 104857600 2021-07-12 17:22:11,388 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:init(1015)) - kvstart = 26214396; length = 6553600 2021-07-12 17:22:11,388 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:createSortingCollector(409)) - Map output collector class = org.apache.hadoop.mapred.MapTask$MapOutputBuffer 2021-07-12 17:22:11,402 INFO [LocalJobRunner Map Task Executor #0] mapred.MapTask (MapTask.java:flush(1476)) - Starting flush of map output 2021-07-12 17:22:11,427 INFO [Thread-23] mapred.LocalJobRunner (LocalJobRunner.java:runTasks(486)) - map task executor complete. 2021-07-12 17:22:11,436 WARN [Thread-23] mapred.LocalJobRunner (LocalJobRunner.java:run(590)) - job_local579481131_0001 java.lang.Exception: java.lang.NullPointerException at org.apache.hadoop.mapred.LocalJobRunner$Job.runTasks(LocalJobRunner.java:492) at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:552) Caused by: java.lang.NullPointerException at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1090) at org.apache.hadoop.mapred.MapTask$NewOutputCollector.write(MapTask.java:727) at org.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89) at org.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112) at com.wonjun.jun.WordMapper.map(WordMapper.java:21) at com.wonjun.jun.WordMapper.map(WordMapper.java:1) at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:146) at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:799) at org.apache.hadoop.mapred.MapTask.run(MapTask.java:347) at org.apache.hadoop.mapred.LocalJobRunner$Job$MapTaskRunnable.run(LocalJobRunner.java:271) at java.util.concurrent.Executors$RunnableAdapter.call(Executors.java:511) at java.util.concurrent.FutureTask.run(FutureTask.java:266) at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) at java.lang.Thread.run(Thread.java:748) 2021-07-12 17:22:12,339 INFO [main] mapreduce.Job (Job.java:monitorAndPrintJob(1655)) - Job job_local579481131_0001 failed with state FAILED due to: NA 2021-07-12 17:22:12,350 INFO [main] mapreduce.Job (Job.java:monitorAndPrintJob(1660)) - Counters: 0
- 해결됨빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
DFS Locaions에서 연동은 하였는데 create directiories가 안됩니다.
안녕하세요 구글링을 해도 좀 모르겠어서 질문드립니다... DFS Locaions에서 연동은 하였는데 create directiories가 안됩니다. 혹시 directory 생성이나 삭제에 대한 권한문제일까요?? 생성이 안될때 어떻게 에러처리하는지 궁금합니다!
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
[Doc 링크] 플러그인 링크가 아니라 전 영상관련 링크임
안녕하세요. Install and configure Hadoop on Eclipse and execute MapReduce Job on the Hadoop Task in Java using Eclipse 1. 하둡 3 버전 이클립스 플러그인 다운받아 Perspective에 MapReduce Project 연결해보기 링크가 전 강좌 내용입니다. 확인 부탁드립니다.
- 미해결빅데이터 하둡 (Hadoop 3.2.1) 직접 설치하기
[내용 참고] (3:25~4:05) 파일생성 시 중복 복사?
강사님 안녕하세요. 강의 잘 보고 있습니다. 유익한 강의 만들어 주셔서 감사합니다. 아주 사소한 부분이긴 한데.. 혹시 저처럼 따라하시다가 결과가 달라서 의아해 하신 분이 계실 것 같아서 글 남깁니다. Gutenberg.org 사이트에서 책을 복사하셔서 nano로 The-Plant-Of-Illusion-By-Donald-A-Wollheim.txt 파일을 생성하여 내용을 붙여넣기 하실 때 중복복사된 것 같아요. 웹사이트에서 palin text의 size는 492kb(4:00) 강사님이 생성하신 txt 파일 size는 991144(5:13) 입니다. 참고로 제가 생성한 txt 파일 size는 495572 입니다. input 에서 파일 다운로드해서 확인(8:12)하실 때 text line이 16926임 (원본 : 8463)확인됩니다. output 결과물의 count도 당연히 두배로 표시되네요. 감사합니다.