질문 & 답변 - 인프런 | 커뮤니티

질문 게시판

고민있어요

스터디

팀 프로젝트

멘토링

멘토링 후기

수강평

With us

인프런 피드

블로그

인프런 소개

공지사항

대시보드

강의

홈

로드맵

더보기

묻고 답해요

130만명의 커뮤니티!! 함께 토론해봐요.

인프런 TOP Writers

미해결
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

[HDFS] Data integrity; checksum 관련 질문

안녕하세요. 현재 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술 수업을 수강 중인 학생입니다. HDFS의 Data integrity 부분의 강의를 듣다 궁금한 점이 생겨서 질문 올립니다.checksum은 transmission 과정에서 발생하는 에러로 인해 data가 corrupt 되었는지를 destination에서 판단하기 위해 사용한다고 이해했습니다.근데 "transmission 과정에서 data를 corrupt 시킬만한 에러가 발생했다면 checksum 값도 함께 corrupt될 수도 있는거 아닌가"라는 궁금증이 생겼습니다. 제가 궁금한 점은 아래와 같이 2가지 입니다:1. transmission 과정 중 checksum 값도 corrupt될 가능성이 있는지만약 그렇다면 그런 경우를 대비한 별도의 메커니즘이 존재하는지 답변에 미리 감사드립니다.

Jiyu Kim · 8일 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

1

조회수

43

답변

2
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

안녕하세요. 강의 연장 신청 문의드립니다

안녕하세요 교수님현재 spark advanced 까지 진도 나갔으나 아쉽게도 수강기한이 거의 끝나서나머지 강의 수강을 위해 구글폼으로 연장 신청했습니다강의 연장 가능할까요?

박래찬 · 14일 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

86

답변

2
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

jar input output_notice 문의

강사님.. 스스로 문제 해결해가며 여기까지 왔는데.. 여기는 해결이 안되 문의 드립니다..ㅠ 6:24초 영상 처럼 output_notice 디렉토리에 [실습2]에서 했던 input 파일을 맵 리듀스가 되어야 하는데 저 화면에서 30분동안 멈춰 있다 겨우 동작 됐는데 정상 동작 되지 않은거 같습니다 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount input output_notice bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount input output_notice 24/04/23 14:31:51 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 24/04/23 14:31:52 INFO input.FileInputFormat: Total input paths to process : 1 24/04/23 14:31:52 INFO mapreduce.JobSubmitter: number of splits:1 24/04/23 14:31:52 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1713835952413_0002 24/04/23 14:31:52 INFO impl.YarnClientImpl: Submitted application application_1713835952413_0002 24/04/23 14:31:52 INFO mapreduce.Job: The url to track the job: http://ubuntu-virtual-machine:8088/proxy/application_1713835952413_0002/ 24/04/23 14:31:52 INFO mapreduce.Job: Running job: job_1713835952413_0002 24/04/23 14:31:57 INFO mapreduce.Job: Job job_1713835952413_0002 running in uber mode : false 24/04/23 14:31:57 INFO mapreduce.Job: map 0% reduce 0% 24/04/23 14:32:01 INFO mapreduce.Job: map 100% reduce 0%bin/hadoop fs -ls output_notice Found 1 items drwxr-xr-x - ubuntu supergroup 0 2024-04-23 14:31 output_notice/_temporary etc/hadoop/yarn-site.xml <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration> etc/hadoop/mapred-site.xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>

15일 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

66

답변

3
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

안녕하세요 강의 연장문의

안녕하세요 강의가 무제한인줄 알고 구매했어요..알고보니 강의가 3개월이여서 인프런에 환불 요청했더니 안된다고, 강사님께 3개월 연장부탁해보라고 하네요..혹시 3개월 연장 가능할까요?

ssuperj · 20일 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

57

답변

2
미해결
IT인을 위한 ELK 통합로그시스템 구축과 활용

Elasticsearch 설치전 java설치 관련건

안녕하세요docker에 Elasticsearch를 설치할 경우 Java설치는 어다에 하는지docker hoster(우분투)에 하는지 아니면 docker container에 설치 하는지 궁금합니다

모시개 · 28일 전 · IT인을 위한 ELK 통합로그시스템 구축과 활용

투표점수

0

조회수

60

답변

1
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

aws ubuntu 22.04 크롬 드라이브 설치 및 경로 확인

wget 설치 후 wget 으로 2023_BIGDATA 디렉토리에 크롬.deb 파일 내려 받고 dpkg -i 명령어로 설치 하여 google-chrome --version 이 나왔습니다 chromedriver.Chrome('chromedriver') 라는 파일은 어디에서 찾을 수 있을까요? driver = webdriver.Chrome("/home/ubuntu/2023_BIGDATA/google-chrome-stable_current_amd64.deb" pip install wget sudo wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb # google-chrome-stable_current_amd64.deb sudo dpkg -i google-chrome-stable_current_amd64.deb google-chrome --version Google Chrome 123.0.6312.105

홍태경 · 1달 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

91

답변

2
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

섹션2 실습1 코드 공유 문의..

안녕하세요 강사님.. 실습 1번은 현재 저로서는 해석이 불가능하여해석은 나중에 하기로 하고일단 쳐보기만 열심히 쳐봤는데 역시나 안되네요..코드 공유좀 부탁 드릴 수 있을까요.. 죄송합니다from bs4 import BeautifulSoup from urllib.request import * from urllib.parse import * from os import makedirs import os.path, time, re proc_files = {} def enum_links(html, base): soup = BeautifulSoup(html, "html.parser") links = soup.select("link[rel='stylesheet']") # CSS links += soup.select("a[href]") # link result =[] for a in links : href = a.attrs['href'] url = urljoin(base, href) result.append(url) return result def download_file(url): o = urlparse(url) savepath = "./" + o.netloc + o.path if re.search(r"/$", savepath): savepath += "index.html" savedir = os.path.dirname(savepath) if os.path.exists(savepath): return savepath if not os.path.exists(savedir): print("mkdir=", savedir) makedirs(savedir) try: print("download=", url) urlretrieve(url, savepath) # url 다운 받고 파일 이름은 savepath로 저장 time.sleep(1) return savepath except: print("다운 실패", url) return None def analyze_html(url, root_url): savepath = download_file(url) if savepath is None: return if savepath is proc_files: return proc_files[savepath] = True print('analyze_html', url) html =open(savepath, "r", encoding="utf-8").read() links = enum_links(html, url) for link_url in links: if link_url.find(root_url) != 0: if not re.search(r".css$", link_url): continue if re.search(r".(html|htm)$", link_url): analyze_html(link_url, root_url) continue download_file(link_url) if __name__ == "__main__": url = "https://docs.python.org/3.5/library/" analyze_html(url, url)

홍태경 · 1달 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

74

답변

3
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

Beautiful Soup 실습 출력 문의

일단 따라 쳐봤는데아래의 결과 처럼 나오는게 맞을까요? html 변수에 </ul>이 있는데 혹시 앞에 <ul>은 없어도 동작 되나요? from bs4 import BeautifulSoup html = """ <html><body> <div id="project"> <h1 id="title">BIG DATA PROGRAMMING</h1> <p id='body'>DATA ANLYSIS AND SCRENCE</p> <p>DATA ACQUISTION PART1</p> </ul> <ul class="items"> <li>CRAWLING</li> <li>SCRAPPING</li> <li>HYBRID WAY</li> </div> </body></html> """ soup = BeautifulSoup(html, 'html.parser') h1 = soup.html.body.h1 p1 = soup.html.body.p p2 = p1.next_sibling.next_sibling print("h1 = " + h1.string) print("p = " + p1.string) print("p = " + p2.string) title = soup.find(id="title") body = soup.find(id="body") print("#title=" + title.string) print("#body=" + body.string) h1 = soup.select_one("div#project > h1").string print("h1 =", h1) li_list = soup.select("div#project > ul.items > li") for li in li_list: print("li =", li.string) 결과python3 2_bs4_temp.py h1 = BIG DATA PROGRAMMING p = DATA ANLYSIS AND SCRENCE p = DATA ACQUISTION PART1 #title=BIG DATA PROGRAMMING #body=DATA ANLYSIS AND SCRENCE h1 = BIG DATA PROGRAMMING li = CRAWLING li = SCRAPPING li = HYBRID WAY

홍태경 · 1달 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

39

답변

1
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

venv 환경 패키지 설치 방법 문의

requests 패키지를 설치하려 하는데 안됩니다.혹시 venv 환경에서 패키지 설치하는 방법은 좀 다른가요? (venv2023) ubuntu@ip-172-31-12-30:~/2023_BIGDATA$ sudo pip install requests Requirement already satisfied: requests in /usr/local/lib/python3.10/dist-packages (2.31.0)Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.10/dist-packages (from requests) (3.3.2)Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests) (3.6)Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests) (2.2.1)Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests) (2024.2.2)WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv

1달 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

180

답변

2
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

가상머신 설치부터 안됩니다.

안녕하세요Jupyter terminal 오픈하고, crawling 실습하기 위한 준비부터 문제가 발생했어요 ㅜ폴더까지 생성을 했는데, virtualenv 활성화하기 위해 source이라는 명령어가 실행이 되지 않습니다. jupyter notebook workspace도 실행되지 않고...vim 명령어도 인식 하지 못합니다. 빠른 속도에 추가 설명이 없어서, 어디서 어떻게 실행을 하는지 제가 이해하지 못한것 같습니다. visual studio code에서도 실행을 해봤는데, 같은 부분에 계속 예러가 납니다. 도와주세요. 제가 어떻게 하면 되나요?

라나로즈 · 1달 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

73

답변

1
해결됨
ElasticSearch Essential

Elastic Search 동작 이해하기 색인 설명 관련

안녕하세요 ES 를 처음 사용하게 되어 관련 정보를 찾아 보던차에 해당 강의를 접하게 되어 잘 듣고있습니다.아무래도 실무에 아직 적용해보지 않은 상태라 질문에서 부족한점이 많을 것 같아 이 부분은 양해를 부탁드립니다. 샤드의 라우팅을 설명해주시면서 한번 설정된 샤드는 변경될 수 없다고 하셨는데 , 색인 설명에서는'처음부터 완벽한 샤드 배치 계획을 세울수는 없기 때문에 샤드의 수를 늘리거나 데이터 노드를 스케일아웃/업 하면서 최적의 수치를 찾아 가야 한다' 라고 말씀해주신 부분과 겹쳐 궁금증이 생겨 질문을 남기게 되었습니다.샤드를 도중에 변경할 수 있는 방법이 있나요?찾아보니 ReIndex API 를 사용해서 새로운 인덱스를 생성해야 한다는데 이 방법으로 변경하는게 맞을까요? 답변주시면 감사하겠습니다.좋은 강의 감사드립니다 ^^

호기심 많은 토끼 · 1달 전 · ElasticSearch Essential

투표점수

0

조회수

82

답변

2
미해결
ElasticSearch Essential

Compressed OOP 조건에 따른 ES Heap Size 제약

안녕하세요, 대용량 데이터 검색엔진 구축을 위해 Elasticsearch를 도입했습니다. 1. 개발환경 및 Spec 설명On-premise Kubernetes 환경에 Helm 배포를 통해 Master, Coordinating, Data Node 각각 4, 4, 10대로 Elasticsearch 클러스터를 구성했습니다.(HA 구성을 위해 Data Node는 모두 다른 Kubernetes Node에 배포되며, statefulSet을 통한 Rolling Update 방식입니다.)예상되는 클러스터 전체 Data Usage는 50TB 수준이고, primary shard와 replica shard의 개수는 각각 10과 1로 둘 예정입니다. 하나의 shard 용량은 10~20GB 수준으로 유지할 예정입니다. 현재는 초기 적재를 위해 replica shard 개수를 0으로 설정한 상황입니다.)pod container의 limit resource는 8core, 64Gi이며, ES_JAVA_OPTS 값으로는 -Xms30g -Xmx30g 옵션을 통해 Elasticsearch의 Heap Memory로는 30GB를 할당했습니다. 32Bit 포인터 관리 방식에서 object 그 자체가 아닌 object의 offset을 참조하는 Compressed OOP 사용을 위해, Elasticsearch의 Heap Size는 32GB를 권장하고 있습니다. 여기에 시작 주소를 0으로 두는 Zero-based 까지 고려하여 보수적으로 30GB를 사용했습니다.위와는 독립적인 권장 사항인 'JVM의 50%을 ES에 할당하라' 조건까지 고려하여 JVM Heapsize를 64Gi 로 두었습니다. 2. issue데이터 색인(bulk가 아닌 일반적인 PUT API) 중, kibana를 비롯하여 Elasticsearch 클러스터 전체에 503 에러가 발생했고 쿠버네티스 클러스터에 배포된 pod(Master, Coordinating Node 전부, 그리고 Data Node는 2대를 제외한 나머지 8개)가 restart 없이 죽었습니다. (원인은 CircuitBreaker입니다.)NAME READY STATUS RESTARTS AGE edms-p01-srep01-coordinating-0 0/1 Running 0 37h edms-p01-srep01-coordinating-1 0/1 Running 0 37h edms-p01-srep01-coordinating-2 0/1 Running 0 37h edms-p01-srep01-coordinating-3 0/1 Running 0 37h edms-p01-srep01-data-0 0/1 Running 0 37h edms-p01-srep01-data-1 0/1 Running 0 37h edms-p01-srep01-data-2 1/1 Running 0 37h edms-p01-srep01-data-3 0/1 Running 0 37h edms-p01-srep01-data-4 0/1 Running 0 37h edms-p01-srep01-data-5 0/1 Running 0 37h edms-p01-srep01-data-6 1/1 Running 0 37h edms-p01-srep01-data-7 0/1 Running 0 37h edms-p01-srep01-data-8 0/1 Running 0 26h edms-p01-srep01-data-9 0/1 Running 0 37h edms-p01-srep01-es-exporter-8457b87fb7-wsshd 1/1 Running 0 39h edms-p01-srep01-kb-84dcb6d7f7-gdhd9 0/1 Running 0 39h edms-p01-srep01-master-0 0/1 Running 0 37h edms-p01-srep01-master-1 0/1 Running 0 37h edms-p01-srep01-master-2 0/1 Running 0 37h edms-p01-srep01-master-3 0/1 Running 0 37h Data Node의 경우 빈번한 Young GC, 그리고 Old GC가 발생했지만 점차 확보하는 Memory 양이 적어지다가 CircuitBreakingException이 발생했습니다.Master와 Coordinating Node는 Old GC 없이 Young GC만으로 heap size가 잘 관리되다가 모든 Data Node 메모리 부하가 심해지니 Pod가 죽었는데, 유추하기로는 처리되지 못한 색인 데이터의 transport가 loop 되다가 Master/Coordinating 메모리에도 영향을 준 것으로 보입니다. CircuitBreakingException이 발생 전의 한 Data Node의 stats은 아래와 같습니다. (GET _nodes/stats) "mem" : { "heap_used_in_bytes" : 28558120848, "heap_used_percent" : 88, "heap_committed_in_bytes" : 32212254720, "heap_max_in_bytes" : 32212254720, "non_heap_used_in_bytes" : 191720344, "non_heap_committed_in_bytes" : 201515008, "pools" : { "young" : { "used_in_bytes" : 771751936, "max_in_bytes" : 0, "peak_used_in_bytes" : 19243466752, "peak_max_in_bytes" : 0 }, "old" : { "used_in_bytes" : 27784679400, "max_in_bytes" : 32212254720, "peak_used_in_bytes" : 32129130920, "peak_max_in_bytes" : 32212254720 }, "survivor" : { "used_in_bytes" : 1689512, "max_in_bytes" : 0, "peak_used_in_bytes" : 1520169584, "peak_max_in_bytes" : 0 } } }, ... "gc" : { "collectors" : { "young" : { "collection_count" : 226, "collection_time_in_millis" : 15603 }, "old" : { "collection_count" : 1, "collection_time_in_millis" : 6322 } } } 3. 의문점Data node 역할을 담당하는 pod가 죽은 것은 그럴 수 있다 쳐도 색인과 관련 없는 Coordinating/Master Node 역할의 pod에까지 영향을 미치는 이유는 무엇인가요?(위의 pod metric을 살펴보아도 OOM과는 전혀 거리가 멀어보이긴 합니다만) Elasticsearch가 분산시스템이지만 위와 같이 Kubernetes 노드에 문제가 없는 상태에서 pod만 죽어버리니 고가용성이 무색해지는군요... 앞서 말씀드린 것처럼 색인 데이터의 transport 내부 동작이 영향을 미쳤을까요?위와 같은 CircuitBreakingException에 대응하는 방법에는 ES_JAVA_OPT의 Heap Memory 용량을 증설하거나, 클러스터 세팅 indices.breaker.total.limit 값은 이미 95%입니다. (indices.breaker.total.use_real_memory가 true 이므로) 이때, 이미 Heap이 30GB라면, Compressed OOP의 조건인 32GB를 넘는 수준의 ES_JAVA_OPTS 설정을 시도하려면 어느 정도로 높게 하는게 좋을지 고견을 여쭙습니다.(Container의 jvm memory 자체에는 큰 제약이 없는 개발환경입니다. 즉, 128GB, 256GB처럼 높은 수준의 resources.limit 설정도 가능합니다.)

YeonghyeonKo · 1달 전 · ElasticSearch Essential

투표점수

0

조회수

164

답변

1
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

Replica Placement 질문입니다.

4분 50초 경" rack 전체가 뻗는것 보다 노드 하나 뻗는 확률이 더 올라간다? "라고 해주셨는데 잘 이해가 가지 않아서 질문드립니다.제가 이해한 바로는결국 신뢰성과 가용성 둘중 하나는 포기를 해야하고 그 둘 사이의 타협적 결정을 잘 해야 한다.가용성을 위해 단일 노드에 모든 복제본을 둘 경우 속도는 빠르지만 신뢰성 보장이 어렵고 장애 대응이 불가능 하다.신뢰성을 위해 복제본을 모든 데이터 센터 혹은 많은 가상 노드에 복제해둘 경우 신뢰성은 극한으로 올라가지만 데이터를 가져오는데 시간이 너무 오래결려 가용성이 떨어진다.그래서 그 둘 사이의 타협점을 구한 것이 Replica Placement다.위처럼 이해하면 될까요??

최지혁 · 2달 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

1

조회수

117

답변

2
해결됨
ElasticSearch Essential

6강 10분 색인 과정에 대해 질문 있습니다.

10분 00초에 2개의 가정->선택이 존재하는 것으로 파악했어요.인덱스 별 (각)샤드의 최대 크기를 10GB로 설정 -> 인덱스 별 프라이머리 샤드의 개수는 10개(이 말이 결국 데이터 노드 개수 10개와 이어지겠죠)데이터 노드 개수를 10개로 설정 -> 데이터 노드당 가져야할 디스크의 크기 600GB여기서 2번은 명확히 이해가 됩니다. 필요한 저장 공간이 6,000GB이므로 이를 데이터 노드 개수(10)만큼 나눈 600GB가 데이터 노드 당 가져야할 디스크 크기겠죠. 다만 1번이 이해 안갑니다. 하나의 인덱스 내 개별 샤드의 최대 크기가 10GB로 설정하는 것과 인덱스 별 프라이머리 샤드의 개수가 10개인 것이 무슨 연관관계가 있는 것이죠?(논리 전개가 잘 이해가 안됩니당)관점1: 인덱스 별 샤드의 최대 크기가 20GB가 돼야 각 노드의 크기(600GB)를 채울 수 있지 않나요? 매 노드가 프라이머리 샤드1개와 레플리카 샤드를 2개씩 가지니까요.관점2: 인덱스 별 (각)샤드의 최대 크기가 10GB라면 각 노드별로 샤드가 3개씩 존재할 것(프1 레2)이므로 각 노드의 최소 스펙은 30GB겠죠. 필요한 저장 공간이 6,000GB이므로 노드는 20개를 생성할 수 있으므로 인덱스 별 프라이머리 샤드의 개수는 20개가 되야하지 않나요?긴 질문 읽어주셔서 감사합니다.

김민석 · 2달 전 · ElasticSearch Essential

투표점수

0

조회수

111

답변

2
해결됨
ElasticSearch Essential

4강 14분51초 질문 있습니다!

인덱스 템플릿 예제를 보면 프라이머리 샤드3개, 레플리카 샤드 6개로 구성하셨는데요. 하루에 30GB 정도 쌓이는 로그를 인덱스에 저장해야하는데, 만약 클러스터 내 1개의 노드만 존재한다면, 프라이머리, 레플리카 샤드를 몇 개씩 배치하는게 좋을까요?참고로 로그는 저장하는 용도입니다. 키바나에서만 조회합니다!만약 하나의 클러스터 내 10개의 노드가 존재한다면, 총 10개의 EC2가 꼭 필요할까요? 하나의 EC2에서 2~3개의 노드를 만들 수 있을까요? 만들 수 있다면 이게 올바른 설계인지도 궁금합니다!6개월 정도 로그를 쌓으면 약 180개의 인덱스가 일자별로 생성이 될텐데, 인덱스의 개수가 100개가 넘어가면 자동으로 가장 오래된 인덱스부터 삭제할 수 있는 방법이 있을까요? 질문이 많네요ㅠㅠ

LetsGoHigh · 3달 전 · ElasticSearch Essential

투표점수

0

조회수

135

답변

2
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

강의 연장 문의 드립니다.

안녕하세요. 강사님. 훌륭한 강의 잘 들었습니다. (금일 완강했어요 -_- v)강의를 듣다가 좋아서 클러스터 구축도 같이 신청하였습니다. 회사일을 병행하다 보니 오늘 막 강의를 다 들었는데 마지막 ( ELK /EFK/Docker 관련 등등) 은 제가 하는 일이라서 쉽게 들었습니다. 그런데 데이터 pyspark 같은 것은 여전히 생소하기만 합니다. 그래서 강의 연장을 부탁드립니다. 좋은 강의라 몇번을 더 보면서 레퍼런스 삼으려고 합니다. 부탁드립니다. 그간 정말 재미있었어요. 이제 클러스터도 보러 가려구요. 감사합니다.

Jason.king · 3달 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

191

답변

2
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

섹션2 실습 1에서 질문 있습니다.

안녕하세요, 강사님.좋은 강의 올려주셔서 감사합니다. 보면서 열심히 따라하고 있습니다. 저는 비전공자라서 처음 들을 때는 물음표의 연속이었지만 신기하게 두번째 들을 때는 이해가 되고 점점 따라하기 수월해지고 있습니다.다름이 아니라 두가지 질문이 있어서 문의드립니다.1. ec2 linux/Ubuntu를 ssh로 접속한 상태에서 크롬페이지를 새창으로 뿅 띄우는 것이 안됩니다 ㅠㅠ처음에 스크립트를 실행했을 때는 아래와 같은 에러 때문에 실행이 안되었습니다.AttributeError: 'str' object has no attribute 'capabilities'여러가지 찾아보니 이유는 셀리니움이 업데이트 되어서 이제 크롬 드라이버를 다운받지 않아도 된다고 하더라구요. 그래서 아래와 같이 추가하고 경로를 비우고 실행하면 된다고 합니다.chrome_options = webdriver.ChromeOptions()driver = webdriver.Chrome()그랬더니 에러를 뿜지 않고 그냥 스크립트가 종료되어 버리는 것 같아요. 다만 sudo를 이용해서 스크립트를 실행하면 아래와 같은 에러가 나타납니다. =====ubuntu@ip-172-31-43-47:~/bigdata$ sudo python3 5_chrome.pyTraceback (most recent call last): File "/home/ubuntu/bigdata/5_chrome.py", line 4, in <module> driver = webdriver.Chrome() File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/chrome/webdriver.py", line 45, in init super().__init__( File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/chromium/webdriver.py", line 61, in init super().__init__(command_executor=executor, options=options) File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/webdriver.py", line 209, in init self.start_session(capabilities) File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/webdriver.py", line 293, in start_session response = self.execute(Command.NEW_SESSION, caps)["value"] File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/webdriver.py", line 348, in execute self.error_handler.check_response(response) File "/usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/errorhandler.py", line 229, in check_response raise exception_class(message, screen, stacktrace)selenium.common.exceptions.SessionNotCreatedException: Message: session not created: Chrome failed to start: exited normally. (session not created: DevToolsActivePort file doesn't exist) (The process started from chrome location /usr/bin/google-chrome is no longer running, so ChromeDriver is assuming that Chrome has crashed.)Stacktrace:#0 0x562ff172ef83 <unknown>#1 0x562ff13e7cf7 <unknown>#2 0x562ff141f60e <unknown>#3 0x562ff141c26e <unknown>#4 0x562ff146c80c <unknown>#5 0x562ff1460e53 <unknown>#6 0x562ff1428dd4 <unknown>#7 0x562ff142a1de <unknown>#8 0x562ff16f3531 <unknown>#9 0x562ff16f7455 <unknown>#10 0x562ff16dff55 <unknown>#11 0x562ff16f80ef <unknown>#12 0x562ff16c399f <unknown>#13 0x562ff171c008 <unknown>#14 0x562ff171c1d7 <unknown>#15 0x562ff172e124 <unknown>#16 0x7fc769a94ac3 <unknown>====혹시나 해서 linux 인스턴스에서 다시 수행해보았지만 linux에서는 sudo 일 때와 아닐 때 모두 에러 메시지는 똑같네요... ㅠㅠ 뒤에 실습 2에서 linkedIn을 제어할 때에도 새롭게 창이 뜨는 것으로 보이니 해결하고 넘어가야 할텐데 답을 찾을 수가 없습니다 ㅠㅠ무엇이 문제일까요? 도와주세요 선생님 ㅠㅠ 2."https://docs.python.org/3.5/library/"페이지를 크롤링해오는 스크립트가 에러 없이 일부만 실행되는 현상이 있는데 이유를 모르겠습니다. 스크립트를 실행하면 딱 이렇게 pygments.css 까지만 크롤링이 되고 그 다음 단계인 /library/intro.html 아래 페이지 정보는 크롤링되지 않은 상태에서 작업이 끝납니다.======================(venv) [ec2-user@ip-xxx-xxx bigdata]$ python3 practice1.pydownloaded = https://docs.python.org/3.5/library/analyzed html = https://docs.python.org/3.5/library/downloaded = https://docs.python.org/3.5/_static/pydoctheme.cssdownloaded = https://docs.python.org/3.5/_static/pygments.css====================== 몇번이나 공유해주신 코드와 비교해보아도 틀린 부분을 못찾겠네요 ㅠㅠ 스크립트가 에러를 뿜지도 않고 일단 일부 정보라도 가져오는 상태라 더 확인이 어렵습니다 ㅠㅠ혹시 이런 경우에 대해 어떻게 해결하는지 아실까요?새해 복 많이 받으세요!

Hannah Uh · 4달 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

258

답변

2
해결됨
빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

슬라이드 자료

아래와 같은 양식으로 질문을 남겨주세요 🙂수업을 들으시면 이해하기 어려운 부분이 있으면 상세히 질문을 남겨주세요.서로 Tone and Manner 를 지키며, 즐거운 수업 시간을 만들어보아요.잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. 안녕하세요 강의를 통해 열심히 공부중인 학생 입니다.혹시 슬라이드 자료를 따로 열람 가능한지 여쭙고 싶습니다. 좋은 강의 잘듣고 공부하고 있습니다. 감사합니다.

pixlo · 4달 전 · 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술

투표점수

0

조회수

135

답변

1
미해결
ElasticSearch Essential

안녕하세요 elastic cloud를 사용하는데 cpu가 계속 칩니다 .

안녕하세요 선생님!!!elastic cloud를 사용하여 인덱싱을 하는데 계속 cpu가 치고 서버가 자꾸 다운이 되네요 ㅠㅠGET _cat/nodes?v=true&s=cpu:desccpu 노드 조회하면 아래와 같이 cpu로드가 너무 높고요,,GET nodes/instance-0000000008/hotthreads 을 통해서 조회를 하니 아래와 같이 뜨네요..샤드는 이정도 있구요! (default 샤드수 설정은 따로 건들지 않았습니다)---또한 snapshot을 30분 마다 저장 하고 있는데 (default가 30분마다 이더라고요) .. 이게 맞을까요?snapshot이 cpu부하를 많이 줄까요? 30분마다 하니;; 이게 혹시 부하를 많이 주는지.. (증분백업으로 알고 있는데) 또한 위와 같이 현재 snapshot이 너무 많이 쌓여서 정리를 하고 싶은데 정책을 바꾸고 싶은데 (snapshot retain이라든지 근데 경고가 떠서,, 함부로 못건들고 있습니다..) 문제가 여러개라서.. 어디부터 건들어야 할지 난감하네요.. 혹시 좋은 방도가 있을까요?..

Han Kim · 4달 전 · ElasticSearch Essential

투표점수

0

조회수

141

답변

1
미해결
ELK 스택 (ElasticSearch, Logstash, Kibana) 으로 데이터 분석

우분투 16.04를 vm으로 돌리고 있는데 저장을 어떻게 하나요?

설치를 다 했는데, 다시 시작하면 초기화가 되어 있습니다.혹시 우분투 버전이 너무 낮아서 그런건지 / 저장하고 종료하고 싶은데 저장 및 종료가 잘 안되네요. 다 날아가서 당황스럽습니다.VMWARE에서 하는게 제일 안전한 것인지요 답변해주시면 감사하겠습니다 ~~

열심히해봐요 · 4달 전 · ELK 스택 (ElasticSearch, Logstash, Kibana) 으로 데이터 분석

투표점수

0

조회수

185

답변

1

인기 태그

주간 인기글