묻고 답해요
156만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
practice1 응답값 관련 질문
선생님의 코드와 100% 똑같이 하고 1_weather.py를 실행했는데 맑음, 구름많음과 같은 <data>들은 안뜹니다.. 그냥 홈페이지에 대한 html 코드만 나와요 홈페이지에 직접들어가보면 다음과 같은 내용이 표시됩니다.. 업데이트가 필요할 듯 합니다. ※ 날씨누리에 접속 시 해당화면이 나타났다면 다음을 확인해주세요.- 『 www.weather.go.kr/w/ 』 로 시작되는 URL로 접속- 기상청 날씨누리는 『 www.weather.go.kr/w/ 』 시작되는 페이지만 운영합니다.(21년 이후)- 그 외 접속 페이지는 현재 서비스 및 관리를 하지 않는 페이지 임을 알려드립니다.
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
crontab 결과가 market.log 에 저장이 안돼요ㅠ
crontab 결과가 market.log 에 저장이 안돼요ㅠcrontab 내용 오타 없는지도 계속 확인했고, 파일 실행도 직접했을 때는 환율 잘 나와요. 로그 파일도 자동 생성이 됐는데cat market.log 하면 아무것도 뜨지 않네요ㅠ 이유가 뭘까요?
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
코딩 프로그램
수업에서 사용하고 계시는 코딩 프로그램이 무엇인가요?philip@philp해서 화면이 나오는데, 이건 어떤걸 사용해서 해야하는 걸까요?주피터 노트북 얘기해 주셔서 그걸로 하고 있는데, 아예 안되는 것들이 많아서요, 그리고 왔다갔다 하면서 하시던데, 어떤걸 사용하고 계시는 걸까요?
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
색션2 실습 practice 1 질문드립니다.
아래와 같은 양식으로 질문을 남겨주세요 🙂교수님이 작성해주신 코드와 동일하게 작성하였는데 실행이 url링크만 나옵니다 왜그럴까요 ㅠㅠ
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
색션2 실습 Carwling에 practice 1 부분 질문드립니다.
아래와 같은 양식으로 질문을 남겨주세요 🙂수업을 들으시면 이해하기 어려운 부분이 있으면 상세히 질문을 남겨주세요.서로 Tone and Manner 를 지키며, 즐거운 수업 시간을 만들어보아요.실제 기상청 RSS에 가보면 mid-term 다음에 rss3.jsp로 나와있는것을 확인 할 수 있는데아래 교수님이 써주신 코드는 mid-term 다음에 lss3.jsp로 작성해 주셨습니다.# api 주소는 밑에거를 가져와 api_addr = "http://www.kma.go.kr/weather/forecast/mid-term-lss3.jsp" 실행을 해보니 rss3.jsp는 실행이 안되고lss3.jsp는 실행이 됩니다. 왜 그런 것일까요? 문의 드립니다!
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
yahoo finacne 데이터 다운로드 안됩니다.
yahoo finance data 는 "Gold subscription" 부터 가능하다고 합니다. 샘플 자료 공유 해주세요.
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
섹션2 가상환경 설치 오류
안녕하세요. 섹션2 실습 진행 중 가상환경 설치 부분부터 막히고 있어 문의드립니다ㅠㅠ 다른 질문들 찾아보고 virtualbox 우분투 환경에서 진행 중입니다. python3 설치 방법, pip 설치 방법을 따로 안내해주시지 않아서 구글링 해서 진행했는데, 자꾸 오류가 나네요.우분투 버전이 24.04.01 입니다. 버전 차이에서 오는 오류일까요? 오류 내용을 보고 구글링해봐도 해결이 어려워 도움 요청합니다ㅠㅠ
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
수강기간연장가능할까요?
생각보다 진도를 못나가서 혹시 연장이 가능한가요?
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
수강 기한 연장이 가능할까요?
안녕하세요 강사님어느새 수강기한이 얼마 남지 않아서..혹시 연장할 수 있는 방법이 있는지 문의드립니다.좋은 강의 감사드립니다!
-
미해결빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
강의 연장 문의
안녕하세요, 수강 기한이 얼마 안 남았는데, 기간 연장이 가능할까요?미리 감사드립니다
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
wb.json , pandas.json 파일을 jupyter notebook 환경에서 read 가 안됩니다..ㅠ
현재 AWS Glue 4.0 docker 이미지를 내려 받아 pyspark 커널에서 사용 중이며 섹션 8 판다스 환경에서 airbnb..csv, analyzed_americsv_2023.csv 파일은 문제 없이 잘 열리는데 Json 파일만 열리지 않습니다..ㅠ Renderer Failure: wb.jsonUnexpected non-whitespace character after JSON at position 6858 (line 2 column 1) file_name = "wb.json" df = sqlContext.read.json(file_name) df.printSchema pyspark.sql.utils.AnalysisException: Path does not exist: file:/home/glue_user/workspace/wb.json __ file_name = "pandas.json" df = sqlContext.read.json(file_name) df.printSchema return_value = get_return_value( File "/home/glue_user/spark/python/pyspark/sql/utils.py", line 196, in deco raise converted from None pyspark.sql.utils.AnalysisException: Path does not exist: file:/home/glue_user/workspace/pandas.json pandas.json 윈도우 로컬 환경에서 열면두번째 행에서 첫번째 에서 빨간줄이 나옵니다 혹시 각 딕셔너리를 담는 변수는 따로 필요가 없을까요?
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
[HDFS] Data integrity; checksum 관련 질문
안녕하세요. 현재 빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술 수업을 수강 중인 학생입니다. HDFS의 Data integrity 부분의 강의를 듣다 궁금한 점이 생겨서 질문 올립니다.checksum은 transmission 과정에서 발생하는 에러로 인해 data가 corrupt 되었는지를 destination에서 판단하기 위해 사용한다고 이해했습니다.근데 "transmission 과정에서 data를 corrupt 시킬만한 에러가 발생했다면 checksum 값도 함께 corrupt될 수도 있는거 아닌가"라는 궁금증이 생겼습니다. 제가 궁금한 점은 아래와 같이 2가지 입니다:1. transmission 과정 중 checksum 값도 corrupt될 가능성이 있는지만약 그렇다면 그런 경우를 대비한 별도의 메커니즘이 존재하는지 답변에 미리 감사드립니다.
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
안녕하세요. 강의 연장 신청 문의드립니다
안녕하세요 교수님현재 spark advanced 까지 진도 나갔으나 아쉽게도 수강기한이 거의 끝나서나머지 강의 수강을 위해 구글폼으로 연장 신청했습니다강의 연장 가능할까요?
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
jar input output_notice 문의
강사님.. 스스로 문제 해결해가며 여기까지 왔는데.. 여기는 해결이 안되 문의 드립니다..ㅠ 6:24초 영상 처럼 output_notice 디렉토리에 [실습2]에서 했던 input 파일을 맵 리듀스가 되어야 하는데 저 화면에서 30분동안 멈춰 있다 겨우 동작 됐는데 정상 동작 되지 않은거 같습니다 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount input output_notice bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.6.jar wordcount input output_notice 24/04/23 14:31:51 INFO client.RMProxy: Connecting to ResourceManager at /0.0.0.0:8032 24/04/23 14:31:52 INFO input.FileInputFormat: Total input paths to process : 1 24/04/23 14:31:52 INFO mapreduce.JobSubmitter: number of splits:1 24/04/23 14:31:52 INFO mapreduce.JobSubmitter: Submitting tokens for job: job_1713835952413_0002 24/04/23 14:31:52 INFO impl.YarnClientImpl: Submitted application application_1713835952413_0002 24/04/23 14:31:52 INFO mapreduce.Job: The url to track the job: http://ubuntu-virtual-machine:8088/proxy/application_1713835952413_0002/ 24/04/23 14:31:52 INFO mapreduce.Job: Running job: job_1713835952413_0002 24/04/23 14:31:57 INFO mapreduce.Job: Job job_1713835952413_0002 running in uber mode : false 24/04/23 14:31:57 INFO mapreduce.Job: map 0% reduce 0% 24/04/23 14:32:01 INFO mapreduce.Job: map 100% reduce 0%bin/hadoop fs -ls output_notice Found 1 items drwxr-xr-x - ubuntu supergroup 0 2024-04-23 14:31 output_notice/_temporary etc/hadoop/yarn-site.xml <configuration> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> <property> <name>yarn.nodemanager.aux-services.mapreduce_shuffle.class</name> <value>org.apache.hadoop.mapred.ShuffleHandler</value> </property> </configuration> etc/hadoop/mapred-site.xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
안녕하세요 강의 연장문의
안녕하세요 강의가 무제한인줄 알고 구매했어요..알고보니 강의가 3개월이여서 인프런에 환불 요청했더니 안된다고, 강사님께 3개월 연장부탁해보라고 하네요..혹시 3개월 연장 가능할까요?
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
aws ubuntu 22.04 크롬 드라이브 설치 및 경로 확인
wget 설치 후 wget 으로 2023_BIGDATA 디렉토리에 크롬.deb 파일 내려 받고 dpkg -i 명령어로 설치 하여 google-chrome --version 이 나왔습니다 chromedriver.Chrome('chromedriver') 라는 파일은 어디에서 찾을 수 있을까요? driver = webdriver.Chrome("/home/ubuntu/2023_BIGDATA/google-chrome-stable_current_amd64.deb" pip install wget sudo wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb # google-chrome-stable_current_amd64.deb sudo dpkg -i google-chrome-stable_current_amd64.deb google-chrome --version Google Chrome 123.0.6312.105
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
섹션2 실습1 코드 공유 문의..
안녕하세요 강사님.. 실습 1번은 현재 저로서는 해석이 불가능하여해석은 나중에 하기로 하고일단 쳐보기만 열심히 쳐봤는데 역시나 안되네요..코드 공유좀 부탁 드릴 수 있을까요.. 죄송합니다from bs4 import BeautifulSoup from urllib.request import * from urllib.parse import * from os import makedirs import os.path, time, re proc_files = {} def enum_links(html, base): soup = BeautifulSoup(html, "html.parser") links = soup.select("link[rel='stylesheet']") # CSS links += soup.select("a[href]") # link result =[] for a in links : href = a.attrs['href'] url = urljoin(base, href) result.append(url) return result def download_file(url): o = urlparse(url) savepath = "./" + o.netloc + o.path if re.search(r"/$", savepath): savepath += "index.html" savedir = os.path.dirname(savepath) if os.path.exists(savepath): return savepath if not os.path.exists(savedir): print("mkdir=", savedir) makedirs(savedir) try: print("download=", url) urlretrieve(url, savepath) # url 다운 받고 파일 이름은 savepath로 저장 time.sleep(1) return savepath except: print("다운 실패", url) return None def analyze_html(url, root_url): savepath = download_file(url) if savepath is None: return if savepath is proc_files: return proc_files[savepath] = True print('analyze_html', url) html =open(savepath, "r", encoding="utf-8").read() links = enum_links(html, url) for link_url in links: if link_url.find(root_url) != 0: if not re.search(r".css$", link_url): continue if re.search(r".(html|htm)$", link_url): analyze_html(link_url, root_url) continue download_file(link_url) if __name__ == "__main__": url = "https://docs.python.org/3.5/library/" analyze_html(url, url)
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
Beautiful Soup 실습 출력 문의
일단 따라 쳐봤는데아래의 결과 처럼 나오는게 맞을까요? html 변수에 </ul>이 있는데 혹시 앞에 <ul>은 없어도 동작 되나요? from bs4 import BeautifulSoup html = """ <html><body> <div id="project"> <h1 id="title">BIG DATA PROGRAMMING</h1> <p id='body'>DATA ANLYSIS AND SCRENCE</p> <p>DATA ACQUISTION PART1</p> </ul> <ul class="items"> <li>CRAWLING</li> <li>SCRAPPING</li> <li>HYBRID WAY</li> </div> </body></html> """ soup = BeautifulSoup(html, 'html.parser') h1 = soup.html.body.h1 p1 = soup.html.body.p p2 = p1.next_sibling.next_sibling print("h1 = " + h1.string) print("p = " + p1.string) print("p = " + p2.string) title = soup.find(id="title") body = soup.find(id="body") print("#title=" + title.string) print("#body=" + body.string) h1 = soup.select_one("div#project > h1").string print("h1 =", h1) li_list = soup.select("div#project > ul.items > li") for li in li_list: print("li =", li.string) 결과python3 2_bs4_temp.py h1 = BIG DATA PROGRAMMING p = DATA ANLYSIS AND SCRENCE p = DATA ACQUISTION PART1 #title=BIG DATA PROGRAMMING #body=DATA ANLYSIS AND SCRENCE h1 = BIG DATA PROGRAMMING li = CRAWLING li = SCRAPPING li = HYBRID WAY
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
venv 환경 패키지 설치 방법 문의
requests 패키지를 설치하려 하는데 안됩니다.혹시 venv 환경에서 패키지 설치하는 방법은 좀 다른가요? (venv2023) ubuntu@ip-172-31-12-30:~/2023_BIGDATA$ sudo pip install requests Requirement already satisfied: requests in /usr/local/lib/python3.10/dist-packages (2.31.0)Requirement already satisfied: charset-normalizer<4,>=2 in /usr/local/lib/python3.10/dist-packages (from requests) (3.3.2)Requirement already satisfied: idna<4,>=2.5 in /usr/local/lib/python3.10/dist-packages (from requests) (3.6)Requirement already satisfied: urllib3<3,>=1.21.1 in /usr/local/lib/python3.10/dist-packages (from requests) (2.2.1)Requirement already satisfied: certifi>=2017.4.17 in /usr/local/lib/python3.10/dist-packages (from requests) (2024.2.2)WARNING: Running pip as the 'root' user can result in broken permissions and conflicting behaviour with the system package manager. It is recommended to use a virtual environment instead: https://pip.pypa.io/warnings/venv
-
해결됨빅데이터 파이프라인 마스터; 성공을 위한 도구와 기술
가상머신 설치부터 안됩니다.
안녕하세요Jupyter terminal 오픈하고, crawling 실습하기 위한 준비부터 문제가 발생했어요 ㅜ폴더까지 생성을 했는데, virtualenv 활성화하기 위해 source이라는 명령어가 실행이 되지 않습니다. jupyter notebook workspace도 실행되지 않고...vim 명령어도 인식 하지 못합니다. 빠른 속도에 추가 설명이 없어서, 어디서 어떻게 실행을 하는지 제가 이해하지 못한것 같습니다. visual studio code에서도 실행을 해봤는데, 같은 부분에 계속 예러가 납니다. 도와주세요. 제가 어떻게 하면 되나요?