묻고 답해요
158만명의 커뮤니티!! 함께 토론해봐요.
인프런 TOP Writers
-
미해결[신규 개정판] 이것이 진짜 크롤링이다 - 기본편
맥에서 오류가 뜹니다 #reportUndefinedVariable #reportMissingModuleSource
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.왜 리퀘스트와 html을 찾을수 없다고 나오는 걸까요 ㅜㅠ 구글링해도 어떻게 하라는 건지 잘 모르겠는데 여쭤봐도 괜찮을까요 맥을 하고 있습니다 ㅠ.ㅠ
-
미해결파이썬 증권 데이터 수집과 분석으로 신호와 소음 찾기
쥬피터노트북에서 실행파일 만들기
프로그램에 문외한 초보입니다. 선생님의 강의를 듣고자 쥬피터노트북을 설치하였습니다. 거기서 제가 사용하고자 자동화프로그램을 하나 만들었는데, 실행파일이 만들어 지지 않고 계속 아래의 오류메시지가 뜹니다. 근데 아래의 pathlib라는 패키지를 제거하면 이번에는 pip명령이 작동하지 않습니다. 파이참도 설치하여 파일을 옴겨보고 수 없이 프로그램을 재설치하고, chatgpt에 문의도해 보았지만, 문제를 해결하지 못하였습니다. 강의 내용과 좀 다른 질문일수도 있으나, 어디 도움을 구할 곳이 없네요. 쥬피터노트북을 사용하시는 선생님은 실행파일을 어떻게 만드시는지 궁금하여 문의드립니다.The 'pathlib' package is an obsolete backport of a standard library package and is incompatible with PyInstaller. Please remove this package (located in C:\Users\jh_ki\anaconda5\lib\site-packages) using conda remove then try again.
-
미해결[신규 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
네이버지도크롤링부분
안녕하세요 네이버지도 크롤링 부분을 듣다가 응용을 좀 해보고싶어서 그러는데 각 리뷰수,블로그리뷰수,등등 뽑아오는것은 가능하지만 각 상점마다 클릭을하여 리뷰를 작성한텍스트 부분도 같이 뽑아오고싶습니다(각 상점의 리뷰텍스트) 어떤 방식으로 진행을 해야할지 모르겠는데 조언 부탁드립니다.
-
미해결실습으로 끝장내는 웹 크롤링과 웹 페이지 자동화 & 실전 활용
네이버가 바뀌었는데 카테고리? 리스트 가져오는게 안되네요?
안녕하세요.강의 잘 듣고 있습니다.네이버가 새로운 형태로 바뀌었는데아주 간단한 것이 해결이 안되네요?이유가 뭘까요?기본구조는 이렇게 생겼습니다.<li class="shortcut_item"> <a href="mail.naver.com" class="link_service"> <span class="service_icon type_mail"> ::before ::after </span> <span class="service_name">메일</span> </a> </li> <li class="shortcut_item"> </li>아래처럼 너무 단순한거라 생각했던 것을 못 가져오네요?확인 부탁드려요~service_name = soup.find(class_="service_name", string="메일") print(service_name) # None 출력이 안되네 이유가 뭘까나? print()
-
미해결[신규 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
header 관련 질문
안녕하세요. 현재 거의 완강을 한 학생이자, 업무에서도 크롤링을 나름 잘 활용하고 있습니다. 그래도 여러 가지 어려운 에러를 많이 만나는데, 그 중 하나가 header 관련 입니다. 우선, 제가 크롤링을 시도하고 있는 웹사이트는 라쿠텐 일본 (https://search.rakuten.co.jp/search/mall/-/560202/?p=2&used=1) 웹사이트입니다. 1페이지까지는 크롤링이 잘 되는데, 2페이지부터는 크롤링이 되지 않고, 하기와 같은 화면이 나오네요.제가 구글링을 많이 해본 결과, 웹사이트에서 크롤링 방지를 위해 무엇인가 설정을 해놓은 것이 아닐까 생각이 되고, 그래서 수업 중에 설정했던 header에 관해 여러 설정을 해보고 있는데, 아직 성공적으로 돌리지 못했네요. 전 셀레니움을 사용해서 다음과 같은 설정을 추가해봤습니다만, 혹시 관련해서 조언을 주실만한 사항이 있을까요?헤더나 설정을 할 때 무엇이 어떻게 필요한지 어떻게 아는지도 매우 궁금합니다.
-
미해결[리뉴얼] 파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
입문 이후 강의 고민
안녕하세요저는 공공기관에 근무하고 있는데다른 파이썬 강의는 지루하고 어려워서 돌고 돌다가 선생님께서 쉽게 기초부터 잘 가르쳐주셔서감사하게 생각하고 있습니다.사실 파이썬 데이터 분석을 먼저 신청했는데 머리에 잘 들어오지 않아 고민 끝에 입문 강의를 신청해서 듣고 있는데 정말 만족하고 있습니다. 최종적으로 제가 만들고 싶은 건 두 가지입니다.하나는, 책의 내용을 제가 텍스트로 정리하고 만들고자 하는 프로그램에서 그걸 불러오면... 음... 액세스 같은 프로그램이라고 할까요(액세스는 잘 안 쓰이는 거 같더라구요) 그 프로그램에서 키워드를 검색하면 키워드를 포함하는 문장과 그 문장이 속한 카테고리가 옆에 뜨게 되는 그런 것이고 다른 하나는, 데이터 비교 및 분석입니다.업무 특성상 과거연도와 데이터 비교를 할 일이 많습니다.데이터 크기, 양도 몇 만~ 1~20만 건인데다가 단순 엑셀 수작업으로 하기엔 데이터 추출하기도 정리하기도 엑셀도 버벅대서 여러모로 버거워서 배우고 있는데 이런 업무를 하려면 어떤 것들을 배워야 할지 몰라서혹시나 도움이 될까해서 글 올려봅니다.
-
미해결파이썬 증권 데이터 수집과 분석으로 신호와 소음 찾기
주피터노트북 확장팩 설치가 안됩니다.
말씀해주신 두가지방법 다 사용해보고, 아래와 같이 구글에 검색한 방법까지 이용해 보았는데도 주피터노트북확장팩이 설치되지 않네요. !pip install jupyter_nbextensions_configurator jupyter_contrib_nbextensions !jupyter contrib nbextension install --user !jupyter nbextensions_configurator enable --user
-
미해결실습으로 끝장내는 웹 크롤링과 웹 페이지 자동화 & 실전 활용
강의 끝까지 잘 들었습니다. 복습도 해야겠죠
강의를 잘 들었습니다.완강이신지요? 너무 훌륭한 강의라서 좀더 이어졌으면 하는 간절한 바램입니다. 지금은 잘 이해하고 있다고 생각드는데 막상 실전에서 사용하려면 잘 안돼요.... 우선 복습부터 해야겠네요....감사합니다.
-
미해결파이썬 증권 데이터 수집과 분석으로 신호와 소음 찾기
날짜 정보
안녕하세요.현재 시점의 fdr 데이터에는 날짜 정보가 없습니다.저는 최종적으로 시계열 데이터를 기준으로 데이터를 분석하는 것을 목표로 하고 있는데요.시계열 데이터를 포함한 fdr데이터는 가져올 수 있는 방법이 없을까요?
-
해결됨일잘하는 마케터, MD에게 꼭 필요한 파이썬 데이터 분석
Google Colab 코드작성 네이버 리뷰 코드 오류
안녕하세요 선생님. 네이버 리뷰 강의 듣다가 코드 오류때문에 글 남깁니다. Driver 네임 오류는 어떻게 고쳐야되나요?
-
미해결[신규 개정판] 이것이 진짜 크롤링이다 - 기본편
기간지정 뉴스검색 멀티페이지
특정기간 동안 뉴스 헤드라인만 모두 가져올려고 강의 내용대로 해보는데요.페이지가 바뀌어도 같은 내용입니다.계속 10개씩 반복하고 있네요아래처럼 5페이지 내용이 4페이지랑 같은데요? 막아놓은 건가요?감사합니다~ 4페이지입니다. ========================삼성전자, 日에 반도체 개발거점 신설…한일 협력 강화 http://www.newsis.com/view/?id=NISX20230514_0002302240&cID=13001&pID=13000이재용 삼성전자 회장, 美서 일론 머스크 만났다 https://www.busan.com/view/busan/view.php?code=2023051416460254009[단독] 네이버와 손잡은 삼성전자…'삼성 전용 챗GPT' 만든다 https://www.hankyung.com/economy/article/2023051438501삼성전자·테슬라 협력 확대 기대감...이재용, 머스크와 만났다 https://magazine.hankyung.com/business/article/202305143929b"삼성전자, 日에 3000억 규모 반도체 시설 짓는다" http://www.fnnews.com/news/202305141137269594삼성·LG전자, 에어컨 점유율 놓고 신경전 https://biz.chosun.com/it-science/ict/2023/05/14/IJWA7SBSYRDPZMKRSSYFUIBUEM/?utm_source=naver&utm_medium=original&utm_campaign=biz함영주 회장, 자카르타서 삼성전자와 손잡고 K-금융 전파 http://www.edaily.co.kr/news/newspath.asp?newsid=01161126635608920삼성전자 1분기 국내 에어컨시장 점유율 48.6%…10년 연속 1위 https://www.yna.co.kr/view/AKR20230514015600003?input=1195m삼성전자, 무풍 덕분에 '활짝'…1분기 에어컨 점유율 절반 https://www.news1.kr/articles/5045836구글까지 가세…'활짝 펼친' 폴더블폰 시장, 삼성전자 숨은 무기는? http://news.tf.co.kr/read/economy/2017581.htm 5페이지입니다. ========================삼성전자, 日에 반도체 개발거점 신설…한일 협력 강화 http://www.newsis.com/view/?id=NISX20230514_0002302240&cID=13001&pID=13000이재용 삼성전자 회장, 美서 일론 머스크 만났다 https://www.busan.com/view/busan/view.php?code=2023051416460254009[단독] 네이버와 손잡은 삼성전자…'삼성 전용 챗GPT' 만든다 https://www.hankyung.com/economy/article/2023051438501삼성전자·테슬라 협력 확대 기대감...이재용, 머스크와 만났다 https://magazine.hankyung.com/business/article/202305143929b"삼성전자, 日에 3000억 규모 반도체 시설 짓는다" http://www.fnnews.com/news/202305141137269594삼성·LG전자, 에어컨 점유율 놓고 신경전 https://biz.chosun.com/it-science/ict/2023/05/14/IJWA7SBSYRDPZMKRSSYFUIBUEM/?utm_source=naver&utm_medium=original&utm_campaign=biz함영주 회장, 자카르타서 삼성전자와 손잡고 K-금융 전파 http://www.edaily.co.kr/news/newspath.asp?newsid=01161126635608920삼성전자 1분기 국내 에어컨시장 점유율 48.6%…10년 연속 1위 https://www.yna.co.kr/view/AKR20230514015600003?input=1195m삼성전자, 무풍 덕분에 '활짝'…1분기 에어컨 점유율 절반 https://www.news1.kr/articles/5045836구글까지 가세…'활짝 펼친' 폴더블폰 시장, 삼성전자 숨은 무기는? http://news.tf.co.kr/read/economy/2017581.htm
-
미해결파이썬 입문 및 웹 크롤링을 활용한 다양한 자동화 어플리케이션 제작하기
위시켓 폼데이터
위시켓 네트워크 살펴보면 login/이라는 이름을 가진 게 없어요.
-
해결됨[신규 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
headless 내용이 포함되어 있나요?
강의 초반 진행중인데 셀레니움 headless 에 관한 내용도 나오나요?
-
해결됨일잘하는 마케터, MD에게 꼭 필요한 파이썬 데이터 분석
링크 변경 애러 질문
###############################!!링크변경!!############################################################################# name = ['호박즙'] ns_address = "https://smartstore.naver.com/goldhouse/products/2698413198?n_keyword=&n_rank=1&n_query=%ED%98%B8%EB%B0%95%EC%A6%99&n_campaign_type=2&n_media=11068&n_campaign=cmp-a001-02-000000006259509&n_ad_group=grp-a001-02-000000031918432&n_ad=nad-a001-02-000000225350866&n_match=3&n_network=search&n_mall_id=ncp_1nm8fw_01&n_mall_pid=2698413198&n_ad_group_type=2&n_keyword_id=&n_ad_extension=&NaPm=ct%3Dlhelvdj4%7Cci%3D0z800028I5vytTVpXKYs%7Ctr%3Dpla%7Chk%3Dca9985f6cfe1114e75168d87872e9d4dd1a915ad" shoppingmall_review = "/html/body/div[2]/div/div[3]/div[2]/div[2]/div/div[3]/div[4]/div/div[3]/ul/li[2]/a" category_total = "/html/body/div[2]/div/div[3]/div[2]/div[2]/div/div[3]/div[6]/div/div[3]/div[1]/div[2]/ul/li[1]/a" ############################################################################################################ header = {'User-Agent': ''} driver.implicitly_wait(3) driver.get(ns_address) req = requests.get(ns_address,verify=True) html = req.text soup = BeautifulSoup(html, "html.parser") sleep(2) # 2023.05.08 변경 find_element_by_xpath TO find_element # element=driver.find_element_by_xpath(shoppingmall_review) element=driver.find_element(By.XPATH, shoppingmall_review) driver.execute_script("arguments[0].click();", element) sleep(2)예시에서 링크를 변경해서 대입해보면 아래와 같은 애러가 발생하네요..! 뭐가 문제일까요? NoSuchElementException Traceback (most recent call last) <ipython-input-5-15bf827fd88a> in <cell line: 10>() 8 # 2023.05.08 변경 find_element_by_xpath TO find_element 9 # element=driver.find_element_by_xpath(shoppingmall_review) ---> 10 element=driver.find_element(By.XPATH, shoppingmall_review) 11 driver.execute_script("arguments[0].click();", element) 12 sleep(2) /usr/local/lib/python3.10/dist-packages/selenium/webdriver/remote/errorhandler.py in check_response(self, response) 243 alert_text = value["alert"].get("text") 244 raise exception_class(message, screen, stacktrace, alert_text) # type: ignore[call-arg] # mypy is not smart enough here --> 245 raise exception_class(message, screen, stacktrace) NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"/html/body/div[2]/div/div[3]/div[2]/div[2]/div/div[3]/div[4]/div/div[3]/ul/li[2]/a"} (Session info: headless chrome=90.0.4430.212) Stacktrace: #0 0x55d22a7987f9 <unknown> #1 0x55d22a7383b3 <unknown> #2 0x55d22a480016 <unknown> #3 0x55d22a4b481e <unknown> #4 0x55d22a4ea8fb <unknown> #5 0x55d22a4d7ded <unknown> #6 0x55d22a4e89e1 <unknown> #7 0x55d22a4d7c93 <unknown> #8 0x55d22a4a9ce4 <unknown> #9 0x55d22a4ab4d2 <unknown> #10 0x55d22a764542 <unknown> #11 0x55d22a773ce7 <unknown> #12 0x55d22a7739e4 <unknown> #13 0x55d22a77813a <unknown> #14 0x55d22a7745b9 <unknown> #15 0x55d22a759e00 <unknown> #16 0x55d22a78b5d2 <unknown> #17 0x55d22a78b778 <unknown> #18 0x55d22a7a3a1f <unknown> #19 0x7f091bdac609 start_thread #20 0x7f091afc0133 clone
-
해결됨일잘하는 마케터, MD에게 꼭 필요한 파이썬 데이터 분석
애러 질문
위 애러가 계속해서 나고있어요. 현재 강의는 [Google Colab 코드 작성(2) - (네이버리뷰) 코드 분석 및 코드 작성]을 듣고 있습니다.
-
미해결[신규 개정판] 이것이 진짜 크롤링이다 - 기본편
과제 정답을 어디서 볼 수 있을까요?
<뉴스의 제목과 링크를 가지고 오자> 강의에서 마지막에 내주신 과제의 정답 코드를 혹시 어디서 볼 수 있을까요?
-
미해결[신규 개정판] 이것이 진짜 크롤링이다 - 기본편
크롤링 프로그래밍 중 질문(제발 도와주세요ㅠㅠ)
위와 같은 사이트를 크롤링하려고 합니다. 첫번쨰 사진의 빨간색 동그라미 '현상태' 버튼을 개발자 도구로 찍어본 사진입니다.원하는 버튼을 눌러 나오는 숫자를 크롤링하여 디스플레이 하려고 하는데 일단 버튼 자체가 크롤링이 되지 않습니다... 버튼 뿐만 아니라 다른 정보도 위와 같이 []로만 뜨고 아무것도 못읽어오네요ㅠㅠ셀레니움으로도, id나 다른 셀렉터로도 시도해봤는데 계속 아무것도 읽혀지지 않습니다... 며칠쨰 구글링 하다가 도저히 모르겠어서 질문글 남깁니다 도와주세요ㅠㅠ
-
미해결[신규 개정판] 이것이 진짜 크롤링이다 - 실전편 (인공지능 수익화)
팝업 창
안녕하세요.질문 있어 문의드립니다.브라우져 처음 접근할 때, 위 그림처럼 쿠키 동의 창이 계속 나오는데 어떻게 해야하나요?... 크롬으로 제가 접속할 때는 제가 예전에 이미 동의를 해놓아서 따로 뜨지 않는데, webdriver 통해서 들어가면 항상 이 창이 뜹니다.
-
미해결[리뉴얼] 파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
#데이터가 하나가 있는 set을 만드는 방법을 알려주셔서 그대로 적용해서 data_set6 = set('appl') 이렇게 해서 출력을 해봤는데 출력이 {'appl'}이 나오지 않고 사진처럼 나와요...
3분 55초부터 나오는 설명보고 따라했습니다.! 코드는 임의로 바꿨어요
-
미해결실습으로 끝장내는 웹 크롤링과 웹 페이지 자동화 & 실전 활용
강의잘듣고공부중입니다~^^작성중에 url 에 특정이미지를 크롤링하는걸 배웠는데도 에러가떠서 한수부탁드려요ㅜ
""" dumpimages.py Downloads all the images on the supplied URL, and saves them to the specified output file ("/test/" by default) Usage: python dumpimages.py https://www.1688.com// [output] """ from bs4 import BeautifulSoup as bs from urllib.request import ( urlopen, urlparse, urlunparse, urlretrieve) import os import sys def main(url, out_folder="/test/"): """Downloads all the images at 'url' to /test/""" soup = bs(urlopen(url)) parsed = list(urlparse(url)) for image in soup.findAll("img"): print("Image: %(src)s" % image) filename = image["src"].split("/")[-1] parsed[2] = image["src"] outpath = os.path.join(out_folder, filename) if image["src"].lower().startswith("http"): urlretrieve(image["src"], outpath) else: urlretrieve(urlunparse(parsed), outpath) def _usage(): print("usage: python dumpimages.py http://example.com [outpath]") if __name__ == "__main__": url = sys.argv[-1] out_folder = "/test/" if not url.lower().startswith("http"): out_folder = sys.argv[-1] url = sys.argv[-2] if not url.lower().startswith("http"): _usage() sys.exit(-1) main(url, out_folder)root@goorm:/workspace/firstContainer# cd "/workspace/firstContainer";root@goorm:/workspace/firstContainer# python3 /workspace/firstContainer/index.pyTraceback (most recent call last): File "/workspace/firstContainer/index.py", line 38, in <module> url = sys.argv[-2]IndexError: list index out of range 구름ide로작성했는데 이렇게 오류가 떠요ㅠㅠ전체이미지가 아닌 배웠던 class 특정영역의 이미지들만 일괄저장하고싶어서요;;ㅠ