데이터 사이언스데이터 분석

[2024 개정판] 이것이 진짜 크롤링이다 - 기본편대시보드

(4.9)384개의 수강평 ∙ 10,237명의 수강생

스타트코딩

Python 웹 크롤링

무료

지식공유자: 스타트코딩

총 10개 수업 (1시간 51분)

수강기한:

수료증: 미발급

난이도: --

지식공유자 답변이 제공되는 강의입니다

폴더에 추가679

다른 수강생들이 자주 물어보는 질문이 궁금하신가요?

미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
스크롤링이 안됩니다 ㅠㅠ
안녕하세요! 양질의 강의 정말 감사합니다. 완강을 앞두고 빨리 실전반 강의를 듣고 싶은데 스크롤링이 안되어 진행이 안되고 있어요. 쇼핑 - 아이폰 13까진 검색 하는데 그 다음부턴 멈춰있습니다ㅠ 코드도 똑같이 작성했는데, 뭐가 문제인지 답변 주시면 감사하겠습니다 :))) from selenium import webdriver from selenium.webdriver.common.keys import Keys import time # 브라우저 생성 browser = webdriver.Chrome('C:/chromedriver.exe') # 웹사이트 열기 browser.get('https://www.naver.com') browser.implicitly_wait(10) # 로딩이 끝날 때까지 10초까지는 기다려라 # 쇼핑 메뉴 클릭 browser.find_element_by_css_selector('a.nav.shop').click() time.sleep(2) # 검색창 클릭 search = browser.find_element_by_css_selector('input.co_srh_input._input') search.click() # 검색어 입력 search.send_keys('아이폰 13') search.send_keys(Keys.ENTER) # 스크롤 전 높이 before_h = browser.execute_script("reuturn window.scrollY") # 무한 스크롤 while True: # 맨 아래로 스크롤을 내린다. browser.find_element_by_css_selector("body").send_keys(Keys.END) # 스크롤 사이 페이지 로딩시간 time.sleep(1) # 스크롤 후 높이 after_h = browser.execute_script("reuturn window.scrollY") if after_h == before_h: break before_h = after_h # 상품 정보 div items = browser.find_element_by_css_selector(".basicList_info_area__17Xyo") for item in items: name = item.find_element_by_css_selector(".basicList_title__3P9Q7").text price = item.find_element_by_css_selector(".price_num__2WUXn").text link = item.find_element_by_css_selector(".basicList_title__3P9Q7 > a").get_attribute('href') print(name, price, link)
panaderia · 2022.03.08 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
331
답변
1
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
글자가 깨집니다
- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요! - 먼저 유사한 질문이 있었는지 검색해보세요. - 서로 예의를 지키며 존중하는 문화를 만들어가요. - 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요. encoding error인지 CP949, EUC-KR, Utf-8 다 해봐도 글자가 계속 깨져서 나옵니다, 맥 vs code 쓰고 있습니다.
Brian Kang · 2022.03.04 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
381
답변
2
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
시스템에 부착된 장치가 작동하지 않습니다 오류(?)
웹사이트 열기까지는 실행이 잘 되는데, 그 다음 명령어 browser.find_elements_by_css_selector('a.nav.shop').click() 작동하지 않습니다... ㅠㅠ 터미널을 보면 사진과 같이 시스템에 부착된 장치가 작동하지 않습니다 라는데, 어떻게 해야하나요 ? 유료강의 수강직전 복습중인데 여기서 막혀서 진도가 안나갑니다. 도와주세요!
43april · 2022.02.27 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
798
답변
1
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
install 에러
pip install beatifulsoup 했으나, 에러가 계속 뜹니다.. 뭐가 문제인가요? Defaulting to user installation because normal site-packages is not writeable Collecting beautifulsoup Using cached BeautifulSoup-3.2.2.tar.gz (32 kB) Preparing metadata (setup.py) ... error error: subprocess-exited-with-error × python setup.py egg_info did not run successfully. │ exit code: 1 ╰─> [7 lines of output] Traceback (most recent call last): File "<string>", line 2, in <module> File "<pip-setuptools-caller>", line 34, in <module> File "C:\Users\고재희\AppData\Local\Temp\pip-install-jm_l5l3i\beautifulsoup_d67c8f39d67b4361bf5788dd78c256a7\setup.py", line 3 "You're trying to run a very old release of Beautiful Soup under Python 3. This will not work."<>"Please use Beautiful Soup 4, available through the pip package 'beautifulsoup4'." ^^ SyntaxError: invalid syntax [end of output] note: This error originates from a subprocess, and is likely not a problem with pip. error: metadata-generation-failed × Encountered error while generating package metadata. ╰─> See above for output. note: This is an issue with the package mentioned above, not pip. hint: See above for details.
고재희 · 2022.02.25 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
1
조회수
12.2k
답변
2
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
BS4 에러 2
안녕하세요 아래 질문과 동일한 증상인데 해결이 안되어서 다시 질문드립니다 bs4 모듈이 없다는 오류가 떠서 알려주신대로 다른 버전으로 바꾸어도 계속 같은 에러가 뜹니다 파이썬 버젼이 낮은거라서 그런가 해서 새로 다운 받아서 버전을 전환해도 마찬가지네요 여기서 막혀서 다음 순서로 진행이 안되는데 어떻게 해야 할까요 중복된 파이썬을 지워야 할까요 도와주세요
정지은 · 2022.02.25 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
125
답변
1
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
실전 프로젝트 3) 네이버 쇼핑 상품 정보 수집하기 - 오류
안녕하세요. 스타트코딩 강사님의 강의를 듣고 있는 학생입니다. 실전 프로젝트 3) 상품 정보 데이터 수집하기 강의에서 마지막에 name, price, link 가져오는 for문 돌릴 때 에러가 뜹니다. item에서 find_element_by_css_selector가 안 먹히는 것 같습니다. 어떻게 하면 좋을까요? 좋은 강의해 주셔서 감사드립니다.
kouy96 · 2022.02.24 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
105
답변
1
해결됨
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
실행은 잘되는데요 prompt만 입력하면
pyautogui 설치하고 입력받는 prompt글자만 쓰면 그줄 아랫줄은 다 회색으로 나오네요 지우면 다시 다 알록달록하게 잘나오고요 근데 오류도 안뜨고 실행도 잘됩니다. 입력새창 결과도 잘나와요 이거 왜이러는 걸까요..?; 아무것도 안만졌는데 이틀 안켜다가 다시 켜니 다시 색깔이 나오네요...이유를 모르니 답답 ㅠㅠ
jch · 2022.02.23 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
217
답변
1
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
저번 질문은 해결했는데. 새로운 에러가 나타났습니다. 근데 처음 보는거라 ㅜㅜ 도움을 요청합니다.
다음과 같은 크롤링 코드를 짜봤습니다. 첫번째 그림파일은 크롤링 함수이고요. 두번째는 실행을 위한 main()함수입니다. 이 크롤링 목적은 네이버 뉴스 페이지에서 특정 신문사(경향신문, 매일경제 등)에 대한 특정기간과 특정 단어에 대해서 검색하여 뉴스기사 제목, 시간, 신문사 등을 긁어 오는 겁니다. 저번에는 변수의 정의가 안되었다고 나와서, 그건 해결했는데. 이런 에러메세지가 나타납니다. 리스트 인덱스가 범위 밖이라고 나오는데 맨 처음 문장은 fake-useragent 관련된 내용이더라구요. 이건 처음 보는 메세지가 무슨 말인지 모르겠습니다. 그래서 에러에 대한 도움을 요청합니다.
최성환 · 2022.02.21 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
114
답변
2
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
안녕하세요 학습환경 문의드립니다.
안녕하세요. 학습 전 문의드립니다. 제가 사정상 vscode를 사용하지 못하고 구름ide를 사용해야할것 같은데 학습 진행에 제한될게 있을까 여쭤봅니다. 감사합니다 :)
yeop6134 · 2022.02.21 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
1
조회수
98
답변
1
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
웹 스크래핑 코드에 대한 질문입니다.
# 2. main function def crawler(maxpage, query, s_date, e_date, press): press = int(press_name) s_from = s_date.replace(".", "") e_to = e_date.replace(".", "") page =1 maxpage_t = (int(maxpage)-1)*10+1 f = open("D:/10.MyPython_work/nlp/web_crawl/contents_text.csv", 'w', encoding = 'utf-8') wr = csv.writer(f) wr.writerow(['years', 'company', 'title', 'contents', 'link']) while page < maxpage_t: url = 'https://search.naver.com/search.naver?where=news&query=' + query + '&sort=0&ds=' + s_date + '&de=' + e_date + '&news_office_checked='+ press + '&nso=so%3Ar%2Cp%3Afrom' + s_from + 'to' + e_to + '%2Ca%3A&start=' + str(page) # ua = UserAgent() # headers = {'User-Agent' : ua.random} req = requests.get(url) cont = req.content soup = BeautifulSoup(cont, 'html.parser') for urls in soup.select("a.info"): try: if urls["href"].startswith("https://news.naver.com"): news_detail = [] ua = UserAgent() headers = {"User-Agent" : ua.random} breq = requests.get(urls["href"], headers = headers) bsoup = BeautifulSoup(breq.content, 'html.parser') title = bsoup.select('h3#articleTitle')[0].text news_detail.append(title) pdate = bsoup.select('.t11')[0].get_text()[:11] news_detail.append(pdate) _text = bsoup.select('#articleBodyContents')[0].get_text().replace('\n', " ") btext = _text.replace("// flash 오류를 우회하기 위한 함수 추가 function _flash_removeCallback() {}", "") news_detail.append(btext.strip()) news_detail.append(urls["href"]) pcompany = bsoup.select('#footer address')[0].a.get_text() news_detail.append(pcompany) wr.writerow([news_detail[1].replace(',',''), news_detail[4].replace(',',''), news_detail[0].replace(',',''), news_detail[2].replace(',',''), news_detail[3].replace(',','')]) except Exception as e: continue page += 10 print('Completed!') f.close() def main(): maxpage = input("검색 할 페이지수: ") query = input("검색어: ") s_date = input("시작 날짜(YYYY.MM.DD): ") e_date = input("종료 날짜(YYYY.MM.DD): ") medium = {'경향신문': '1032', '국민일보': '1005', '동아일보': '1020', '문화일보': '1021', '중앙일보': '1025', '한겨레': '1028', '한국경제': '1015', 'KBS': '1056', 'MBC': '1214'} press_name = medium.get(input("언론사 :")) crawler(maxpage, query, s_date, e_date, press) main() 강의와 구글 검색으로 네이버 뉴스를 신문사 선택하여 스크레핑할 수 있게 만들려고 작성한것입니다. 그런데 --------------------------------------------------------------------------- NameError Traceback (most recent call last) ~\AppData\Local\Temp/ipykernel_14200/631169102.py in <module> 70 crawler(maxpage, query, s_date, e_date, press) 71 ---> 72 main() ~\AppData\Local\Temp/ipykernel_14200/631169102.py in main() 68 press_name = medium.get(input("언론사 :")) 69 ---> 70 crawler(maxpage, query, s_date, e_date, press) 71 72 main() NameError: name 'press' is not defined이런 에러메세지가 나오는데요.. 이건 어떻게 해결할 수 있을가요?
최성환 · 2022.02.17 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
134
답변
1
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
bs4에러
pip list 했을 때 beautifulsoup4 하고 bs4가 설치되어있음을 확인했는데도 ModuleNotFoundError: No module named 'bs4' 에러가 뜹니다 ㅠㅠ 어떻게 해야하나요? Import "bs4" could not be resolved from source
백미정 · 2022.02.12 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
1.84k
답변
2
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
스크롤이 끝까지 내려가지 않습니다!
강의 잘 들었습니다! ㅎㅎ 다름이 아니라 무한 스크롤 코드를 작성하던 중, 스크롤 내리기가 여러 번 반복돼야 끝까지 내려가게 되는데 현재 코드를 그대로 작성하면 한번만 스크롤이 내려가고 멈추는 현상이 발생합니다! 혹시 스크롤 사이 페이지 로딩 시간이 문제인가 싶어 0부터 3까지 모두 넣어봤는데 계속 반복됩니다.. 무슨 문제인지 모르겠어요ㅠ 항상 강의 깔끔하게 해주셔서 감사합니다!
ljyoung414 · 2022.02.11 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
3.73k
답변
3
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
동적크롤링시 크롬창 꺼짐, 웹드라이버매니저 임포트 불가
저 동적크롤링할때 크롬창이 잠시 켜졌다가 바로꺼지면서 deprecated에러가 떠서 이전버전(3.x.x)으로 다운을 받았는데도 계속꺼지고 구글링을해보니 웹드라이버 매니저를 임포트해서 하는방법이있던데 임포트도 already satisfied라하고 되질않네요 는데 노란색밑줄이 계속뜨네요.. 어떻게 해결해야하나요
ckdgy123 · 2022.02.11 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
2
조회수
4.08k
답변
3
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
준비운동 - (크롤링을 위한 정말 쉬운 HTML - 뉴스 해킹) 내용 중 질문
안녕하세요! 강의 내용 중 궁금한 것이 있어 질문드립니다. html 내용을 수정해 기사 제목을 수정하는 실습을 문제 없이 진행했는데, 사진도 교체해보고 싶어서 시도하니 안되네요. 보통 마크다운으로 작성 시 사진에 대한 주소를 해당 태그 안에 넣으면 될 것 같은데, 원래 안되는건지, 가능하게 하는 방법이 있는지 궁금합니다.
류제성 · 2022.02.09 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
179
답변
1
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
강의노트
강의노트는 따로없나요?? 설명해준거 다시보고싶은데
ckdgy123 · 2022.02.09 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
116
답변
1
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
현재값이 문자열로 출력
안녕하세요, 강의해주신 방법대로 엑셀로 값을 저장하고 난 후에 엑셀에서 확인하면 값이 문자열로 저장되길래 숫자열로 바꾸는 방법을 검색해서 적용해보았습니다. 적용한 김에 3자리수마다 콤마를 표시하는 방법을 사용하고 싶어서 넣었는데, 영상에서 쓴 대로 넣어도 문자열이었고, 이렇게 바꿨는데도 불구하고 엑셀로 가보면 문자열로 출력이 되어서 하나하나 바꿔야 하더라구요. 혹시 현재값이 문자열로 출력되는 이유가 무엇일까요?? 이렇게 바꿨는데도 문자열로 나오는 이유는 무엇인가요? worksheet[f'E{row}'] = format(int(diff), ',')
곽수민 · 2022.02.06 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
134
답변
1
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
맥 pip 설치
선생님 안녕하세요. 저는 맥 유저인데요 pip 설치를 위해 알려주신 명령문을 쳤는데, 찾을 수 없다고만 나오네요. 인터넷에 검색하니 GCC를 설치하고 또 무언가를 설치하라고하는데 봐도 모르겠어요 ㅠㅠㅠ 어떻게 해야할까요?
포도 · 2022.02.04 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
270
답변
1
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
파워쉘
선생님 안녕하세요. 우선 저는 맥을 사용 중입니다. 모든 과정을 따라하고 있는데, print("hello startcoding")을 실행하고 하단 터미널을 보면, 저는 파워쉘이 나오지 않고, 제 컴퓨터 정보가 뜨는데 저는 아무것도 하지 않아도 되는걸까요? 그리고, 수강 전 질문 코너가 없어서 이곳에 한 가지 더 여쭤볼게요. 현재 저는 코딩은 하나도 모르는 상태 입니다. 회사에서 업무에 필요한 것이 있어서 강의를 찾아 기본편을 보고 다음 편까지 들어야겠다 생각 중인데, 제대로 온 것이 맞는지 확인 부탁드릴게요. 저희 회사에서 네이버 밴드에 저희 제품을 설치한 사진과 내용을 텍스트로 올리고 있어요. 그리고 현장에서 사진과 정보를 올려놓으면, 그 내용을 일일이 엑셀로 옮겨 작업하고 있는데, 손으로 하다보니 숫자도 자주 틀리고, 누락하는 경우가 종종 생기고 있어요. 그래서, 밴드의 내용을 엑셀로 자동화하고 싶은데 선생님 강의수강 후 저희 회사에 맞는 자동화 프로그램을 만들 수 있을까요? 혹시 자동화가 이미지와 텍스트만 가능한지, 텍스트만 가능한지도 궁금합니다. 답변 꼭 부탁 드립니다. 새해 복 많이 받으시고, 좋은 강의 감사합니다.
포도 · 2022.02.04 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
142
답변
1
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
filter..
저는 선생님 처럼 f12 창에서 filter 칸에 클래스 이름을 적으면 옆에 갯수가 뜨질 않습니다.. 그 갯수를 모르면 어떤 클래스를 가져와야하는지 몰라지는데.. 어떡해야할까요?
yun_cic · 2022.01.31 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
112
답변
1
미해결
[2024 개정판] 이것이 진짜 크롤링이다 - 기본편
네이버 주식 현재가 문의
안녕하세요 강사님 덕분에 크롤링에 대해서 차근차근 배우 있습니다 감사합니다 다름이 아니라 질문이 있습니다 네이버 주식 현재가 코드를 돌리면 이러한 에러가 뜨는데 원인을 모르겠습니다 그리고 text가 문제인가 싶어서 text를 없애고 price 출력해보았으나 None이라고 뜨네요 선택자(_NowVal )문제인가 싶어 크롬 개발자 도구로 검색해보았는데 _NowVal이 2개가 검색이 되는데 이것 때문에 발생하는 에러일까요? 답변 부탁드립니다 감사합니다
Heejeong Hong · 2022.01.27 · [2024 개정판] 이것이 진짜 크롤링이다 - 기본편
투표점수
0
조회수
270
답변
1

[2024 개정판] 이것이 진짜 크롤링이다 - 기본편대시보드

스크롤링이 안됩니다 ㅠㅠ

글자가 깨집니다

시스템에 부착된 장치가 작동하지 않습니다 오류(?)

install 에러

BS4 에러 2

실전 프로젝트 3) 네이버 쇼핑 상품 정보 수집하기 - 오류

실행은 잘되는데요 prompt만 입력하면

저번 질문은 해결했는데. 새로운 에러가 나타났습니다. 근데 처음 보는거라 ㅜㅜ 도움을 요청합니다.

안녕하세요 학습환경 문의드립니다.

웹 스크래핑 코드에 대한 질문입니다.

bs4에러

스크롤이 끝까지 내려가지 않습니다!

동적크롤링시 크롬창 꺼짐, 웹드라이버매니저 임포트 불가

준비운동 - (크롤링을 위한 정말 쉬운 HTML - 뉴스 해킹) 내용 중 질문

강의노트

현재값이 문자열로 출력

맥 pip 설치

파워쉘

filter..

네이버 주식 현재가 문의