66,000원
다른 수강생들이 자주 물어보는 질문이 궁금하신가요?
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
DB 연결 문의좀 드립니다.
Postgresql DB와 연결해서 DB에 크롤링 자료를 입력해 보려고 합니다. 개발 환경 ㄴ 개발 툴 : 파이참 ㄴ DB: Postgresql 문제점 import psycopg2 import psycopg2 ModuleNotFoundError: No module named 'psycopg2' 이 부분에서 import 에러가 발생하는데 어떻게 환경을 설정해 줘야 하는지 찾다 찾다 못해서 문의 드립니다. 감사합니다.
- 해결됨파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
강의내용중 코드 질문
똑같은 한빛출판홈페이지에서 강사님께서 강의하신 내용과 약간 다르게 짜보았습니다.(이건 중요한게 아니고...) 아래코드는 로그인 후, 상품을 카트에 넣고 그 상품명을 찾는 코드입니다. 결과는 예상과 같이 잘 나옵니다. 제가 궁금한 점은 req = session.post(request_url, data = params) 부분에서 data 대신에 다른 것을 쓰면 request() got an unexpected keyword argument '~~~' 이런 사인이 뜹니다. 근데 data 대신에 headers 를 쓰면 값은 안나옵니다. 하지만 에러사인은 안뜹니다. (headers를 써본 이유는 지난번 네이버 openAPI에서 headers로 아이디/패스워드 정보를 넘겨준 기억이 있어서..) 이거 왜 그런건가요? 추가로 한가지 더 질문드리자면, 어떤 사이트를 알려주신 코드대로 짜서, print(session.cookies.get_dict()) 를 해보면, {'PHPSESSID': '831c4b75bb92f4b55de47bca51617d57', 'gd_user_enamooPass': 'X3docUpEbGVNS0EuRWJFeElmRW5JQC0pSmwxdE5LY3VHYl81SmZZbkVnbDU%3D'} 이런식으로 결과값이 나옵니다. 이것은 session이 두개라는 의미인가요? 쿠키에 이 두가지 session을 저장해두었다가 내가 서버에 정보를 요청할때 마다 이 두가지 session을 함께 보낸다고 생각해도 되나요? (아니면 혹시 session은 꼭 하나여야만 하는지....)
- 해결됨파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
네이버 open API header 관련 질문
강의 내용 중, res = requests.get(naver_open_api, headers = header_params) 로 정보를 가지고 왔는데, requests.get을 사용하는 방법은 알겠습니다. 궁금한 점은 requests.get 의 괄호 안에 'http~~' 와 openAPI를 사용하기 위한 개인ID와 passward를 넣어줘야 하는데, 강의에서는 headers 라는 곳에 id 와 passward를 dictionary형식으로 넣어 주었습니다. 이것이 '네이버openAPI'를 사용할 때만 그런 건가요? 아니면 다른 사이트(다음이나 구글 등)의 openAPI를 사용할 때도 동일하게 사용되나요? (headers 라는 것을 만들어서 거기에 id 와 passward를 dictionary로 넣어주어야 하는지가 궁금합니다.)
- 해결됨파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
session 의 value 에 관한 질문
강의 중 내용에 나오는 '한빛출판네트워크' 홈페이지에서는 말씀하신 대로 로그인 할 때 마다, session value가 바뀌는 것을 확인하였습니다. 하지만, 제가 몇몇 다른 사이트에서 시도해 본 결과, 로그인 할때마다 session value이 변하지 않는 것을 보았습니다. 안바뀌는 사이트: ( https://www.kantukan.co.kr/shop/mall/ http://www.gameone.kr/ 등등) 몇개가 더 있지만, 일단 이 두 사이트만 언급합니다. 이러한 것도 정상적인 건가요? 로그인 할 때 마다 session value가 바뀌어야하는 이유가 따로 있나요? (그냥 느낌 상으로는 보안? 때문인것 같은데...)
- 해결됨파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
[추가질문] 뉴스 제목 추출시 함께 추출되는 숫자없이 제목만 추출하고 싶습니다.
먼저 답변 감사합니다. 데이터 수집 및 분석/머신러닝을 목표로 파이썬 위주로 공부를 하고 있는데, 제가 컴퓨터 공부를 시작한지 얼마 안되고 아직은 이쪽 분야에 대하여 잘 몰라 뭘 공부해야하는지 큰그림이 그려져 있지 않는 상태입니다. 일단은, 파이썬 기초공부를 어느정도 마치고, 데이터 수집을 하려고 하니 crawling 이 필요하다고 하여, 공부를 시작했는데, 지금 듣고 있는 이 강좌와 아직 시작은 안했지만, 이 강의를 구매했을 때, 함께 강사님의 다른 강좌인 'Scrapy와 Selenium 정복' 을 구매한 상태 입니다. (본 강의 다 듣고 들을 예정입니다.) 제가 묻고 싶은 것은 crawling 이라는 것을 어느 정도 까지 공부를 해야 할지 모르겠습니다. 강의를 듣고 뉴스 기사 제목 정도 뽑는 것은 어느정도 쉽게 할 수 있다고 생각했는데, 저런 문제가 있을 줄은 몰랐으며, 본 강의만으로 해결이 안되었다는것에서....이 crawling 을 도데체 어디까지 공부해야 하지? 라는 생각이 들었습니다. 예를들어 강의에서 언급하셨듯, crawling을 위해서 JAVASCRIPT, HTML, CSS를 모조리 꼼꼼히 공부할 필요가 없는 것 처럼, 그 끝이 어딘지 몰라서 막막한 감이 있습니다. 다른이들은 모르는 부분은 그때그때 구글링으로 찾아서 해결한다고는 하나, 저 같은 경우는 저 문제와 같은 것을 어떤 키워드로 찾아야 할지도 모르겠어서 (그만큼 초보임) 답답합니다. 'Scrapy와 Selenium 정복'(현존 최강 크롤링 기술이라고 제목에 있길래 강의 신청했음) 강의 내용을 습득하면 제가 질문한 문제 같은것 들을 해결 할 수 있는지, 아니면 파이썬 정규식과 같은 추가로 다른 부분들을(예를들어 Scrapy와 Selenium 강의에 나오지 않는 부분들) 공부를 해야 하는지 궁금합니다.
- 해결됨파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
뉴스 제목 추출시 함께 추출되는 숫자없이 제목만 추출하고 싶습니다.
https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=mainnews&page=8&page=1 위와 같은 링크로 들어가면 아래와 같은 사이트에 들어가게 됩니다. 각각의 페이지 마다 각 뉴스의 제목들을 따오려고 하는데, 빨간색 네모안에 있는 숫자가 함께 출력이 됩니다. 아마 댓글 수나 좋아요 수를 나타낸 것 같은데, 저 숫자를 제외하고 싶습니다. copy element 를 해보면 아래와 같이 나옵니다. <a href="https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=mainnews&wr_id=745886&page=1" class="item-subject"> <span class="orangered visible-xs pull-right wr-comment"> <i class="fa fa-comment lightgray"></i> <b>1</b> </span> <span class="wr-icon wr-image"></span> Wi-Fi 6와 Mesh로 무장한 프리미엄 공유기 : 벨롭 MX5300 <span class="count orangered hidden-xs">1</span> </a> 어찌되었든 제목을 빼오려면 a tag 를 선택을 해야 하는데, 숫자는 a tag 의 하부인 b tag 와 span tag에 있습니다. 즉, 제목만 뽑으려 하니까 숫자도 함께 추출이 되는 상황입니다. select() 또는 find_all() 에서 추출시 이러한 것을 바로 해결할 수 있는 방법(명령어 등등)이 있나요?
- 해결됨파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
강의 내용 중 **.content에 대하여.
강의 내용중 **.content 로 html을 불러 오는데, 예전에 공부하다가 **.text로 html을 불러 올 수 있다고 들었는데, 이 둘의 차이가 뭔가요? 아무거나 골라서 사용해도 무방한가요?
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
코딩 실력? 스킬.지식의 부족?
안녕하세요 선생님 수강생입니다. 일단 선생님의 친절하고 꼼꼼한 강의 너무나 잘 들었습니다. 제 질문은 공지하신 것처럼 naver나 seeko는 고급스킬이 필요하다고 하셨는데요. 그렇다면 제가 크롤링하려는 사이트에서 지금까지 배운 크롤링 스킬을 통해 크롤링을 시도했을 때 만약 크롤링이 되지 않는다면 , 크롤링을 실패한 이유가 제 코딩 실력인지 아직 배우지 못 한 지식이나 스킬이 부족해서 그런거지 어떻게 알 수 있을까요?? 제가 wadiz 사이트를 크롤링하려다가 실패했습니다. 이게 제가 못 해서 그런건지 아니면 지식이 부족한 건지 몰라서 계속 시도해보야 하는지 답답하네요. 감사합니다.
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
설치 후에도 No module named 'gspread' 가 사라지지 않습니다
안녕하세요! 이번코스의 마지막 3강좌를 코앞에 두고 있습니다. 꼼꼼한 설명 덕분에 신나게 공부할 수 있었어요! 그런데 캡쳐사진과 같이 gspread 의 모듈 인스톨이 되지 않습니다. 아예 컴퓨터 재기동까지도 해보았지만 결과는 같아 검색해보니 경로가 달라 그럴 수 있다고 합니다. 하지만 cmd 에서 where python, where pip3, where pip 로 확인하니 모두 같은 경로에 있었습니다. python->python38-32->Lib->site-packages 에도 gspread가 설치된 것도 확인했습니다. 검색을 계속 해보고있지만 어디가 문제인지 아직 잘 모르겠습니다. 어딘가 놓치거나 잘못 설정을 한 건 아닌지 여쭤보고 싶습니다..
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
네이버 쇼핑 API 엑셀로 옮길 떄 질문있어요!
안녕하세요. 끝까지 수강하기위해 노력중인 수강생이에요.. 마지막갈수록 어려워지는건 기분탓일까요.. Open API를 사용해서 랭킹, 제목, 링크까지 뽑아내는건 성공했습니다. 그런데 동영상 13분 30초에서도 보면 title로 뽑아낸 자료들에 전부 <b> </b> 태그가 붙는데 이 태그를 없애는 방법이 따로 있나요? 전에 썼던것 처럼 get_text 이런걸 써주면 해결되는 부분인가요? 제가 나름대로 get_text 를 써서 리스트 안에 넣어봤는데 안되더라구요. 어찌해야할까요?
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
네이버 OPen APi 이용 문제
이런 이러한 코드가 나오면서 오류가뜨고 API 이용이 안되는데 뭘 잘못한 걸까요????
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
네이버 크롤링에서 결과값이 나오지 않습니다.
import requests from bs4 import BeautifulSoup res = requests.get('https://www.naver.com/') soup = BeautifulSoup(res.content,'html.parser') mydata = soup.find_all('span',attrs={'class':'ah_k'}) for item in mydata: print(item.get_text()) ============================ 위와같이 실검키워드 크롤링하려는데 결과값이 나오지 않습니다. 어떤것 때문에 그러는지 알려주실수 있을까요? 네이버 안의 <a> 태그로 되어있는 제목은 크롤링 정상적으로 되는거 확인하였습니다.
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
결과값
가끔 수식을 입력하고 shift+enter를 누르면 결과값이 안나오고 그냥 아래에 새로운 셀이 생기네요. 파일을 새로 열면 다시 되는데 왜 그런건가요?
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
네이버 크롤링에서 제 코드에서 어떤 문제가 있는지 모르겠어요.
이게 제가 현재 쳐놓은 코드입니다. 네이버 자체의 코드가 살짝 바뀌어서 그대로 적용을 했는데, 나오지가 않더라구요. 이거 하기전에 bs4, requests 모듈은 설치를 완료한 상태고, 다음 크롤링에서는 잘 됐는데, 왜 여기서는 안되는건지 제가 잘못한 부분이 있나 한번 봐주시겠어요? 되다가 갑자기 안되니까 뭐가 잘못된지 잘 모르겠어서 당황스럽네요.
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
실전 크롤링과 강력한 크롤링 기술 팁3: 게시판 크롤링
seek 사이트 게시판중 1~5페이지의 내용을 크롤링 하는 내용인데 수업의 내용과 markup 내용이 바뀌어 크롤링이 안되는것 같습니다. 제가 작성한 코드는 위와 같은데 크롤링을 위해서 어떻게 수정하면 좋을까요? ㅠㅠ
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
실전 크롤링과 강력한 크롤링 기술 팁2: 네이버 사이트 크롤링 강의중 질문이 있습니다.
네이버 사이트 급상승 검색어 키워드를 하던중 수업의 내용을 따라 코드를 작성해 보니... 아무런 검색이 되지 않아 질문드립니다 ㅠㅠ 참고로 pdf에 있는 크롤링 코드로도 해보았지만...아무런 값이 출력되지 않습니다 ㅠ 확인 부탁드리겠습니다!
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
질문이 있습니다~
튜플이랑 리스트가 타입이 변환이 된다고 하신 부분을 똑같이 코딩해봤는데, 오류가 뜨네요. 코딩한 부분과 오류메세지를 캡쳐해서 첨부합니다.
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
이렇게 실행했을때 잘못된 부분이 뭔가요??이렇게는 실행이 안되나요??
(사진)
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
다운받은 자료에 답이 다 나와있는데 원래 그런건가요?
문제만 있는게 아니라 원래 답까지 같이 써있는건가요??
- 미해결파이썬입문과 크롤링기초 부트캠프 [파이썬, 웹, 데이터 이해 기본까지] (업데이트)
seeko 웹사이트가 바뀌었어요
(패턴으로 실습하며 익히기: urllib 라이브러리 사용법 강의) 선생님 https://www.seeko.kr/zboard4/zboard.php?id=mainnews 이 없어지고 https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=mainnews 여기로 변경이 됬어요. 'td' 태그도 없어졌어요. 그래서 제가 그냥 만들어봤는데 text가 댓글 때문에 이상하게 출력이 됩니다. 제가 find_all('a', 'item-subject')으로 찾기를 해서 밑에 있는걸 다 긁어와서 저렇게 되는걸 고치질 못하겠습니다. 제 머릿속으로는 find_all('span', 'wr-icon wr-image') 이후 get_text()하면 텍스트만 출력이 될꺼 같은데 오히려 이렇게 하면 아무것도 안나옵니다. 여기 아래 깃허브에 제 코드인데 도와주세요. FINDALL로 출력해보고, SELECT로도 출력해봐도 정리가 안됩니다. https://github.com/treksis/Python-Scraping/blob/master/6.%20urllib_seeko_crawl.ipynb