파이썬입문과 크롤링기초 부트캠프 [쉽게! 하지만, 견고한 자료로!]

파이썬입문과 크롤링기초 부트캠프 [쉽게! 하지만, 견고한 자료로!]

(36개의 수강평)

663명의 수강생
g_hyeeeee 프로필

gspread 라이브러리 설치 문제 g_hyeeeee 1일 전

안녕하세요!
gspread 라이브러리 설치를 완료했는데도 불구하고 No module named 'gspread' 이라는 에러가 나서 진행을 못하고 있습니다 어떻게 해야할까요 ㅜ_ㅜ

설치 이후에 주피터노트북 껐다키고 안되서 재부팅까지 해봤지만 에러가 납니다!


0
Benjamin Oh 프로필

DB 연결 문의좀 드립니다. Benjamin Oh 1일 전

Postgresql DB와 연결해서 DB에 크롤링 자료를 입력해 보려고 합니다.

개발 환경 

 ㄴ 개발 툴 : 파이참

 ㄴ DB: Postgresql

 문제점 


import psycopg2

    import psycopg2

ModuleNotFoundError: No module named 'psycopg2'

이 부분에서 import 에러가 발생하는데 

어떻게 환경을 설정해 줘야 하는지 찾다 찾다 못해서 문의 드립니다.

감사합니다.

0
JAB 프로필

강의내용중 코드 질문 JAB 2일 전

똑같은 한빛출판홈페이지에서 강사님께서 강의하신 내용과 약간 다르게 짜보았습니다.(이건 중요한게 아니고...)

아래코드는 로그인 후, 상품을 카트에 넣고 그 상품명을 찾는 코드입니다.

결과는 예상과 같이 잘 나옵니다. 

제가 궁금한 점은  

req = session.post(request_url, data = params) 부분에서 data 대신에 다른 것을 쓰면

request() got an unexpected keyword argument '~~~'

이런 사인이 뜹니다. 근데 data 대신에 headers 를 쓰면 값은 안나옵니다. 하지만 에러사인은 안뜹니다. (headers를 써본 이유는 지난번 네이버 openAPI에서 headers로 아이디/패스워드 정보를 넘겨준 기억이 있어서..) 

이거 왜 그런건가요?

추가로 한가지 더 질문드리자면, 

어떤 사이트를 알려주신 코드대로 짜서, print(session.cookies.get_dict()) 를 해보면,

{'PHPSESSID': '831c4b75bb92f4b55de47bca51617d57', 'gd_user_enamooPass': 'X3docUpEbGVNS0EuRWJFeElmRW5JQC0pSmwxdE5LY3VHYl81SmZZbkVnbDU%3D'}

이런식으로 결과값이 나옵니다. 이것은 session이 두개라는 의미인가요? 쿠키에 이 두가지 session을 저장해두었다가 내가 서버에 정보를 요청할때 마다 이 두가지 session을 함께 보낸다고 생각해도 되나요?

(아니면 혹시 session은 꼭 하나여야만 하는지....) 

1
JAB 프로필

네이버 open API header 관련 질문 JAB 6일 전

강의 내용 중, 

res = requests.get(naver_open_api, headers = header_params)

로 정보를 가지고 왔는데, 

requests.get을 사용하는 방법은 알겠습니다.

궁금한 점은 requests.get 의 괄호 안에 'http~~' 와 openAPI를 사용하기 위한 개인ID와 passward를 넣어줘야 하는데, 강의에서는 headers 라는 곳에 id 와 passward를 dictionary형식으로 넣어 주었습니다.

이것이 '네이버openAPI'를 사용할 때만 그런 건가요? 아니면 다른 사이트(다음이나 구글 등)의 openAPI를 사용할 때도 동일하게 사용되나요? (headers 라는 것을 만들어서 거기에 id 와 passward를 dictionary로 넣어주어야 하는지가 궁금합니다.)

1
JAB 프로필

session 의 value 에 관한 질문 JAB 6일 전

강의 중 내용에 나오는 '한빛출판네트워크' 홈페이지에서는 말씀하신 대로 로그인 할 때 마다, session value가 바뀌는 것을 확인하였습니다.

하지만, 제가 몇몇 다른 사이트에서 시도해 본 결과, 로그인 할때마다 session value이 변하지 않는 것을 보았습니다.

안바뀌는 사이트: ( https://www.kantukan.co.kr/shop/mall/

http://www.gameone.kr/

등등) 몇개가 더 있지만, 일단 이 두 사이트만 언급합니다.

이러한 것도 정상적인 건가요? 로그인 할 때 마다 session value가 바뀌어야하는 이유가 따로 있나요? (그냥 느낌 상으로는 보안? 때문인것 같은데...)

1
JAB 프로필

[추가질문] 뉴스 제목 추출시 함께 추출되는 숫자없이 제목만 추출하고 싶습니다. JAB 8일 전

먼저 답변 감사합니다.

데이터 수집 및 분석/머신러닝을 목표로 파이썬 위주로 공부를 하고 있는데, 제가 컴퓨터 공부를 시작한지 얼마 안되고 아직은 이쪽 분야에 대하여 잘 몰라 뭘 공부해야하는지 큰그림이 그려져 있지 않는 상태입니다.

일단은, 파이썬 기초공부를 어느정도 마치고, 데이터 수집을 하려고 하니 crawling 이 필요하다고 하여, 공부를 시작했는데, 지금 듣고 있는 이 강좌와 아직 시작은 안했지만, 이 강의를 구매했을 때, 함께 강사님의 다른 강좌인 'Scrapy와 Selenium 정복' 을 구매한 상태 입니다. (본 강의 다 듣고 들을 예정입니다.) 

제가 묻고 싶은 것은 crawling 이라는 것을 어느 정도 까지 공부를 해야 할지 모르겠습니다.

강의를 듣고 뉴스 기사 제목 정도 뽑는 것은 어느정도 쉽게 할 수 있다고 생각했는데, 저런 문제가 있을 줄은 몰랐으며, 본 강의만으로 해결이 안되었다는것에서....이 crawling 을 도데체 어디까지 공부해야 하지? 라는 생각이 들었습니다.

예를들어 강의에서 언급하셨듯, crawling을 위해서 JAVASCRIPT, HTML, CSS를 모조리 꼼꼼히 공부할 필요가 없는 것 처럼, 그 끝이 어딘지 몰라서 막막한 감이 있습니다.  

다른이들은 모르는 부분은 그때그때 구글링으로 찾아서 해결한다고는 하나, 저 같은 경우는 저 문제와 같은 것을 어떤 키워드로 찾아야 할지도 모르겠어서 (그만큼 초보임) 답답합니다. 

'Scrapy와 Selenium 정복'(현존 최강 크롤링 기술이라고 제목에 있길래 강의 신청했음) 강의 내용을 습득하면 제가 질문한 문제 같은것 들을 해결 할 수 있는지, 아니면 파이썬 정규식과 같은 추가로 다른 부분들을(예를들어 Scrapy와 Selenium 강의에 나오지 않는 부분들) 공부를 해야 하는지 궁금합니다. 

1
JAB 프로필

뉴스 제목 추출시 함께 추출되는 숫자없이 제목만 추출하고 싶습니다. JAB 11일 전

https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=mainnews&page=8&page=1

위와 같은 링크로 들어가면 아래와 같은 사이트에 들어가게 됩니다.

각각의 페이지 마다 각 뉴스의 제목들을 따오려고 하는데,

빨간색 네모안에 있는 숫자가 함께 출력이 됩니다.

아마 댓글 수나 좋아요 수를 나타낸 것 같은데, 저 숫자를 제외하고 싶습니다.

copy element 를 해보면 아래와 같이 나옵니다.

<a href="https://seeko.earlyadopter.co.kr/bbs/board.php?bo_table=mainnews&amp;wr_id=745886&amp;page=1" class="item-subject">

<span class="orangered visible-xs pull-right wr-comment">

<i class="fa fa-comment lightgray"></i>

<b>1</b>

</span>

<span class="wr-icon wr-image"></span>

Wi-Fi 6와 Mesh로 무장한 프리미엄 공유기 : 벨롭 MX5300

<span class="count orangered hidden-xs">1</span>

</a>

어찌되었든 제목을 빼오려면 a tag 를 선택을 해야 하는데, 숫자는 a tag 의 하부인 b tag 와 span tag에 있습니다.

즉, 제목만 뽑으려 하니까 숫자도 함께 추출이 되는 상황입니다.

select() 또는 find_all() 에서 추출시 이러한 것을 바로 해결할 수 있는 방법(명령어 등등)이 있나요?

1
JAB 프로필

강의 내용 중 **.content에 대하여. JAB 15일 전

강의 내용중 **.content 로 html을 불러 오는데, 

예전에 공부하다가 **.text로 html을 불러 올 수 있다고 들었는데, 

이 둘의 차이가 뭔가요? 아무거나 골라서 사용해도 무방한가요?

1
우지윤 프로필

코딩 실력? 스킬.지식의 부족? 우지윤 15일 전

안녕하세요 선생님 수강생입니다.

일단 선생님의 친절하고 꼼꼼한 강의 너무나 잘 들었습니다. 

제 질문은 공지하신 것처럼 naver나 seeko는 고급스킬이 필요하다고 하셨는데요. 그렇다면 제가 크롤링하려는 사이트에서 지금까지 배운 크롤링 스킬을 통해 크롤링을 시도했을 때 만약 크롤링이 되지 않는다면 , 크롤링을 실패한 이유가 제 코딩 실력인지 아직 배우지 못 한 지식이나 스킬이 부족해서 그런거지 어떻게 알 수 있을까요??

제가 wadiz 사이트를 크롤링하려다가 실패했습니다. 이게 제가 못 해서 그런건지 아니면 지식이 부족한 건지 몰라서 계속 시도해보야 하는지 답답하네요. 감사합니다.

1
Suhyeon Song 프로필

설치 후에도 No module named 'gspread' 가 사라지지 않습니다 Suhyeon Song 17일 전

 안녕하세요!

이번코스의 마지막 3강좌를 코앞에 두고 있습니다. 꼼꼼한 설명 덕분에 신나게 공부할 수 있었어요!

그런데 캡쳐사진과 같이 gspread 의 모듈 인스톨이 되지 않습니다. 아예 컴퓨터 재기동까지도 해보았지만 결과는 같아 검색해보니 경로가 달라 그럴 수 있다고 합니다. 하지만 cmd 에서 where python, where pip3,  where pip 로 확인하니 모두 같은 경로에 있었습니다. python->python38-32->Lib->site-packages 에도 gspread가 설치된 것도 확인했습니다. 검색을 계속 해보고있지만 어디가 문제인지 아직 잘 모르겠습니다. 어딘가 놓치거나 잘못 설정을 한 건 아닌지 여쭤보고 싶습니다..

1
hydrun3 프로필

네이버 쇼핑 API 엑셀로 옮길 떄 질문있어요! hydrun3 17일 전

안녕하세요. 끝까지 수강하기위해 노력중인 수강생이에요..

마지막갈수록 어려워지는건 기분탓일까요.. 

Open API를 사용해서 랭킹, 제목, 링크까지 뽑아내는건 성공했습니다. 

그런데 동영상 13분 30초에서도 보면 title로 뽑아낸 자료들에 

전부 <b> </b> 태그가 붙는데 이 태그를 없애는 방법이 따로 있나요? 

전에 썼던것 처럼 get_text 이런걸 써주면 해결되는 부분인가요? 

제가 나름대로 get_text 를 써서 리스트 안에 넣어봤는데 안되더라구요. 어찌해야할까요? 

1
hydrun3 프로필

네이버 OPen APi 이용 문제 hydrun3 17일 전

이런   이러한 코드가 나오면서 오류가뜨고 API 이용이 안되는데      뭘 잘못한 걸까요???? 

1
권윤경 프로필

네이버 크롤링에서 결과값이 나오지 않습니다. 권윤경 23일 전

import requests

from bs4 import BeautifulSoup

res = requests.get('https://www.naver.com/')

soup = BeautifulSoup(res.content,'html.parser')

mydata = soup.find_all('span',attrs={'class':'ah_k'})

for item in mydata:

    print(item.get_text())

============================

위와같이 실검키워드 크롤링하려는데 결과값이 나오지 않습니다. 어떤것 때문에 그러는지 알려주실수 있을까요?

네이버 안의 <a> 태그로 되어있는 제목은 크롤링 정상적으로 되는거 확인하였습니다.

2
최수진 프로필

결과값 최수진 26일 전

가끔 수식을 입력하고 shift+enter를 누르면 결과값이 안나오고 그냥 아래에 새로운 셀이 생기네요.

파일을 새로 열면 다시 되는데 왜 그런건가요?

1
hydrun3 프로필

네이버 크롤링에서 제 코드에서 어떤 문제가 있는지 모르겠어요. hydrun3 29일 전

이게 제가 현재 쳐놓은 코드입니다. 네이버 자체의 코드가 살짝 바뀌어서 그대로 적용을 했는데, 나오지가 않더라구요. 

이거 하기전에 bs4, requests 모듈은 설치를 완료한 상태고, 
다음 크롤링에서는 잘 됐는데, 왜 여기서는 안되는건지 제가 잘못한 부분이 있나 한번 봐주시겠어요? 

되다가 갑자기 안되니까 뭐가 잘못된지 잘 모르겠어서 당황스럽네요. 

1
지식공유자 되기
많은 사람들에게 배움의 기회를 주고,
경제적 보상을 받아보세요.
지식공유참여
기업 교육을 위한 인프런
“인프런 비즈니스” 를 통해 모든 팀원이 인프런의 강의들을
자유롭게 학습하는 환경을 제공하세요.
인프런 비즈니스