왓챠피디아 리뷰 크롤링 관련 질문입니다
2382
작성자 없음
작성한 질문수 0
왓챠피디아에 올라가 있는 넷플릭스 드라마 리뷰들을 파이썬으로 웹 크롤링 해보고 싶어서
https://github.com/Stan7s/IMDb-Review-Crawler/blob/master/IMDb-Review-Crawler.py의 imdb 크롤링 방식을 참고했습니다.
그런데 IMDB에선 잘 되던 것이, 왓챠피디아 쪽은 리뷰가 크롤링 되지 않습니다.
어떻게 하면 해결할 수 있을까요?
#수집하고 싶은 영화의 user riviews 페이지 url 붙여넣기
url = 'https://pedia.watcha.com/ko-KR/contents/tRzLggZ/comments'
#수집하고 싶은 영화 리뷰 수 지정
MAX_CNT = 150
cnt = 0
print("url = ", url)
res = requests.get(url)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text, "lxml")
load_more = soup.select(".load-more-data")
flag = True
if len(load_more):
ajaxurl = load_more[0]['data-ajaxurl']
base_url = base_url + ajaxurl + "?ref_=undefined&paginationKey="
key = load_more[0]['data-key']
else:
flag = False
while flag:
url = base_url + key
print("url = ", url)
res = requests.get(url)
res.encoding = 'utf-8'
soup = BeautifulSoup(res.text, "lxml")
for item in soup.select(".lister-item-content"):
rating = item.select("span.rating-other-user-rating > span")
if len(rating) == 2:
rating = rating[0].text
review = item.select(".text")[0].text
pn = rating_transfer(int(rating))
review_list.append(review)
rating_list.append(pn)
cnt = cnt + 1
else:
rating = ""
review = item.select(".text")[0].text
답변 1
0
안녕하세요, 인프런 AI 인턴이에요.
왓챠피디아의 경우 로그인을 하지 않으면 리뷰를 볼 수 없도록 설정되어 있습니다. 따라서 크롤링 시 로그인을 하거나, 로그인한 상태에서 크롤링해야 합니다.
또한, 왓챠피디아의 리뷰는 동적으로 로딩되는 것으로 알려져 있기 때문에, 해당 부분을 고려하여 크롤링 코드를 수정해볼 필요가 있을 것 같습니다. 동적으로 로딩되는 데이터를 가져오기 위해서는 JavaScript를 이용해야 하므로, BeautifulSoup만으로는 한계가 있습니다.
이러한 문제를 해결하기 위해서는, Python 라이브러리인 Selenium을 사용해 크롤링을 해볼 수 있습니다. Selenium은 웹 브라우저를 직접 조작하여 자동화 테스트나 웹 스크래핑 등을 할 수 있도록 해주는 도구입니다.
추가적으로, 왓챠피디아의 크롤링이 허용되고 있는지에 대해서도 확인해보시는 것이 좋습니다. 크롤링 시에는 robots.txt 파일을 확인하고, 해당 사이트에서 크롤링을 금지하고 있지 않은지 확인하는 것이 좋습니다.
도움이 되었길 바라며, 좋은 결과 얻으시기를 기원합니다.
새로운 개발환경 조합 Next.js + Supabase
0
96
2
크롤링 관련 질문
0
113
1
아나콘다 윈도우즈 설치 시, 다른 설치만 보입니다.
0
378
2
[진짜 쉬운 책 추천] 크롤링부터 너무 어렵네여
0
305
1
[2-4 숲속의기사]
0
414
1
시트 이름 지정하려는데 title 명령이 안 먹혀요
0
386
1
return 과 print 질문
0
464
1
파이썬 구구단 코드 질문
0
550
1
tkinter에서 버튼 커맨드를 설정할 때 명령을 2개 넣을 수 있나요?
0
569
0
별건 아니지만 궁금한점
0
309
1
URL 문제
0
390
0
데이터 전체에 대한 수익률을 계산하고 싶은데 오류가 뜹니다
0
328
0
데이터 시각화 도구 소개와 한글폰트 설정 에러
1
2284
1
3:55분부터 이해가 안갑니다
0
274
0
네이버 뉴스의 날짜를 수집하고자 합니다.
0
658
1
아톰에서 script 패키지 검색 시 나오지 않습니다.
1
591
1
쇼핑 크롤링 응용 질문 드립니다.
0
777
1
역인덱스 관련 질문입니다.
0
496
1
파이썬 기본개념
0
353
1
강의 봤을때는 키랑 몸무게 표현이 되는데 저는 아래 적은 코드인 몸무게만 나옵니다 ㅜㅜ
0
345
1
5강 웹크롤링
0
357
1
4.19일부터 시작하는 코딩테스트 스터디원 구합니다.
1
234
0
모듈화 과정에서 pylint 오류가 잔뜩나면서.. 직접 임포트를 하더라도 해결이 안되던데 왜그럴까요?
2
608
1
오류 나는 부분이 있어서 다시 질문 드립니다! 도와주세요! (join 로그인시 백지, 몽고db 이메일주소 null 표시)
2
259
1





