inflearn logo
강의

강의

N
챌린지

챌린지

멘토링

멘토링

N
클립

클립

로드맵

로드맵

지식공유

[개정판] 파이썬 머신러닝 완벽 가이드

텍스트 분류 - 20 Newsgroup 분류 실습 - 01

fetch_20newsgroups 데이터셋 로드관련 이슈

149

soodar17

작성한 질문수 5

0

- 학습 관련 질문을 남겨주세요. 상세히 작성하면 더 좋아요!
- 먼저 유사한 질문이 있었는지 검색해보세요.
- 강의 내용을 질문할 경우 몇분 몇초의 내용에 대한 것인지 반드시 기재 부탁드립니다.
- 서로 예의를 지키며 존중하는 문화를 만들어가요.
- 잠깐! 인프런 서비스 운영 관련 문의는 1:1 문의하기를 이용해주세요.

 

안녕하세요. 강사님

sklearn.dataset의 fetch_20newsgroups의 데이터로드가 너무 오래걸리고 있어요.

그래서 소스코드를 봤는데 계속 로드를 못하고 있는 것 같아요.

 

혹시 문제가 뭘까요?

python 머신러닝 통계

답변 2

0

권 철민

안녕하십니까,

음, download가 많이 걸릴 이유가 별로 없을 텐데, 대부분 네트웍 이슈일 수 있을 것 같습니다. 네트웍이 느려서 그런게 아니라면 download 사이트가 잠시 문제가 생겨서 그럴 수도 있습니다. 잠시 기다렸다 나중에 다시 시도해 보시면 좋을 것 같습니다.

아래 인프런 AI 인턴 글도 참조해 보시고, 여전히 안되시면 다시 글 부탁드립니다.

감사합니다.

0

soodar17

네. 강사님. 회사에 네트워크에 문제였습니다. 아침에 다시 실행하니 잘 실행이 되었어요. 감사합니다.

0

인프런 AI 인턴

안녕하세요, 인프런 AI 인턴입니다.
soodar17님께서 겪고 계신 fetch_20newsgroups 데이터셋 로드 시간이 오래 걸리는 문제에 대해 답변해 드리겠습니다.

fetch_20newsgroups 데이터셋은 온라인에서 데이터를 다운로드하도록 설정되어 있기 때문에 네트워크 연결 상태에 따라 데이터로드 시간이 영향을 받을 수 있습니다. 또한, 데이터셋의 크기가 크기 때문에 적절한 네트워크 속도가 중요합니다.

다음은 데이터 로드 시간을 단축시키기 위한 몇 가지 방법입니다:

  1. cache 저장 활용: fetch_20newsgroups 함수에 download_if_missing=True 옵션을 주어 데이터셋을 로컬에 저장하면, 이후부터는 다운로드 시간을 절약할 수 있습니다.
  2. subset 옵션 활용: 필요한 뉴스 그룹의 서브셋만을 로드하도록 선택할 수 있습니다 (subset='train' 또는 subset='test'를 사용).
  3. data_home 설정: data_home 파라미터를 사용하여 데이터를 특정한 디렉토리에 로컬 저장하여 다음에 로딩시 시간이 단축되도록 합니다.

관련된 예전 질문으로는 이 링크에서 GridSearchCV에 관한 논의는 있지만, 데이터 로드 문제에 대한 직접적인 해결책은 다루지 않은 것 같습니다. 하지만 위 사항을 참고하며 문제를 해결해 나갈 수 있을 것입니다.

저는 질문자님의 이해를 돕고자 지식공유자님의 기존 답변을 참고하여 유사한 답변 링크를 추천해드리고 있습니다.
현재 베타 기능으로 답변이 만족스럽지 않을 수 있는 점 양해 부탁드립니다. 🙏
추가적으로 궁금한 점이 있으시면, 이어서 질문해 주세요. 곧 지식공유자께서 답변해 주실 것입니다.

0

soodar17

빠른 답변 감사드려요. 위에 제시해준 방법으로 시도해 볼게요. 감사합니다.

안녕하세요 열심히 수강중인 학생입니다

0

63

2

정수 인덱싱

0

68

2

넘파이 오류

0

85

2

11강 numpy의 axis 축 질문 드립니다.

0

85

2

Kaggle 에서 Santander customer satisfaction data 를 다운로드 되지가 않습니다.

0

79

2

Feature importances 를 보여주는 barplot 이 그래프로 안보여져요.

0

70

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

75

2

타이타닉 csv 파일이 주피터 화면에 보이지 않습니다.

0

64

2

5강 강의 오류가 있어요.

0

84

1

실무에서 LTV 관련 모델 선택 질문입니다!

0

72

2

14강 강의 듣는중에 궁금한게 있어서 질문합니다~

0

69

3

파이썬 다운그레이 후 사이킷런 재설치

0

117

2

좋은 강의 감사합니다.

0

72

2

scoring 함수 음수값

0

67

2

6번 강의에 사이킷런, 파이썬, 아나콘다 각각 버전 일치 안 시키고 진행해도 강의 따라가 지나요?

0

100

2

분류 평가 정확도 예측

0

76

2

안녕하세요. 강의 들으면서 업무에 적용하고 싶은 수강생입니다.

0

99

1

카카오톡 채널 있나요

0

107

1

혹시 강의에서 사용하시는 ppt 받을 수 있는건가요

0

189

2

pca 스케일링 관련하여 질문드립니다.

0

100

2

주피터 대신 구글 코랩

0

172

2

강의에서 사용하는 pdf or ppt자료는 따로 없는 건가요?

0

148

2

실루엣 스코어..

0

86

2

float64 null 값 처리 방법

0

103

2