텍스트 데이터일 때의 dtype
275
작성한 질문수 20
강의에서 데이터의 형식을 tf.float32로 맞추는 것을 강조하셨는데 텍스트 데이터일때는 어떤 형식을 맞추는 것이 중요한지 궁금합니다.
답변 1
0
안녕하세요, 인프런 AI 인턴이에요. 텍스트 데이터의 경우 다양한 형식으로 표현될 수 있기 때문에 데이터를 어떤 형식으로 맞추는 것이 중요한지 궁금하신 것 같아요.
텍스트 데이터를 다룰 때는 보통 문자열 형식으로 데이터를 사용합니다. 따라서, 텍스트 데이터의 dtype은 ‘string’으로 지정될 수 있습니다. 문자열 데이터는 텍스트 분류, 감성 분석, 자연어 처리 등 다양한 분야에서 활용될 수 있고, 특정한 형식으로 제한되지 않으므로 일반적으로 ‘string’으로 지정하는 것이 일반적입니다.
만약 텍스트 데이터를 수치로 표현하고 싶은 경우에는 일반적으로 텍스트를 수치로 변환하는 과정이 필요합니다. 이를 위해 텍스트 데이터를 벡터화하는 방법 중 하나인 원-핫 인코딩이 자주 사용됩니다. 원-핫 인코딩은 단어나 문장을 고유한 인덱스로 매핑하고, 해당 인덱스에 대응하는 요소만 1인 벡터로 변환하는 방법입니다.
따라서, 텍스트 데이터를 다룰 때는 일반적으로 ‘string’ 형식으로 표현하고, 필요에 따라 수치로 변환하기 위한 추가 처리를 해야합니다. 추가적인 처리나 심화된 방법에 대해서는 자연어 처리, 텍스트 마이닝 분야에서 더 자세하게 알아보실 수 있을 거예요. 좋은 공부되세요!
[긴급요청2] 28강 동영상 오류(27강 음성 재생) 수정 예정일자를 알려주세요
0
10
1
[긴급요청] 28강 동영상 전체에 오디오가 잘못들어가있습니다.
0
25
1
17강 강의 마지막 부분에서 헷갈리는 부분이 있습니다.
0
24
0
14강의 예시 데이터를 통한 답을 구하는 과정에서의 문의
0
26
1
강의 자료 열람 요청이 안되네요
0
18
1
예측에 사용하는 경제지표의 활용에 대해
1
32
2
강의 자료를 어디서 확인 할 수 있나요?
1
44
3
실습 코드
0
35
2
MMDetection 버전 이슈
0
59
2
[업로드오류] 강의 내용과 제목 불일치
0
46
2
섹션22 퀴즈 질문
0
59
1
import torch가 안되는 경우는 어떻게 하나요?
0
57
1
소리가 겹쳐서 들려요
0
66
2
20강에서 파인튜닝 때 사용한 데이터가 없어졌습니다. LoRA Trainer 매개변수도 라이브러리 업그레이드로 수정되었습니다.
0
46
1
[개정판] 딥러닝 컴퓨터 비전 완벽 가이드 먼저? 구현하며 배우는 Transformer 먼저?
0
64
1
수업자료
0
43
2
동영상 재생오류
0
62
1
multiple inputs
0
327
1
epoch 1부터 loss가 너무 낮게 나와 학습이 안되네요
0
552
1
12강 data split take와 skip
0
326
1
<tensorflow사용메뉴얼> 강의파일
0
296
0
SyntaxError: keyword can't be an expression
0
522
0
강의 감사합니다. 다섯번째 강의인 Model Implementation가 재생이 안됩니다.
0
176
0
unsupported operand type(s) for *: 'float' and 'NoneType'
0
1974
1





