강의

멘토링

커뮤니티

Cộng đồng Hỏi & Đáp của Inflearn

Hình ảnh hồ sơ của mongha
mongha

câu hỏi đã được viết

Giới thiệu deep learning xử lý ngôn ngữ tự nhiên qua ví dụ NLP với TensorFlow - Từ RNN đến BERT

Thực hành 1 - Thực hành mô hình ngôn ngữ N-Gram dựa trên Count (Language Modelling)

pad_both_ends 사용할 때 n은 왜 사용하나요?

Viết

·

195

1

제목 그대로 pad_both_ends 사용할 때 n은 왜 사용하나요?

그냥 앞뒤로 붙여주면 될 것 같은데, 3을 넣으니 두개씩 붙던데 n값을 설정하는 이유가 있나요?

ngram의 n과 관련이 있나요?

딥러닝tensorflowNLP

Câu trả lời 2

2

AISchool님의 프로필 이미지
AISchool
Người chia sẻ kiến thức

안녕하세요~. 반갑습니다.

말씀해주신대로 n-gram 처리를 위해서 pad_both_ends 함수에 n 인자값을 사용하게 됩니다.

예를 들어서 설명하면 n=3으로 설정하면 <s>, <s> 이렇게 2개가 앞에 붙어서 ['a','b','c'] 이런 텍스트가 있을때 이를 trigram으로 처리하고자 할경우

['<s>','<s>','a'],['<s>','a','b'],...

이런식으로 trigram이 묶이게 됩니다.

이때 만약에 trigram인데 n=2로 설정하면 <s> 이렇게 1개가 앞에 붙어서

['<s>','a','b'], ['a','b','c'],...

이런식으로 처리되어서 'a'만 단독으로 묶인 trigram을 만들지 못하게되기 때문에 맨앞에 있는 토큰과 맨 뒤에 있는 토큰이 단독으로 묶인 상황을 만들어주기 위해서 ngram에 맞게 n 인자값을 조정해서 사용하는 것입니다.

좋은 하루되세요.
감사합니다.

mongha님의 프로필 이미지
mongha
Người đặt câu hỏi

자세한 설명 감사합니다. ^^

1

저도 이부분 궁금합니다!

Hình ảnh hồ sơ của mongha
mongha

câu hỏi đã được viết

Đặt câu hỏi