인공지능

/

자연어 처리

모두의 한국어 텍스트 분석과 자연어처리 with 파이썬

파이썬 한국어 텍스트 분석과 자연어처리 워드클라우드 시각화, 형태소 분석, 토픽모델링, 군집화, 유사도 분석, 텍스트데이터 벡터화를 위한 단어 가방과 TF-IDF, 머신러닝과 딥러닝을 활용한 텍스트 분류, 허깅페이스 활용법

(5.0) 수강평 8

수강생 459

Thumbnail

초급자를 위해 준비한
[자연어 처리] 강의입니다.

이런 걸
배워요!

  • 워드클라우드 시각화

  • 형태소 분석

  • 토픽모델링

  • 군집화

  • 유사도 분석

  • 텍스트데이터 벡터화를 위한 단어 가방과 TF-IDF

  • 머신러닝과 딥러닝(RNN, LSTM)을 활용한 텍스트 분류

  • 허깅페이스를 활용한 BERT와 koGPT2 활용하기

📚 텍스트 분석과 자연어 처리로 복잡한 문서에서 인사이트를 얻기!

  • 💻 언어의 본질을 이해하고, 텍스트 데이터를 효과적으로 전처리 하고 분석하는 방법을 배웁니다.

  • 🚀 강력한 NLP 도구들을 다루며, 비즈니스 현장에서의 실전 능력을 키워 보다 효과적인 의사 결정에 도움을 주는 텍스트마이닝 기술을 익힙니다. 🛠📊

  • 🗝 비즈니스를 변화시키는 열쇠를 Python 텍스트 분석으로 찾으세요. 💬🔍

이런 분들께 추천해요

📊 기획자, 마케터, 분석가 🕵‍♂️

  • 고객 피드백, FGI, 질문, 불만사항, 데이터 정성 분석

  • 온라인 제품 리뷰 평가 및 분석을 통한 시장 트렌드 이해

  • 시장 조사 및 경쟁 제품 소셜 미디어 분석을 통한 브랜드 모니터링

🔬 연구자 🧪

  • 소셜 미디어 데이터를 통한 사회 적 상호작용 및 문화적 현상 이해

  • 연구 논문에서의 정보 추출

  • 방대한 뉴스기사, 연설문, 특허, 법률 정책문서 분석

🎓 학생 📚

  • 텍스트 프로젝트 및 과제 수행

  • 학술관련 논문 분석

  • 텍스트 빅데이터 기반 정보 탐색을 통한 데이터 리터러시 함양

  • 텍스트에서 인사이트를 얻고 문제 해결 능력을 키우고자 하는 분

이런 내용을 배워요

텍스트 전처리

  • 정규표현식, 텍스트 정제 (Text Cleaning)


  • 토큰화 (Tokenization)


  • 한국어 형태소 분석기 KoNLPy

  • Pure Python 한국어 형태소 분석기 PeCab

  • 명사 추출 및

    품사 태깅 (Part-of-Speech Tagging)

  • 어근 추출(Stemming) 및 표제어 추출(Lemmatization)

  • 불용어 처리 (Stop Words)

워드 클라우드 시각화

워드 클라우드 시각화

단어 벡터화

  • 단어 빈도수 계산 (Term Frequency)

  • TF-IDF (Term Frequency-Inverse Document Frequency)

  • Word Embedding

단어 벡터화를 통한 토픽 모델링

단어 벡터화를 통한 토픽 모델링

토픽모델링, 군집화, 유사도 분석

  • 잠재 디리클레 할당 (Latent Dirichlet Allocation, LDA)

  • 비음수 행렬 분해 (Non-Negative Matrix Factorization, NMF)

  • 문서 군집화를 통한 비슷한 문서 클러스터링

  • 유사도 분석을 통한 문서 추천 및 비슷한 문서 찾기

NMF 토픽 모델링

NMF 토픽 모델링

텍스트 분류

  • 머신러닝을 활용한 텍스트 분류 기법

  • 머신러닝 성능 개선을 위한 하이퍼파라미터 튜닝 방법

  • 분류 품질 측정 방법

  • 텐서플로 딥러닝 기반 분류 DNN, RNN, LSTM

텍스트 분류 시각화

텍스트 분류

텍스트 벡터화와 임베딩의 차이

  • 벡터화와 임베딩의 차이 이해

  • 임베딩 프로젝터 사용하기

  • 딥러닝 모델 사용하기

  • 텐서보드를 통한 모델 성능 측정하기

  • BERT 모델을 활용한 텍스트 분류와 시각화

텐서보드를 활용한 모델 성능 평가

텐서보드를 활용한 모델 성능 평가

임베딩 프로젝터 시각화

임베딩 프로젝터 시각화

임베딩 프로젝터 시각화

임베딩 프로젝터를 통한 단어 거리

허깅 페이스 활용법 및 주요 언어 모델 태스크 이해

  • 자연어 생성(Natural Language Generation)

  • 📖 문서 요약(Document Summarization)


  • 🌐 언어 번역(Language Translation)

  • 최신 텍스트 분석 트렌드와 실무 적용 방안

허깅페이스 공식 튜토리얼 활용법

허깅페이스 공식 튜토리얼 활용법

강의를 듣고 나면 무엇을 이해하고, 잘 할 수 있게 되나요?

  • 📝 토큰화(Tokenization)

    • 텍스트를 개별 단어, 구, 문장 등으로 분리합니다.

  • 🏷 품사 태깅(Part-of-Speech Tagging)

    • 각 토큰(단어)에 품사(명사, 동사 등)를 태깅하고 조사, 구두점 등을 제거하는 방법을 알아봅니다.


  • 📚 주제 모델링(Topic Modeling), 군집화, 유사도 분석

    • 문서 집합에서 숨겨진 주제를 추출합니다.

    • 비슷한 텍스트끼리 클러스터링을 합니다. (data-clustering)

    • 유사한 텍스트를 찾거나 추천합니다.

  • 📊 텍스트 분류(Text Classification)

    • 문서를 사전 정의된 카테고리로 분류합니다.

  • 😃 감성 분석(Sentiment Analysis)

    • 텍스트에서 긍정적, 부정적, 중립적인 감성을 분석합니다.

  • 🔑 키워드 추출(Keyword Extraction)

    • 텍스트에서 중요한 키워드나 구를 추출합니다.


실습 자료 - 실습용, 실행용 2가지 버전 제공

코드가 입력되지 않은 실습자료(*_input.ipynb)

코드가 입력되지 않은 실습자료(*_input.ipynb)

코드가 입력된 실습자료(*_output.ipynb)

코드가 입력된 실습자료(*_output.ipynb)

코드가 입력되지 않고 설명만 있는 실습자료(*_input.ipynb) 파일과 코드와 설명이 입력된 실습자료(*_output.ipynb) 파일 제공으로 코드를 보며 따라 해볼 수도 있으며 코드 없이 설명만 보고 직접 실습을 해볼 수도 있습니다.

이론 자료

200 페이지 넘는 분량의 자연어처리(NLP) 핵심 내용을 설명하고 있는 슬라이드 자료 제공

200 페이지가 넘는 분량의 슬라이드 자료

200 페이지가 넘는 분량의 슬라이드 자료

모두의 한국어 텍스트 분석 with 파이썬 (길벗 출판사)

모두의 한국어 텍스트 분석 공저자

이 강의를 만든 사람

궁금한 내용을 
먼저 확인해보세요!
🙋‍♀

Q. 비전공자도 들을 수 있나요? 

파이썬 기초 문법을 이해하고 있다면 형태소 분석기, 사이킷런이나 판다스의 API를 주로 사용하기 때문에 비전공자가 충분히 들을 수 있습니다. 다양한 분야에서 텍스트 분석을 활용하고자 하는 분들을 위한 강의 입니다. 기획자, 마케터, 분석가, 비 IT계열 연구자 분들이 비즈니스에서 텍스트를 활용하는 것을 목적으로 만들어 졌습니다. 그렇기 때문에 AI 모델을 직접 개발하고자 하거나 밑바닥부터 수식을 작성하며 분석하고자 하는 분에게는 맞지 않을 수 있습니다.

Q. 유튜브에 공개된 모두의 텍스트 분석 책 영상과 같나요? 

이 강좌의 대부분이 모두 새로 촬영된 영상입니다. 유튜브 채널에 공개된 영상은 파이썬, 판다스 기초, 분류 기초 일부 내용이 겹칩니다. 또, 토픽모델링, 군집화, 유사도분석, 차원축소, 딥러닝활용에 대해서는 유튜브에 없는 내용을 훨씬 자세하게 다룹니다. 구매 전에 유튜브의 영상을 통해 본인이 생각했던 학습내용인지 확인해 보세요. => https://bit.ly/pytextbook-youtube

Q. 책 내용과 같나요? 책도 구매해야 하나요?

책 내용과 겹치는 부분도 있고 그렇지 않은 부분도 있습니다. 토픽모델링, 군집화 등은 책보다 자세하게 다루며 책에 있는 모든 예제를 다루지 않습니다.
책이 없어도 수강 가능합니다. 책은 정리된 텍스트로 다시 정리하고자 하는 분들께 추천합니다.

Q. 컴퓨터의 성능은 어느정도 되어야 수강 할 수 있나요?

8GB 이상의 메모리와 남은 저장공간이 20GB 정도 되는 PC나 노트북이라면 상관 없으며 컴퓨터의 성능이 낮다면 google colaboratory를 통해 실습해 보실 수 있습니다.

Q. 수업 내용을 어느 정도 수준까지 다루나요? 

작은 음식 리뷰 예시 코퍼스 데이터로 시작해서 서울120 FAQ 데이터, 쇼핑리뷰, KLUE 뉴스 토픽 데이터까지 다룹니다.
토큰화, 형태소 분석, 토픽모델링, 군집화, 유사도 분석, 머신러닝 활용법을 다룹니다.
허깅페이스를 통해 기존에 공유된 모델을 활용하는 방법을 다룹니다.

Q. 수학이나 확률, 통계를 다루나요? 

직접 수학, 확률, 통계를 구하지 않고 사이킷런이나 판다스, 텐서플로, 파이토치, 허깅페이스를 활용합니다.

수강 전 참고 사항

이런 분들께는 추천하지 않아요. 🚫

  • 🙅‍♂ LLM 모델의 수학적 계산법과 원리를 익히고 LLM 모델을 밑바닥부터 만들고자 하는 분

  • 🙅‍♂ LLM 기반 AI 서비스를 개발하고자 하는 분

실습 환경

  • 운영 체제 및 버전(OS): 파이썬이 설치되어 있고 Jupyter 나 Colab 이 사용하다면 어떤 운영체제든 상관 없습니다.

  • 사용 도구: Jupyter 나 Google Colab 을 사용합니다.

  • PC 사양: RAM 8G 이상과 20G의 스토리지 여유 공간이 있다면 충분히 수강 가능합니다.

학습 자료

  • colab을 통한 실습 링크와 주피터 노트북 파일을 제공합니다.

  • 설명과 코드가 입력된 자료와 설명만 입력되어 있어 직접 실습할 수 있는 파일 2가지를 제공합니다.

인프런 미리보기 또는 유튜브 채널을 통해 공개된 일부 수업을 먼저 듣고 수강 여부를 결정해 주세요.

수강 전 일부 수업을 미리 볼 수 있습니다. 원하는 학습 방향인지 확인해 보세요. ( => https://bit.ly/pytextbook-youtube )또 궁금한 사항은 수강 전 문의를 통해 질문해 주세요. 유튜브에 있는 내용 외 수업에서는 훨씬 다양한 태스크와 딥러닝 활용법에 대해 유튜브에 없는 내용을 더 자세하게 다룹니다.

선수 지식 및 유의사항

  • 파이썬 기초 문법에 대한 이해가 필요합니다.

  • Jupyter 혹은 Google Colaboratory 에 대한 사용방법을 알고 있어야 합니다.


이런 분들께
추천드려요!

학습 대상은
누구일까요?

  • 텍스트 분석이 필요한 비즈니스 전문가

  • 연구와 논문에 토픽모델링이나 유사도 분석이 필요한 연구자

  • 텍스트 분석 프로젝트를 하려는 학생

  • 텍스트 분석 포트폴리오를 만들고자 하는 취업 준비생

선수 지식,
필요할까요?

  • 파이썬 기본 문법

  • 주피터 혹은 Google Colab 사용법

  • Microsoft MVP(Python Developer Technologies)

  • 오늘코드 YouTube 📺 https://youtube.com/todaycode

  • “모두가 데이터에 친숙해지는 날이 오길”– 마이크로소프트웨어 (링크)

  • 네이버 커넥트 재단 부스트코스 데이터사이언스 강의 설계 및 교수자

  • 서울대 빅데이터혁신공유대학, 서울대 평생교육원, 연세대 DX Academy, 한신대 ABC Camp, 한양대 대학원, 전남대,

    한국능률협회, 삼성SDS 멀티캠퍼스, 멋쟁이사자처럼, 패스트캠퍼스, 모두의연구소 등 다수의 교육기관 및 기업 강의

  • 다양한 도메인(제약, 통신, 자동차, 커머스, 교육, 정부기관 등)의 기업 데이터 분석

  • 20년이상 게임, 광고, 교육 등 다양한 도메인에서 웹 백엔드 개발자 및 데이터 분석가 현업 경험

커리큘럼

전체

52 ∙ 17시간 33분

강의 게시일: 2023년 12월 18일
마지막 업데이트일: 2023년 12월 26일

수강평

아직 충분한 평가를 받지 못한 강의입니다.
모두에게 도움이 되는 수강평의 주인공이 되어주세요!