정구리의 우주정복
인공지능 (5) - 자연어 처리 1. 토큰화 본문
반응형
자연어 처리 !! 내가 제일 해보고 싶은 분야
텍스트의 토큰화
-텍스트를 잘게 나눈 것 텍스트를 단어 , 문장 , 형태소 별로 나눌 수 있는데 이렇게 나눠진 하나의 단위를 '토큰' 이라고 한다
그리고 잘게 나누는 과정을 '토큰화'
케라스에선 text_to_word_sequence 를 제공해 좀 쉽게 토큰화 할 수 있다
간단한 토큰화 예제
from tensorflow.keras.preprocessing.text import text_to_word_sequence
#전처리 할 텍스트
text ='여기는 정구리의 멋진 블로그'
#텍스트 토큰화
result = text_to_word_sequence(text)
print('원문 :',text)
print('토큰화 :',result)
#텍스트 전처리 함수 Tokenizer() 호출
from tensorflow.keras.preprocessing.text import Tokenizer
#전처리 하려는 문장 정하기
docs = ['먼저 텍스트의 각 단어를 나누어 토컨화 합니다.','텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다',
'토큰화 한 결과는 딥러닝에서 사용할 수 있습니다.']
#토큰화 함수를 이용해 전처리 하는 과정
token = Tokenizer() #토큰화 함수 지정
token.fit_on_texts(docs) #토큰화 함수에 문장 적용하기
#각 옵션에 맞춰 단어의 빈도 수를 계산한 결과 출력
print('단어 카운트 : ',token.word_counts)
print('문장 카운트 : ',token.document_count)
print('각 단어가 몇 개의 문장에 포함되어 있는가 : ',token.word_docs)
print('각 단어에 매겨진 인덱스 값 : ',token.word_index)
반응형
'PYTHON > A.I' 카테고리의 다른 글
파이썬 인공지능 악성코드 분석 (1) - 환경 구축 (우분투 설치 방법) (0) | 2021.03.15 |
---|---|
인공지능(4) - 피마 인디언 당뇨병 예측 (0) | 2020.11.15 |
인공지능(3) - 폐암 생존률 분석해보기 (0) | 2020.11.12 |
인공지능 (2) - 딥러닝을 위한 기초 수학 (0) | 2020.10.30 |
인공지능 (1) - 딥러닝 준비운동 (0) | 2020.10.30 |
Comments