정구리의 우주정복

인공지능 (5) - 자연어 처리 1. 토큰화 본문

PYTHON/A.I

인공지능 (5) - 자연어 처리 1. 토큰화

Jungry_ 2020. 11. 16. 23:00
반응형

자연어 처리 !! 내가 제일 해보고 싶은 분야 

 

텍스트의 토큰화 

-텍스트를 잘게 나눈 것 텍스트를 단어 , 문장 , 형태소 별로 나눌 수 있는데 이렇게 나눠진 하나의 단위를 '토큰' 이라고 한다

그리고 잘게 나누는 과정을 '토큰화'

케라스에선 text_to_word_sequence 를 제공해 좀 쉽게 토큰화 할 수 있다

 

간단한 토큰화 예제

from tensorflow.keras.preprocessing.text import text_to_word_sequence

#전처리 할 텍스트
text ='여기는 정구리의 멋진 블로그'

#텍스트 토큰화
result = text_to_word_sequence(text)
print('원문 :',text)
print('토큰화 :',result)

#텍스트 전처리 함수 Tokenizer() 호출
from tensorflow.keras.preprocessing.text import Tokenizer

#전처리 하려는 문장 정하기
docs = ['먼저 텍스트의 각 단어를 나누어 토컨화 합니다.','텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다',
'토큰화 한 결과는 딥러닝에서 사용할 수 있습니다.']
#토큰화 함수를 이용해 전처리 하는 과정
token = Tokenizer() #토큰화 함수 지정
token.fit_on_texts(docs) #토큰화 함수에 문장 적용하기

#각 옵션에 맞춰 단어의 빈도 수를 계산한 결과 출력
print('단어 카운트 : ',token.word_counts)
print('문장 카운트 : ',token.document_count)
print('각 단어가 몇 개의 문장에 포함되어 있는가 : ',token.word_docs)
print('각 단어에 매겨진 인덱스 값 : ',token.word_index)
반응형
Comments