인공지능 (5) - 자연어 처리 1. 토큰화

Notice

Recent Posts

Recent Comments

Link

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

Archives

Today

Total

관리 메뉴

정구리의 우주정복

인공지능 (5) - 자연어 처리 1. 토큰화 본문

PYTHON/A.I

인공지능 (5) - 자연어 처리 1. 토큰화

Jungry_ 2020. 11. 16. 23:00

자연어 처리 !! 내가 제일 해보고 싶은 분야

텍스트의 토큰화

-텍스트를 잘게 나눈 것 텍스트를 단어 , 문장 , 형태소 별로 나눌 수 있는데 이렇게 나눠진 하나의 단위를 '토큰' 이라고 한다

그리고 잘게 나누는 과정을 '토큰화'

케라스에선 text_to_word_sequence 를 제공해 좀 쉽게 토큰화 할 수 있다

간단한 토큰화 예제

from tensorflow.keras.preprocessing.text import text_to_word_sequence

#전처리 할 텍스트
text ='여기는 정구리의 멋진 블로그'

#텍스트 토큰화
result = text_to_word_sequence(text)
print('원문 :',text)
print('토큰화 :',result)

#텍스트 전처리 함수 Tokenizer() 호출
from tensorflow.keras.preprocessing.text import Tokenizer

#전처리 하려는 문장 정하기
docs = ['먼저 텍스트의 각 단어를 나누어 토컨화 합니다.','텍스트의 단어로 토큰화 해야 딥러닝에서 인식됩니다',
'토큰화 한 결과는 딥러닝에서 사용할 수 있습니다.']
#토큰화 함수를 이용해 전처리 하는 과정
token = Tokenizer() #토큰화 함수 지정
token.fit_on_texts(docs) #토큰화 함수에 문장 적용하기

#각 옵션에 맞춰 단어의 빈도 수를 계산한 결과 출력
print('단어 카운트 : ',token.word_counts)
print('문장 카운트 : ',token.document_count)
print('각 단어가 몇 개의 문장에 포함되어 있는가 : ',token.word_docs)
print('각 단어에 매겨진 인덱스 값 : ',token.word_index)

'PYTHON > A.I' 카테고리의 다른 글

파이썬 인공지능 악성코드 분석 (1) - 환경 구축 (우분투 설치 방법) (0)	2021.03.15
인공지능(4) - 피마 인디언 당뇨병 예측 (0)	2020.11.15
인공지능(3) - 폐암 생존률 분석해보기 (0)	2020.11.12
인공지능 (2) - 딥러닝을 위한 기초 수학 (0)	2020.10.30
인공지능 (1) - 딥러닝 준비운동 (0)	2020.10.30

'PYTHON/A.I' Related Articles

Comments

정구리의 우주정복

인공지능 (5) - 자연어 처리 1. 토큰화 본문

인공지능 (5) - 자연어 처리 1. 토큰화

'PYTHON > A.I' 카테고리의 다른 글

티스토리툴바