목록PYTHON (58)
정구리의 우주정복
여러가지 방법이 있지만 나는 까먹지 않을 수 있는 방법으로 기억하려 한다 1. for문 lst = [[1,2],[3,4],[5,6]] arr = [] for i in lst: arr += i 2. sum lst = [[1,2],[3,4],[5,6]] arr = sum(lst,[]) 이렇게만 알아도 좋을듯 히히
정규표현식에 대해서 알아보자 ! 직접 입력해보고 결과를 출력해보며 공부하는 것을 추천 ! 정규표현식 기본 사용 법 #정규표현식 import re r = re.compile("a.c") #. 는 한개의 임의의 문자를 나타냄 abc,avc,anc .. 모두 매치가 됨 print(r.search('abc')) r = re.compile('ab?c') #앞의 문자가 존재할수도 있고 안할수도 있다 abc,ac 모두 매치가 됨 print(r.search('abc')) print(r.search('ac')) r = re.compile('ab*c') #*앞의 문자는 0개부터 무수히 많을 수있다. ac,abc,abbbbc,abbbbbbbbc 모두 매치 print(r.search('abbbbbbbbbbbbbbbbbbbbb..
주피터 노트북 사용 , 맥 기준 한글이 네모모양으로 깨져서 출력될 경우 맨 위에 import matplotlib.pyplot as plt import matplotlib.font_manager as fm fm._rebuild() plt.rc('font',family='AppleGothic') 을 추가해주자 ! 그럼 한글이 깨지지 않고 나온다 !!!!!오예 !!
이전 게시글에서 전처리 한 파일들을 정수인코딩 , 등장수가 적은 단어들을 제거 ,padding (문장들의 길이를 같게 맞춰주는 단계) , 머신러닝으로 학습해주는 부분이다 import csv from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences import numpy as np import pandas as pd #call data with open('clean_test_reviews.csv','r',encoding='utf-8') as f: rdr = csv.reader(f) for i, line in enumerate(rdr): if i..
간단한 전처리를 해주는 부분이다 . 왜 간단이라고 하냐면 전처리를 할때 시간이 너무 오래걸려서 중간에 한번 끊어줬음 ㅜㅜ 이 소스코드는 불용어 제거 , 형태소 단위로 쪼개주기 , 중복데이터 제거 를 해준것을 csv 파일로 만들어주는 소스코드이다 import pandas as pd import re from konlpy.tag import Okt from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences import numpy as np import csv #call data train_data = pd.read_csv('/Users/jungry..
train data 는 네이버에서 제공하는 영화리뷰 긍정부정 데이터를 사용했고 test data 는 현재 최근 상영한 영화인 '삼진그룹 영어토익반' 의 영화리뷰를 크롤링해서 사용했다. 크롤링을 통해 가져온 데이터는 별점 , 댓글내용을 가져왔고 별점 총 10점에서 7-10 까지는 긍정적(1) , 그 이하는 부정적(0) 이라고 판단해 라벨값을 지정해주었다 #필요한 라이브러리들 import from selenium import webdriver from selenium.webdriver.common.by import By import time import pandas as pd import re #url BASE_URL = 'https://movie.naver.com/movie/bi/mi/pointWriteF..
영화리뷰 를 크롤링해서 긍정부정을 예측하는 프로그램을 만들거임! 인공지능을 사용해 자연어처리를 해보는 첫 프로젝트 ! 파트는 1. 크롤링 2. 전처리 3. 예측 총 3단계로 구성되었다 사실 이미 소스코드는 다 만들었고 기록만 할것임
자연어 처리 !! 내가 제일 해보고 싶은 분야 텍스트의 토큰화 -텍스트를 잘게 나눈 것 텍스트를 단어 , 문장 , 형태소 별로 나눌 수 있는데 이렇게 나눠진 하나의 단위를 '토큰' 이라고 한다 그리고 잘게 나누는 과정을 '토큰화' 케라스에선 text_to_word_sequence 를 제공해 좀 쉽게 토큰화 할 수 있다 간단한 토큰화 예제 from tensorflow.keras.preprocessing.text import text_to_word_sequence #전처리 할 텍스트 text ='여기는 정구리의 멋진 블로그' #텍스트 토큰화 result = text_to_word_sequence(text) print('원문 :',text) print('토큰화 :',result) #텍스트 전처리 함수 Toke..