목록PYTHON (59)
정구리의 우주정복

참고한 책 : 지은이 서준석 / 인공지능 보안을 배우다 보안에 관심이 생겨서 한번 공부해보려고 한다 ! 환경은 vmware 과 ubuntu 를 사용한다 vmware 은 이미 설치가 되어있어서 ubuntu 만 다운받으면 된다 releases.ubuntu.com/16.04/ Ubuntu 16.04.7 LTS (Xenial Xerus) Select an image Ubuntu is distributed on two types of images described below. Desktop image The desktop image allows you to try Ubuntu without changing your computer at all, and at your option to install it perma..
여러가지 방법이 있지만 나는 까먹지 않을 수 있는 방법으로 기억하려 한다 1. for문 lst = [[1,2],[3,4],[5,6]] arr = [] for i in lst: arr += i 2. sum lst = [[1,2],[3,4],[5,6]] arr = sum(lst,[]) 이렇게만 알아도 좋을듯 히히

정규표현식에 대해서 알아보자 ! 직접 입력해보고 결과를 출력해보며 공부하는 것을 추천 ! 정규표현식 기본 사용 법 #정규표현식 import re r = re.compile("a.c") #. 는 한개의 임의의 문자를 나타냄 abc,avc,anc .. 모두 매치가 됨 print(r.search('abc')) r = re.compile('ab?c') #앞의 문자가 존재할수도 있고 안할수도 있다 abc,ac 모두 매치가 됨 print(r.search('abc')) print(r.search('ac')) r = re.compile('ab*c') #*앞의 문자는 0개부터 무수히 많을 수있다. ac,abc,abbbbc,abbbbbbbbc 모두 매치 print(r.search('abbbbbbbbbbbbbbbbbbbbb..

주피터 노트북 사용 , 맥 기준 한글이 네모모양으로 깨져서 출력될 경우 맨 위에 import matplotlib.pyplot as plt import matplotlib.font_manager as fm fm._rebuild() plt.rc('font',family='AppleGothic') 을 추가해주자 ! 그럼 한글이 깨지지 않고 나온다 !!!!!오예 !!

이전 게시글에서 전처리 한 파일들을 정수인코딩 , 등장수가 적은 단어들을 제거 ,padding (문장들의 길이를 같게 맞춰주는 단계) , 머신러닝으로 학습해주는 부분이다 import csv from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences import numpy as np import pandas as pd #call data with open('clean_test_reviews.csv','r',encoding='utf-8') as f: rdr = csv.reader(f) for i, line in enumerate(rdr): if i..

간단한 전처리를 해주는 부분이다 . 왜 간단이라고 하냐면 전처리를 할때 시간이 너무 오래걸려서 중간에 한번 끊어줬음 ㅜㅜ 이 소스코드는 불용어 제거 , 형태소 단위로 쪼개주기 , 중복데이터 제거 를 해준것을 csv 파일로 만들어주는 소스코드이다 import pandas as pd import re from konlpy.tag import Okt from tensorflow.keras.preprocessing.text import Tokenizer from tensorflow.keras.preprocessing.sequence import pad_sequences import numpy as np import csv #call data train_data = pd.read_csv('/Users/jungry..

train data 는 네이버에서 제공하는 영화리뷰 긍정부정 데이터를 사용했고 test data 는 현재 최근 상영한 영화인 '삼진그룹 영어토익반' 의 영화리뷰를 크롤링해서 사용했다. 크롤링을 통해 가져온 데이터는 별점 , 댓글내용을 가져왔고 별점 총 10점에서 7-10 까지는 긍정적(1) , 그 이하는 부정적(0) 이라고 판단해 라벨값을 지정해주었다 #필요한 라이브러리들 import from selenium import webdriver from selenium.webdriver.common.by import By import time import pandas as pd import re #url BASE_URL = 'https://movie.naver.com/movie/bi/mi/pointWriteF..