본문 바로가기

분류 전체보기84

군집화 KMean 알고리즘 2 csv = pd.read_csv("iris.csv") data = csv[["sepal.length","sepal.width","petal.length","petal.width"]] label = csv["variety"] iris.csv 파일을 가져와서 각각의 컬럼을 data와 label에 넣는다 kmeans = KMeans(n_clusters=3) 군집의 갯수를 개로 부여한다. kmeans.fit(data) result = kmeans.labels_ 여러 data의 값들을 군집시키고 각 data 행의 label을 result에 저장한다. 다음과 같은 결과가 나오는데 왼쪽 값이 종류 오른쪽 값이 군집이다. 즉, 0이라는 종류는 대부분 0이라는 군집에 속한다. 다만 위의 빨간 표시와 같이 1이라는 종류가.. 2020. 8. 12.
군집화 KMean 알고리즘 군집 (KMean) - 독립변수만을 넣어 label을 출력값으로 가진다. - 하나의 군집 내에 데이터들의 거리가 가까울 수록 군집화가 잘 되었다고 볼 수 있다. 군집화 과정 1. K 개의 중심점 설정 2. 모든 데이터를 K개의 중심점과의 거리 계산 -> 가장 가까운 중심점을 선택하여 군집 결정 3. 군집별로 중심점 계산 * 군집이 바뀌면 2부터 다시 반복 (무한 반복에 빠질 수 있으므로 반복 횟수를 정한다.) 초기 중심점 설정법 1. 랜덤 2. 직접 지정 3. K++ - 첫 번째 점 중심점 지정 > 첫 번째 점에서 가장 먼 점 지정 > 두 점에서 상대적으로 가장 먼 점 지정 ... df = pd.DataFrame(columns=['x', 'y']) 판다스를 이용하여 'x', 'y' 컬럼을 갖는 데이터프레.. 2020. 8. 12.
분류 모델 def read_data(fname): mr = pd.read_csv(fname, header=None) 다음과 같은 버섯 정보 csv파일을 불러온다 맨 앞 컬럼의 'p', 'e'는 독이 있어 못 먹는 버섯과 먹을 수 있는 버섯을 의미한다. train_label = [] train_data = [] test_label = [] test_data = [] 학습시킬 독립변수와 종속변수, 테스트 할 독립변수와 종속변수를 선언한다. for row_index, row in mr.iterrows(): r=random.randint(1, 5)#1은 평가, 나머지는 학습 if r==1: test_label.append(ord(row.loc[0])) else: #첫 번째 컬럼의 값 => lable train_label... 2020. 8. 11.
선형회귀 모델 LinearRegression을 이용한 선형회귀 모델 from sklearn.linear_model import LinearRegression import pandas as pd csv = pd.read_csv("taxi-fare-train.csv") data = csv[["trip_distance"]] #독립변수 label = csv["fare_amount"] #종속변수 example = [[3.1]] reg = LinearRegression() reg.fit(data, label) result = reg.predict(example) print(result) Y = W x X + b 에서 Y 는 종속변수로 label이 들어가고 X 는 독립변수로 data가 들어간다. example은 X자리에 들어간다... 2020. 8. 11.
DTO/DAO DTO (Data Transfer Object) 변수를 Private 형태로 선언하고 getter/setter 메소드로 처리한다. Java Resources - src 의 위치에 DTO/DAO 파일을 넣을 패키지 생성 DAO (Data Access Object) 실제로 DB에 접근하고 CRUD(Create Read Update Delete) Api를 제공한다. DB 연결 private CashBookDAO() { try { Class.forName("net.sf.log4jdbc.DriverSpy"); }catch(Exception e) { e.printStackTrace(); } } private Connection getConnection() throws SQLException{ return Drive.. 2020. 8. 10.
딥러닝 기초 인공지능 : 사람이 판단하는 것처럼 컴퓨터(기계)가 판단하게 하는 기술 - 의사결정 알고리즘(일상에서 발생하는 현상을 알고리즘에 적용) 1. 뉴럴 네트워크 2. 개미 3. 떼 지능 4. 세포조직 등.. (정답을 구할 수 없으면 근사값을 구한다.) 머신러닝 : 인간의 뇌에 있는 신경망(NN)처럼 인공신경망(ANN)을 이용해서 학습하는 기술 학사 석사 과정에서는 반복 -> 재귀 -> 분할, 정복의 과정을 주로 다룬다 이후의 과정은 의사결정이고 이 과정은 박사 이상에서 다룬다. 작업의 종류 분류 ex) 강아지인지 고양이인지 회귀 ex) 거리에 따른 택시 가격 예측 예측 군집(Clustering) 이상값 감지 강화학습 분류와 군집은 거의 유사 = 클러스터링(Clustering)이라고도 부름 분류 : 학습된 정보.. 2020. 8. 10.