반응형

빅데이터전문가양성과정 9

머신러닝을 이용한 암 데이터 다루기

데이터 받아오기 breast_cancer = pd.read_csv('https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data', header = None) 위 링크로 접속하면 해당 홈페이지에서 직접 데이터를 수집할 수 있습니다. breast_cancer.columns = ['id_number', 'Clump_Thickness', 'Unif_Cell_Size', 'Unif_Cell_Shape','Marg_Adhesion', 'Single_Epith_Cell_Size', 'Bare_Nuclei','Bland_Chromatin', 'Normal_Nucleoli', 'Mi..

머신러닝을 이용한 붓꽃 품종 분류

꽃잎 데이터셋 import numpy as np import pandas as pd from sklearn.datasets import load_iris iris_dataset = load_iris() iris_dataset.keys() data, target, target_names, DESCR, feature_names, filename을 가지는 iris 데이터셋을 가져옵니다. 품종 확인 iris_dataset['target_names'] setosa, versicolor, virginica 세 종류의 품종이 있다는 것을 알 수 있습니다. 데이터 형식 print('Type of data : {}'.format(iris_dataset['data'].dtype)) print('Size of data : ..

공공 데이터 활용

데이터를 이용하기 위해 공공데이터 포털(www.data.go.kr/index.do)에서 데이터 활용신청을 하자 마이페이지에서 확인이 가능하다. 이후 상세설명에서 서비스 일반 인증키와 서비스 URL을 복사한다. import requests as rq from bs4 import BeautifulSoup as bs import numpy as np import pandas as pd import folium import json 필요한 라이브러리들을 collab 환경에서 설치해준다. url = 'http://openapi.data.go.kr/openapi/service/rest/Covid19/getCovid19SidoInfStateJson?' key = '&ServiceKey=서비스키!' params = '..

데이터 분석 (7일차)

df2d.loc[:, '평균'] = df2d.iloc[:, :8].mean(axis=1) 위의 데이터중 모든 열의 7행까지 가로방향의 평균을 구한다. df2d.sort_values(by=["평균"], ascending=True) 평균 값을 기준으로 ascending을 이용하여 오름차순으로 바꾼다. 순위 구하기 first : DataFrame에 같은 값이 존재하는 경우 저장되어 있는 순서대로 순위를 지정 (값 : 100, 85, 85, 70 ==> 순위 : 1, 2, 3, 4) 주의 : first 방법은 숫자 타입만 가능, numeric_only=True도 같이 설정해야 함 min : 중복 값이 있는 만큼 순위를 건너뛰고 표시 (값 : 100, 85, 85, 70 ==> 순위 : 1, 2, 2, 4) ma..

데이터 분석 (6일차)

지난 5일차의 데이터 분석에 이어서 구글 계정에 권한을 허용한다. jaeheonit.tistory.com/36 데이터 분석 (5일차) 실습할 데이터를 가져온다. https://data.kma.go.kr/ 기상자료개방포털 data.kma.go.kr 해당 사이트에 접속하여 기후통계분석 >> 통계분석 >> 기온분석 메뉴로 들어가서 기간설정 후 csv파일로 가져온다. 구 jaeheonit.tistory.com 엑셀 파일 불러오기 import numpy as np import pandas as pd import matplotlib.pyplot as plt tempData = pd.read_excel('/gdrive/My Drive/BigData/data/AndongTemperature.xlsx') tempData..

데이터 선택 & 슬라이싱 (6일차)

iloc와 loc로 데이터 선택하기 loc : '칼럼명'을 기준으로 데이터프레임의 데이터를 선택 iloc : '인덱스 번호'로 선택 import numpy as np import pandas as pd df2d = pd.DataFrame(np.random.randn(8, 8), columns=['서울', '경기', '광주', '대구', '부산', '전주', '대전', '세종']) df2d = np.abs(df2d) df2d rand : 0에서 1사이의 균일한 확률 분포로 실수 난수 생성 randn : 기댓값이 0이고 표준편차가 1인 가우시안 표준 정규 분포를 따르는 난수 생성 df2d.loc[:, '인천'] = np.abs(np.random.rand(8)) loc를 통해 '인천'이라는 칼럼을 생성,접근하..

데이터 분석 (5일차)

실습할 데이터를 가져온다. https://data.kma.go.kr/ 기상자료개방포털 data.kma.go.kr 해당 사이트에 접속하여 기후통계분석 >> 통계분석 >> 기온분석 메뉴로 들어가서 기간설정 후 csv파일로 가져온다. 구글 계정과 연동 from google.colab import drive drive.mount('/gdrive', force_remount=True) URL에 접속하여 계정을 선택하고 코드를 넣으면 구글 계정와 연동된다. CSV 파일 열기 import numpy as np import pandas as pd tempData = pd.read_csv('/gdrive/My Drive/BigData/data/안동기온분석.csv', encoding='utf-8') tempData /gd..

파이썬 기초 (1일차)

변수 소개 - 변수는 프로그램 수행에 필요한 자료(값)을 저장하는 공간(메모리)이다. - 변수에 저장된 값은 언제든지 다른 값으로 바뀔 수 있다. - 할당문(대입문)을 사용하여 변수에 값을 저장한다. 변수 이름 짓기 - 의미 있는 이름으로 짓는다. - 소문자와 대문자를 구별한다. - 변수 이름은 영문자와 숫자, 밑줄(_)로 이루어진다. (첫 글자가 숫자가 될 수 없다.) - 변수의 이름에 공백이나 특수문자가 들어가면 안된다. 낙타식 표기법 (Camel Case) : myNewCar, userList, ... 파스칼식 표기법(Pascal Case) : MyNewCar, UserList, ... 케밥식 표기법(Kebab Case) : my-new-car, user-list, ... 수식(Expression)..

Colaboratory 환경설정(1일차)

Colaboratory Colaboratory는 웹 브라우져에서 파이썬 언어를 실행할 수 있는 도구입니다. 간편한 공유와 GPU무료 액세스가 장점이라고 합니다. 환경설정 새로 만들기 - 더보기 - 연결할 앱 더보기를 클릭합니다. Colaboratory를 검색하여 설치합니다. 상단에 있는 제목을 클릭하면 변경할 수 있습니다. 런타임 - 런타임 유형 변경에서 GPU로 변경해줍니다.

반응형