데이터 분석 (7일차)
df2d.loc[:, '평균'] = df2d.iloc[:, :8].mean(axis=1) 위의 데이터중 모든 열의 7행까지 가로방향의 평균을 구한다. df2d.sort_values(by=["평균"], ascending=True) 평균 값을 기준으로 ascending을 이용하여 오름차순으로 바꾼다. 순위 구하기 first : DataFrame에 같은 값이 존재하는 경우 저장되어 있는 순서대로 순위를 지정 (값 : 100, 85, 85, 70 ==> 순위 : 1, 2, 3, 4) 주의 : first 방법은 숫자 타입만 가능, numeric_only=True도 같이 설정해야 함 min : 중복 값이 있는 만큼 순위를 건너뛰고 표시 (값 : 100, 85, 85, 70 ==> 순위 : 1, 2, 2, 4) ma..
2020. 10. 26.
데이터 선택 & 슬라이싱 (6일차)
iloc와 loc로 데이터 선택하기 loc : '칼럼명'을 기준으로 데이터프레임의 데이터를 선택 iloc : '인덱스 번호'로 선택 import numpy as np import pandas as pd df2d = pd.DataFrame(np.random.randn(8, 8), columns=['서울', '경기', '광주', '대구', '부산', '전주', '대전', '세종']) df2d = np.abs(df2d) df2d rand : 0에서 1사이의 균일한 확률 분포로 실수 난수 생성 randn : 기댓값이 0이고 표준편차가 1인 가우시안 표준 정규 분포를 따르는 난수 생성 df2d.loc[:, '인천'] = np.abs(np.random.rand(8)) loc를 통해 '인천'이라는 칼럼을 생성,접근하..
2020. 10. 22.
pandas 자료구조 (5일차)
Series : numpy의 1차원 array와 유사 DataFrame : numpy의 2차원 array와 유사 Series obj = pd.Series([96, 88, 100, 68]) series는 색인(Index)과 값(Values)을 가진다. score = pd.Series([96, 88, 100, 68], index=['김은서', '박민철', '정윤주', '홍길동']) score 색인과 값을 따로 줄 수 있다. Dictionary와 Series Series : 파이썬의 사전과 유사, 고정 길이의 사전 Series 객체는 파이썬의 사전형을 인자로 받아야 하는 함수에서 사전형을 대체하여 사용할 수 있다. covid19 = {'세울': 5702, '대구': 7142, '경기':4869, '경북':15..
2020. 10. 19.