본문 바로가기
반응형

pandas 3

[Python] Pandas 기초 / groupby / 데이터프레임 Json으로 저장 / 실습(3) 1. 외부데이터 수입해서 다루기(복습) 더보기 2. Group by : groupby(by=[묶는기준], as_index=False ) 한개열 또는 여러열을 기준으로 집계하는 함수. 집계하고자하는 열 이름을 by 파라미터에 입력하고 호출하면 된다. as_index=False : 인덱스 손질. 설정하지 않으면 판다스(Pandas) 복합 인덱스로 올라가서 변환하거나 사용하기 어렵다. 1) 한개 열을 기준으로 집계하기 df = pd.DataFrame({ '상품번호':['상품1','상품2','상품3','상품4'], '수량' : [2,3,5,10] }) df 기본적으로 groupby만 해도 이미 집계는 되어있는 상태이다. 단, generator 상태이기 때문에 추가적으로 산술통계를 써서 원하는 값을 도출하는 방식.. 2020. 10. 30.
[Python] Pandas 기초 / DataFrame / matplotlib / 실습(2) # 결측치 # 결측값이 있는지 여부 확인 : isnull() # 결측값 없는 것들 확인 : notnull() # 세로줄(열)별 결측값 갯수 : df.isnull().sum() # 가로줄(행)별 결측값 갯수 : df.isnull().sum(1) # 결측치 시각화하기 : missingno ▼missingno 설치 방법 더보기 !pip list |grep missingno !pip list |grep missingno #설치 확인 #결측치를 시각화하는 방법 : missingno import missingno as msno msno.matrix(df_all,figsize=(18,6)) # 병합 : pd.merge() - 그냥 merge를 쓰면 키값이 겹치는 애들만 병합이 된다. -> 속성값으로 join의 종류(.. 2020. 10. 29.
[Python] Pandas 기초/ Series /DataFrame / 실습(1) Pandas 온전히 통계 분석을 위해 고안된 R 과는 다르게 python은 일반적인 프로그래밍 언어(general purpose programming language) 이며, 데이터 분석을 하기 위해서는 여러가지 라이브러리를 사용할 수 밖에 없다. 이 패키지들 중 R의 dataframe 데이터 타입을 참고하여 만든 것이 바로 pandas dataframe이다. pandas는 dataframe을 주로 다루기 위한 라이브러리이며, dataframe을 자유롭게 가공하는 것은 데이터 과학자들에게 중요하다.(출처) 모양은 엑셀 시트를 하나의 데이터 타입으로 만들어 놓은 듯 하다. 행과 열로 이루어져 있어, 테이블의 형식으로 볼 수 있다. DataFrame Series들의 집합. 여러개의 Series(행)이 모여 .. 2020. 10. 28.
반응형
LIST