본문 바로가기
반응형

[ Python ] 9

[Python] 머신러닝 개념 잡기 # wikidocs.net을 보고 요약 및 정리 머신러닝 사람에게 사진을 보고 고양이와 강아지를 구분하라고 하면 쉽지만 기계는 그렇지 않다. 기계는 이미지를 분류하기 위해 이미지의 shape이나 edge를 판별하고 찾아 알고리즘화를 하려고 하지만 한계는 존재한다. 이럴때 머신러닝이 해결책이 될 수 있다. 머신러닝은 데이터와 해답을 주고 기계에게 비슷한 예제를 학습시켜 규칙성을 만든다. 즉, 머신러닝은 "주어진 데이터로부터 규칙성을 찾는 것"이다. 머신러닝 모델은 일반적으로 훈련용, 검증용, 테스트용으로 분리해서 사용한다. 훈련용으로 모델을 훈련하고, 검증용에서 모델의 성능을 조정한 뒤(과적합 판단, 하이퍼파라미터) 조정 등), 튜닝한 검증용 데이터를 아직 보지못한 데이터, 테스트 데이터로 모델의 진짜 성.. 2020. 11. 6.
[Python] SciPy / 기초기술통계 / ANOVA(분산분석) / 회귀분석 # 오늘은 전처리 맛보기만 해보자. ANOVA (ANalysis Of VAriance; 분산 분석) 3개 이상 다수의 그룹간의 평균의 차이가 통계적으로 유의미 한지를 판단하기 위한 시험법. F분포를 이용한다. ▼ 카이제곱검정 vs T검정 vs ANOVA(분산검정) 더보기 연속형자료와 범주형 자료 연속형 : 키, 몸무게 등 수량화 가능한 자료. 범주형 : 성별, 혈액형, 치료반응 유무 등 수향화 할 수 없는 자료. 연속형 변수를 검정하는데에는 T검정과 ANOVA(분산분석) 이 사용되고, 범주형 변수를 검정할 경우 카이제곱검정과 피셔의 정확검정법을 사용할 수 있다. 상관분석 : 두 변수 간에 얼마나 상관이 있는가?선형관계인가? 회귀분석 : y=a+bx 관계식 구하기 카이제곱검정 T검정 ANOVA(분산검정) .. 2020. 11. 2.
[Python] SciPy / 기초기술통계 / 카이제곱검정 / T검정 검정(test) 특정 분포를 기준으로 했을 때 유의성이 있는가 판별하는 것. 1. 카이제곱검정(Chi-squares) 그룹간 관찰빈도와 기대빈도를 통해 두 집단간의 차이가 유의한가를 판별하는 방법. 카이검정은 범주형 변수일 경우 두 독립군간의 비교를 할 때 쓰인다.(연속형 변수인 두 독립군 간의 비교는 t-test 사용) 귀무가설(H0)과 대립가설(H1) 이 가설들은 기본적으로 통계학에서 처음부터 버릴 것을 예상하는 가설이다. 귀무가설은 앞으로 내가 검정해야 하는 것이다. (내가 궁금한 것/관찰한 것 ex-주사위 프로그램 검정 (기댓값과 달리 랜덤하게 나오는가?) 기댓값과 같이 유사한 구조로 나오는가? 등) 일단 귀무가설이 옳다는 가정하에 시작하나, 예상이기 때문에 진실일 가능성이 적다. 대립가설은 귀무.. 2020. 10. 30.
[Python] Pandas 기초 / groupby / 데이터프레임 Json으로 저장 / 실습(3) 1. 외부데이터 수입해서 다루기(복습) 더보기 2. Group by : groupby(by=[묶는기준], as_index=False ) 한개열 또는 여러열을 기준으로 집계하는 함수. 집계하고자하는 열 이름을 by 파라미터에 입력하고 호출하면 된다. as_index=False : 인덱스 손질. 설정하지 않으면 판다스(Pandas) 복합 인덱스로 올라가서 변환하거나 사용하기 어렵다. 1) 한개 열을 기준으로 집계하기 df = pd.DataFrame({ '상품번호':['상품1','상품2','상품3','상품4'], '수량' : [2,3,5,10] }) df 기본적으로 groupby만 해도 이미 집계는 되어있는 상태이다. 단, generator 상태이기 때문에 추가적으로 산술통계를 써서 원하는 값을 도출하는 방식.. 2020. 10. 30.
[Python] Pandas 기초 / DataFrame / matplotlib / 실습(2) # 결측치 # 결측값이 있는지 여부 확인 : isnull() # 결측값 없는 것들 확인 : notnull() # 세로줄(열)별 결측값 갯수 : df.isnull().sum() # 가로줄(행)별 결측값 갯수 : df.isnull().sum(1) # 결측치 시각화하기 : missingno ▼missingno 설치 방법 더보기 !pip list |grep missingno !pip list |grep missingno #설치 확인 #결측치를 시각화하는 방법 : missingno import missingno as msno msno.matrix(df_all,figsize=(18,6)) # 병합 : pd.merge() - 그냥 merge를 쓰면 키값이 겹치는 애들만 병합이 된다. -> 속성값으로 join의 종류(.. 2020. 10. 29.
[python] 주피터 노트북(jupyter notebook) 단축키 Jupyter notebook 단축키 jupyter는 입력모드인 초록창과 편집모드인 파란창이 있다. 각각의 단축키가 다르다. [입력모드 단축키] [편집모드 단축키] Ctrl + a -> 해당 셀 전체 선택 a - 셀 추가(위로 추가) Ctrl + c,v,x -> 셀 내용 복사, 붙여넣기,잘라내기 b - 셀 추가(아래로 추가) Ctrl + z -> 해당 셀 실행 취소 c, v, x- 셀 복사, 붙여넣기, 잘라내기 Ctrl + / -> 해당 셀 커서가 위치 된 곳 주석 처리, 주석처리 해제 dd (d 두번) - 해당 셀 삭제 Ctrl + ] -> 커서위치한 곳에서 들여쓰기(Tab) m - 해당셀 Markdown으로 변경 Ctrl + enter -> 해당 셀 실행 y - 해당셀 code로 변경 Ctrl + y.. 2020. 10. 28.
반응형
LIST