본문 바로가기

🧠 공부7

[ADP 2과목] 통계분석의 이해 통계자료를 획득하는 방법 총조사/ 전수조사 표본조사Simple Random Sampling:  단순랜덤 추출법, 임의의 n 개 추출Systematic Sampling: 계통 추출법 k번째마다 하나씩 뽑는 방법( k, 2k, 3k, ... )Cluster Random Sampling: 집락추출법: cluster를 구성해서 군집마다 하나씩 ( ex, 지역별 n명)Stratified Random Sampling: 층화추출법:계층에서 뽑는 방법척도명목척도어느 집단에 속하는지 카테고리 분류할 때 순서척도대상의 서열과 순서를 측정할 때 구간척도구간사이의 간격이 의미 있을 때비율척도간격에 대한 비율이 의미가 있는 자료 (절대적 기준인 0이 존재, 사칙연산 가능)확률 분포이산형 - 확률질량함수(pmf - mass)베르.. 2024. 7. 13.
결측치 통계 쉽게 확인하기! python missingno 패키지로 결측치 시각화 하기(nullity correlation, null count) 데이터 칼럼이 큰데, 단순히 df.isna().sum()으로 확인하는 것은 너무 복잡할 뿐이다. 게다가 칼럼별 결측치 뿐만 아니라, 행으로도 봐야 하지않겠는가?이럴 때 missingno가 유용하다!!import matplotlib.pyplot as pltimport missingno as msnomsno.matrix(df_train)plt.show()실행결과는 아래와 같다. ㅠㅠ 너무 간편하고 좋다!! 물론 당연히 칼럼별로도 할 수 있다!msno.bar(df_train)plt.show() heatmap 함수와 dendrogram함수를 사용하면 결측간의 상관관계를 의미하는 nullity correlation을 확인할 수 있다.  msno.heatmap(collisions)msno.dendrogram(col.. 2024. 4. 27.
(3)로지스틱 회귀분석(Logistic regression): 파이썬 실습(Python) 코드 실습 from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score import 문은 위와 같다! - `train_test_split`: X와 y 값에 대해 input을 넣으면 이를 test 용과 train용으로 나눠주는 역할의 함수이다. random_state값을 fix 하게 되면 seed 가 고정되어서 결과를 동일하게 나오게 할 수 있다. - accruracy_score : 알다시피 정확도이다! X_train, X_test, y_train, y_test = train_test_split(X, y,.. 2024. 4. 14.
(2)로지스틱 회귀분석(Logistic regression)이 가지고 있는 이야기: MLE(Maximum Likelihood Estimation)& GLM & 손실함수 이번 글에서는... 로지스틱 모형에서 회귀계수를 구하는 방법 GLM과 링크함수 최대우도법 로지스틱 회귀모형의 손실함수 왜 최대우도추정법(MLE)로 회귀 계수를 구하는 걸까? 선형 회귀분석은 최소제곱법을 통해 해를 추정해 내지만, 로지스틱은 최대우도법을 통해 회귀 계수를 구한다. 어차피 해가 무한대인 식을 시그모이드 함수에 넣어 0~1 범위로 값을 변환하는데 왜 선형 회귀분석과 다르게 MLE(Maximum Likelihood Estimation, 최대 우도추정)을 사용해서 추정하는걸까? 앞선 글에서 로지스틱 회귀분석의 Y 값은 1에 해당할 확률을 의미한다고 적었는데, 이는 응답이 1인 로그 오즈비의 추정치를 말한다! 이렇게 한번 보면 어떨까? 일반 선형 회귀방정식: 결과값(y)을 관찰함 로지스틱 회귀모형:.. 2024. 4. 13.