🧠 공부/통계학4 [ADP 2과목] 통계분석의 이해 통계자료를 획득하는 방법 총조사/ 전수조사 표본조사Simple Random Sampling: 단순랜덤 추출법, 임의의 n 개 추출Systematic Sampling: 계통 추출법 k번째마다 하나씩 뽑는 방법( k, 2k, 3k, ... )Cluster Random Sampling: 집락추출법: cluster를 구성해서 군집마다 하나씩 ( ex, 지역별 n명)Stratified Random Sampling: 층화추출법:계층에서 뽑는 방법척도명목척도어느 집단에 속하는지 카테고리 분류할 때 순서척도대상의 서열과 순서를 측정할 때 구간척도구간사이의 간격이 의미 있을 때비율척도간격에 대한 비율이 의미가 있는 자료 (절대적 기준인 0이 존재, 사칙연산 가능)확률 분포이산형 - 확률질량함수(pmf - mass)베르.. 2024. 7. 13. (3)로지스틱 회귀분석(Logistic regression): 파이썬 실습(Python) 코드 실습 from sklearn.model_selection import train_test_split from sklearn.linear_model import LogisticRegression from sklearn.metrics import accuracy_score import 문은 위와 같다! - `train_test_split`: X와 y 값에 대해 input을 넣으면 이를 test 용과 train용으로 나눠주는 역할의 함수이다. random_state값을 fix 하게 되면 seed 가 고정되어서 결과를 동일하게 나오게 할 수 있다. - accruracy_score : 알다시피 정확도이다! X_train, X_test, y_train, y_test = train_test_split(X, y,.. 2024. 4. 14. (2)로지스틱 회귀분석(Logistic regression)이 가지고 있는 이야기: MLE(Maximum Likelihood Estimation)& GLM & 손실함수 이번 글에서는... 로지스틱 모형에서 회귀계수를 구하는 방법 GLM과 링크함수 최대우도법 로지스틱 회귀모형의 손실함수 왜 최대우도추정법(MLE)로 회귀 계수를 구하는 걸까? 선형 회귀분석은 최소제곱법을 통해 해를 추정해 내지만, 로지스틱은 최대우도법을 통해 회귀 계수를 구한다. 어차피 해가 무한대인 식을 시그모이드 함수에 넣어 0~1 범위로 값을 변환하는데 왜 선형 회귀분석과 다르게 MLE(Maximum Likelihood Estimation, 최대 우도추정)을 사용해서 추정하는걸까? 앞선 글에서 로지스틱 회귀분석의 Y 값은 1에 해당할 확률을 의미한다고 적었는데, 이는 응답이 1인 로그 오즈비의 추정치를 말한다! 이렇게 한번 보면 어떨까? 일반 선형 회귀방정식: 결과값(y)을 관찰함 로지스틱 회귀모형:.. 2024. 4. 13. (1)로지스틱 회귀분석(Logistic regression)이 가지고 있는 이야기: Binary classification, 오즈비와 로짓변환(odds ratio and logit function) (참고: 나 문과임) (이번글의 키워드: 오즈비, 확률, 일반회귀방정식!) 로지스틱 회귀분석이 풀고자 하는 문제 : 결과값 P를 통한 이진분류 Binary Classification 로지스틱 회귀식의 결과값은 확률 P이다. 확률의 범위는 0과 1사이에 해당한다! 그렇다면 확률을 바탕으로 풀 수 있는 문제는 어떤게 있을까? 주로 이진 분류 문제를 해결할 수 있는 것이다! (Binary Classification) 로지스틱 회귀모형의 예측 y에 대해 범위의 그래프는 좌측 그래프와 같다. 보면 시그모이드 함수와 거의 유사해보이지 않는가? 기본적인 시그모이드 형태의 x값에 회귀방정식이 들어가기 때문에 모양도 똑같다. 일반 회귀분석에서는 예측값 yhat의 범위는 사실상 무한대 이다. 우리가 풀고 싶은 문제는 분류.. 2024. 2. 28. 이전 1 다음