반응형
데이터 칼럼이 큰데, 단순히 df.isna().sum()으로 확인하는 것은 너무 복잡할 뿐이다. 게다가 칼럼별 결측치 뿐만 아니라, 행으로도 봐야 하지않겠는가?
이럴 때 missingno가 유용하다!!
import matplotlib.pyplot as plt
import missingno as msno
msno.matrix(df_train)
plt.show()
실행결과는 아래와 같다.
ㅠㅠ 너무 간편하고 좋다!! 물론 당연히 칼럼별로도 할 수 있다!
msno.bar(df_train)
plt.show()
heatmap 함수와 dendrogram함수를 사용하면 결측간의 상관관계를 의미하는 nullity correlation을 확인할 수 있다.
msno.heatmap(collisions)
msno.dendrogram(collisions)
nullity correlation 결과는 아래와 같이 해석하면 된다!
- 양의 상관관계: 하나의 변수에서 값이 누락될 때 다른 변수에서도 값이 누락될 가능성이 높다는 것
- 음의 상관관계: 하나의 변수에서 값이 누락될 때 다른 변수에서는 값이 누락될 가능성이 낮다는 것
- 0에 가까움: 두 변수 간에 결측값의 유무가 서로 독립적이라는 것
아래 이미지에서 보면 1도 있고, <1도 있는데, 1은 perfectly correlated 되었다고 보면 되고, <1은 perfectly에 완전 가깝다고 보면 된다!
public github은 아래 링크를 방문해보시길!
반응형
'🧠 공부' 카테고리의 다른 글
[ADP] 제32회 데이터분석 전문가(ADP)-20240224 필기 후기 or 반성!!! (붙었는진 모름) (1) | 2024.02.26 |
---|
댓글