기술스택을 쌓아보자/데이터 엔지니어링
데이터 품질의 비밀 - 데이터 품질에 주목해야 하는 이유 ch1
소리331
2023. 5. 3. 11:04
반응형
데이터 다운타임: data downtime
- 데이터가 수집되지 않아 누락되거나 부정확하게 측정되는 등의 데이터 손실로 인해 소프트웨어 또는 서비스의 가동이 중지되는 상황을 의미한다.
- 신뢰할 수 없는 데이터가 너무 많을 때 일어난다.
- 자체만으로 기업의 수익성이 크게 나빠지는 것은 아니다.
- 데이터 조직이 데이터 품질문제를 처리하기 위해 전체 업무 시간의 40% 이상을 소모한다고 한다.
데이터 다운타임의 근본적인 원인?
- Db 스키마 변경으로 인한 데이터 파이프라인 중단
- 주요 행 또는 열 중복 현상
- 대시보드 내 오류값 발생 등등…
프로덕션 데이터
- 소스시스템의 데이터
다운타임: 가동중지, 업타임: 정상 수행시간
- 다운타임은 소프트웨어 엔지니어링, 개발 및 운영과 모두 관련있어서 보통 업타임을 기준으로 성능을 측정한다
- 데이터 품질도 동일한 기준이 적용되는가?
데이터 품질이란?
- 데이터 품질은 데이터가 비즈니스 요구사항을 충족하고 있는지 확인할 수 있는 강력한 도구이다.
- 데이터 품질 관리는 저평가되곤 한다. 그럴싸해보이지는 않기 때문이다.
- 굉장히 공감. 데이터를 구매하고 검토하고 다시 정제하는 일은 상당한 3d이다
데이터 품질의 현재
- 데이터 사일로: 부서, 솔루션, 사업별로 데이터가 고립되어 전사 관점의 의사결정을 막는 현상
- 제품팀에 있는 데이터가 생각났다
- 데이터 옵스를 통해 사일로를 줄이고 속도를 높이고 오류를 감소시킨다.
데이터 다운타임 증가
- 클라우드 마이그레이션
- 더 많은 데이터 소스들
- 데이터 파이프라인 복잡성 증가 - 데이터 종속성
- airflow extrnal task
- 데이터 조직의 전문성 강화( 데이터 거버넌스 리더, 데이터 스튜어드, 운영분석가 )
- 분산된 데이터 조직
데이터 산업 동향
- 데이터 메시:
- 삼전 기기
- 스트리밍데이터
- 데이터 레이크 하우스의 등장
반응형