본문 바로가기
기술스택을 쌓아보자/데이터 엔지니어링

데이터 품질의 비밀 - 데이터 품질에 주목해야 하는 이유 ch1

by 소리331 2023. 5. 3.
반응형

데이터 다운타임: data downtime

  • 데이터가 수집되지 않아 누락되거나 부정확하게 측정되는 등의 데이터 손실로 인해 소프트웨어 또는 서비스의 가동이 중지되는 상황을 의미한다.
  • 신뢰할 수 없는 데이터가 너무 많을 때 일어난다.
  • 자체만으로 기업의 수익성이 크게 나빠지는 것은 아니다.
  • 데이터 조직이 데이터 품질문제를 처리하기 위해 전체 업무 시간의 40% 이상을 소모한다고 한다.

데이터 다운타임의 근본적인 원인?

  • Db 스키마 변경으로 인한 데이터 파이프라인 중단
  • 주요 행 또는 열 중복 현상
  • 대시보드 내 오류값 발생 등등…

프로덕션 데이터

  • 소스시스템의 데이터

다운타임: 가동중지, 업타임: 정상 수행시간

  • 다운타임은 소프트웨어 엔지니어링, 개발 및 운영과 모두 관련있어서 보통 업타임을 기준으로 성능을 측정한다
  • 데이터 품질도 동일한 기준이 적용되는가?

데이터 품질이란?

  • 데이터 품질은 데이터가 비즈니스 요구사항을 충족하고 있는지 확인할 수 있는 강력한 도구이다.
  • 데이터 품질 관리는 저평가되곤 한다. 그럴싸해보이지는 않기 때문이다.
    • 굉장히 공감. 데이터를 구매하고 검토하고 다시 정제하는 일은 상당한 3d이다

데이터 품질의 현재

  • 데이터 사일로: 부서, 솔루션, 사업별로 데이터가 고립되어 전사 관점의 의사결정을 막는 현상
    • 제품팀에 있는 데이터가 생각났다
  • 데이터 옵스를 통해 사일로를 줄이고 속도를 높이고 오류를 감소시킨다.

데이터 다운타임 증가

  • 클라우드 마이그레이션
  • 더 많은 데이터 소스들
  • 데이터 파이프라인 복잡성 증가 - 데이터 종속성
    • airflow extrnal task
  • 데이터 조직의 전문성 강화( 데이터 거버넌스 리더, 데이터 스튜어드, 운영분석가 )
  • 분산된 데이터 조직

데이터 산업 동향

  • 데이터 메시:
    • 삼전 기기
  • 스트리밍데이터
  • 데이터 레이크 하우스의 등장
반응형

댓글