반응형
이상점_아웃라이어_outlier
-
데이터 사이언스: 좋은 데이터란? 데이터 클리닝(Data clearing)공부하기!데이터 사이언스 2020. 8. 2. 01:31
데이터를 올바르고 효율적으로 사용하기 위해서는 좋은 데이터, 즉 퀄리티가 높은 데이터를 사용해야합니다. 그런데 좋은 데이터란 무엇일까요? 다음과 같은 조건을 만족한다면 좋은 데이터라고 할 수 있습니다. → 완결성 필수적으로 기입되어야 하는 데이터는 모두 입력되어야 합니다. 결측값이 있으면 안됩니다. → 유일성 동일한 데이터가 불필요하게 중복되어 있으면 안됩니다. 예를 들어, 우리가 어떤 사이트에 가입할때 이메일인증을 하죠? 만약 가입한 사이트라면 이미 등록되어 있는 이메일이라는 메시지가 나올겁니다. 그렇지 않다면 문제가 생길겁니다. → 통일성 모두 동일한 형식으로 저장되어 있어야 합니다. 만약 사람들의 키 데이터가 있을 때 어떤 사람은 m으로, 어떤 사람은 cm로 저장되어 있으면 나중에 문제가 발생하겠죠..