Para comenzar todo proceso de Business Intelligence y cuando ya se tiene los insumos necesarios para iniciar (datos), uno de los pasos con mayor demanda de tiempo es la limpieza de los mismo; Como así te estarás preguntando.
Muy bien déjame y te explico a continuacion:

Los datos por su propia naturaleza, en su gran mayoría son realizados por nosotros (ser humano) cosa tal que afecta la calidad del mismo teniendo dificultades al momento de la automatización o de un análisis posterior, es por esto que este punto es sumamente importante y se requiere obtener cada uno de estas medidas por cada columna:
- Media
- Mediana
- Maximo Valor
- Minimo Valor
- Desviacion estandar
Esto nos ayuda por ejemplo si tenemos una base de datos del personal que labora en nuestra empresa, y tenemos varias columnas (atributos) que hacen referencia a la persona, tales como: Cedula, Nombre, Apellido, Fecha de nacimiento, Direccion, Telefono, Area en la que labora, Salario.
En donde sabemos por el entendimiento humano y del negocio que que los siguientes campos deben tener las siguientes restricciones:
- “Cédula” : No puede ser nulo (vacío).
- “Fecha de Nacimiento”: si es una persona que esta Actualmente Trabajando (esta viva la persona), la diferencia entre esta fecha y el día actual no debería ser mayor a la máxima fecha de vida de la región ejemplo (No mayor a 70 años).
- “Dirección”: Si este campo no esta vació, se puede validar que este valor tenga una localización exacta.
- “Área”: los nombres de las áreas deben estar Homologados por ejemplo que no se escriba con acentos, espacios, mayúsculas, si no por el contrario no sea una campo de escritura si no una lista desplegable en el momento cuando se tome la información.
En caso tal que se detecte estos datos atípos es necesario imputarlos o eliminarlos, donde la imputación significa o retomar otra vez este dato y promediarlo con media (mas adelante veremos mas formas) o como medida rápida se puede eliminar todo el registro (siempre y cuando este no afecte a los análisis que se quieran profundizar y dependerá mucho del proyecto.