Grundlæggende om data rengøring af Shawn Deny

data rengøring eller udrensning er thecorrection af data, der ikke er i overensstemmelse med den indstillede format af databasen orrecord sæt, som også er kendt som snavs eller grove data. Dette kan gøres byeither slette forkerte data (eller en streng rengøring), eller ændring incorrectentries der matcher korrekte indgange (eller en fuzzy rengøring). Denne måde, er thehomogeneity af poster i databasen vedligeholdes og fejl lavet whileprocessing dataene minimeres. Data rengøring er forskellig fra datavalidation, som også er en metode (som regel) at afvise forkerte indtastninger, men for det meste sker på tidspunktet for indtastning af data. Rengøring udføres på entriesin en eksisterende database.

Rengøring sker typisk byremoving trykfejl eller validering mod korrekte registreringer. Forexample, kan et telefonnummer ikke indeholde bogstaver, og hvis en post ved acustomer på en online-formular ikke indeholder områdenummeret, så koden kan beadded hvis placeringen af ​​kunden er kendt. Tilsvarende relevante optegnelser måske vedhæftede sammen, såsom telefonnumre og adresser, eller universitets rollnumbers med afdelingens navne og årgange.

grove data i et company'sdatabase, såsom forkert e-mail adresser eller telefonnumre, kan vise sig at bedetrimental til virksomhedens resultater, da det kan resultere i incorrectlyplaced ordrer, sende e-mails til de forkerte mennesker, manglende evne til at kontakte acustomer, og flere opgørelse problemer såsom bestilling af forkerte quantityfrom fabrikken eller miscalculating medarbejdernes lønsedler. Tilsvarende i nationalcitizenship databaser, kan forkerte data resultere i unøjagtige undersøgelser, whichwill fører til mangelfulde økonomiske politik med hensyn til sundhedspleje, uddannelse andinfrastructure .

Mens udrensning af data, der thefollowing parametre granskes: .

· gyldighed, hvilket er i hvilken grad de datafollows reglerne i databasen, såsom længde, data-typen, og expressionpatterns

· Fuldstændighed og nøjagtighed. Nøjagtige data skal Beas tæt på den "sande" værdi. Mens 100% nøjagtige vanskeligt at opnå, canbe det gjort af krydshenvisninger, såsom at bruge stregkoder og produkt namestogether at tjekke prisen .

· Sammenhæng og ensartethed, som tjekker, om thesame data er repræsenteret på samme måde på tværs af forskellige databaser. Forexample, hvis vægtenhed er indstillet som kilo, så det bør ikke være pounds inanother forbundne database.

Selvfølgelig er der severalproblems med at forsøge at rette alle data, den mest almindelige isthe fjernelse af data og tab af information. For eksempel i et forsøg på at fitaddresses i et sæt format, alle oplysninger, som ville have vist sig at være morehelpful udskæres, hvilket resulterer i en vanskelig-til-lokalisere kunden. God kvalitet af data rengøring software, som den fromDataTools, skal tage hensyn til, at vigtige detaljer i dataene notremoved af hensyn til hurtig og effektiv behandling .