Dane pod kontrolą. Jak poradzić sobie z nieprawidłowymi danymi?
Pod koniec września firma Globema zorganizowała webinarium, w którym specjaliści FME oraz zajmujący się przetwarzaniem danych, omawiali szerzej temat błędów danych, ich źródeł i sposobów na zadbanie o dobrą jakość danych zanim zaczniemy pracę nad projektem.
Tych, którzy chcieliby dowiedzieć się więcej na ten temat, a nie mieli okazji uczestniczyć w webinarium „Dane pod kontrolą. Jak poradzić sobie z nieprawidłowymi danymi” zapraszamy do obejrzenia nagrania z wydarzenia dostęnego na w serwisie YouTube.
Błędne i niespójne dane utrudniają pracę – sprawiają, że jest żmudna i nieefektywna, a otrzymane rezultaty pozostawiają wiele do życzenia. Niestety w wielu przedsiębiorstwach to codzienność! Co zrobić, żeby praca z danymi szła sprawniej?
Warto przyjrzeć się bliżej tym błędom – zarówno w danych przestrzennych, jak i nieprzestrzennych, a także poznać sposoby na ich sprawne wyeliminowanie, jeszcze zanim wykorzystamy jakiś zbiór.
Błędy w danych – skąd się biorą?
Jakie więc są najczęstsze przyczyny błędów w danych – zarówno tych przestrzennych, jak i nieprzestrzennych? Zazwyczaj błędy wynikają z faktu, że:
- Dane są nieaktualne lub przestarzałe;
- Dane są zapisane według różnych modeli;
- Brakuje dobrego punktu odniesienia, żeby upewnić się, które dane są dobrej jakości;
- Nie weryfikujemy zewnętrznych źródeł danych i zakładamy, że są wiarygodne (mimo, że nie ma takiej gwarancji);
- Korzystamy z danych ze zbyt wielu źródeł;
- Dane są zduplikowane;
- Dane zawierają błędy spowodowane pomyłkami osób, które je wprowadzały.
Najczęściej spotykane błędy danych przestrzennych i nieprzestrzennych
Błędy, które napotykamy najczęściej – zarówno w przypadku danych przestrzennych, jak i nieprzestrzennych to te, odnoszące się do atrybutów. Możemy do nich zaliczyć między innymi: błędne wartości, literówki, brak polskich znaków diakrytycznych, różne zapisy wartości danego atrybutu (np. ulica jako: ul., ul, ulica).
Inne często spotykane błędy to:
- brak zgodności z przyjętym modelem lub schematem danych,
- zduplikowane rekordy w bazie lub obiekty, które mogą pojawiać się na skutek integracji kilku źródeł,
- brak lub błędne odniesienie do zewnętrznych zbiorów lub wartości słownikowych.
Dane przestrzenne mogą być obarczone dodatkowymi, specyficznymi dla swojej kategorii błędami. Możemy tu mówić o: błędach geometrycznych i topologicznych dla danych wektorowych, błędach klasyfikacji dla danych fotogrametrycznych oraz błędach generalizacji.
Walidacja – sposób na poradzenie sobie z błędami danych
Aby nie być jak przysłowiowy Polak mądry po szkodzie, uniknąć problemów wynikających z pracą z błędnymi danymi i ułatwić sobie pracę, warto odpowiednio dużo uwagi poświęcić walidacji danych i zawczasu zadbać o ich jakość.
Etapy walidacji danych
Walidacja danych to ustandaryzowany, ale dość skomplikowany i wieloetapowy proces, dlatego warto wykorzystać narzędzia, które go zautomatyzują, a dzięki temu też przyspieszą.
Podczas procesu walidacji dane są sprawdzane i parsowane, usuwane są duplikaty, brakujące rekordy są uzupełniane lub eliminowane, dalej dane są ujednolicane. Na koniec wykrywane są konflikty w zbiorze danych i usuwane te rekordy, które wzajemnie się wykluczają.
Dobre dane, czyli jakie?
Walidacja jest krokiem ku temu, aby dane, na których opieramy swoje analizy, a potem decyzje były dobrej jakości, tzn., żeby były wiarygodne, aktualne, spójne, istotne, dokładne oraz kompletne.
Dlaczego warto zadbać o jakość danych?
Jeśli wykorzystamy do analizy dane złej jakości: niekompletne, przestarzałe, w nieodpowiednim formacie, niewiarygodne, itp. – takie same będą efekty naszej pracy. Właśnie dlatego tak ważne jest zadbanie o jakość danych przed przystąpieniem do dalszych działań. Wszystko po to, aby:
- wykorzystywane i udostępniane dalej dane i informacje były prawidłowe i rzetelne;
- wykonywane projekty i analizy były prawidłowe i użyteczne;
- móc na podstawie tych analiz podejmować trafne decyzje biznesowe;
- zwiększyć efektywność procesów;
- zmniejszyć koszty i zwiększyć zyski;
- zdobywać nowych klientów (i nie stracić dotychczasowych).