• gisplay.pl

Dane pod kontrolą. Jak poradzić sobie z nieprawidłowymi danymi?

Pod koniec września firma Globema zorganizowała webinarium, w którym specjaliści FME oraz zajmujący się przetwarzaniem danych, omawiali szerzej temat błędów danych, ich źródeł i sposobów na zadbanie o dobrą jakość danych zanim zaczniemy pracę nad projektem.

Tych, którzy chcieliby dowiedzieć się więcej na ten temat, a nie mieli okazji uczestniczyć w webinarium „Dane pod kontrolą. Jak poradzić sobie z nieprawidłowymi danymi” zapraszamy do obejrzenia nagrania z wydarzenia dostęnego na w serwisie YouTube.


Błędne i niespójne dane utrudniają pracę – sprawiają, że jest żmudna i nieefektywna, a otrzymane rezultaty pozostawiają wiele do życzenia. Niestety w wielu przedsiębiorstwach to codzienność! Co zrobić, żeby praca z danymi szła sprawniej?

Warto przyjrzeć się bliżej tym błędom – zarówno w danych przestrzennych, jak i nieprzestrzennych, a także poznać sposoby na ich sprawne wyeliminowanie, jeszcze zanim wykorzystamy jakiś zbiór.

Błędy w danych – skąd się biorą?

Jakie więc są najczęstsze przyczyny błędów w danych – zarówno tych przestrzennych, jak i nieprzestrzennych? Zazwyczaj błędy wynikają z faktu, że:

  1. Dane są nieaktualne lub przestarzałe;
  2. Dane są zapisane według różnych modeli;
  3. Brakuje dobrego punktu odniesienia, żeby upewnić się, które dane są dobrej jakości;
  4. Nie weryfikujemy zewnętrznych źródeł danych i zakładamy, że są wiarygodne (mimo, że nie ma takiej gwarancji);
  5. Korzystamy z danych ze zbyt wielu źródeł;
  6. Dane są zduplikowane;
  7. Dane zawierają błędy spowodowane pomyłkami osób, które je wprowadzały.

Najczęściej spotykane błędy danych przestrzennych i nieprzestrzennych

Błędy, które napotykamy najczęściej – zarówno w przypadku danych przestrzennych, jak i nieprzestrzennych to te, odnoszące się do atrybutów. Możemy do nich zaliczyć między innymi: błędne wartości, literówki, brak polskich znaków diakrytycznych, różne zapisy wartości danego atrybutu (np. ulica jako: ul., ul, ulica).

Inne często spotykane błędy to:

  • brak zgodności z przyjętym modelem lub schematem danych,
  • zduplikowane rekordy w bazie lub obiekty, które mogą pojawiać się na skutek integracji kilku źródeł,
  • brak lub błędne odniesienie do zewnętrznych zbiorów lub wartości słownikowych.

Dane przestrzenne mogą być obarczone dodatkowymi, specyficznymi dla swojej kategorii błędami. Możemy tu mówić o: błędach geometrycznych i topologicznych dla danych wektorowych, błędach klasyfikacji dla danych fotogrametrycznych oraz błędach generalizacji.

Walidacja – sposób na poradzenie sobie z błędami danych

Aby nie być jak przysłowiowy Polak mądry po szkodzie, uniknąć problemów wynikających z pracą z błędnymi danymi i ułatwić sobie pracę, warto odpowiednio dużo uwagi poświęcić walidacji danych i zawczasu zadbać o ich jakość.

Etapy walidacji danych

Walidacja danych to ustandaryzowany, ale dość skomplikowany i wieloetapowy proces, dlatego warto wykorzystać narzędzia, które go zautomatyzują, a dzięki temu też przyspieszą.

Podczas procesu walidacji dane są sprawdzane i parsowane, usuwane są duplikaty, brakujące rekordy są uzupełniane lub eliminowane, dalej dane są ujednolicane. Na koniec wykrywane są konflikty w zbiorze danych i usuwane te rekordy, które wzajemnie się wykluczają.

Dobre dane, czyli jakie?

Walidacja jest krokiem ku temu, aby dane, na których opieramy swoje analizy, a potem decyzje były dobrej jakości, tzn., żeby były wiarygodne, aktualne, spójne, istotne, dokładne oraz kompletne.

Dlaczego warto zadbać o jakość danych?

Jeśli wykorzystamy do analizy dane złej jakości: niekompletne, przestarzałe, w nieodpowiednim formacie, niewiarygodne, itp. – takie same będą efekty naszej pracy. Właśnie dlatego tak ważne jest zadbanie o jakość danych przed przystąpieniem do dalszych działań. Wszystko po to, aby:

  • wykorzystywane i udostępniane dalej dane i informacje były prawidłowe i rzetelne;
  • wykonywane projekty i analizy były prawidłowe i użyteczne;
  • móc na podstawie tych analiz podejmować trafne decyzje biznesowe;
  • zwiększyć efektywność procesów;
  • zmniejszyć koszty i zwiększyć zyski;
  • zdobywać nowych klientów (i nie stracić dotychczasowych).

 

Nasze patronaty

XXIII Ogólnopolskie Sympozjum Fotogrametryczno-Teledetekcyjne
18-20 września 2024
INTERGEO 2023
10-12 października 2023
VIII Forum BioGIS
29-30.11.2023
GIS Day w Stolicy
23 listopada 2023

Quizy mapowe

Gdzie leży ten kraj?
Puzzle z mapą świata
Jaki to kraj?
Quiz WORLDLE - Jaki to kraj?
Wersja dla zaawansowanych
Geoquiz historyczny
EOGuesser