Paikkatiedon laatu ei kiinnosta

On kiehtova ajatus, että jokainen sana voi olla uusi sana, mikäli se laitetaan uuteen kontekstiin. Yleensä laadusta puhuttaessa ajatellaan jonkun asian tyyppiä, ominaisuutta tai erinomaisuuden tasoa. Kahvilaatuja on monia, mutta laatukahvi on mielipide, joka riippuu jokaisen mielenlaadun laatuvaatimuksista.

Paikkatiedon yhteydessä laadusta tulee ensimmäisenä mieleen aineiston virheettömyys tai yksityiskohtaisuus. Data on siis laadukasta, mikäli se on riittävän tarkkaa, eikä sisällä ongelmia.

Laatukirjallisuudessa (:D) paikkatiedon laatu usein määritellään datan käyttötarkoituksen mukaan. Paikkatieto on laadukasta, mikäli se sopii sen käyttäjälle. Fitness-for-use, sanovat monet. Tämä määritelmä kuulostaa pätevältä, erityisesti datan hyödyntäjän osalta.

Monet standardit ja tutkimukset lisäävät tuohon määritelmään vielä mittarin mittaamaan aineiston ja tosielämän välistä suhdetta. Sen mukaan aineiston laatu on korkeaa, mikäli aineisto on täydellisesti datan määrittelyjen (data model/schema) mukainen, ja datan määrittely puolestaan vastaa mallinnettavaa tosielämän kohdetta mahdollisimman hyvin (tai hyödyllisesti).



Yritys kuvata paikkatiedon laadun muodostumista nuolien ja pallojen avulla. (Kuva johdettu ISO 19157 -standardista.)


Okei, nyt on paikkatiedon laatu määritelty tiiviisti. Ei enää akateemista määrittelyjargoniaa tai kaaviokuvia, vaikka mieli tekisi avata laadun eri perspektiivejä. Pointti on, että paikkatiedon laatua ei juurikaan huomioida missään. Monet tiedontuottajatkaan eivät tarkasta aineistojaan kunnolla.

Tämä kävi selväksi, kun rakensin diplomityössäni laadunvarmistussovelluksen (tsekkaa tästä GitHub), joka tarkastaa automaattisesti 3D rakennusten laatua. FME-pohjaiseen sovellukseen mallinsin yli 40 erilaista sääntöä, jotka tsekkasivat pääasiassa rakennusten geometriaa. Sovellus huomauttaa, jos rakennuksissa on esimerkiksi päällekkäisyyksiä, väärinpäin olevia seiniä tai kattoja, sisäkkäisyyksiä, duplikaatteja tai muita puutteita.

Testailin sovellusta rakennusdatoilla useista eri maista, ja tulos oli kaikkialla sama. Geometriavirheitä ei juurikaan tarkasteta ennen aineistojen julkaisua. Kaikkien maiden rakennuksista löytyi ihmeellisiä piikkejä, päällekkäisiä tuplapisteitä, itseään leikkaavia elementtejä, epätasaisia seiniä ja ihan vain väärin mallinnettuja rakennuksia. Rakennuksien pitäisi olla vesitiiviitä kokonaisuuksia, eikä läjiä toisiinsa kiinnittymättömiä seiniä. Alla muutamia kuvakaappauksia virheistä, joita näkee paljaalla silmällä.



Miltä itseään leikkaava 3D rakennus näyttäisi oikeassa elämässä?

 
Tästä rakennuksesta puuttuu seiniä ja lattian koordinaattipisteet sijaitsee missä sattuu.

 
Tässä kuvassa 2D rakennus leikkaa itse itseään. Virhe olisi helppo korjata automaattisesti poistamalla ylimääräiset koordinaattipisteet, jolloin pinnasta tulee yhtenäinen.

Virheitä siis löytyi kaikista maista ja kaikista dataseteistä. Monista edes perusvirheitä ei oltu tsekattu. Suomen kunniaksi voin sanoa, että viiden maan vertailun perusteella laadukkaimmat 3D rakennukset löytyvät täältä. Maanmittauslaitoksen tuottamat 3D rakennukset ovat hyviä, mutta Helsingin kaupungin tuottamat vielä parempia.

Joskus vielä kirjoitan blogitekstin siitä, miksi laatu on tärkeää. Sitä odotellessa, tsekkaa diplomityöni tästä linkistä!













Kommentit

Tämän blogin suosituimmat tekstit

Miksi paikkatietoa on niin vaikea löytää?

Hackathonissa mentoroimassa

Mitä opin kymmenien opetusvideoiden teosta?