Skip to content

Instantly share code, notes, and snippets.

@apoikola
Created April 10, 2011 19:41
Show Gist options
  • Star 0 You must be signed in to star a gist
  • Fork 0 You must be signed in to fork a gist
  • Save apoikola/912647 to your computer and use it in GitHub Desktop.
Save apoikola/912647 to your computer and use it in GitHub Desktop.
Julkinen data -oppaan www.julkinendata.fi luku 2.2. uudelleenkirjoitettuna

##2.2 Datan hyödynnettävyyden mittareita##

Keskustelunavausten, raporttien ja hankkeiden myötä avoimuudesta on nopeasti tullut keskeinen sana hallinnon sanastoon myös kun puhutaan tietojärjestelmistä ja tietovarannoista. Avoimuuskeskustelussa puhutaan samaan aikaan avoimesta lisensoinnista, teknisistä rajapinnoista, formaateista, metadatasta, tiedon harmonisoinnista, hallinnon läpinäkyvyydestä, ihmisten osallistumismahdollisuuksista, julkisuusperiaatteesta, uudelleenkäytettävyydestä ja koneluettavuudesta. Ei ole aivan poikkeuksellista, että eri osapuolet tarkoittavat eri asioita. Aiheen laajuuden ja nopean kehityksen vuoksi väärinymmärrykset ja liika yleistäminen ovat yleisiä. Mitä oikeastaan tarkoitetaan avoimella julkishallinnon datalla?

Aineiston avoimuutta ja julkisuutta ei pidä sekoittaa keskenään. Avoimella datalla tarkoitetaan aineistoja, jotka ovat kenen tahansa uudelleen käytettävissä ilman teknisiä, juridisia tai taloudellisia esteitä. Lainsäädännön mukaan julkisella datalla tarkoitetaan puolestaan sellaisia aineistoja, jotka eivät kuulu yksityisyydensuojan piiriin – kuten henkilörekisterit – tai ole muusta syystä laissa arkaluontoisiksi tulkittavia, kuten kansalliseen turvallisuuteen liittyvät aineistot. Luonnollisesti aineisto, joka ei ole julkista ei voi myöskään olla avointa. Toisin päin voisi olla, mutta siihenkin on vielä pitkä matka.

Datan teknisesti helppo hyödynnettävyys ei myöskään automaattisesti tarkoita, että se olisi avointa. Erityisesti puhuttaessa "avoimista rajapinnoista" kannattaa kiinnittää huomiota siihen, että teknisesti helposti saatavilla olevaan dataan saattaa hyvinkin kohdistua uudelleenkäyttöä tai uudelleenjakelua rajoittavia käeyttöehtoja. Vastaavasti voi olla tapauksia, joissa täysin avoin data ei ole erityisen helposti hyödynnettävissä esimerkiksi hankalan tiedostomuodon, huonon löydettävyyden tai vajavaisen dokumentaation takia.

Kokonaisuudessaan data-aineiston hyödynnettävyyttä voidaan arvioida seuraavien kriteerien mukaisesti: löydettävyys (2.2.1), kokonaisuus (2.2.2), käyttöehtojen tasa-arvoisuus (2.2.3), alkuperäisyys ja ajantasaisuus (2.2.4), laillinen ja vapaa uudelleenkäytettävyys (2.2.5), maksuttomuus (2.2.6), koneluettavuus (2.2.7), formaatin avoimuus (2.2.8) ja ymmärrettävyys (2.2.9). Kaikkien aineistojen kohdalla ei ole kustannustehokasta pyrkiä kaikkien mittareiden mukaan täydelliseen hyödynnettävyyteen. Monesti aineiston uudelleenkäytettävyyttä voidaan kuitenkin merkittävästi parantaa tekemällä ratkaisuja, jotka vaikuttavat jollakin edellämainituista mittareista (esimerkiksi muuttamalla lisensointiehtoja sallivammiksi tai tarjoamalla aineistot täysin veloituksetta).

###2.2.1 Löydettävyys###

Helposti hyödynnettävä: Aineiston olemassaolo ja sijainti on yleisesti tunnettu. Aineisto ja sen uudelleenkäytön sallivat lisensointiehdot ovat helposti löydettävissä internetistä sekä ihmisille että hakuroboteille.

Vaikeasti hyödynnettävä: Aineisto on vain viraston operatiivisessa järjestelmässä, eikä sen olemassaolosta ole ulkopuolisilla lainkaan tietoa.

Google Maps -rajapinta tai Wikipedian sisältö ovat esimerkkejä aineistoista, joiden olemassaolo ja laillinen käytettävyys on yleisesti tiedossa. Aineiston löydettävyyttä voidaan parantaa lisäämällä se hyvin ylläpidettyyn datakatalogiin, optimoimalla datavarantojen kuvailutiedot hakukoneita varten ja julkaisemalla data linkitetyn datan paradigman mukaisesti. Yleistä tunnettuutta voidaan vahvistaa tiedottamalla potentiaalisille uudelleenkäyttäjille datavarannon olemassaolosta niin verkossa, julkaisuissa, kuin erilaisten tapahtumienkin yhteydessä. (ks. luku 6: Avoimen datan infrastruktuuri)

###2.2.2 Kokonaisuus###

Helposti hyödynnettävä: Data on kokonaisuudessaan vapaasti ladattavissa internetistä. Saavutettavuutta ja datan käyttömahdollisuuksia ei rajoiteta epäsuorasti, tarjoamalla pääsy vain osaan tietokannasta kerrallaan.

Vaikeasti hyödynnettävä: Aineistosta on saatavilla avoimesti vain osa ja koko aineiston saaminen edellyttää erillistä sopimusta.

Tyypillinen tapaus, jossa aineiston kokonaisuutta rajoitetaan tarkoituksella tai tahattomasti on sellainen, jossa aineisto tarjotaan vain kyselyrajapinnan kautta, eikä aineistoa ole mahdollista ladata kokonaan. Mikäli aineisto on saatavilla kokonaisuudessaan tarkoittaa se, että kenen tahansa on teknisesti mahdollista myös ryhtyä jakamaan dataa itseään ja muita varten. Kokonaisuuden rajoittaminen voi olla keino estää rinnakkaisten kopioiden syntyminen aineistosta. Toisaalta kokonaisuuden rajoittaminen estää datan kattavaan analyysiin perustuvan käytön ja aiheuttaa kyselyrajapinnan kuormitusta, joka voitaisiin välttää tarjoamalla oma kopio. (ks. luku 5: Tekninen valmistautuminen)

###2.2.3 Käyttöehtojen tasa-arvoisuus###

Helposti hyödynnettävä: Aineisto on saatavilla kaikille ja kaikkiin laillisiin käyttötarkoituksiin yhtä helposti. Datan luovutuksessa ei aseteta käyttäjiä eikä käyttötarkoituksia eriarvoiseen asemaan, vaan muut hallinnon toimijat, kansalaiset, yritykset ja myös ulkomaalaiset toimijat ovat tasa-arvoisia.

Vaikeasti hyödynnettävä: Aineiston tarjoamista on rajoitettu käyttäjän tai käyttötarkoituksen mukaan, esimerkiksi vain tutkimus ja tuotekehityskäyttöön tai ainoastaan epäkaupalliseen käyttöön tai ainoastaan suomalaisille.

Käytännössä tasa-arvoisuus toteutuu, mikäli aineisto on saatavissa verkosta ilman rekisteröintivaatimuksia, jolloin kuka tahansa voi ottaa sen käyttöönsä standardinmukaisilla lisenssiehdoilla. Lisenssi ei estä ketään käyttämästä dataa jollakin määrätyllä käyttöalueella. Erityisesti myös kaupallinen käyttö on sallittua, sillä kaupallisten toimijoiden toivotaan liittyvän avoimen datan ekosysteemiin. Tasa-arvoisuus tarkoittaa ennakoivasta kontrollista luopumista. Dataa saa käyttää myös taitamattomasti ja poliittisiin tarkoituksiin. (ks. luku 3: Lupa julkaista ja käyttää)

###2.2.4 Alkuperäisyys ja ajantasaisuus###

Helposti hyödynnettävä: Aineisto on tarjolla alkuperäisessä muodossaan ja alkuperäisellä tarkkuusasteella silloin, kun se ei uhkaa yksilöiden tietosuojaa. Aineisto julkaistaan lähimpänä sen syntypaikkaa (alkuperäisen tuottajan toimesta) ajantasaisesti suhteutettuna aineiston sisällön muuttumisnopeuteen.

Vaikeasti hyödynnettävä: Aineisto julkaistaan viivästetysti, alkuperäistä pienemmällä tarkkuudella tai ainoastaan yhdistetyssä muodossa muiden aineistojen kanssa.

Raakadatan lisäksi myös yhdistettyjä ja jalostettuja muotoja datasta voidaan asettaa vapaasti saataville. Joissain tapauksissa yleistämällä ja laskemalla tarkkuustasoa voidaan muutoin yksityisyydensuojan kannalta arkaluontoinen aineisto saattaa julkiseksi. Anonymisointi ja yleistäminen täytyy tehdä kuitenkin erityisellä huolella. (ks. luku 5: Tekninen valmistautuminen)

###2.2.5 Laillinen ja vapaa uudelleenkäytettävyys###

Helposti hyödynnettävä: On olemassa standardikäyttöehdot, joiden puitteissa aineisto on vapaasti uudelleenkäytettävissä kaikille riippumatta käyttäjästä tai käyttötarkoituksesta. Mahdollisia yksityisyydensuojaan, turvallisuuteen liittyviä rajoituksia lukuunottamatta datan käytölle ei ole asetettu muita juridisia rajoituksia. Lisensointiehdot on esitetty selvästi ja läpinäkyvästi siten, että ne kannustavat uudelleenkäyttöön. Aineistoon mahdollisesti kohdistuvista tekijänoikeuksista on luovuttu (Waiver of Rights) ja se kerrottu suoraan aineiston uudelleenkäyttöön kannustavissa käyttöehdoissa.

Vaikeasti hyödynnettävä: Aineisto on lisensoitu uudelleenkäyttöä rajoittavalla lisenssillä, siihen kohdistuu tekijänoikeuksia, tai sen uudelleenkäytön sallimista ei ole suoraan esitetty missään.

Salliva lisensointi voidaan toteuttaa esimerkiksi Creative Commons, Open Database -lisenssillä tai vastaavalla. Aineistoon mahdollisesti kohdistuvista tekijänoikeuksista tulisi avoimen julkisen datan osalta luopua, esimerkiksi Creative Commons nolla -lisenssillä, jolloin vältytään epäselvyyksiltä koko jatkojalostusketjussa. Yleisin haastatteluissa esiin noussut toive käyttöehtoihin liittyen on halu tietää ketkä aineistoa käyttävät ja mihin. Hyvin usein ei ollut mitään varsinaisia tarpeita rajoittaa käyttötarkoituksia, mutta ne haluttiin kuitenkin tietää oman toiminnan kehittämisen näkökulmasta. Aineistojen käytön seurantaa voidaan tehdä myös ilman allekirjoitettavia sopimuksia ja rajoittavia käyttöehtoja, esimerkiksi verkossa tapahtuvan käyttäjärekisteröinnin avulla. (ks. luku 3: Lupa julkaista ja käyttää)

###2.2.6 Maksuttomuus###

Helposti hyödynnettävä: Data on saatavissa täysin maksutta.

Vaikeasti hyödynnettävä: Dataa tarjotaan maksuperustaisesti ja myynnistä saaduilla tuotoilla katetaan dataa tuottavan organisaation muita toimintakuluja.

Enintään irtiottokustannuksilla tarjottavaa aineistoa voidaan pitää avoimena. Hyvin usein kuitenkin aineiston ylläpidon ja tuotannon kustannukset ovat moninkertaiset suhteutettuna irtiottokuluina perittäviin maksuihin. Pienikin maksu rajoittaa aineiston käyttöä merkittävästi siihen liittyvän vaivalloisuuden ja sopimusten takia. Voi olla, että suurin osa irtiottokustannuksista muodostuu itseasiassa sen laskuttamiseen liittyvästä byrokratiasta, jolloin irtiottokostannuksien perimistä ei voida pitää perusteltuna. Mikäli erityisestä syystä peritään maksuja, tulisi maksu olla mahdollista suorittaa internetissä ja saada aineisto käyttöön välittömästi ilman viranomaisen työtä. (ks. luku 5: Avoimen datan ta- loudesta)

###2.2.7 Koneluettavuus###

Helposti hyödynnettävä: Datavarannolla on pysyvä sijainti internetissä ja sitä pääsee lukemaan automatisoidusti ja ohjelmallisesti. Data on riittävissä määrin strukturoitu automaattisen prosessoinnin mahdollistamiseksi. Myöskin lisensointiehdot ovat koneluettavia, ne voidaan hyväksyä verkossa ja aineisto saadaan käyttöön ilman viranomaisen työtä.

Vaikeasti hyödynnettävä: Data julkaistaan täysin epärakenteellisessa muodossa siten, että sen tulkinta on mahdollista vain ihmislukijalle, esim. pdf-dokumentit tai html-sivut.

Peukalosääntönä koneluettavuudelle voidaan pitää sitä, että etevä ohjelmoija kykenee verrattain lyhyessä ajassa tekemään ohjelman, joka automaattisesti hakee datan internetistä, lukee sen ohjelman muistiin ja tulostaa uudelleen muokattuna vaikkapa iPhonen näytölle. Mikäli aineisto ei missään vaiheessa ole koneluettavassa muodossa, on sen saattaminen sellaiseksi varsin työlästä. Usein kuitenkin esimerkiksi organisaation verkkosivuilla tarjotaan aineistoja ei-koneluettavasti HTML-muodossa, mutta samat aineistot ovat jossain toisessa järjestelmässä myös koneluettavassa muodossa, jolloin niiden julkaiseminen on jo paljon helpompaa. (ks. luku 5: Tekninen valmistautuminen)

###2.2.8 Formaatin avoimuus###

Helposti hyödynnettävä: Aineisto on saatavilla käyttökelpoisessa ja muokattavassa formaatissa, jonka määrittely ja kehitys eivät ole minkään yksittäisen yrityksen tai vastaavan hallussa.

Vaikeasti hyödynnettävä: Data on tarjolla ainoastaan formaatissa, joka on jonkin yrityksen hallinnoima ja jonka hyödyntämiseksi on pakko käyttää saman yrityksen ohjelmistoja.

Tämä voidaan saavuttaa tarjoamalla aineisto avoimessa formaatissa, esimerkiksi sellaisessa, jonka määrittely on julkisesti ja vapaasti saatavilla ja joka ei aseta rahallisia tai muita rajoitteita formaatin käytölle. Samaa dataa kannattaa mahdollisuuksien mukaan tarjota useammissakin formaateissa. Aina avoimen formaatin käyttöön ei ole realistisia mahdollisuuksia. Esimerkiksi jotkut paikkatieto-järjestelmät käyttävät valmistajakohtaisia formaatteja, jolloin avoimiin formaatteihin voidaan siirtyä vain järjestelmäuudistuksen yhteydessä. (ks. luku 5: Tekninen valmistautuminen)

###2.2.9 Ymmärrettävyys###

Helposti hyödynnettävä: Data on kuvailtu ja dokumentoitu kattavasti ja selkeästi.

Vaikeasti hyödynnettävä: Aineisto on tarjottu formaatissa, jonka käyttöä tai sisältöä ei ole kuvailtu uudelleenkäytön edellyttämällä tavalla.

Aineiston ymmärrettävyyttä ja sitä kautta uudelleenkäytettävyyttä voidaan merkittävästi parantaa metadatan, dokumentaation, käyttöesimerkkien ja laatumääritelmien avulla. Hyvän dokumentaation ainoa haittapuoli on sen tekemisen työläys. Ohjeistaminen saattaa muodostua merkittäväksi aineistojen julkaisemisen hidasteeksi. Toisaalta dokumentaatio voi joskus olla hyvinkin kevyt ja sitä voi parantaa myöhemmin. Esimerkiksi sarkainerotellussa tiedostossa riittää, että sarakeotsikot ovat tiedostossa mukana. (ks. luku 5: Tekninen valmistautuminen)

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment