http://geoportaal.maaamet.ee
• Keskkonnateabe Infokeskus:
http://www.keskkonnainfo.ee
• Statistikaamet: http://pub.stat.ee/px-web.2001/dialog/statfile2.asp
Rahvusraamatukogu rahvusteavikute digitaalarhiiv DIGAR: http://digar.nlib.ee
• Rahvusarhiivi digiarhiiv
Näide päringust Riigikantselei dokumendiregistrisse
Üheks teeks avaandmete kättesaadavuse hõlbustamiseks ja avaandmete esituse korrastamiseks oleks praegu pilootrakendusena toimiv avaandmete varamu http://opendata.riik.ee.
Avaandmete varamu
Uuno Vallner
Majandus- ja Kommunikatsiooniministeerium
Tanel Tammet
Tallinna Tehnikaülikool
Aleksander Reitsakas
Aktors OÜ
Avaandmete kättesaadavuse parandamiseks ja avalikustamise koordineerimiseks on pilootrakendusena loodud avaandmete varamu http://opendata.riik.ee. Sinna peaks üles laaditama avaliku sektori avaandmete andmehulkade metaandmed. Varamusse võib asutus salvestada soovi korral lisaks ka andmehulgad.
Avaandmete varamu
Avaandmete vaatenurgast vajab Eesti avalik sektor eelkõige muudatusi seadusandluses, organisatsiooniliste ja tehniliste põhimõttete kokkuleppimist. Seetõttu algatati aastateks 2011–2012 projekt „Avaandmete raamistik“. Projekti raames korraldati hange, mille eesmärk oli luua andmete avamist toetav infrastruktuur ja organisatsioonilised, tehnilised ning semantilised eeldused andmete avamisele. Hanke tulemuseks planeeriti:
• luua veebisait opendata.riik.ee (beeta) kui Eesti teabevärav avaandmetele juurdepääsuks ja kasutamiseks;
• luua andmete publitseerimise infrastruktuur (varamu, beeta);
• koostöös avaandmete kogukondadega fikseerida esialgsed organisatsioonilised, tehnilised ja semantilised nõuded andmete avamisele;
• keskseks varamuks soovitati pilvelahendust CKANi (http://ckan.net) baasil;
• eessüsteemina soovitati pilvelahendusel Drupali veebimootorit (http://drupal.org);
• otsimootoriks soovitati Apache SOLRi (http://lucene.apache.org/solr);
• eeldati linkandmete RDFi ja SPARQLi standardeid toetavaid liideseid;
• eeldati LAMPi platvormi;
• nõuti suhtlemisvõimet teiste varamutega;
• eeldati, et asutused võivad luua oma varamuid, keskvaramu peaks olema võimeline metaandmeid nendest noppima;
• eeldati, et asutused võivad panna andmehulki otse kesksesse varamusse.
Avaandmete portaali pilootrakenduse esileht
Avaandmete koondportaali pilootrakendus on aadressil http://opendata.riik.ee. Portaal kujutab endast kolme integreeritud süsteemi.
• Uudiste, küsimuste, diskussioonide ja juhendite portaal, kus esitada juhendeid ja uudiseid, tõstatada küsimusi ja diskuteerida avaandmete teemal.
• CKANi-põhine avaandmete linkide, kirjelduste ja oluliste metaandmete andmebaas (vt http://ckan.org), millele viib portaali ülariba menüüpunkt „Avatud andmed“. Sellest andmebaasist saab:
1) otsida ja alla laadida avaandmeid ligipääsupiiranguteta,
2) lisada uusi avaandmeid (selleks on vaja portaali registreeruda ja saada haldaja käest ligipääsõigus).
• Andmehulkade hoidla, mis on üks võimalikest kohtadest, kuhu ametkond saab avaandmeid salvestada.
Tehniliselt on loodud eeldused avaandmete infrastruktuuri väljakujundamiseks. Kuid tehnilistest eeldustest on vähe. On vaja mehitada ja välja õpetada meeskond, kes oleks võimeline haldama ja arendama infrastruktuuri, tegema järelevalvet ja haarama oma tegevusega nii avaliku sektori andmetootjad kui ka teenuseid loovad avaandmete kogukonnad.
Avaandmete infrastruktuuri väljakujundamise eeldused on loodud.
Kuidas avalikustada?
Mis vormingus? Peamise põhimõttena arvestame, et palju parem on avaldada andmed ebamugavas kodeeringus kui jätta need esialgu avaldamata põhjusel, et millalgi on plaanis võtta ette kodeeringu täiustamine. Teiseks, avaldatud andmehulka saab edaspidi avaldada uues, paremas kodeeringus.
Soovitame avaandmete süsteemi kontekstis lähtuda vormingute ja kodeeringute kasutajasõbralikkuse hindamisel Tim Berners-Lee viie tärni süsteemi19 põhimõtetest, mis on kirjeldatud eelmises artiklis. Andmehulga avaldamiseks sobivad eeskätt vormingud, mida on võimalik avada ja töödelda vabavaraliste rakendustega. Selliselt on töödeldavad näiteks odt-vormingus dokumendifailid, samuti struktuursete andmete levinuimad vormingud .csv, json, xml.
Taaskasutamiseks sobivad vabavaraliste rakendustega avatavad ja töödeldavad vormingud.
Ühetärni-vormingute kasutamist andmete avamiseks peaks vältima. Kuid teiselt poolt on nende publitseerimine siiski kindlasti parem kui sellest loobumine.
Kahetärni-vorminguid kasutatakse eelkõige selliste andmete jaoks, kus kasutajale piisab juurdepääsust andmetele. Taaskasutamine tähendab eelkõige tutvumist andmetega ja nende kasutamist lõika-kleebi meetoditega. Teenuste loomise tagamiseks tuleks avaandmed esitada kas kolme-, nelja- või viietärni-vormingus.
Loodud on avaandmete infrastruktuuri väljakujundamise eeldused.
Kolmetärni-vormingud. Kolmetärni-andmed võiks olla ühel järgmistest vormingutest vastavalt sellele, mis on andmete avaldajale mugavam. Kasutaja seisukohast ei ole neil vormingutel väga olulist vahet, kuid kõige mugavam on tõenäoliselt kasutada json-vormingut.
• csv-failid. Dokumentatsioonis peab olema öeldud tähestiku kodeering ja koma/semikooloni ning komaga arvu eraldaja (punkt/koma) kasutus. Soovitav on kasutada failides päiserida, kus väljade nimed on toodud • selles päisereas. Kindlasti tuleks lähtuda ametlikust20 csv-vormingust koos nüanssidega jutumärkide teemal jne.
• json-vormingus failid, samad nõuded tähestiku kodeeringu kohta.
• xml-vormingus failid.
Neljatärni-vormingud. Põhimõtted on samad kui kolmetärni-andmetel, kuid peamise täiendusena kasutatakse objektide identifitseerimiseks globaalselt unikaalseid identifikaatoreid ehk URIsid. Globaalsete identifikaatorite kasutus muudab andmete ristkasutuse teistes süsteemides oluliselt mugavamaks.
URIde kasutuselevõtuks tuleb andmete ekspordi ajal lisada igale objekti-identifikaatorile antud andmehulga prefiks, näiteks http://asutus.ee/andmehulganimi/objects/, kus siis terve URI oleks näiteks http://asutus.ee/andmehulganimi/objects/45321 ja 45321 on objekti algne ID andmehulgas. Kui IDd ei ole ka andmehulga enda lõikes unikaalsed (mis on kõige harilikum olukord), siis kõige lihtsam on esitada eksportimisel URId kujul, kuhu lisatakse objects-i asemel vastava tabeli nimi, näiteks http://asutus.ee/andmehulganimi/isikud/45321.
Kui objekte on asutud esitama URIdena, siis on sobiv lisaks csv/json-i/xml-i kasutamisele esitada andmeid RDFi kujul objekt-omadus-väärtus kolmikutena