Iga andmetöötaja ja uurija peaks seega olema teadlik oma rollist andmete „küpsetamisel“ – nii siis, kui ta andmeid „kogub“, kui ka siis, kui ta andmetest söödava ja kasuliku produkti loob (vt ka ptk 1.1). Bowkeri väidet edasi arendades kirjutavad Lisa Gitelman ja Virginia Jackson (2013), et toorandmete mõiste mõjub analüütikutele peibutavalt, sest sellesse on peidetud pika ajalooga ja ideoloogiliselt võimas positivistlik eeldus (vt ka Markham 2016), et arvulised andmed on kuskil meist sõltumata olemas, et andmed eelnevad faktidele, et need on meie teadmiste alus, midagi objektiivset, ilmselget ja läbipaistvat, mis on vaja üksnes kokku korjata ja hoolikalt ära mõõta. Paljudes era- ja ka uurimissituatsioonides räägitakse lisaks „isetekkelistest“ (mõnikord ka „loomulikult esinevatest“) andmetest, mida kriitikute sõnul samuti tegelikult olemas ei ole. Nendele diskussioonidele tuginedes oleme sõnastanud andmestunud maailma mõistmise kuuenda postulaadi: andmed ei teki iseenesest, vaid luuakse uurija valikute tulemusel, mis tähendab, et uuringu ülesehitusest sõltub, milliseid järeldusi on uuringu põhjal võimalik teha.
Andmestunud ühiskonna kontekstis pole muutunud niisiis mitte ainult andmed, nende loomine ja kasutamine, vaid andmetöö üldiselt (Fuchs 2018; Rossi 2019), hõlmates lisaks traditsioonilisele andmeanalüütiku tööle aina enam ka internetikasutajate valdavalt teadvustamata tööd ja veebipõhiste andmelahenduste testijate (n-ö klikitööliste) sageli halvasti tasustatud panust. Andmeid loovad platvormid on seega muutunud nii oluliseks andmeallikaks kui ka sotsiaalseks reaalsuseks. Selle kogumiku viiendas osas käsitlemegi lähemalt nihet platvormipõhisele uurimusele ning näitlikustame seda, millist rolli võivad platvormid jt andmetaristud mängida uurimisvahendi ja -objektina.
Metodoloogilised nihked
Andmestumise kontekstis on teadmusloome aruteludesse põimitud kaks keskset teemat (Veltri 2017; Thylstrup et al. 2019): 1) vaidlused mõõtmistehnikate üle, st loodetakse, et uued andmed võimaldavad objektiivsemalt mõõta inimeste loodud reaalsust, ning 2) vaidlused traditsiooniliste (nt statistiliste) ja arvutuslike (nt masinõppe) meetodite üle. Tuntumad näited on siin käsitlused „teooria lõpust“ (Anderson 2008) ning „kirjeldavast empirismist“ (Kitchin 2014b), kus väidetakse, et hüpoteeside ja mudelite testimise ning teoreetiliste mudelite kinnitamise meetod on aegunud ja selle asemel tuginevad andmetest juhitud (data-driven) analüüsid korrelatiivsetele seostele, selgitamata nende seoste aluseks olevaid sotsiaalseid mehhanisme (Anderson 2008). Selle arusaama kohaselt väheneb teooria roll uuringutes märkimisväärselt. Hiljutises empiirilises uuringus, kus analüüsiti teooria lõpu hüpoteesist inspireeritult teadmiste loomise praktikaid, need arengusuunad siiski kinnitust ei leidnud (Masso et al. 2020).
Vastusena teooria lõpu hüpoteesile ja arvutuslike meetodite kaitseks on rõhutatud arvutuslike meetodite suurt varieeruvust (Hindman 2015), mis peaks võimaldama igale uurimisprobleemile vastamiseks sobivaima lahenduse leidmise. Arvutuslikud meetodid võivad olla nii deduktiivsed kui ka induktiivsed. Mõni autor väidab koguni, et teatud nähtuste esinemise põhjusi selgitada võimaldavate arvutuslike meetodite populaarsusega kaasneb induktiivne hüpe sotsiaalteadustes (Bengio et al. 2019). Üks induktiivsel loogikal põhinevaid arvutuslikke meetodeid on masinõppe kasutamine analüüsis (vt ptk 2.4; aga ka mujal, nt ptk-d 2.1, 2.2, 2.3, 3.3). Masinõpet peetakse ideaalseks lahenduseks komplekssete nähtuste selgitamisel, sest see ei testi hüpoteesi, vaid genereerib küsimused varasemate kogemuste süstemaatilise hindamise tulemusena (Breiman 2001; Bengio et al. 2019). Hiljutised edusammud masinõppe meetodites (Bengio et al. 2019) püüavad lisaks mustrite tuvastamisele andmetes selgitada ka kausaalseid seoseid. Teisisõnu, selle asemel et vastata küsimusele mis, püütakse leida vastuseid küsimusele miks ehk siis selgitada sisust lähtuvaid, seni vastamata küsimusi. Nende diskussioonide ning varasema empiirililise uurimistöö põhjal oleme sõnastanud andmestunud maailma uurimise seitsmenda postulaadi: teooria pole surnud, ehk vaatamata uutele andmetele, analüüsitehnikatele, tarkvarale ja meetoditele algab andmestunud maailma uurimine endiselt küsimuse püstitusest.
Pluralism meetodites
Esimeseks vastuseks uute andmete tekkele ja andmemahu suurenemisele on olnud arvutuslik sotsiaalteadus (computational social science; vt nt Cioffi-Revilla 2014), kus (sageli suure võimsusega) arvutustehnoloogiaid kasutatakse sotsiaalsete nähtuste analüüsimiseks, modelleerimiseks ja simuleerimiseks. Arvutusliku sotsiaalteaduse rakendamisest on arvukalt näiteid (Cioffi-Revilla 2014; Park et al. 2015). Näiteks töötasid Emmanuel Lazega ja Tom Snijders (2016) välja võrgustikuanalüüsi meetodi dünaamiliste ja suuremahuliste andmete analüüsimiseks; Daniel Dellaposta koos kolleegidega (2015) meetodid veebiandmete abil poliitilise orientatsiooni ruumilise ja ajalise dünaamika analüüsiks; Dirk Helbing (2013) simulatsioonimeetodid võrgustunud riskidega7 toimetuleku analüüsimiseks.
Neid algselt absoluutse tõena esitatud arvutuslikke meetodeid on sageli kritiseeritud, sest toimunud nihked konkreetsetes analüüsitehnikates või -meetodites pole toonud kaasa loodetud metodoloogilisi uuendusi. Nn kolmanda tee otsingud on lisaks traditsioonilistele statistilistele ja uuematele arvutuslikele meetoditele pakkunud mitmeid alternatiive. Lisaks andmeteaduse universaalsete põhimõtete ühtlustamisvajadusele (Slota et al. 2020) või arvutuslike põhimõtete kohandamisele sotsiaal- (Cioffi-Revilla 2014) ja humanitaarteadustele (Schäfer, Es 2017) pakkus Lev Manovich (2017) alternatiivina välja kultuurianalüütika, mis rakendab suuremahuliste kultuuriandmestike analüüsimisel arvutuslikke analüüsitehnikaid. Samas on ka Manovichi üldistusi ja järeldusi korduvalt kahtluse alla seatud, nentides, et Instagrami pildid võimaldavad siiski järelduste tegemist Instagrami-põhise eneseesitluse sotsiaalsete normide ja sellega seotud tõlgenduste, mitte aga kultuurigeograafiliste (nt millises linnas elavad kõige mornimad inimesed), arvuliselt eristatavate fenomenide kohta.
Suhteliselt pika traditsiooniga on Richard Rogersi meeskonna (Amsterdami Ülikoolis) digimeetodid (Rogers 2013, 2019), mis kasutavad andmete loomiseks ja analüüsiks veebikeskkondade rakendusliideseid jm tehnilisi vahendeid ning kategoriseerivad andmed ja meetodid n-ö digitaalsena sündinuiks ja digiteerituteks.8 Digimeetodid püüavad kasutada internetti ja sotsiaalmeediat uurimismeetodi ja uurimisvahendina, vastandudes selgelt n-ö virtuaalsetele meetoditele, mis kohandavad varasemalt kasutatud sotsiaalteaduslikud meetodid veebikeskkonnas kasutatavaks. Teemast lähemalt huvitatud lugejatel tasuks tutvuda Richard Rogersi monograafiatega (2013, 2019).
Niisiis valitseb uurimustes endiselt meetodite ja käsitlusviiside pluralism – tekkinud arvutuslike meetodite kõrval kasutatakse paralleelselt ja kombineerituna klassikalisi kvalitatiivseid ja kvantitatiivseid meetodeid, mis võimaldavad lisaks põhjuslike seoste kirjeldamisele ja ennustamisele ka komplekssete võrgustunud nähtuste põhjuste mõistmist. Vahepealsete vaidluste käigus pakuti näiteks „suurte“ ja „väikeste“ andmete kõrvale ka rikaste ja tihedate andmete kategooriat. Kvalitatiivse ja eriti etnograafilise uurimisega tegelevad ühiskonnateadlased leidsid, et nende tõlgendatavad materjalid ei kvalifitseeru mitte mingil juhul väikesteks andmeteks, ent on suured teisel moel kui suurandmed, keskendudes uuritava nähtuse kontekstile ja tihedale tõlgendusele9 (vt ka ptk 6.2). Sellest lähtuvalt oleme sõnastanud andmestunud maailma uurimiseks olulise kaheksanda postulaadi: segameetodite paindlik kasutamine võimaldab tagada tervikliku pildi andmestunud maailmas toimuvatest komplekssetest nähtustest.
Andmestunud