Mõõtmiste täpsus ja hajuvus
Teine oluline tegur on mõõtmiste täpsus. Igasuguste mõõtmistega kaasnevad ebatäpsused: mõnes täppisteaduses võib mõõtmisvea osakaal olla päris väike, psühholoogias – samuti paljudes muudes valdkondades, näiteks bioloogias või meditsiinis – on see aga mõnevõrra suurem. Ebatäpsused rikuvad mõõtmistulemusi ning seavad piirid ka sellele, kui tugevas korrelatsioonis võivad mõõdetud tunnused olla üksteisega või mingite muude tunnustega. Mida suurem on mõõtmiste ebatäpsus (juhuslik mõõtmisviga), seda väikesemad saavad olla ka tunnustevahelised seosed. Seda tuleb silmas pidada ka korrelatsiooni tugevuse sisulisel tõlgendamisel. Kui näiteks võetakse kaks psühholoogilist testi, mille reliaabluskoefitsiendid on 0,60 ja 0,70, ning uuritakse nende tulemuste vahelist korrelatsiooni, siis selle maksimaalne väärtus on 0,65 (miks, loe lähemalt peatükist „Mis on intelligentsus?”). Järelikult ei viita 0,65 lähedane korrelatsioon sellisel juhul mitte üksnes tugevale, vaid lausa täiuslikule tunnustevahelisele seosele.
Korrelatsioonikordaja suurust mõjutab ka tunnuste hajuvus. Kui ühe või mõlema tunnuse hajuvus on väike, ei saa ka nende korrelatsioon olla suur. Tagasihoidliku hajuvuse korral on tunnustes lihtsalt vähe informatsiooni. Näiteks võib oletada, et akadeemikute vahel on erinevused intelligentsuses palju väikesemad kui ühiskonnas tervikuna. Seetõttu on akadeemikute puhul intelligentsuse ja sissetuleku vahel oletatavasti palju nõrgem seos kui ühiskonnas tervikuna: kui akadeemikud erinevadki märkimisvääreselt oma sissetulekute poolest, siis on see paljuski tingitud mingitest intelligentsusega mitteseotud teguritest. Samas võib antud juhul intelligentsuse ja sissetuleku väike korrelatsioon osutuda sisuliselt siiski väga huvitavaks: isegi intellektuaalselt nii elitaarses grupis, nagu on akadeemikud, annab kõige väikesemgi eelis võimetes kohe ka palganumbris tunda – järelikult avaldab intelligentsuse tase tõesti igas mõeldavas olukorras mõju meie majanduslikule edukusele.
Usaldusväärsus – vahest on tegemist juhusliku seosega?
Ehkki korrelatsioonikordaja sisuliseks mõistmiseks on vajalik mingi hulk taustateadmisi, on olemas ka mõned puhtformaalsed viisid korrelatsioonikordajale hinnangu andmiseks. Üheks neist on korrelatsiooni usaldusväärsus. Kui teadlased arvutavad kahe muutuja korrelatsiooni, siis enamasti kontrollivad nad kõigepealt, kas saadud korrelatsioon on statistiliselt usaldusväärne. Ka täiesti suvalistest, näiteks täringute viskamise teel saadud numbritest moodustunud tulpade vahel korrelatsiooni arvutades saame suure tõenäosusega nullist mõnevõrra erineva korrelatsioonikordaja, eriti siis, kui tunnusepaaride arv ei ole eriti suur. Mingisuguse tugevusega korrelatsiooni võime seega saada puhtjuhuslikult, ilma et tunnuste vahel oleks tegelikult vähimatki seost. Nii võib juhtuda ka teaduses, et kahe muutuja vahel leitakse küll nullist suurem korrelatsioon, aga nende tegelik seos puudub – saadud korrelatsioon tekkis lihtsalt pimeda juhuse tahtel.
Eksijärelduste vältimiseks tuleb iga korrelatsioonikordaja puhul seega esmalt hinnata, kui suur on sellise väärtuse puhtjuhusliku tekkimise tõenäosus (tavaliselt tähistatakse p). Eelnevalt otsustatakse, kui suurt juhusliku tekkimise tõenäosust endale lubatakse. Et korrelatsiooni juhusliku tekkimise tõenäosus ei ole peaaegu kunagi päris olematu, siis tuleb lihtsalt kokku leppida mingis piiris, millest alates peetakse juhuslikkuse võimalust juba liiga väikeseks (tähistatakse α) ning loetakse seos usaldusväärseks (ehk tunnistatakse, et kahe tunnuse korrelatsioon vastab mingile väärtusele, mis on kindlasti suurem kui 0). Sotsiaalteadustes on selleks piiriks sageli valitud 5 %, kuid näiteks geneetikas võib see olla – ja tihti ongi – 0,00000001 % (sest korraga arvutatakse väga palju korrelatsioone ning 5 % kriteeriumi korral oleks iga 20. korrelatsioon juba puhtjuhuslikult „usaldusväärne”). Kui teadlased leiavad, et nende arvutatud korrelatsiooni puhtjuhusliku tekkimise tõenäosus on väiksem kui nende taluvuspiir (p < α), siis loevad nad seose statistiliselt usaldusväärseks, vastasel juhul aga mitte.
Selleks, kuidas ühe või teise korrelatsioonikordaja väärtuse puhul määrata selle puhtjuhusliku tekkimise tõenäosus, kasutatakse kindlaid valemeid. Need valemid siinkohal täpsemalt lahti kirjutama jättes võib öelda vaid seda, et p väärtus sõltub lisaks korrektsioonikordaja väärtusele veel väga tugevasti korrelatsiooni arvutamise aluseks olnud tunnusepaaride arvust (nt inimeste arvust grupis, mille põhjal seos leiti). Eelnevas näites saadud korrelatsioon 0,87 leiti seitsmel inimesel, mis annab selle puhtjuhuslikult tekkimise tõenäosuseks umbes 1,1 %. Olnuks valim suurem, võinuks sama suurusega korrelatsiooni puhtjuhusliku tekkimise tõenäosus olla tuhandeid kordi väikesem. Veelgi väikesema arvu paaride korral olnuks aga ka nii suur korrelatsioon nagu 0,87 statistiliselt ebausaldusväärne ning seetõttu tõlgendatamatu.
Üldine reegel on selline, et kui korrelatsioonikordaja on statistiliselt ebausaldusväärne, siis selle edasise tõlgendamisega ei tegelda. Samas on kindlasti tarvis rõhutada, et korrelatsioonikordaja statistiline usaldusväärsus ehk selle puhtjuhuslikult tekkimise tõenäosus (p) ei anna iseenesest mitte mingit informatsiooni seose tugevuse kohta, ehkki mõnikord eksikombel nii arvatakse. Seda just põhjusel, et korrelatsiooni usaldusväärsus sõltub lisaks seose tugevusele väga tugevasti ka selle arvutamiseks kasutatud valimi suurusest. Väga suurte valimite puhul võivad ka üliväga nõrgad seosed olla statistiliselt usaldusväärsed.
Determinatsioonikordaja ja tavakeelne mõjusuurus
Seose tugevuse väljendamiseks kasutatakse tihti determinatsioonikordajat. Determinatsioonikordaja on korrelatsioonikordaja ruutu võetuna ning tähistab proportsiooni, mille võrra ühe muutuja hajuvus kattub teise muutuja hajuvusega. Näiteks intelligentsustesti skoori ja sissetuleku vahel arvutatud korrelatsioonikordaja 0,50 puhul on determinatsioonikordaja 0,502 = 0,25 ehk protsentide mõõtkavas 25 %. Teisisõnu tähendab see, et inimeste erinevused intelligentsustestide tulemustes kirjeldavad ka veerandi nende sissetulekuerinevustest, samal ajal kui ülejäänud kolmveerand viimase hajuvusest jääb muude tegurite kirjeldada.
Ühe vähetuntud, aga käepärase viisi korrelatsioonikordaja sisuliseks tõlgendamiseks on pakkunud William Dunlap (1994). Ta nimetab seda tavakeelseks mõjusuuruse statistikuks (TMS). TMS saadakse nii, et arvutatakse korrelatsioonikordaja hüperboolne siinus, jagatakse see π-ga (umbes 3,14) ning liidetakse saadud jagatisele 0,50. Seda numbrit saab väljendada ka protsentide mõõtkavas, korrutades selle sajaga. Niisugune arvutuskäik ei ole väga läbipaistev, aga tulemust on äärmiselt lihtne interpreteerida. Näiteks meie korrelatsioonikordaja r = 0,87 puhul saame TMSi väärtuseks 0,98 / 3,14 + 0,50 = 0,81 (81 %). Niisugune TMSi väärtus tähendab, et kui me võtame juhuslikult kaks inimest, kes erinevad pikkuse poolest, siis 81%lise tõenäosusega on neist pikem ka suurema kehakaaluga. Kui pikkuse ja kehakaalu vahel poleks mingit korrelatsiooni, saaksime juhuslike inimpaaride puhul õige ennustuse teha üksnes 50%l juhtudest. Tegelikult on meie andmestikus 86%l võimalikest juhuslikest inimpaaridest pikem inimene ka suurema kehakaaluga, aga niivõrd väikese valimi puhul on selline erinevus andestatav.
Korrelatsiooni informatsiooniline tõlgendus
Korrelatsioon on mõõt, mis näitab, kui palju üks tunnus sisaldab endas informatsiooni mingi teise tunnuse kohta. Tuleme tagasi meie konstrueeritud näite juurde pikkuse ja kaalu seose kohta. Oletame, et mingil põhjusel on andmed kaalu kohta kaduma läinud ja me teame vaid inimeste pikkusi. Küsimus on nüüd selles, kui suure täpsusega saame pikkuse põhjal taastada puuduva kaalu. Selge, et seda pole võimalik teha täpselt, sest korrelatsioon on ühest väiksem. Toodud näite puhul r = 0,87 annab r² väärtuseks 0,76, mis tähendab, et 76 % kaalu andmetest on taastatavad pikkuse põhjal. Võrdluseks – kui korrelatsioon üldse puuduks ja r = 0, siis poleks ühe tunnuse põhjal mitte kuidagi võimalik ennustada, millised võiksid olla teise tunnuse väärtused.
Seos ei kehti tingimata kõigile inimestele
Viimaks