Tänuavaldused
Käesoleva raamatu valmimise eest võlgneme tänu mitmetele inimestele ja asutustele, kes on selle kirjutamist ja väljaandmist toetanud. Raamatu toimetajad soovivad kõigepealt tänada Tartu Ülikooli kirjastamisnõukogu, kelle toetus kattis raamatu toimetamise ja trükkimise kulud. Raamatu kirjutamist ja toimetamist on osaliselt toetanud Haridus- ja Teadusministeerium (sihtfinantseeritav teema SF0180029s08, juht Jüri Allik) ja Euroopa Sotsiaalfond (Primuse grant 3-8.2/60, juht Anu Realo). René Mõttuse uurimistööd on toetanud Euroopa Sotsiaalfondi Mobilitas’e grant MJD44 ja Ernst Jaaksoni mälestusfondi stipendium.
I TEEMA: VAJALIKUD EELTEADMISED
KORRELATSIOON
René Mõttus, Jüri Allik
MIKS ON TARVIS TUNDA KORRELATSIOONI MÕISTET?
Korrelatsioon on mõiste, mille sisu tundmata on võimatu mõista intelligentsuse kohta tehtud uuringuid. Peaaegu kõikidele intelligentsust puudutavatele olulistele küsimustele pakutavad lahendused keerlevad ühel või teisel moel korrelatsiooni ümber. Näiteks on üks olulisemaid küsimusi intelligentsuse uurimise ajaloos olnud see, millistest osadest intelligentsus koosneb. Seda probleemi püütakse enamasti lahendada eeldatavalt erisuguseid võimeid mõõtvate testide tulemuste korrelatsioone analüüsides. Või võtame niisuguse küsimuse: kas ja mida intelligentsus inimese elus määrab? Ka sellele küsimusele vastuse saamiseks arvutatakse korrelatsioone, näiteks intelligentsustestide tulemuste ning keskmise koolihinde, sissetuleku, vererõhu või eluea pikkuse vahel. Samuti küsitakse tihti, millest inimeste erinevused intelligentsuses tulenevad? Ka siin arvutavad uurijad vastuse saamiseks korrelatsioone, sedapuhku näiteks erineva sugulusastmega inimeste testitulemuste vahel. Seega saab üsna kindlalt öelda, et kui intelligentsus ise on intelligentsuseteemalises uurimistöös peategelane, siis korrelatsiooni täita on kõige kaalukama kõrvalosatäitja roll. Umbes nagu Mäe Andres ja Oru Pearu, aga palju soojemates suhetes.
Korrelatsioon iseloomustab statistilist sõltuvust kahe või enama juhusliku muutuja vahel. Juhuslikul muutujal ei ole ühte fikseeritud väärtust, vaid see võib omandada erinevaid väärtusi, mida iseloomustab nende esinemistõenäosus. Kui ühe muutuja väärtuste esinemistõenäosus ei sõltu teise muutuja väärtuste esinemissagedusest, siis on need kaks muutujat teineteisest statistiliselt sõltumatud. Kui ühe muutuja väärtusi on võimalik ennustada teise muutuja väärtuste põhjal, siis öeldakse, et need kaks muutujat on korreleeritud. Kõige lihtsam korrelatsioon on lineaarne: kui ühe muutuja suurus kasvab, siis kasvab või kahaneb ka teise muutuja suurus mingi arv korda.
Muidugi oleks väär arvata, et korrelatsioon on oluline üksnes intelligentsuse uurimisel. Tegemist on ühe äärmiselt laialt rakendatava viisiga nähtuste seoste kirjeldamiseks. Peale sotsiaalteaduste on korrelatsioonil oluline roll näiteks majandusteaduses, bioloogias ja isegi keemias. Korrelatsiooni tasub lähemalt tunda selgi põhjusel, et selle aluseks olev idee, arvutamine ja tõlgendamine on tegelikult väga lihtsad.
Kes tunneb, et ta on korrelatsiooni nime kandva nähtusega piisavalt hästi tuttav, võib muidugi käesoleva peatüki vahele jätta. Neile aga, kes korrelatsioonist väga palju ei tea, soovitame käesolevat peatükki lugeda. Päris kindlasti tuleks põhjalikult lugeda esimest kahte suuremat alaosa, mis kirjeldavad korrelatsiooni leidmise ja tõlgendamise üldiseid põhimõtteid.
Teaduse eesmärk on leida invariante
Teaduse üks peamisi funktsioone on avastada invariantsusi ehk korrapärasid, mis avalduvad kõigis mõeldavates olukordades. See, et kõigi planeetide orbiidid on ühe kujuga või et gaasilise aine ühes ruumalaühikus on võrdne arv aineosakesi, kõneleb millestki muutumatust ehk invariantsest, mis jääb samaks kõigis võimalikes olukordades. Paljusid seoseid looduses või inimese loodud asjade vahel saab kirjeldada lineaarsete teisenduste abil. Oletame, et meil on mingi jälgitav suurus Y, mis saab avalduda mingi teise suuruse X kaudu valemiga Y = a0 + a1X, kus a0 ja a1 on teatud muutumatud numbrid. Sellisel juhul võib ütelda, et meil on tegemist invariandiga, mis ei sõltu sellest, kas seda jälgida suuruse X või suuruse Y vahendusel. Tõepoolest, toodud valem näitab, et üks kahest tunnusest on liigne, kuna selle väärtused on üheselt taastatavad teise tunnuse väärtuse põhjal. Korrelatsioon ongi selliste invariantide avastamise vahend, mis kokkuvõttes lubab kahandada liiasust. Palja silmaga on invariante tihti keeruline märgata. Näiteks inimkäitumise uurijad seisavad korraga silmitsi väga suure hulga tunnustega ning sellest informatsioonidžunglist väärtuslike teadmiste väljasõelumine käib ilma tunnuste eelneva korrastamiseta üle jõu. Inimmõistus ei suuda haarata korraga juba nelja-viit tunnust, kõnelemata sadadest või tuhandetest. See sunnib näiteks sotsiolooge ja psühholooge kasutama küsimustikke, milles on sadu ja mõnikord isegi tuhandeid küsimusi. Küsimused mõõdavad korraga paljusid spetsiifilisi tunnuseid ning korrelatsiooni kasutades nende seoseid kirjeldades on võimalik hea õnne korral hulk liigseid tunnuseid kõrvale heita ning seeläbi oluliselt piirata silmaspidamist vajavate tunnuste arvu.
KORRELATSIOONI LEIDMISE LOOGIKA
Pearsoni korrelatsioon
Kõige levinum on briti matemaatiku Karl Pearsoni (1857–1936) nime järgi tuntud korrelatsioonikordaja. Kui pole täpsustatud, millise korrelatsioonikordajaga on tegemist, siis on see suure tõenäoususega just Pearsoni korrelatsioonikordaja, mida tähistatakse kas rxy või lihtalt r. Järgnevalt vaatame, kuidas seda arvutatakse.
Karl Pearson (1857–1936)
Dispersioon
Tuleb alustada hajuvuse ehk dispersiooni mõistest. Mingi arvuliselt väljendatud tunnuse hajuvus kirjeldab seda, kui suurel määral selle üksikud väärtused hälbivad keskmisest väärtusest. Kui meil on näiteks seitse inimest, kes on järjestatud pikkuse järgi ritta, siis saame keskmise inimese suhtes hinnata, kui palju erinevad temast kasvult pikemad ja lühemad inimesed (vt joonis 1).
JOONIS 1. Seitse erineva pikkuse ja kehakaaluga inimest.
Kui me liidame kõigi seitsme inimese pikkused ja jagame seitsmega, siis saame selle inimeste rühma keskmise pikkuse. Me valisime selle näite niimoodi, et pikkuste keskmine langeks kokku joonisel 1 rea keskel seisva inimese kasvuga (D), kuigi mitte alati ei pea tunnuste mediaan (väärtus, millest väiksemaid ja suuremaid on arvureas võrdne arv) ja keskmine kokku langema, sest üksikud tugevasti hälbivad väärtused võivad nihutada keskmise väärtuse tunnuse otspunktide poole.
Teades keskmist pikkust, on lihtne defineerida ka hajuvust: selle saame, kui liidame kokku kõigi üksikväärtuste hälbed keskmisest. Kui kõik sellesse rühma kuuluvad inimesed oleksid ühepikkused, siis kellegi pikkus ei erineks keskmisest pikkusest ja järelikult puuduks pikkusel igasugune hajuvus. Täpsemalt öeldes arvutatakse hajuvus (variance) s² selliselt, et liidetakse kokku kõigi selle rühma inimeste hälvete ruudud:
kus yi on i-nda objekti väärtus (nt ühe inimese pikkus), n – objektide (indiviidide) arv valimis ja ȳ – valimi keskväärtus. Hälvete tõstmine ruutu kaotab ära negatiivsed väärtused. Selle pärast ei ole võimalikud hajuvuse negatiivsed väärtused.
Kuid nagu joonisel 1 on näha, erinevad inimesed peale pikkuse ka kehakaalu poolest. Sarnaselt meie igapäevakogemustele ütleb