Kui pikk peaks olema vahemik kahe testimise vahel? Ilmselt on kolm aastat kordustestimise usaldusväärsuse leidmiseks liiga pikk ajavahemik. Kolme aastaga (eriti noorena või kõrges vanuses) võib üsna palju muutuda inimese endaga, kelle vaimseid võimeid mõõdetakse. Seega võib kordustestimise muutus peegeldada mitte üksnes mõõdiku viga, vaid ka reaalseid muutusi inimese teadmistes, oskustes ja võimetes. Terve mõistuse seisukohalt lähtudes võiks oletada, et üldjuhul paari nädala või kuuga inimene väga palju targemaks või rumalamaks ei muutu. Seega on mõistlik kordustestimise ajavahemik valida paarist nädalast paari kuuni. Liiga lühikese aja puhul võib olla probleemiks, et inimene mäletab oma eelmist sooritust ja saab sellega teisel korral mõnesuguse eelise. Teisalt, sama eelise saavad kõik, kes kordustestimises osalevad, nii et inimeste järjestuse võimalikku muutust see otseselt mõjutada ei tohiks. Samas pole intelligentsuse puhul kordustestimise aeg väga kriitiline, kuna inimeste pingeread intelligentsustestide skooride järgi on ajas väga püsivad. Näiteks oti koolilapsed, keda testiti 1932. aastal 11 aasta vanuses, tegid sama testi (Moray House Test) teist korda 66 aastat hiljem 1998. aastal. Kahe testimiskorral vaheline korrelatsioon oli selles valimis 0,66 (Deary, Whiteman, Starr, Whalley & Fox, 2004).
Sisereliaablus. Kuigi kordustestimine on parim viis mõõdiku usaldusväärsuse kontrollimiseks, on selle tegemine kulukas või tihti lausa võimatu. Niisugusel juhul püütakse ühe testimiskorra sees leida kinnitusi testi usaldusväärsusele. Näiteks võib kujutada ette, et kui jagame kogu testitavate valimi juhuslikult pooleks, siis esimene pool esindab esimest ja teine teist testimiskorda. Mitmed andetöötluse tarkvarad (nt SPSS/PASW, Statistica) sisaldavad statistilist protseduuri, mida nimetatakse split-half reliability. Mõistlik oletus on see, et usaldusväärne mõõdik annab juhuslikult poolitatud alavalimitel ühesuguse tulemuse.
Cronbachi alfa. Kõige sagedamini kasutatavaks testi usaldusväärsuse näitajaks on testi sisereliaabluse indeks ehk Cronbachi alfa. Selle indeksi mõtles välja Lee Cronbach (1951) iseloomustamaks testi küsimuste või ülesannete kooskõla. Cronbachi alfa on lülitatud enamikku andmetöötluse tarkvarapakettidesse ning seda pole keeruline ka käsitsi arvutada. Kõige läbipaistvam on Cronbachi alfa defineerimine küsimuste keskmise korrelatsiooni kaudu:
kus N on küsimuste arv testis ja ṝ – kõigi küsimuste paarikaupa korrelatsioonide keskmine. Seepärast ongi Cronbachi alfat arvutavates programmides lisaks alfale endale toodud ka küsimuste või ülesannete omavaheline keskmine korrelatsioon. Seega mõõdab Cronbachi alfa testi küsimuste (ülesannete) kooskõla, mis rangelt võttes ei näita siiski testi usaldusväärsust. Usaldusväärsuse üheks eelduseks on küll see, et üksikud küsimused mõõdavad sama asja – nt vaimset võimekust –, kuid Cronbachi alfa kõrge väärtus ei garanteeri veel, et esmakordse ja kordustestimise tulemused hästi kokku langeksid.
Näiteks Raveni kasvava raskusastmega maatriksite (RSPM) 60 ülesande sisereliaablus Eesti normvalimil on 0,88 (Pullmann, Allik & Lynn, 2004). Cronbachi alfa sõltub küsimuste või ülesannete arvust testis: mida rohkem on küsimusi või ülesandeid, seda suurem on alfa (eeldusel, et keskmine korrelatsioon küsimuste vahel ei muutu). Näiteks α = 0,88 vastav keskmine küsimuste vaheline korrelatsioon (60 küsimusega) RSPMis on tegelikult üsna madal (0,11). Et testi sisereliaablus oleks piisavalt kõrge, on tihti lihtsalt tarvis suurt hulka ülesandeid.
Mingit ranget eeskirja, kui kõrge peaks Cronbachi alfa olema, et lugeda testi heaks, pole olemas. Hea tava kohaselt peetakse sobivuse alampiiriks Cronbachi alfat, mis ei ole väiksem kui 0,70. Täispika intelligentsustesti üldine sisereliaablus peaks olema lähedal 0,90-le. Alatesti reliaablus võiks olla 0,80 või sellest suurem, et põhimõtteliselt oleks võimalik usaldusväärselt mõõta intelligentsuse komponente (nagu öeldud, on kõrge Cronbachi alfa küll usaldusväärsuse eelduseks, aga mitte vältimatuks garantiiks).
Kuidas on seotud Cronbachi alfa ja korduvtestimise usaldusväärsus? Need on kaks erinevat näitajat. Näiteks Cronbachi alfa võib olla üsna madal, kuid sellele vaatamata võivad korduvtestimise tulemused olla kokkulangevad. Seega ühe põhjal pole võimalik teist reliaabluse indeksit ennustada.
Mõõtmisvea parandus. Usaldusväärsuse peamiseks ülesandeks on anda pilt selle kohta, milline osa saadud tulemustest võiks olla tingitud mõõdetavast suurusest ja milline osa mõõtmisveast. Näiteks oletame, et mingi testiga mõõdetud IQ skoori ja koolis saadud keskmiste hinnete korrelatsioonon r = 0,55. Selle testi sisereliaablus (Cronbachi alfa) on aga näiteks α = 0,85. Nüüd võib küsida, milline oleks korrelatsioon IQ ja koolihinnete vahel siis, kui vaimseid võimeid õnnestuks mõõta absoluutse usaldusväärsusega? Kui võtta arvesse mõõdiku ebausaldusväärsus, siis on „tegelik” korrelatsioon võrdne suhtega r´ = r/α (saadud korrelatsioon tuleb läbi jagada usaldusväärsuse koefitsiendiga). Konkreetse näite puhul r´ = 0,55/0,85 = 0,67. Seega oleks korrelatsioon ilma mõõtmisveata IQ mõõdiku ja koolihinnete vahel oluliselt kõrgem (0,67), kui ilma paranduseta toorkorrelatsioon (0,55).
Valiidsus
Tavaliselt on valiidsusele pühendatud peatükk psühhomeetria käsiraamatute kõige segasem osa. Segadust külvab eelkõige see, et autorid loetlevad mitmeid erinevaid valiidsuse vorme.
Pealevaatamise valiidsus. Näiteks räägitakse pealevaatamise valiidsusest (face validity). Kui keegi pakub välja, et kahe sirglõigu pikkuste eristamise võime mõõdab inimese intelligentsust, siis võib sellele ülesandele lihtsalt peale vaadates ilma uurimusi läbi viimata väita, et pikkuste võrdlemise katse ei mõõda inimese vaimseid võimeid. Niisuguse arvamuse põhjuseks võib olla asjaolu, et selliste lihtsate tajuülesannete lahendamine, mis ei nõua suurt kognitiivset pingutust, ei saa olla kuidagi seoses sellega, kuidas inimene näiteks lahendab Raveni kasvava raskusastmega testi ülesandeid. Tegelikult me aga teame, et kui muuta pikkuste eristamise ülesanne keerukamaks, esitades hindamist vajavad sirglõigud väga lühikeseks ajaks vahetult enne järgnevat kujutist, mis eelmise üle kirjutab ehk maskeerib, siis võib juhtuda, et vaimselt võimekamad inimesed vajavad õige otsuse tegemiseks lühemat vaatlusaega kui inimesed, kes saavad intelligentsustestides madalamaid skoore. Kuigi ülesandele lihtsast pealevaatamisest võib mõnikord kasu olla, ei või lõplikult kindel olla, kas mingi ülesanne tegelikult mõõdab või ei mõõda intelligentsust.
Kriteeriumi valiidsus. Teine populaarne valiidsuse liik on kriteeriumi valiidsus (criterion validity). Selle mõte on suhteliselt lihtne. Me teame, et mitmed tegevused eeldavad või lausa nõuavad kindlate vaimsete võimete olemasolu. Näiteks koolis või veelgi enam ülikoolis õppimine eeldab keskmisest kõrgemat vaimset võimekust. Järelikult, kui uurija konstrueerib intelligentsustesti, siis saab ta selle usaldusväärsust kontrollida sellega, kui tugevalt on testi skoor korreleeritud vastaja koolihinnetega. Kuna tavaliselt on korrelatsioon 0,50 või rohkem, siis võiks eeldada, et igal uuel väljatöötataval testil peaks olema koolihinnetega vähemalt sama kõrge korrelatsioon (vt pt „Vaimse võimekuse test VVT98”). Ainult niisugusel juhul on selle kriteeriumi valiidsuse nõue täidetud. Samuti on hästi teada, et täiskasvanud inimese intelligentsustase on heas seoses õppimiseks kulutatud aastatega. Seega on kriteeriumi valiidsus testi võime ennustada neid tagajärgi, mis sõltuvad testiga mõõdetavast omadusest.
Konstrukti valiidsus. Kõige raskem on mõista konstrukti valiidsuse (construct validity) tähendust. Võtame eelduseks, et usaldame ühte intelligentsuse mõõdikut, kas või näiteks Raveni SPMi. Nagu eespool öeldud, peavad mitmed autoriteetsed uurijad seda üheks kõige paremaks üldintelligentsust mõõtvaks testiks, mis on sealjuures suhteliselt vaba kultuuri mõjust (Jensen, 1998). Pika aja jooksul selle testiga tehtud uuringud on välja selgitanud mitmeid olulisi seoseid, mis tunduvad usaldatavate ja püsivatena: