W przykładzie z rakiem nerek ważny jest też inny fakt statystyczny. Wyobraź sobie, że dwoje cierpliwych rachmistrzów na przemian losuje kulki z urny, o której mówiłem przed chwilą. Za każdym razem Jan wyciąga z niej cztery kulki, a Julia siedem. Oboje zapisują, w którym losowaniu udało im się wyciągnąć próbkę jednorodną – czyli same kulki białe albo same czerwone. Jeśli będą powtarzać losowanie wystarczająco długo, Jan zaobserwuje wyniki skrajne częściej niż Julia (dokładnie osiem razy częściej, bo oczekiwane prawdopodobieństwo obu zdarzeń wynosi odpowiednio 12,5 procent i 1,56 procent). Znowu – nie mamy tu młotka ani przyczynowości, lecz fakt matematyczny: próbka zawierająca cztery kulki częściej da wynik skrajny niż próbka zawierająca siedem kulek.
Teraz wyobraźmy sobie całą ludność Stanów Zjednoczonych jako kulki w gigantycznej urnie. Niektóre z nich oznaczone są symbolem RN („rak nerek”). Kolejno losujesz próbki kulek, którymi zaludniasz poszczególne hrabstwa. Próbki, którymi zaludnisz hrabstwa wiejskie, będą mniej liczne od pozostałych. Tak samo jak w przypadku Jana i Julii, wyniki skrajne (bardzo niska albo bardzo wysoka zapadalność na raka) częściej będą się pojawiać się w hrabstwach słabo zaludnionych. Oto całe wyjaśnienie.
Zaczęliśmy od faktu, który domagał się znalezienia przyczyny: w poszczególnych hrabstwach występują duże systemowe różnice dotyczące zapadalności na raka nerek. Wyjaśnienie, które zaproponowałem, jest natury statystycznej: wyniki skrajne (czy to niskie, czy wysokie) częściej pojawiają się w małych próbkach niż w dużych. Nie jest to wyjaśnienie przyczynowo-skutkowe. Niewielka liczba ludności nie chroni przed rakiem ani go nie wywołuje; sprawia tylko, że zapadalność na raka okazuje się znacznie wyższa (albo znacznie niższa) niż w większej populacji. Głęboka prawda w tym przypadku mówi, że nie ma czego wyjaśniać. W rzeczywistości zapadalność na raka w słabo zaludnionym hrabstwie nie jest w danym roku ani niższa, ani wyższa, a tylko robi takie wrażenie w wyniku przypadkowego losowania. Gdyby tę analizę powtórzyć rok później, zaobserwujemy tę samą ogólną prawidłowość (wyniki skrajne częściej pojawią się w małych próbkach), jednak w hrabstwach, gdzie przed rokiem nowotwory pojawiały się często, tym razem wcale nie musi występować wysoka zapadalność. Jeśli tak będzie, różnice pomiędzy hrabstwami gęsto zaludnionymi a wiejskimi okażą się nie rzeczywistym faktem, lecz czymś, co naukowcy nazywają „artefaktem”, czyli obserwacją wygenerowaną przez pewien aspekt przyjętej metody badawczej – w tym wypadku przez różnicę w wielkości próbek.
Możliwe, że ta historia cię zaskoczyła, ale nie była dla ciebie jakimś objawieniem. Nie od dzisiaj masz świadomość, że wyniki oparte na dużych próbkach są bardziej miarodajne od wyników opartych na małych – tak działa prawo wielkich liczb, o którym słyszeli nawet ludzie, którzy nie splamili się wiedzą statystyczną. Jednak wiedza o czymś nie jest kwestią typu „wiem albo nie wiem”. Być może stwierdzisz, że poniższe obserwacje odnoszą się również do ciebie:
→ W badaniu zapadalności na raka nie rzuciło ci się od razu w oczy, że istotną rolę odegra cecha „obszary rzadko zaludnione”.
→ Zaskoczył cię (choć trochę) rozmiar różnicy w wynikach między próbkami złożonymi z czterech i z siedmiu kulek.
→ Nawet teraz musisz dokonać pewnego wysiłku umysłowego, żeby uświadomić sobie, że dwa poniższe zdania mają dokładnie takie samo znaczenie:
→ Duże próbki są precyzyjniejsze niż małe.
→ Małe próbki częściej niż duże dają skrajne rezultaty.
Pierwsze zdanie wyraźnie brzmi sensownie, ale dopóki nie ogarniesz intuicyjnie znaczenia jego drugiej wersji, tak naprawdę nie będziesz rozumieć zdania pierwszego.
Krótko mówiąc: owszem, wiedziałeś, że wyniki oparte na dużych próbkach są precyzyjniejsze, ale teraz być może rozumiesz już, że nie wiedziałeś tego zbyt dobrze. Nie jesteś pod tym względem wyjątkiem. Pierwsze badanie, które przeprowadziliśmy z Amosem, pokazało, że nawet doświadczeni badacze mają słabą intuicję statystyczną i nie najlepiej rozumieją skutki wielkości próbki.
Moja współpraca z Amosem na początku lat siedemdziesiątych zaczęła się od dyskusji na temat tego, czy ludzie bez przygotowania statystycznego są dobrymi „statystykami intuicyjnymi”. Amos opowiedział uczestnikom mojego seminarium o badaczach z Uniwersytetu Michigan, których zdanie na temat statystyki intuicyjnej było ogólnie optymistyczne. Miałem do tej kwestii silny stosunek emocjonalny, bo brałem ją bardzo do siebie: zdążyłem wtedy odkryć, że jestem marnym statystykiem intuicyjnym i nie chciało mi się wierzyć, że jestem gorszy od innych.
Dla psychologa różnice wynikające z opierania się na próbkach nie są zwykłą ciekawostką; są nieustannym utrapieniem i kosztowną przeszkodą, która może zamienić dowolny projekt badawczy w czystą loterię. Wyobraźmy sobie, że chcesz potwierdzić hipotezę, iż statystyczna sześciolatka ma bogatsze słownictwo od statystycznego rówieśnika płci męskiej. Hipoteza ta jest prawdziwa dla całości populacji – dziewczynki statystycznie znają więcej słów. Jednak poszczególne dzieci są bardzo różne, więc możesz trafić na próbkę, w której nie będzie widać bezspornej różnicy, albo nawet chłopcy osiągną lepszy wynik. Jeśli jesteś badaczem, taki wynik będzie kosztowny, bo zmarnujesz czas i pracę, a i tak nie uda ci się potwierdzić prawdziwości hipotezy. Jedynym sposobem na zmniejszenie tego ryzyka będzie użycie odpowiednio licznej próbki. Badacze, którzy wybierają zbyt małą próbkę, są zdani na łaskę ślepego trafu.
Istnieje dość prosta procedura matematyczna, która pozwala ustalić ryzyko błędu dla próbki określonej wielkości, jednak utarło się, że psycholodzy decydują o liczności próbki nie na podstawie wyliczeń, lecz własnej fachowej oceny, która często okazuje się niedoskonała. Na krótko przed dyskusją z Amosem czytałem artykuł, który w dość dramatyczny sposób wykazywał błąd często popełniany przez badaczy (nawiasem mówiąc, badacze popełniają go po dziś dzień). Autor artykułu podkreślał, iż psychologom często zdarza się wybierać próbki tak małe, że ryzyko niepotwierdzenia prawdziwej hipotezy wynosi aż 50 procent133! Żaden badacz o zdrowych zmysłach nie zaakceptowałby takiego ryzyka. Błędne decyzje psychologów na temat liczności próbki można było w wiarygodny sposób wyjaśnić tezą, że biorą się one z częstych intuicyjnych nieporozumień dotyczących możliwego zakresu wariacji w próbce.
Artykuł był dla mnie szokiem, bo częściowo wyjaśniał problemy, z którymi się borykałem we własnych badaniach. Tak jak większości psychologów rutynowo zdarzało mi się dobierać za małe próbki i często otrzymywałem bezsensowne wyniki. Teraz zrozumiałem dlaczego: dziwne wyniki były w rzeczywistości artefaktami mojej metody badawczej.