3.5. Оценка надежности тестов
Несмотря на кажущуюся простоту, данная проблема постоянно находится в фокусе внимания психометристов, порождая нескончаемый поток публикаций [72; 73; 138; 147]. Публикации, посвященные различным аспектам надежности, начали появляться и в советской литературе [75; 79; 87; 184; 274; 277].
В современной психометрии стало уже привычным в качестве фундаментальных характеристик пригодности теста как измерительного инструмента выделять его надежность и валидность.
Однако, несмотря на все возрастающее внимание к проблеме надежности, многие ее аспекты остаются недостаточно разработанными, дискуссионными. Как отмечается в одной из последних работ по психологическому тестированию, изданных за рубежом [325], в течение многих десятилетий усилия исследователей концентрировались главным образом на совершенствовании методов, посредством которых оценивается согласованность измерения, и лишь сравнительно недавно взоры стали обращаться к вопросам, связанным с установлением причин, обусловливающих недостаточную надежность тех или иных тестов.
Поэтому и в подходах к трактовке различных аспектов этого понятия, в интерпретации конкретных коэффициентов надежности, наконец, в понимании взаимосвязи надежности и валидности все еще сохраняется немало спорных, а то и просто неосвещенных моментов. В частности, недостаточно четко специфицированы отдельные аспекты надежности, остаются «белые пятна» и в вопросе о факторах, создающих погрешность измерения, недостаточно проанализированы и пути повышения надежности тестовых методик. Все это делает проблему надежности одной из наиболее актуальных в современной тестологии.
Надежность (reliability — англ.) теста – это характеристика точности его как измерительного инструмента, устойчивости его к действиям помех (состояние испытуемых, их отношение к процессу тестирования и др.).
При разработке теста на базе репрезентативной выработки исследователь отбирает задачи, вопросы (или модифицирует их) таким образом, чтобы распределение реальных тестовых оценок было по возможности близко к нормальному. Величина дисперсии в этом случае считается истинной и обозначается через D или s2.
Каждый член тестированной выборки занимает свое определенное место на шкале «сырых» оценок и шкале стандартных отклонений. Теоретически это место для каждого члена выборки должно быть постоянно. Повторное выполнение теста теми же испытуемыми