Психологическое тестирование: типы и методы, проведение, результаты и разработка тестов

Психологическое тестирование, также называемое психометрикой, — систематическое использование тестов для количественной оценки психофизического поведения, способностей и проблем, а также для составления прогнозов относительно психологических показателей.

Слово “тест” относится к любым средствам (часто формально надуманным), используемым для получения ответов, с которыми может быть связано поведение человека в других контекстах. Когда такое средство предназначено для предсказания относительно отдаленного будущего поведения (например, успеха в школе), оно называется тестом способностей. Если он используется для оценки нынешних академических или профессиональных навыков человека, его можно назвать тестом достижений.

В таких учреждениях, как бюро профориентации, клиники психического здоровья и психиатрические больницы, тесты способностей и личности могут быть полезны для диагностики и выявления проблемного поведения. Как промышленность, так и правительство активно используют тесты для отбора работников. Исследователи часто полагаются на тесты, чтобы перевести теоретические концепции (например, интеллект) в экспериментально полезные показатели.

Содержание

Общие проблемы измерения в психологии

Физические вещи воспринимаются через их свойства или атрибуты. Мать может непосредственно ощутить свойство, называемое температурой, пощупав лоб своего младенца. Однако она не может непосредственно наблюдать колики или разделить личный опыт младенца в отношении голода. Она должна сделать вывод о таких ненаблюдаемых частных ощущениях, услышав плач или бульканье ребенка, увидев, как он размахивает руками, хмурится или улыбается. Таким же образом, многое из того, что называется измерением, должно быть сделано путем умозаключения. Так, мать, подозревая, что у ее ребенка жар, может использовать термометр, и в этом случае она определяет его температуру, глядя на термометр, а не непосредственно прикасаясь к его голове.

Действительно, измерение путем умозаключений особенно характерно для психологии. Такие абстрактные свойства или атрибуты, как интеллект или интроверсия, никогда не измеряются напрямую, а должны выводиться из наблюдаемого поведения. Умозаключение может быть как прямым, так и косвенным. Если люди отвечают разумно (например, правильно рассуждают) на тесте способностей, можно с уверенностью заключить, что они обладают интеллектом в той или иной степени. В отличие от этого, способность людей создавать ассоциации или связи, особенно необычные, между вещами или идеями, представленными в тесте, может быть использована в качестве основы для вывода о креативности, хотя для создания креативного продукта требуются другие атрибуты, включая мотивацию, возможности и технические навыки.

Типы измерительных шкал

Измерить какое-либо свойство или действие – значит присвоить ему уникальную позицию на числовой шкале. Когда числа используются только для идентификации отдельных людей или классов (как на спинах спортсменов футбольной команды), они представляют собой номинальную шкалу. Когда набор чисел отражает только относительный порядок вещей (например, приятность-неприятность запахов), он представляет собой порядковую шкалу. Интервальная шкала имеет равные единицы измерения и произвольно назначаемую нулевую точку; одной из таких шкал, например, является температурная шкала Фаренгейта. Шкалы соотношений не только имеют равные единицы измерения, но и абсолютные нулевые точки; примерами могут служить меры веса и расстояния.

Хотя предпринимались изобретательные попытки создать психологические шкалы с абсолютным нулем, психологи обычно довольствуются приближениями к интервальным шкалам; часто используются и порядковые шкалы.

Первичные характеристики методов или инструментов

Основным требованием к тесту является валидность – традиционно определяемая как степень, в которой тест действительно измеряет то, что он призван измерять. Тест надежен в той степени, в какой он последовательно измеряет, но надежность не имеет значения, если тест не валиден. Поскольку человек, делающий выводы из теста, должен определить, насколько хорошо он служит его целям, оценка валидности неизбежно требует суждения. В зависимости от используемых критериев суждения, тесты демонстрируют несколько различных видов валидности.

Эмпирическая валидность (также называемая статистической или прогностической валидностью) описывает, насколько тесно баллы по тесту соответствуют (коррелируют) с поведением, измеряемым в других контекстах. Например, оценки учащихся по тесту на академические способности могут сравниваться с их школьными оценками (широко используемый критерий). В той степени, в которой эти два показателя статистически соответствуют друг другу, тест эмпирически предсказывает критерий успеваемости в школе. Предсказательная валидность имеет наиболее важное применение в тестировании способностей (например, при отборе кандидатов на работу, при распределении в учебные заведения, при назначении военнослужащих на различные должности).

В качестве альтернативы, тест может быть проверен просто для того, чтобы убедиться, что его содержание соответствует его предполагаемой цели. Такая проверка содержания широко используется при измерении академической успеваемости, но с признанием неизбежной роли суждений. Так, тест по геометрии обладает валидностью содержания (или учебной программы), если эксперты (например, учителя) считают, что он адекватно отражает школьную программу по данной теме. При широком толковании содержание охватывает как желаемые навыки (например, вычислительные способности), так и пункты информации в случае тестов достижений. Лицевая валидность (грубый вид валидности содержания) отражает приемлемость теста для таких людей, как ученики, родители, работодатели и государственные чиновники. Тест, который выглядит валидным, желателен, но внешняя валидность без более фундаментальной валидности – не более чем витрина.

В тестировании личности суждения о содержании теста, как правило, особенно ненадежны, а надежные внешние критерии встречаются редко. Например, можно предположить, что человек, который чрезмерно потеет, испытывает тревогу. Однако его чувство тревоги, если оно есть, не поддается непосредственному наблюдению. Любая предполагаемая черта (например, тревожность), которая, как считается, лежит в основе наблюдаемого поведения, называется конструктом. Поскольку сам конструкт не поддается прямому измерению, адекватность любого теста в качестве меры тревожности может быть оценена только косвенно, например, через доказательство его конструктивной валидности.

Тест демонстрирует конструктивную валидность, если установлено, что люди с низкими и высокими показателями по-разному реагируют на повседневный опыт или экспериментальные процедуры. Например, тест, предположительно измеряющий тревожность, будет свидетельствовать о конструктной валидности, если будет доказано, что люди с высокими показателями (“высокая тревожность”) учатся менее эффективно, чем люди с более низкими показателями. Обоснование заключается в том, что с понятием тревожности связано несколько утверждений: тревожные люди, скорее всего, будут учиться менее эффективно, особенно если они не уверены в своей способности к обучению; они, скорее всего, упустят из виду то, на что им следует обратить внимание при выполнении задания; они склонны испытывать напряжение и, следовательно, чувствовать усталость. (Но тревожные люди могут быть молодыми или старыми, умными или неинтеллигентными). Если люди с высокими баллами по тесту тревожности демонстрируют такие предложенные признаки тревожности, то есть если тест тревожности имеет ожидаемые связи с другими измерениями, как указано в этих предложениях, тест рассматривается как обладающий конструктной валидностью.

На надежность теста влияют точность подсчета баллов, адекватность выборки содержания и стабильность измеряемого признака. Надежность подсчета баллов относится к последовательности, с которой разные люди, оценивающие один и тот же тест, соглашаются друг с другом. Для теста с определенным ключом для ответа надежность оценщика не имеет особого значения. Однако, когда испытуемый отвечает своими словами, почерком и организацией предмета, предубеждения разных оценщиков приводят к тому, что один и тот же тест получает разные оценки от одного оценщика к другому; то есть тест демонстрирует ненадежность оценщика (или оценщиков). В отсутствие объективного ключа для подсчета баллов оценка эксперта может отличаться в разные периоды времени и от оценок одинаково уважаемых экспертов. При прочих равных условиях предпочтительнее тесты, допускающие объективное оценивание.

Надежность также зависит от репрезентативности, с которой тесты выбирают тестируемое содержание. Если баллы, полученные по пунктам теста, которые представляют определенную совокупность содержания, спроектированную как достаточно однородная (например, словарный запас), высоко коррелируют с баллами по другому набору пунктов, отобранных из той же совокупности содержания, тест имеет высокую надежность по содержанию. Но если совокупность содержания очень разнообразна, поскольку в ней представлены различные факторы (например, вербальное мышление и умение работать с числами), тест может иметь высокую надежность содержания, но низкую внутреннюю согласованность.

Для большинства целей результаты испытуемого по одному и тому же тесту изо дня в день должны быть постоянными. Если такие результаты имеют тенденцию оставаться стабильными с течением времени, тест демонстрирует временную надежность. Колебания баллов могут быть вызваны нестабильностью черты характера; например, участник теста может быть счастливее в один день, чем в другой. Или временная ненадежность может отражать непродуманное построение теста.

Среди основных методов, с помощью которых оценивается надежность теста, есть метод сравнимых форм, в котором оценки группы людей по одной форме теста сравниваются с оценками, полученными ими по другой форме. Теоретически, метод сравнимых форм может отражать надежность оценщика, содержания и временную надежность. В идеале это требует, чтобы каждая форма теста была составлена разными, но одинаково компетентными людьми, чтобы формы давались в разное время и оценивались вторым экспертом (если не установлен объективный ключ).

В методе “тест-ретест” коррелируют оценки одной и той же группы людей, полученные в результате двух администраций одного и того же теста. Если промежуток времени между проведением теста слишком мал, память может неоправданно усилить корреляцию. Например, некоторые люди могут найти слова, которые они пропустили при первом выполнении теста на словарный запас, и таким образом повысить свои баллы во второй раз. Слишком большой интервал может привести к различным эффектам для каждого человека из-за разной скорости забывания или обучения. За исключением очень легких тестов на скорость (например, в которых оценка человека зависит от того, насколько быстро он способен выполнить простое сложение), этот метод может дать неверные оценки надежности.

Методы оценки внутренней согласованности для оценки надежности требуют только одного проведения теста в одной форме. Один из методов предполагает получение оценок по отдельным половинам теста, обычно по нечетным и четным пунктам. Степень соответствия (которая выражается численно в виде коэффициента корреляции) между оценками по этим половинам теста позволяет оценить надежность теста (в полном объеме) с помощью статистической поправки.

Это вычисляется с помощью формулы пророчества Спирмена-Брауна (для оценки увеличения надежности, ожидаемой в результате увеличения длины теста). Чаще используется обобщение этой ступенчатой оценки надежности с разделением пополам, одна из формул Кудера-Ричардсона. Эта формула представляет собой среднее значение оценок, полученных в результате всех возможных способов разделения теста на половины.

Другие характеристики

Тест, на проведение которого требуется слишком много времени, бесполезен для большинства рутинных приложений. Однако то, что является разумным периодом времени тестирования, частично зависит от решений, которые должны быть приняты на основе теста. Каждый тест должен сопровождаться практичной и экономически целесообразной схемой подсчета баллов, предпочтительнее та, которая может быть подсчитана машиной или быстро обученным персоналом.

Большая и противоречивая литература была создана вокруг наборов ответов, т.е. тенденций испытуемых систематически отвечать на вопросы независимо от содержания. Так, испытуемый может быть склонен отвечать на вопросы личностного теста только социально желательным образом, выбирать первую альтернативу из каждого набора ответов с несколькими вариантами выбора или ошибаться (т.е. намеренно давать неправильные ответы).

Наборы ответов вытекают из того, как испытуемые воспринимают ситуацию тестирования и справляются с ней. Если они проходят тестирование неохотно, они могут отвечать небрежно и поспешно, чтобы быстрее пройти тест. Если им трудно решить, как ответить на вопрос, они могут угадать или, при самоописании, выбрать вариант “да” или социально желательный вариант. Они могут даже мысленно переформулировать вопрос, чтобы облегчить ответ. Качество результатов тестирования ухудшается, когда цели администратора теста и реакции испытуемых на тестирование не согласуются. Современное построение тестов направлено на уменьшение нежелательного влияния реакций испытуемых.

Типы инструментов и методов

Психофизические шкалы и психометрические, или психологические, шкалы

Концепция абсолютного порога (наименьшей интенсивности, при которой воспринимается сенсорный стимул, например, звуковые волны) принадлежит немецкому философу Иоганну Фридриху Гербарту. Немецкий физиолог Эрнст Генрих Вебер позже заметил, что наименьшая различимая разница в интенсивности пропорциональна начальной интенсивности стимула. Вебер обнаружил, например, что, хотя люди могут просто заметить разницу после незначительного изменения веса 10-граммового предмета, им требуется более значительное изменение, прежде чем они смогут просто обнаружить разницу со 100-граммовым весом. Этот вывод, известный как закон Вебера, более технически выражается в утверждении, что воспринимаемая (субъективная) интенсивность изменяется математически как логарифм физической (объективной) интенсивности стимула.

В традиционных методах психофизического шкалирования набор стандартных стимулов (например, гирь), которые могут быть упорядочены в соответствии с каким-либо физическим свойством, соотносится с сенсорными суждениями, выносимыми испытуемыми. Например, по методу средней ошибки испытуемым дают стандартный стимул, а затем заставляют их изменять переменный стимул до тех пор, пока они не поверят, что он равен стандартному. Получается среднее (усредненное) значение ряда суждений. Этот метод и многие его вариации использовались для изучения таких впечатлений, как зрительные иллюзии, тактильная интенсивность и слуховой тон.

Психологические (психометрические) методы шкалирования являются развитием только что описанной психофизической традиции. Хотя их целью является расположение стимулов на линейной (прямолинейной) шкале, количественные физические значения (например, громкость или вес) для стимулов не используются. Линейная шкала может представлять отношение индивида к социальному институту, его суждение о качестве художественного произведения, степень проявления личностных качеств или предпочтение различных продуктов питания. Таким образом, психологические шкалы используются для того, чтобы человек оценивал свои собственные характеристики, а также характеристики других людей с точки зрения таких атрибутов, как, например, лидерский потенциал или инициативность.

Помимо расположения людей на шкале, психологическое шкалирование может использоваться для шкалирования объектов и различных характеристик: определение места различных продуктов питания на шкале предпочтений группы людей или определение относительного положения различных характеристик работы с точки зрения тех, кто занимает эту должность. Сообщаемые степени сходства между парами объектов используются для определения шкал или измерений, по которым люди воспринимают эти объекты.

Американский психолог Л.Л. Терстоун предложил ряд теоретико-статистических положений, которые широко используются в качестве обоснования для построения психометрических шкал. Один из методов шкалирования (сравнительное суждение) основан на эмпирическом выборе, который люди делают между членами любой серии парных стимулов. Статистическая обработка для получения численных оценок субъективных (воспринимаемых) расстояний между членами каждой пары стимулов дает психометрическую шкалу. Соответствуют ли вычисленные значения шкалы наблюдаемым сравнительным суждениям, можно проверить эмпирически.

Другой метод психометрического шкалирования Терстоуна (интервалы равной видимости) широко используется в измерении отношения. В этом методе судьи сортируют утверждения, отражающие, например, различную степень эмоциональной интенсивности, по категориям, которые они воспринимают как равноотстоящие друг от друга; среднее (медиана) распределение категорий используется для численного определения значений шкалы. Последующие пользователи такой шкалы оцениваются по средним значениям шкалы утверждений, под которыми они подписались.

Другой психолог, Луис Гуттман, разработал метод, который не требует предварительной группы судей, зависит от интенсивного анализа элементов шкалы и дает сопоставимые результаты. Довольно часто используется тип шкалы, разработанный Ренсисом Лайкертом, в которой для каждого утверждения предлагается, возможно, пять вариантов ответов от категорически “за” до категорически “против”, а альтернативы оцениваются от одного до пяти. Более общая техника (последовательные интервалы) не зависит от предположения, что судьи точно воспринимают размер интервала. Широко используемая графическая шкала оценок представляет собой произвольный континуум с заранее заданными ориентирами для оценивающего (например, прилагательные типа “превосходный”, “средний” и “низкий”).

Тесты в сравнении с опросами

Термин “тест” чаще всего относится к устройствам для измерения способностей или качеств, для которых существуют авторитетные правильные и неправильные ответы. Такой тест можно противопоставить инвентаризации личности, для которой, как часто утверждается, не существует правильных или неправильных ответов. В любом случае, при прохождении того, что часто называют тестом, испытуемых инструктируют сделать все возможное; при заполнении описи их инструктируют представить свои типичные реакции. Различают также, что при ответе на вопросы описи испытуемые контролируют оценку, в то время как в тесте они этого не делают. Если тест рассматривать более широко, как набор стимульных ситуаций, которые вызывают ответы, из которых можно сделать выводы, то инвентаризация, согласно этому определению, является разновидностью теста.

Тесты со свободным ответом и тесты с ограниченным ответом

Тесты со свободным ответом предполагают мало ограничений на форму или содержание ответа, в то время как тесты с ограниченным ответом ограничивают ответы одним из меньшего числа представленных вариантов (например, истина-ложь). Тест с эссе стремится к одной крайности (свободный ответ), в то время как так называемый полностью объективный тест находится в другой крайности (ограниченный ответ).

Однако ответ на вопрос эссе не является полностью неограниченным, поскольку ответ должен быть связан с вопросом. Тест со свободным ответом дает возможность попрактиковаться в написании сочинения, и, если эксперт хорошо разбирается в письменной речи, его комментарии к тесту могут помочь человеку улучшить свой стиль письма. Однако слишком часто умение писать, к сожалению, влияет на суждение эксперта о том, насколько хорошо участник теста понимает содержание, и это снижает надежность теста. Другой источник ненадежности тестов эссе заключается в ограниченности выборки содержания, в отличие от более широкого охвата, который возможен в объективных тестах. Часто надежность тестов эссе можно повысить как с точки зрения оценки, так и с точки зрения содержания, но такие попытки требуют значительных затрат.

Объективный тест, который минимизирует ненадежность оценщика, лучше всего характеризуется формой множественного выбора, в которой испытуемый должен выбрать один из двух или (предпочтительно) более ответов на тестовый вопрос. К этой форме относятся и вопросы на соответствие, имеющие общий набор альтернатив. Вопрос теста “истина-ложь” – это особая форма множественного выбора, которая может вызывать антагонизм из-за переменных стандартов истинности или ложности.

Более общие вопросы с множественным выбором более приемлемы, когда требуется только выбрать лучший ответ; они гибкие, имеют высокую надежность и не ограничиваются простым знанием фактов. Изобретательный составитель тестов может использовать пункты с множественным выбором для проверки таких функций, как обобщение, применение принципов и способность выводить незнакомые взаимосвязи.

Некоторые личностные тесты представлены в формате принудительного выбора. Например, в них человеку предлагается выбрать одно из двух благоприятных слов или фраз (например, умный-красивый) как более характеризующее его самого или одно из двух неблагоприятных как менее характеризующее (например, глупый-уродливый). Отметка одного варианта дает выигрыш в баллах по какому-либо признаку, но может также исключить зачет по другому признаку. Эта методика призвана устранить любые эффекты от попыток испытуемых представить себя в социально желательном свете; однако она не вполне успешна, поскольку то, что очень желательно для одного человека, может быть менее желательно для другого.

Техника принудительного выбора при самооценке является примером широко используемого опросника интересов. Оценки с принудительным выбором были введены для оценки одного военного офицера другим во время Второй мировой войны. Это была попытка избежать преобладания высоких оценок, обычно получаемых при использовании обычных рейтинговых шкал. Оценщики склонны давать тем, кого оценивают, преимущество, особенно если это коллеги по работе. Кроме того, руководители или преподаватели могут давать неоправданно благоприятные оценки, поскольку считают, что хорошая работа подчиненных или студентов отражается на них самих.

Между тестами со свободным и ограниченным ответом находится тип, который требует короткого ответа, возможно, одного слова или числа, на каждый пункт. Когда требуемый ответ должен быть вписан в пустое место в предложении, тест называется тестом на завершение. Этот тип теста подвержен ненадежности оценщика.

Тест личности, в котором испытуемый отвечает, интерпретируя картинку или рассказывая предложенную историю, похож на тест эссе, за исключением того, что ответы обычно даются устно. Инвентаризация личности, которая требует от испытуемого указать, применима ли к нему описательная фраза или нет, относится к типу ограниченного ответа. Тест личности с заполнением предложений, в котором испытуемого просят закончить такие утверждения, как “Я беспокоюсь, потому что…”, относится к типу коротких ответов. “, относится к типам с кратким ответом и завершением.

Вербальные тесты в сравнении с тестами на производительность

В вербальном (или символьном) тесте задаются вопросы, на которые испытуемый дает символические ответы (словами или другими символами, например, цифрами). В тестах на производительность испытуемый фактически выполняет определенную двигательную активность; например, он собирает механические предметы. Оценивается либо качество выполнения, либо его результаты. Вербальный тест, допускающий групповое применение, не требующий специального оборудования и часто поддающийся сканированию относительно неквалифицированными оценщиками, как правило, более практичен, чем тест производительности. Оба типа устройств также имеют аналоги в измерении личности, в котором используются вербальные тесты, а также оценки поведения.

Письменные (групповые) и устные (индивидуальные) тесты

Устный тест проводится для одного человека за один раз, в то время как письменные тесты могут проводиться одновременно для нескольких испытуемых. Устные тесты достижений, будучи неэкономичными и подверженными ненадежности содержания и результатов, были вытеснены письменными тестами; заметными исключениями являются тестирование неграмотных и анахроничные устные экзамены, которым подвергаются кандидаты на получение степени.

Сторонники индивидуально проводимых тестов интеллекта (например, теста Стэнфорда-Бинета) утверждают, что такое тестирование лицом к лицу оптимизирует взаимопонимание и мотивацию, даже среди грамотных взрослых испытуемых. Устные тесты общих способностей остаются популярными, хотя для этой же цели разработано множество письменных групповых тестов.

Интервью может обеспечить измерение личности и, особенно если оно стандартизировано по формулировке и порядку вопросов и имеет ключ для кодирования ответов, может быть приравнено к индивидуальному устному тесту. Используемые в исследованиях общественного мнения, такие интервью тщательно разрабатываются, чтобы избежать влияния предвзятости интервьюера и быть понятными для весьма неоднородной выборки респондентов.

Оценка другими людьми в сравнении с самооценкой

Отвечая на вопросы личностных опросников и рейтинговых шкал, человек, предположительно, сообщает, каким он себя считает, то есть оценивает себя. Другие инструменты могут отражать то, что один человек думает о другом. Поскольку самооценке часто не хватает объективности, оценка другим человеком является обычной в таких вещах, как рейтинги для продвижения по службе. Обычные тесты способностей явно подразумевают оценку одного человека другим, хотя самооценка испытуемого может вмешиваться; например, ему может не хватать уверенности до такой степени, что он не будет стараться сделать все возможное.

Проективные тесты

Стимулы (например, чернильные кляксы) в проективном тесте намеренно делаются неоднозначными и открытыми для различных интерпретаций в расчете на то, что каждый испытуемый отразит в своих ответах собственные уникальные (идиосинкразические) реакции. Методы оценки таких ответов варьируются от интуитивных впечатлений проверяющего до сложных, закодированных схем подсчета баллов и интерпретации, требующих обширных руководств; некоторые проективные тесты поддаются объективной оценке.

Тесты на скорость в сравнении с силовыми тестами

Чистый тест на скорость однороден по содержанию (например, простой тест на проверку канцелярских навыков), задания настолько просты, что при наличии неограниченного времени с ними успешно справятся все, кроме самых некомпетентных испытуемых. Однако время, отведенное на тестирование, настолько мало, что даже самый способный испытуемый не успеет его закончить. Полезная оценка – это количество правильных ответов, сделанных за фиксированное время. В отличие от этого, тест на мощность (например, тест по общему словарному запасу) содержит пункты, которые различаются по сложности настолько, что ни один испытуемый не сможет правильно ответить на все пункты даже при наличии неограниченного времени. На практике для тестов на мощность устанавливается определенное, но достаточное время.

Тесты на скорость подходят для проверки зрительного восприятия, умения считать и других способностей, связанных с профессиональным успехом. Тесты на психомоторные способности (например, координация глаз-рук) часто предполагают скорость. Силовые тесты, как правило, более актуальны для таких целей, как оценка академической успеваемости, для которой наивысший уровень сложности, на котором человек может преуспеть, представляет больший интерес, чем его скорость при выполнении легких заданий.

В целом, тесты отражают неизвестные комбинации эффектов скорости и силы; многие из них состоят из предметов, значительно различающихся по сложности, а отведенное время слишком ограничено, чтобы большая часть испытуемых смогла попробовать все предметы.

Тесты, составленные учителем, в сравнении со стандартизированными тестами

В отношении тестов, используемых для оценки академической успеваемости, часто проводится различие между тестами, составленными учителем, и стандартизированными тестами. Как правило, учителя не пытаются создавать тесты общих или специальных способностей или личностных качеств. Тесты, созданные учителями, как правило, ориентированы на узкие сегменты учебного материала (например, тест по географии для шестого класса). Стандартизированные тесты с тщательно разработанными процедурами проведения и подсчета баллов для обеспечения единообразия могут достигать более широких целей. Общие принципы построения тестов и такие соображения, как надежность и валидность, применимы к обоим типам тестов.

Специальные техники измерения

Социодрама и психодрама первоначально были разработаны как психотерапевтические техники. В социодраме члены группы участвуют в нерепетированной драме, чтобы осветить общую проблему. Психодрама сосредоточена на одном человеке в группе, чья уникальная личная проблема является темой. Соответствующие методы исследования (например, социометрический тест) могут дать представление о межличностных отношениях. Людей можно попросить указать членов группы, которых они предпочитают в качестве лидера, товарища по играм или коллеги. Сделанный выбор можно затем отобразить на социограмме, по которой можно с первого взгляда определить клику или социально изолированных людей.

Психологи-исследователи ухватились за социометрический подход как за средство измерения сплоченности группы и изучения индивидуальных реакций на группы. Можно рассчитать степень, в которой любой член группы выбирает или выбирается сверх случайного ожидания, и использовать математические методы для определения сложных связей между членами группы. Показатели выбора по социограмме оказались полезными для прогнозирования таких критериев, как индивидуальная производительность труда на производстве и эффективность боевых действий.

Разработка стандартизированных тестов

Содержание тестов

Разработка пунктов

После того, как необходимость в тесте установлена, можно подготовить план определения его содержания. Для тестов достижений в плане теста также могут быть указаны мыслительные навыки, подлежащие оценке. Подробные заголовки содержания могут сразу навести на мысль о тестовых заданиях. Полезно, если в плане указаны веса, которые будут присвоены различным темам, а также желаемый средний балл и распределение трудностей пунктов. Независимо от того, составлен такой план или нет, составитель теста должен четко понимать цель теста, совокупность содержания, которое будет отобрано, и формы используемых пунктов.

Пробные задания и анализ пунктов

Набор тестовых вопросов сначала задается небольшой группе людей, которые считаются репрезентативными для населения, для которого предназначен окончательный тест. Планируется, что пробное тестирование позволит проверить инструкции по проведению и сдаче теста и предполагаемое время, а также выявить неясности в содержании теста. После корректировки сохранившиеся пункты вводятся для более крупной, якобы репрезентативной группы. Полученные данные позволяют рассчитать индекс сложности каждого пункта (часто принимаемый за процент испытуемых, ответивших правильно) и индекс дискриминации между пунктом и тестом или пунктом и подтестом (например, коэффициент корреляции, определяющий связь каждого пункта с общим баллом теста или подтеста).

Если это возможно, то для валидизации пунктов получают показатели связи каждого пункта с независимыми критериями (например, оценками, полученными в школе). Слишком легкие или слишком трудные пункты отбрасываются; определяются те, которые находятся в желаемом диапазоне сложности. Если требуется внутренняя согласованность, исключаются предметы, которые не связаны ни с общим баллом, ни с соответствующим субтестом, и определяются предметы, связанные с доступными внешними критериями. Те пункты, которые показывают наибольшую эффективность в предсказании внешнего критерия (наивысшая валидность), обычно предпочитаются тем, которые вносят вклад только во внутреннюю согласованность (надежность).

Обычно рассчитываются оценки надежности для всего набора пунктов, а также для тех, которые должны быть оставлены. Если оценка надежности считается слишком низкой, пункты могут быть добавлены. Каждая альтернатива в заданиях с множественным выбором также может быть подвергнута статистическому анализу. Слабые неправильные альтернативы могут быть заменены, а те, которые чрезмерно привлекательны для испытуемых с более высокими баллами, могут быть изменены.

Перекрестная валидация

Процедуры отбора пунктов подвержены случайным ошибкам при отборе испытуемых, поэтому статистические значения, полученные в ходе предварительного тестирования, обычно проверяются (перекрестная валидация) на одной или нескольких дополнительных выборках испытуемых. Обычно обнаруживается, что значения перекрестной валидации имеют тенденцию к уменьшению для многих пунктов, которые оказались лучшими в исходных данных, и могут быть найдены другие пункты, которые следует отбросить. Пользователи тестов часто ищут меры корреляции между общим результатом теста и результатами других, более известных тестов.

Дифференцированное взвешивание

Может показаться, что некоторые пункты теста заслуживают дополнительного, положительного веса; некоторые ответы в тестах с несколькими вариантами ответов, хотя и являются неправильными, кажутся лучше других, поскольку они привлекают людей, набравших высокие баллы в целом. Тем не менее, большая часть теоретической логики и эмпирических данных говорит о том, что единичные веса для отобранных предметов и нулевые веса для отброшенных предметов, а также дихотомическая оценка (верно или неверно) для предметов с множественным выбором почти так же эффективны, как и более сложная оценка. Кропотливые усилия по взвешиванию предметов, как правило, не стоят того.

Отрицательный вес за неправильные ответы обычно избегают, так как это приводит к излишним осложнениям. В заданиях с множественным выбором количество ответов, которые знает испытуемый, в отличие от количества правильных ответов (которые будут включать несколько удачных догадок), может быть оценено по формуле. Но такая усредненная коррекция перехваливает невезучих и недохваливает везучих. Если в инструкции сказано не угадывать, она по-разному интерпретируется людьми разного темперамента; тем, кто решает угадать, несмотря на запрет, часто помогает частичное знание, и они, как правило, показывают лучшие результаты.

Ответственной тактикой является попытка уменьшить эти различия путем указания испытуемым отвечать на каждый вопрос, даже если они должны угадать. Такие инструкции, однако, не подходят для некоторых соревновательных тестов на скорость, поскольку кандидаты, которые отмечают вопросы очень быстро и не обращают внимания на точность, превосходят других, если скорость является единственной основой для подсчета баллов; то есть, если неправильные ответы не наказываются.

Нормы теста

Нормы теста состоят из данных, которые позволяют определить относительное положение человека, прошедшего тест. Сам по себе сырой балл испытуемого (например, количество ответов, совпадающих с ключом для подсчета баллов) имеет мало значения. Почти всегда результат теста должен интерпретироваться как указание на положение испытуемого относительно других в некоторой группе. Нормы обеспечивают основу для сравнения индивидуума с группой.

Числовые значения, называемые центилями (или процентилями), служат основой для одной широко применяемой системы норм. По распределению сырых баллов группы можно определить процент испытуемых, находящихся ниже любого заданного сырого балла. Затем любой сырой балл может быть интерпретирован относительно показателей референтной (или нормативной) группы – восьмиклассников, пятилетних детей, заключенных, претендентов на работу. Таким образом, центильный ранг, соответствующий каждому сырому баллу, показывает процент испытуемых, набравших ниже этого балла. Так, 25 процентов нормативной группы набирают баллы ниже 25-го центиля; а среднее значение, называемое медианой, соответствует 50-му центилю.

Другой класс системы норм (стандартные баллы) основан на том, насколько каждый необработанный балл выше или ниже среднего балла – среднего арифметического. Один из результирующих типов стандартных баллов, обозначаемый z, положителен (например, +1,69 или +2,43) для сырого балла выше среднего и отрицателен для сырого балла ниже среднего. Однако отрицательных и дробных значений можно избежать на практике, используя другие типы стандартных баллов, получаемых путем умножения z баллов на произвольно выбранную константу (например, 10) и добавления другой константы (например, 50, что изменяет среднее значение z баллов, равное нулю, на новое среднее значение, равное 50). Такие изменения констант не меняют существенных характеристик базового набора z-баллов.

Французский психолог Альфред Бине, будучи пионером в разработке тестов интеллекта, перечислил пункты тестов по нормативной шкале на основе хронологического возраста (фактического возраста в годах и месяцах) групп детей, которые их проходили. Каждому испытуемому присваивался балл умственного возраста (например, семь), указывающий на хронологический возраст (например, семь лет) в контрольной выборке, для которой его сырой балл был средним. Однако умственный возраст не является прямым показателем яркости; умственный возраст семь лет у десятилетнего ребенка отличается от того же умственного возраста у четырехлетнего.

Чтобы исправить это, позднее была разработана форма IQ (коэффициент интеллекта), вычисляемая как отношение умственного возраста субъекта к его хронологическому возрасту, умноженное на 100. (Таким образом, IQ позволял легко определить, был ли ребенок умным или тупым для своего возраста).

Соотношение IQ для младших возрастных групп демонстрирует среднее значение, близкое к 100, и разброс примерно в 45 пунктов выше и ниже 100. Классический коэффициент IQ был в значительной степени вытеснен коэффициентом отклонения IQ, в основном потому, что разброс вокруг среднего значения не был равномерным из-за различных диапазонов сложности предметов на разных возрастных уровнях. IQ по отклонению, разновидность стандартного балла, имеет среднее значение 100 и стандартное отклонение 16 для каждого возрастного уровня. Практика работы с тестом Стэнфорда-Бинета отражает вывод о том, что средние показатели по тесту не увеличиваются после 18 лет. Поэтому для определения IQ хронологический возраст любого человека старше 18 лет принимается за 18 лет.

Тест Стэнфорда-Бинета был в значительной степени вытеснен несколькими тестами, разработанными американским психологом Дэвидом Вехслером в период с конца 1930-х до начала 1960-х годов. В этих тестах есть субтесты на несколько способностей, некоторые вербальные и некоторые операциональные, каждый субтест имеет свои нормы. После создания тестов для взрослых, Вехслер разработал тесты для детей старшего и младшего возраста.

Оценка структуры теста

Факторный анализ

Факторный анализ – это метод оценки, часто используемый для систематического анализа интеллектуальных способностей и других областей тестирования, таких как личностные показатели. Сразу после начала XX века британский психолог Чарльз Э. Спирмен систематически исследовал положительные интеркорреляции между показателями различных способностей, чтобы получить доказательства того, что большая часть вариативности оценок, полученных детьми по тестам интеллекта, зависит от одного общего базового фактора, который он назвал g. Кроме того, он считал, что каждый тест содержит фактор s, характерный только для него. В Соединенных Штатах Терстоун разработал статистический метод, названный им многофакторным анализом, с помощью которого он смог продемонстрировать, что в наборе тестов интеллекта существуют первичные умственные способности, такие как вербальное понимание, числовые вычисления, пространственная ориентация и общее мышление. Хотя более поздние работы подтвердили различие между этими способностями, окончательной таксономии способностей так и не было создано. Одним из элементов этой проблемы является обнаружение того, что каждая такая способность может быть показана состоящей из более узких факторов.

Первые вычислительные методы в факторном анализе были вытеснены математически более элегантными, сгенерированными компьютером решениями. Если ранние методы были в основном исследовательскими, то шведский статистик Карл Густав Йереског и другие разработали процедуры, позволяющие исследователю проверять гипотезы о структуре в наборе данных.

Основанная на широком применении факторного анализа модель структуры интеллекта, разработанная американским психологом Джой Полом Гилфордом, предполагала очень большое количество факторов интеллекта. Гилфорд предполагал три пересекающихся измерения, соответствующих соответственно четырем видам содержания теста, пяти видам интеллектуальных операций и шести видам продукта. Предполагалось, что каждая из 120 ячеек созданного таким образом куба представляет собой отдельную способность, каждая из которых является отдельным фактором интеллекта. Консультанты по образованию и профессиональному обучению обычно предпочитают значительно меньшее количество баллов, чем 120, подразумеваемых этой моделью.

Факторный анализ также широко используется вне сферы интеллекта, особенно для поиска структуры личности, отраженной в оценках себя и других. Хотя здесь существует еще меньше консенсуса, чем в отношении интеллекта, ряд исследований показывает, что четыре преобладающих фактора могут быть приблизительно обозначены, а именно: конформность, экстраверсия, тревожность и надежность.

Анализ профиля

С дроблением тестов (например, для получения баллов, измеряющих отдельные факторы или кластеры) возникла новая проблема интерпретации различий между баллами, измеряющими основные переменные, как бы они ни были задуманы. Баллы индивида по нескольким таким показателям могут быть изображены графически в виде профиля; для прямой сопоставимости все необработанные баллы могут быть выражены в терминах стандартных баллов, которые имеют одинаковые средние и переменные. Разница между любой парой оценок, имеющих менее чем идеальную надежность, имеет тенденцию быть менее надежной, чем любая из них, и колебания на графике следует интерпретировать с осторожностью. Тем не менее, можно рассмотреть различные характеристики профиля индивида, такие как разброс (колебания от одного показателя к другому) и относительный уровень показателей по разным показателям. (Следует отметить, что конкретная форма графика частично зависит от произвольного порядка, в котором перечислены показатели). Можно также статистически выразить степень сходства между любыми двумя профилями. Такие статистические меры сходства паттернов позволяют количественно сравнивать профили разных людей, профили работы одного и того же человека в разное время, индивидуальные и групповые профили или один групповой профиль с другим. Сравнение профиля индивида с аналогичными графиками, представляющими средства для различных профессиональных групп, например, полезно для профориентации или отбора персонала.

Если у вас появились вопросы о психологических тестированиях, мы будем рады ответить на них в комментариях ниже.