Что такое параллельная форма теста
Метод параллельных форм.
Метод параллельных форм предполагает двукратное тестирование одной и той же группы испытуемых методиками, которые идентичны по содержанию, структуре, включают задания тождественные по трудности, дифференцирующей способности и др., т.е. параллельными формами.
Главная трудность применения этого метода в том, что прежде чем использовать параллельную форму теста, разработчику надо создать новый тест, тождественный первому и доказать идентичность, а это очень трудоемкая процедура. На практике построить параллельные формы теста очень сложно. Поэтому этот метод с практической точки зрения малоэффективен.
Однократное тестирование (метод расщепления).
Этот метод удобен в практическом применении, так как ограничивается однократным тестированием (диагностикой). Он применяется чаще всего по отношению к тестам и опросникам. Метод расщепления основан на допущении параллельности двух половин методики и предполагает деление результатов тестирования на две части: данные по нечетным заданиям теста (X) и по четным (У). Корреляция двух половин тестов возрастает по мере роста однородности (гомогенности) теста. Поэтому метод расщепления теста называют методом оценки внутренней согласованности и используют для определения гомогенности теста.
Коэффициент надежности вычисляется по формуле:
где результат первого тестирования — это результаты по нечетным заданиям, а второго — по четным заданиям.
Так как подсчет надежности (/С) ведется по расщепленному тесту, который в два раза короче, то оценка надежности исходного корректируется по формуле Спирмена — Брауна:
В практике педагогических измерений часто используется способ оценки надежности с применением формулы Кьюдера — Ричардсона. Она может применяться только в том случае, когда выполнение задания оценивается дихотомически (1 балл — правильно; 0 баллов — неправильно). Также оценка надежности при однократном проведении теста может быть подсчитана на основе коэффициента альфа.
Рассмотренные выше методы определения надежности подходят только для оценки нормативно-ориентированных тестов. По мнению многих тестологов, эти методы нежелательно использовать для вычисления надежности критериально-ориентированного теста, так как дисперсия тестовых баллов в критериально-ориентированном тесте небольшая (здесь не нужна большая дифференциация баллов испытуемых), а соответственно, и корреляционная оценка надежности будет низкой.
Поэтому предлагается другая методика оценки надежности. Надежность теста, ориентированного на область содержания, может быть измерена как постоянство результатов тестирования для испытуемых, которым предлагается два набора тестовых заданий, соответствующие одному и тому же содержанию.
Численный показатель коэффициента надежности критериальноориентированного теста вычисляется с помощью фи-коэффициента корреляции.
1 Воронин Ю.А., Трубина Л. А., Васильева Е. В., Козлова О. В. Курс лекций «Современные средства оценивания результатов обучения» : учеб, пособие.
Вычисляется также каппа-коэффициент как показатель критериально-ориентированного теста по формуле
где Р = А + D — доля испытуемых, получивших «зачет» и «незачет» и в первой, и во второй форме теста; Рс — вероятность случайного принятия согласованного решения.
Рс вычисляется по формуле
Способы повышения надежности теста [1]
Валидность (от англ, validity — значимость, обоснованность, пригодность) — это характеристика способности теста служить поставленной цели измерения, т.е. способность теста измерять то, для чего он предназначен. Определение валидности теста дает ответы на два вопроса: 1) какие выводы можно сделать о том, что измерялось тестом; 2) насколько реальное поведение человека отличается от его поведения при тестировании.
Выделяют несколько видов валидности, которые отражают различные аспекты этого критерия качества теста (А. Анастази; А. Н. Майоров): содержательную, критериальную и конструктную (концептуальную) валидность.
1) Содержательная валидность (content validity) — соответствие теста как измерительного инструмента той области содержания, знания и умения которую проверяют данным тестом. Содержательная валидность особенно важна для тестов умений и знаний, личностных и поведенческих опросников и средств измерения способностей.
В зависимости от выбранного подхода при создании теста предъявляются различные требования к содержательной валидности. Для критериально-ориентированных тестов одно из требований содержательной валидности — полнота отображения, а в некоторых случаях — детализация проверяемой области содержания. При нормативно-ориентированном подходе тест можно охарактеризовать как валидный по содержанию, если он будет хорошо дифференцировать испытуемых и отражать самое важное, свидетельствующее о знании дисциплины.
Валидность по содержанию закладывается в тест уже на этапе работы со спецификацией теста и отбора его содержания. Чтобы выразить содержательную валидность, исследователь должен определить цели тестирования, то какое поведение испытуемых будет подвергаться тестированию и что будет являться репрезентативным отражением этого поведения в тесте.
Для педагогических тестов содержательная валидность оценивается экспертным путем.
2) Критериальная (внешняя) валидность — это характеристика теста, отражающая обоснованность, значимость его результатов по сравнению с некоторой внешней переменной (степень соответствия между результатами тестирования и внешним критерием).
Критериальную валидность определяют как корреляцию результатов тестирования с некоторым внешним критерием. Критерии должны быть проверены на степень адекватности, надежности и загрязненности (контаминантности). Критерий должен отражать значимые аспекты деятельности.
В качестве внешнего критерия могут браться результаты испытуемых по другому тесту, отметки, выставленные по методике традиционного оценивания. Критериальная валидность в зависимости от выбранного критерия может быть текущей (внешний критерий — текущие оценки) или прогностической (критерий — некоторый будущий результат).
Что такое параллельная форма теста
1. НАДЕЖНОСТЬ
Относительное постоянство, устойчивость, согласованность результатов теста. Независимость методики от действия случайных факторов
Устойчивость определяется с помощью повторного тестирования (ретеста)
1.1. Метод повторного тестирования (ретеста)
Ретестовая надежность определяется путем повторного обследования одних и тех же лиц при помощи одной и той же методики. Основан на подсчете корреляции индивидуальных баллов испытуемых, полученных в результате двукратного выполнения ими одного и того же теста. Чем выше коэффициент корреляции, тем выше надежность, и мы получаем примерно то же самое распределение. Обычно повторное тестирование проводится через 1-2 недели. Наименьшим удовлетворительным значением для ретестовой надежности является 0.76
Однако надежность не всех тестов можно проверять этим методом, так как оцениваемое качество, явление или эффект могут быть сами по себе нестабильны (например, наше настроение, которое может меняться от одного замера к следующему). Ещё один недостаток повторного тестирования — это эффект привыкания. Испытуемые уже знакомы с этим тестом, а может быть, даже помнят большую часть своих ответов после предыдущего заполнения.
Внутренняя согласованность (англ. — internal consistency) определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными, насколько каждый отдельный вопрос измеряет признак, на который направлен весь тест. Чаще всего тесты разрабатываются таким образом, чтобы у них была высокая степень внутренней согласованности, а связи с тем, что если одна переменная измеряется частью теста, то тогда в других частях, если они не согласованы с первой, эта же переменная измеряться не может. Таким образом, чтобы тест был валидным, необходимо, чтобы он был согласован.
Для проверки внутренней согласованности применяются различные методы:
1.4. Метод эквивалентных бланков
Состоит в применении двух сопоставимых друг с другом форм теста для большой выборки. Результаты, полученные при выполнении двух форм, сравнивают и высчитывают корреляцию. Если коэффициент корреляции высокий, следовательно, тест надежен.
1.5. Метод альфа Кронбаха
В этом методе, предложенном Ли Кронбахом, сравнивается разброс каждого элемента с общим разбросом всей шкалы. Если разброс результатов теста меньше, чем разброс результатов для каждого отдельного вопроса, то каждый отдельный вопрос направлен на исследование одного и того же общего основания.
Если все вопросы измеряют один и тот же признак, то тест надежен и коэффициент альфа Кронбаха будет равен 1. При случайном разбросе результатов ответов на вопросы, коэффициент альфа Кронбаха будет равен 0, и тест ненадежен.
2. ВАЛИДНОСТЬ ТЕСТА
Валидность теста (от англ. valid – актуальный, подходящий, действительный) – понятие, указывающее, что именно тест измеряет и насколько хорошо он это делает. Это комплексная характеристика, включающая, с одной стороны, сведения о том, пригодна ли методика для измерения того, для чего она была создана, а с другой стороны, какова ее действенность, эффективность.
Не существует какого-то единого универсального подхода к определению валидности. В зависимости от того, какую сторону валидности хочет рассмотреть исследователь, используются и разные способы доказательства. Проверка валидности методики называется валидизацией.
2.1. Концептуальная валидность
Понимается как обоснование с позиции соответствия авторским представлениям об особенностях диагностируемых свойств, как мера соответствия заданий теста авторской концепции этих свойств.
2.2. Содержательная (логическая) валидность
Под содержанием понимается фактический материал, входящий в пункты тестов. Валидность по содержанию оценивает соответствие содержания теста (заданий, вопросов) той реальной деятельности, в которой проявляется измеряемое в методике свойство.
Например, чтобы тест математических способностей имел достаточный уровень содержательной валидности, его пункты не должны иметь таких формулировок, при которых для испытуемого решающими оказываются вербальные способности, необходимые для того, чтобы понять, о чём спрашивается в этом пункте.
Содержание должно быть уравновешено таким образом, чтобы все тестируемые аспекты были представлены. Тест не должен быть перегружен, допустим, пунктами на умножение в ущерб пунктам на сложение.
Установление содержательной валидности есть в значительной степени субъективная операция, основанная на мнениях «экспертов» относительно уместности используемых материалов.
2.3. Конструктная валидность (концептуальная, понятийная, внутренняя валидность)
Под конструктом понимают психологический феномен, который невозможно наблюдать непосредственно, но можно вывести из поведения человека, например, экстраверсия, общий интеллект, открытость, умения и т.д.
Конструктная валидность определяет наличие взаимосвязи между новым и ранее существующим тестом-эталоном, изучающим тот же конструкт, валидность которого была ранее определена. Она указывает на то, что разрабатываемый тест измеряет примерно ту же сферу поведения, способность, личностное качество, что и эталонная методика
При анализе конструктной валидности методики формулируют ряд гипотез о том, как будет коррелировать разрабатываемый тест с широким кругом других тестов, направленных на конструкты, находящиеся в теоретически известной или предполагаемой связи с исследуемыми. Конструктная валидность характеризуется не только связями проверяемого теста с близкородственными показателями эталонного теста, но и с теми, где, исходя из гипотезы, значимых связей наблюдаться не должно.
2.4. Операциональная валидность
Определяет степень соответствия используемой экспериментальной методики (экспериментальных утверждений) теоретическим положениям, которые положены в основу организации и проведения данного эксперимента
2.5. Очевидная (доверительная) валидность
Очевидная валидность показывает в какой степени содержание теста и его заданий (пунктов) выглядит в глазах тестируемого подходящим для данной ситуации. Именно она в первую очередь определяет отношение испытуемых к обследованию. Тест должен восприниматься испытуемым как серьезный инструмент познания его личности.
Наличие очевидной валидности способствует воспринимаемой целесообразности психологического теста и создает у тестируемого впечатления, что тест учитывает его индивидуальность и опыт работы. Позволяет добиться сотрудничества и хорошего раппорта между тестирующим и тестируемыми.
Недостаток очевидной валидности (независимо от технической валидности, или точности, теста) может вызывать у тестируемых чувства раздражения, неудовлетворенности и обманутости, создавать негативное общественное мнение.
Хотя очевидная валидность, на первый взгляд, кажется подобной содержательной валидности, смысл этих показателей различен.
2.6. Критериальная (прагматическая, эмпирическая) валидность
Такая валидность показывает ее практическую полезность. Для этого используется независимый внешний относительно самого теста критерий – показатель проявления изучаемого свойства в повседневной жизни.
Например, практическая задача теста – выявить тех, кто будет эффективен в будущей работе. Критерий «эффективность» определен как % выполнения плана продаж. В таком случае, валидный тест позволяет с определенной вероятностью отделить «выполняющих план» от «не выполняющих план».
Важно можно ли с помощью теста разделить испытуемых на эти две группы. Обладает ли тест дискриминативностью. Важно, что тест или отдельное его задание успешно (с высокими баллами) проходят «эффективные», а неуспешно (с низкими баллами) «неэффективные». В случае, когда группы отличаются друг от друга только по одной переменной, причина дифференциации бывает понятна. Но это не важно. Важно, чтобы тест умел хорошо разделять группы по целевому критерию.
Для вычисления коэффициента валидности сопоставляются результаты, полученные при применении диагностической методики, с данными, полученными по внешнему критерию, тех же лиц. Используются разные виды линейной корреляции (по Спирмену, по Пирсону).
Виды критериальной валидности:
Что такое параллельная форма теста
Как можно описать надежный тест? Надежный тест измеряет некое качество, делает это устойчиво, относительно времени, позволяет сравнивать результаты испытуемых, протестированных в разное время, в разном месте, в разном состоянии.
Вариабельность измеряемого признака (вариативность как свойство психологического измерения) и многомерность, системность и сложность предмета психологии также ставят под сомнение любое измерение в психологии. Для повышения качества психологического измерения в психометрике используется такой показатель как валидность.
На результаты исследования действуют две группы факторов: (1)изменчивость, присущей самому измеряемому свойству, (2) нестабильность измерительной процедуры.
Свойства надежности могут изменяться при изменении:
1. условия проведения обследования,
2. характера заданий,
3. степени сложности заданий,
4. психологического состояния испытуемого.
Ретестовая надежность – характеристика надежности метода психодиагностики путем повторного обследования с помощью одного и того же теста. Надежность вычисляется по соответствию результатов первого и второго обследований или по сохранению ранговых мест испытуемых в выборке при ретесте.
Алгоритм вычисления ретестовой надежности:
1. первичное тестирование на выборке (при N ≥ 30);
2. повторное тестирование через 5 – 6 месяцев на той же самой выборке;
3. вычисление коэффициента корреляции между первичным и повторным тестированием.
Коэффициент надежности rt соответствует коэффициенту корреляции между результатами первичного и повторного обследований.
Ретестовая надежность пригодна для ограниченного числа методик. Это: 1) Сенсомоторные пробы, 2) Тесты скорости, 3) Тесты, имеющие большое количество пунктов (ММ PI ). Одним из «минусов» процедуры определения ретестовой надежности является «эффект тренировки», который безусловно снижает достовенность надежности теста.
Для порядковых шкал в качестве меры устойчивости к повторному тестированию может быть использован коэффициент ранговой корреляции Спирмена или Кэндалла.
Еще одним достаточно популярным видом надежности является надежность параллельных форм. Параллельные (или взаимозаменяемые, или сопоставимые) формы:
· параллельные или взаимозаменяемые (снабженные таблицами эквивалентности);
· уравненные (попарно уравненные по структуре и содержанию задания);
· эквивалентные (результаты с близкими статистическими характеристиками).
Надежность параллельных форм – характеристика надежности методики с помощью взаимозаменяемых форм теста. При этом одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем – с применением аналогичных дополнительных. В практике встречается два алгоритма вычисления надежности параллельных форм.
Первый алгоритм определения надежности параллельных форм:
1. тестирование группы при помощи формы А теста;
2. тестирование группы при помощи формы Б теста (или сразу, или через определенное время);
3. вычисление коэффициента корреляции между результатами тестирования разными формами.
Второй алгоритм вычисления надежности параллельных форм:
1. разделение всех испытуемых на две группы (первая и вторая);
2. тестирование первой группы при помощи формы А теста;
3. тестирование второй группы при помощи формы Б теста;
4. тестирование первой группы при помощи формы Б теста (или сразу, или через определенное время);
5. тестирование второй группы при помощи формы А теста (или сразу, или через определенное время);
6. вычисление коэффициента корреляции между результатами первичного и вторичного исследований.
Надежность частей теста достаточно популярный и просто-просчитываемый вид надежности. Надежность частей теста – характеристика надежности методики путем анализа устойчивости результатов отдельных совокупностей тестовых задач или единичных заданий теста.
Основным методом вычисления надежности частей теста является расщепление – выполнение испытуемым двух равноценных частей теста. Для оценки надежности методом расщепления выбираются две эквивалентные по характеру и степени трудности группы задач. Разделение объема заданий достигается одним из способов:
1) распределение заданий на четные и нечетные (в том случае, если задания строго ранжированы по степени субъективной трудности).
2) разделение пунктов по принципу близости или равенства значений индексов трудности (такой принцип пригоден для тестов достижений, в которых обязателен ответ на все пункты).
3) разделение задач по времени решения каждой из частей (для тестов скорости).
Разделение заданий теста на равноценные половины является лишь частным случаем надежности частей теста. Расщепление возможно на 3, 4, 5 и более частей. В предельном случае число частей равно числу пунктов.
1. провести однократное тестирование на выборке (при N ≥ 30);
2. расщепить тест (используя один из вышеописанных способов), например на четные – нечетные задания;
3. посчитать коэффициент корреляции между выполнением первой и второй половины теста;
4. для перехода к целой форме вычислить надежность целого теста (или формула Спирмена-Брауна, или формулу Рюлона).
Алгоритм вычисления надежности отдельных заданий теста:
1. провести однократное тестирование на выборке (при N ≥ 30);
2. используя результаты выполнения каждого задания, подсчитать коэффициент Кьюдера-Ричардсона (для заданий «1-0») или коэффициент Кронбаха (для более дифференцированных заданий);
Коэффициент Кьюдера-Ричардсона используется для заданий типа «да-нет», «решил – не решил», «верно-неверно».
Надежность субъективных оценок (или экспертная надежность) – характеристика надежности методики путем анализа устойчивости-согласованности экспертных оценок.
Алгоритм вычисления экспертной надежности:
Сравнительные методы установления надежности
Необходимость повторного тестирования
Достаточное число форм
Источники ошибки индекса надежности
Запоминание, тренировка, научение, длина интервала.
Запоминание, тренировка, научение, недостаточная эквивалентность форм
Частей теста (методом расщепления)
Неоднородность содержания, число заданий в тесте
Число заданий в тесте неоднородность содержания,
Психодиагностика: конспект лекций.
3. Надежность параллельных форм. Сущность, достоинства и недостатки.
Надежность параллельных форм – характеристика надежности психодиагностической методики с помощью взаимозаменяемых форм теста. При этом одни и те же испытуемые в выборке определения надежности обследуются вначале с использованием основного набора заданий, а затем – с применением аналогичных дополнительных наборов. Коэффициент надежности по типу надежности параллельных форм может быть определен и другим способом, а именно: испытуемые делятся примерно на равные группы, затем одной из них предлагается форма А теста, а другой – форма Б. Через определенное время (обычно не более недели) проводится повторное тестирование, но в обратном порядке.
Такая процедура обследования лишена значительной части недостатков способа определения ретестовой надежности. Так как в параллельной форме используется другой по содержанию материал, возможность тренировки и запоминания отдельных решений уменьшается. Важнейшим преимуществом данного метода является сокращение временного интервала перед повторным обследованием. Основным показателем надежности параллельных форм является коэффициент корреляции между результатами первичного и повторного обследований, который позволяет оценить как временную стабильность теста (собственно надежность), так и степень соответствия результатов обеих форм теста. Если формы применяются непосредственно одна за другой, то корреляция отражает их взаимозаменяемость.
Отношение между параллельными формами теста имеет сложный характер. Оба набора заданий должны не только отвечать одним и тем же требованиям, измеряя идентичные показатели и давая сходные результаты, но вместе с тем быть относительно независимыми друг от друга. На практике эта задача осуществима далеко не для всех тестовых заданий (в особенности это касается личностных методик, опросников), что существенно ограничивает сферу применения надежности параллельных форм. Другим недостатком характеристики надежности по типу надежности параллельных форм является возможность усвоения испытуемым принципа решения, общего для основной и параллельной форм. Таким образом, в случае оценки надежности параллельных форм влияние тренировки и навыка, приобретаемого при повторном обследовании, если и снижается по сравнению с характеристикой надежности ретестовой, однако не устраняется полностью.