3.4. Этапы и алгоритмы создания контрольных измерительных материалов

We use cookies. Read the Privacy and Cookie Policy

Создание качественного теста – процесс длительный, трудоемкий, дорогостоящий. На подготовку качественного итогового теста профессиональные разработчики тратят 1,5—2 года. Как правило, такие тесты создаются творческими коллективами преподавателей вузов и учителей школ под руководством ведущих научно–исследовательских центров, профессионально занимающихся вопросами оценки качества образования и подготовки специалистов, имеющих определенный опыт в этом направлении, а также финансовую поддержку. Высокое мастерство разработчиков современных тестов базируется на наличии у разработчиков достаточно глубоких специальных знаний по теории конструирования тестовых материалов, наличии технического и программного обеспечения, опыте практической деятельности, навыках апробации и параметризации тестов, использовании итерационных этапов совершенствования теста.

Использование именно таких тестов в образовательной практике особенно эффективно. Однако имеющиеся в методических сборниках тесты не всегда позволяют педагогам решать многообразные, быстро меняющиеся целевые установки проверки качества подготовленности обучающихся в ходе учебного процесса. Кроме того, требуется решение ряда сопутствующих вопросов, связанных с подготовкой заданий в тестовой форме, для активизации учебно–познавательной деятельности обучающихся. Для системного использования тестового контроля в учебном процессе одних лишь тестов, построенных на моделях IRT, недостаточно, поэтому педагоги вынуждены разрабатывать и использовать так называемые авторские тесты. Несмотря на значительные трудовые затраты, необходимые на этапе подготовки тестовых материалов, грамотно составленные контрольно–оценочные средства обеспечат педагогам эффективность работы в последующем. Именно поэтому тестовая культура педагогов должна выстраиваться в русле алгоритмических подходов к созданию контрольно–оценочных средств.

Как создать педагогический измеритель, обеспечивающий научно обоснованный контроль, какие знания и умения следует формировать, развивать и оценивать у обучаемых, какую систему показателей и критериев оценки качества учебных достижений можно использовать при тестовом контроле, как проводить шкалирование результатов? Эти и другие вопросы сегодня волнуют педагогов, особенно в условиях изменения контрольно–оценочной системы в отечественном образовании.

Следует отметить, что для создания теста требуется многократное повторение ряда процедур для совершенствования структуры и содержания педагогического измерителя (рис. 12).

Алгоритм разработки теста (рис. 13) следует рассматривать «как предписание обязательной последовательности определенных действий, направленных на достижение поставленной цели» [145].

В процессе моделирования теста выделяют несколько последовательных шагов.

1. Определение цели конструирования теста и выбор подходов к его разработке (нормативно–ориентированный или критериально–ориентированный), планирование содержания теста.

2. Получение первоначальных представлений об ожидаемом положении на оси измеряемой переменной результатов уровня подготовки данной выборки испытуемых (из анализа предварительной экспресс–диагностики приблизительно задаются наиболее вероятные пределы переменной измерения на шкале логитов для данной выборки).

3. Выбор планируемой точности измерений. При этом желательно задать стандартную ошибку для всех значений измеряемой переменной в выделенной области на шкале логитов.

4. Задание формы целевой информационной функции теста на выделенном интервале шкалы логитов с использованием методов математического моделирования теста. Для нормативно–ориентированных тестов она может иметь вид кривой нормаль

Рис. 12. Последовательность этапов создания теста

ного распределения. Для критериально–ориентированнь ж тестов целевая информационная функция на оси логитов будет иметь вид треугольника с вершиной в точке, соответствующей пороговому баллу, что позволит отделять испытуемых, не прошедших критерий выполнения теста, от прошедших его.

5. Выбор планируемого вида распределения уровней трудности заданий теста: прямоугольное (когда все значения параметра трудности распределены равномерно, а каждое значение встречается только один раз), нормальное (значения параметра трудности распределены по нормальному закону) и др.

6. Отбор заданий, параметры трудности которых равномерно заполняют область под целевой информационной функцией теста. При этом предполагается наличие банка тестовых заданий с устойчивыми оценками параметров, уже полученных методами

Рис. 13. Алгоритм разработки педагогического теста

IRT. На практике предпочтение применению математических моделей IRT отдается тогда, когда имеется ряд жестких требований к качеству выборки аттестуемых (итоговая аттестация, вступительные испытания, отбор специалистов и др.). Однако эта задача требует применения программных средств и организации компьютерного процесса оценки трудности тестовых заданий. Необходимо также умения анализировать и интерпретировать полученные данные на основе IRT. В настоящее время для этих целей используются готовые программные продукты.

7. Добавление заданий при вычислении количества информации в различных точках оси измеряемой переменной для каждого из вновь создаваемых вариантов теста.

8. Отбор заданий из банка ведется до тех пор, пока информационная функция теста не приблизится в приемлемой степени к теоретически заданной информационной функции модели теста. Отбор тестовых заданий должен быть ориентирован не только на трудность, но и на содержательные элементы, проверка которых планируется в спецификации теста.

Процедура совершенствования тестов такова, что обеспечивает постоянное обновление состава тестовых заданий путем их выбраковки и замены по результатам очередных тестовых испытаний. Это обусловлено тем, что одной из целей тестирования является объективизация оценки уровня подготовленности выпускников на основе единых требований к средствам и методам контроля. Выполнение этой последовательности шагов предполагает, что предварительно имеются банк параметризированных (калиброванных) заданий и разработанная спецификация, обеспечивающая содержательную валидность теста, согласно требованиям которой содержание тестов должно полностью соответствовать целям проверки: вступительные экзамены, олимпиада, текущий или рубежный контроль, аттестация образовательного учреждения и др. В первом случае задания должны быть достаточно трудными, в последнем – легкими. Однако при одинаковой трудности заданий теряется понятие теста как педагогического измерителя – задания должны быть нарастающей сложности и достаточной дифференцирующей способности.

Методика разработки педагогических измерителей в зависимости от поставленных целей должна обеспечивать достижение ряда качественных характеристик теста: содержательной валидно–сти, высокой надежности, требуемой трудности, максимальной дифференцирующей способности в широкой области на оси измеряемой переменной уровня подготовки тестируемых.

Сообразно выстроенному подходу планируется структура теста. При этом заданную структуру соблюдают во всех вариантах.

Успех создания теста во многом зависит от правильности выделения укрупненных единиц знаний по учебной дисциплине, этим же определяется и длина теста, так как число заданий должно ограничиваться разумными пределами, но в то же время желательно максимально отобразить содержание контролируемого учебного материала.

Для тестов нормативно–ориентированной интерпретации соблюдается несколько важных условий, учитываемых при проведении апробации:

• нормативная (апробационная) группа должна адекватно отображать генеральную совокупность учащихся;

• статистические показатели тестовых заданий (уровень трудности, дифференцирующая способность, коэффициент корреляции) обязательны при отборе заданий для включения их в тест;

• тестовые баллы должны иметь значительную дисперсию по значениям трудности;

• распределение тестовых баллов должно иметь вид, близкий к нормальному;

• индивидуальные результаты испытуемых должны сопоставляться со статистической нормой, полученной в процессе параметризации теста.

К числу необходимый условий подготовки критериально–ориентированных тестов относятся:

• четкое, детализированное определение области контролируемого содержания для более репрезентативного подбора заданий;

• отличие от нормального распределения тестовых баллов и их низкая вариативность;

• заранее установленные критериальные баллы, отражающие требования стандартов к освоению содержания предметных областей;

• достаточно слабая дифференцирующая способность тестов вблизи критериального балла.

После уточнения целей тестирования проводится уточнение спецификации на разработку теста, которая позволяет задать структуру теста в виде таблицы, отражающей номера тем, изучаемое содержание, число заданий по вопросам темы, сквозную нумерацию заданий по вопросам. Спецификация позволяет установить, охватывает ли тест (субтест) репрезентативную выборку конкретных умений, навыков и знаний и свободно ли его выполнение от влияния посторонних факторов.

Насколько спецификация может быть информативна и важна, видно из примера требований к спецификации на разработку нормативно–ориентированных тестов абитуриентского тестирования ( www.ege.ru ):

1. Цель создания теста, абитуриентское тестирование для итоговой аттестации и отбора абитуриентов в вузы, аттестационное тестирование для засчитывания результатов в общеобразовательных учреждениях.

2. Исходные документы – временные требования к обязательному минимуму содержания (с указанием года и места издания), программы вступительных испытаний (с указанием года и места издания), перечень используемых разработчиком базовых и вариативных учебников (с анализом их на соответствие базовым программам).

3. Число заданий в каждом варианте теста.

4. Число вариантов теста.

5. Тип заданий с указанием количества и процентного содержания заданий каждой формы.

6. Число ответов к заданиям закрытой формы (с выбором одного правильного ответа либо нескольких правильных ответов).

7. Рекомендуемый автором вес заданий каждой формы при подсчете баллов тестирования, рекомендации по засчитыванию вариативных заданий.

8. Рекомендуемое время выполнения теста и среднее время выполнения заданий разных форм.

9. Структура теста по разделам (содержательным линиям) и видам деятельности испытуемых (знаниям, умениям и навыкам) с подробной расшифровкой. Анализ значимости тем (большим количеством заданий должны быть представлены темы, изучение которых завершено или наиболее важно для дальнейшего обучения).

10. Методика формирования параллельных вариантов тестов.

11. Рекомендации автора по срокам апробации.

12. Общая характеристика охвата тестом требований программы и рекомендации по дополнительным формам проверки в случае необходимости.

13. Степень стандартизации теста и возможность его компьютерной обработки, требования к программным продуктам, используемым для обработки результатов тестирования, выведения тестового балла участникам тестирования, составления статистического отчета и визуализации его содержания.

Именно последнее качество теста определяет эффективность воздействия результатов тестирования на различные звенья системы образования. Важным моментом также является подготовка валидного теста, для чего по содержанию учебной дисциплины проводится отбор тем, разделов и вопросов, значимых для проверки усвоения знаний, который, по существу, является отбором основных укрупненных единиц учебного материала. На основе этого составляется спецификация будущего теста (приложение), где отражается, какие знания, умения и навыки должен проверить и измерить тест, задается его структура (табл. 1).

Содержание теста должно однозначно отвечать требованию определенности содержания данной дисциплины и логичности процедуры измерения. Анализ содержания дисциплины необходим также для выделения предметной принадлежности (предметной чистоты) при построении тестовых заданий, которые бы по возможности не включали знания из других дисциплин (кроме интегративных тестов). Так как содержание теста зависит от целей тестирования и от объема контролируемого учебного материала, то соответственно этому меняется тип теста (гомогенный, гетерогенный, интегративный, адаптивный и др.). Таким образом, тест создается для решения вполне определенных задач, а потому и валиден (пригоден) только при использовании для решения именно этих, а не каких–либо других задач. Необходимо также иметь в виду, что на результаты тестирования существенное влияние оказывает срок проведения тестирования, он должен соответствовать этапу обучения.

Таблица 1

Основные принципы отбора содержания: значимость и научная достоверность учебного материала; соответствие содержания уровню современного состояния науки по изучаемой дисциплине; репрезентативность элементов содержания контролируемого материала; вариативность; системность; комплексность и сбалансированность элементов знания; взаимосвязь содержания и формы тестовых заданий. В работах С.И.Архангельского обращается внимание на два начала в содержании теста: научное и учебное [12]. Научное отображает процесс развития науки и ее применимости, а учебное – принципы формирования системы знаний. При этом следует помнить, что форма тестовых заданий выступает как способ организации, упорядочения и отражения содержания дисциплины в содержании теста [2]. Как уже отмечалось ранее, в условиях быстро изменяющегося мира и глобализации знаний зачастую используются обобщенные понятия, модели и представления, поэтому проблемы семантики в образовании и контроле выходят на одно из первых мест, а выделение укрупненных и обобщенных единиц контролируемого содержания является при этом одной из важнейших задач.

Сформулируем принципы анализа содержания дисциплины и выделения контролируемых единиц для включения их в содержание теста:

• взаимосвязь тестового контроля и обучения необходима, так как обучение без последующего тестирования неэффективно, потому что только систематический контроль показывает, в каком направлении нужно корректировать дальнейшее обучение и развитие обучающегося;

• научность и эффективность создания педагогических измерителей на основе требований современной тестологии: включения в содержание тестовых заданий только истинных знаний и исключения спорных (важно при контроле, при обучении спорные знания являются основанием для проблемного построения занятий), сопоставления содержания дисциплины с современным состоянием науки, проверки результатов тестирования на надежность и валидность, использования стандартизированных тестовых материалов для проверки уровня учебных достижений на тех стадиях обучения, для которых эти материалы подготовлены разработчиками;

• систематичность и всесторонность, обусловленные научно обоснованной периодичностью контроля, согласованием целей и результатов его различных видов – текущего, рубежного, тематического и итогового;

• значимость предполагает отбор наиболее важных, ключевых знаний по содержательным элементам и базовым основаниям, необходимым для изучения других дисциплин;

• репрезентативность предписывает необходимость включения в содержание теста научно достоверных сведений с учетом полноты и достаточности объема контролируемого материала;

• вариативность содержания предполагает постоянное изменение, переконструирование и совершенствование содержания тестов в соответствии с развитием науки и изменением образовательных стандартов;

• комплексность и сбалансированность содержания теста – отображение основных тем учебного курса, сочетание теоретических, исторических, фактологических и практических знаний;

• взаимосвязь содержания и формы как органическое соединение содержания заданий с наиболее приемлемой формой их представления (закрытая, открытая, со свободным конструированием ответа, эссе или другая), вне тестовых форм его заданий о тесте вообще говорить нельзя;

• возрастающая трудность контролируемых знаний в пределах тематической завершенности отдельных частей теста или субтеста;

• оптимальность числа заданий теста диктует необходимость жесткого отбора их содержания (так как в один тест невозможно вложить для контроля все содержание учебной дисциплины, то отбирается только то основное, что учащиеся или студенты должны четко усвоить к моменту контроля);

• объективность нацеливает на необходимость подготовки тестов, одинаковых по уровню трудности для всех испытуемых, устранения субъективизма и предвзятости;

• справедливость и гласность означают одинаково благожелательное отношение ко всем испытуемым, открытость всех этапов тестирования, своевременность ознакомления с результатами испытания.

К перечисленным выше принципам следует добавить принцип логической определенности содержания задания, согласно которому задание является логически определенным, если большинство знающих учащихся находят правильный ответ, а незнающие не могут выбрать (угадать) правильный ответ на задание.

Для задач педагогического измерения, отбора содержания учебной дисциплины и формирования оптимального числа единиц знания имеются классификации контролируемых знаний и способностей, разработанные Б. Блумом [232] и Р. Гагне (R. Gagne) [236]:

1) знание названий и имен;

2) знание смысла названий и имен;

3) фактуальные знания;

4) знание определений;

5) сравнительные и сопоставительные знания;

6) классификационные знания;

7) знание противоположностей, противоречий, синонимичных и антонимичных объектов;

8) ассоциативные знания;

9) причинные знания и знания причинно–следственных отношений, оснований и принципов классификации;

10) процессуальные, алгоритмические, процедурные знания;

11) технологические знания;

12) обобщенные, системные знания;

13) оценочные знания;

14) вероятностные знания;

15) абстрактные знания;

16) структурные знания;

17) методологические знания.

Следующим шагом при создании теста является выбор на основе использования математического аппарата IRT модели теста, обеспечивающей планируемую точность определения уровня учебных достижений испытуемых и корректные оценки параметров тестовых заданий. Под моделированием теста понимают наполнение созданной модели тестовыми заданиями согласно предварительно заданной информационной функции, отражающей цели тестирования.

Важным фактором, влияющим на надежность, следует считать длину теста, которая должна, по оценкам отечественных и зарубежных исследователей, составлять не менее 40—50 заданий. Приходится учитывать, что по мере роста длины теста увеличивается утомляемость испытуемых и снижается их мотивация к выполнению заданий теста, что в совокупности вместо ожидаемого уменьшения ошибки измерения приводит к ее росту. Поэтому при выборе оптимальной длины теста обычно учитывают группу факторов, способствующих успешному выполнению теста, высокой дисперсии тестовых баллов и нормальности их распределения: форму тестовых заданий, время тестирования в соответствии с физиологическими возможностями испытуемых и другими ограничениями организационного характера.

Согласно данным международных сравнительных исследований (IAEP, TIMSS) [101], принято следующее распределение времени на выполнение заданий различного типа: выполнение задания с выбором ответа в среднем требует до минуты, выполнение задания с кратким ответом – в среднем до 2 минут, а задания с полным ответом – до 5 минут. По международным нормам письменная работа на два урока может включать до 50 заданий с выбором ответа, что позволит при прочих условиях обеспечить приемлемую надежность теста. Нахождение длины теста является одним из методов повышения его надежности.

При создании теста вначале идет отбор контролируемого содержания и подбор заданий требуемой трудности и логической правильности содержания, проверяется их эффективность, оценивается возможность приведения их к технологичному виду для автоматизированной обработки. После отбора дидактических единиц контролируемого материала, вариативных по элементам содержания и трудности, задания формулируют в утвердительной форме, требующей в конце предложения поставить неизвестное.

По мнению большинства тестологов, именно тип представления контролируемого содержания учебного материала в тестовом задании определяет степень педагогического воздействия на испытуемого в процессе контроля, раскрывает требования к ответу, задает внутреннюю логику и педагогический замысел контроля [126, 195]. В этой связи для подготовки тестовых заданий используется ряд логических и методических оснований: противоречие; противоположность ответов; однородность формулировок, когда требуется отбирать варианты ответов, относящиеся к одному роду, виду или явлению; способы кумуляции, относящихся к одному роду, виду или явлению; способы кумуляции, когда каждый последующий ответ вбирает в себя содержание предыдущего; фасетность, позволяющая создавать сразу несколько вариантов на базе одного и того же задания; импликация, способствующая выяснению понимания причинно–следственных отношений в процессах и явлениях; сочетание этих и других приемов в одном и том же задании.

В соответствии с современными требованиями для более эффективного измерения знаний в одном тесте одновременно используются несколько различных форм тестовых заданий: с выбором ответа, со свободным ответом, экспериментальные задания, задания–эссе и др. Считается, что в тестовом задании данной формы должно быть 4—5 вариантов ответов, тогда вероятность угадывания правильного ответа может быть ничтожно малой. Ее можно рассчитать по биноминальному закону:

P = Cnm pmqn–m,

где n – количество заданий в тесте; m – количество угаданных правильных ответов; р – вероятность угадывания правильного ответа в каждом задании; q – вероятность получения неправильного ответа [208].

В вопросах с альтернативными вариантами ответов увеличение числа заданий в тесте при четырех или пяти альтернативах в каждом задании существенно уменьшает возможность угадывания с вероятностью, близкой к нулю (табл. 2).

Таблица 2

Вероятность угадывания в зависимости от числа альтернативных вариантов ответов

Еще один достаточно простой метод коррекции индивидуальных баллов с учетом угадывания правильного ответа осуществляется по формуле:

где Xi  – скоррекшрованный балл i – го испытуемого; Xi – тестовый балл до коррекции; Wi – число неправильно выполненных или пропущенных заданий; n = Xi + Wi – число заданий в тесте; а m – число предложенных ответов на задание [245].

Например, для теста из 60 заданий с пятью ответами, если тестируемый выполнил правильно 50 заданий, то скорректированный балл будет равен 48. Если же выполнено только 40, то после коррекции получим 35 баллов, а если выполнено только 30, то всего 23 балла. Таким образом, при необходимости (при малом числе дистракторов) можно внести коррекцию на случай их угадывания и из окончательного результата (суммы баллов) вычитать вероятное число баллов, которое может быть набрано за счет угадывания. Однако справедливее использовать достаточное количество дистракторов (к каждому заданию 4—5), которого вполне достаточно для необходимого снижения вероятности угадывания правильного ответа.

Важное значение для получения истинного результата педагогических измерений имеет техника тестирования, подразумевающая ряд требований, основная часть которых справедлива для любых видов или форм тестовых заданий и должна учитываться при их подготовке:

• из текста задания должны быть убраны всякая двусмысленность и неясность формулировок, используется только логическая форма высказывания;

• формулировка задания должна быть краткой и состоять из одного предложения (семь–восемь слов);

• синтаксическая конструкция должна быть предельно простой, допускается не более одного придаточного предложения;

• основной текст задания должен содержать почти все необходимые слова, а для ответа остаются одно, два, максимум три слова, ключевых для данной проблемы, – правильная форма задания;

• все ответы на задание должны быть однотипны и одинаковой длины, соблюдается наличие определенного места для ответа;

• из текста убираются все вербальные ассоциации, способствующие угадыванию правильного ответа;

• соблюдается правильность расположения элементов задания;

• частота номера места правильного ответа в разных заданиях теста должна быть равновероятной;

• не рекомендуется в ответы вводить слова «все», «ни одного», «никогда», «всегда»;

• из числа неправильных исключаются ответы, вытекающие один из другого или выясняющие мнение тестируемого по какому–либо вопросу;

• одинаковость правил оценки ответов распространяется на все задания;

• для всех испытуемых дается одинаковая инструкция, адекватная форме и содержанию задания.

Самыми распространенными являются задания с выбором одного или нескольких правильных ответов. Как правило, это задания закрытой формы.

В заданиях закрытой формы выделяют основную часть утверждения, содержащую постановку проблемы, и готовые ответы, сформулированные разработчиком теста. Среди нескольких ответов чаще всего только один бывает правильным. Эта форма тестовых заданий удобна для автоматизации контроля знаний и хорошо воспринимается тестируемыми. В заданиях этой формы широко используется принцип вариативности (фасетности). Особенности и примеры заданий с разными принципами композиции приведены в приложении 2.

В последнее время в отечественной и зарубежной практике рекомендуется использование в тесте нескольких разных форм тестовых заданий. Соблюдение принципа единства формы достигается тем, что задания разных форм группируются в отдельные обособленные части тестов (субтестов), в каждой группе одинаковых по форме заданий соблюдается принцип адекватности инструкции форме и содержанию заданий, позволяющий довести до сознания испытуемого все требования, заложенные в содержании задания. Это особенно важно при создании контрольно–оценочных материалов для итоговой аттестации и единого государственного экзамена. В этих тестах практикуется использование трех форм: задания «А» – закрытой формы, задания «В» – открытой формы и «С» – задания–эссе. Число заданий типа «А», как правило, достигает 50—60% общего числа заданий теста. Вторыми по технологичности являются задания открытой формы «В» со свободно представляемым ответом (число, слово и т.д.), их количество достигает 25—30%. В последнее время широко используются задания типа эссе (10—15%), как правило, ответы на них конструируются в свободной форме и проверяются экспертами.

Для удобства конструирования тестов создается банк комбини–рованых заданий, в котором они располагаются определенным образом по статистическим характеристикам. Общим подходом к созданию банка заданий является их калибровка – процесс определения устойчивых характеристик заданий, позволяющих согласно теории IRT заранее планировать надежность тестов. Одним из важнейших признаков распределения заданий в банке является содержание предмета в виде разделов, подразделов и тем. В каждом разделе (подразделе или теме) банка задания распределяются по типам тестовых форм. Каждому заданию даются полные тексты, правильный ответ, дистракторы, алгоритм решения или этапы конструирования правильного ответа. Затем приводятся тестологические характеристики качества заданий: показатели содержания, показатели использования, статистические показатели.

Показатели содержания – номера раздела, подраздела и темы; тип трудности задания (1 – задания на достижение требования стандарта; 2 – задания, превышающие уровень требований стандарта; 3 – задания повышенной сложности; 4 – олимпиадные задания); требуемый уровень знаний, умений и навыков (1 – воспроизведение; 2 – решение по образцу; 3 – творческий уровень); указание на возможности использование в фасете.

Показатели апробации – представления о выборке учащихся апробационного тестирования; процент верных ответов для групп учащихся с разной подготовкой тестируемых; среднее время выполнения задания.

Статистические характеристики – результаты дистракторного анализа (как часто в качестве правильного ответа выбирался тот или иной дистрактор); показатели корреляционного анализа (для нормативно–ориентированных тестов); статистические показатели трудности и дифференцирующей способности задания.

Для удобства работы с банком тестовых заданий в последнее время используют два вида информации для каждого задания банка:

• стартовый набор характеристик – код темы, контролируемый элемент содержания, порядковый номер требования образовательного стандарта, авторская оценка трудности задания, уровень знаний и умений, рекомендуемое время выполнения, правильный ответ, ссылка на первоисточник, тип задания, критерии оценки выполнения задания;

• результаты статистической обработки – число тестируемых, не давших правильный ответ, параметр трудности, распределение ответов по дистракторам, информационная функция и характеристическая кривая задания, дифференцирующая способность, парамеры трудности для пограничных групп тестируемых, точечно–бисериальные коэффициенты корреляции ответа и дистракторов, другие результаты статистической обработки [17, 136, 200].

Для этого используется стандартизированное тестирование, благодаря которому достигается сопоставимость результатов разных массивов испытуемых и появляется возможность выражения тестовых баллов в относительных показателях для различных вариантов тестов [219]. Стандартизация (от англ. standard – типичный, нормальный) в приложении к тестированию – это унификация и приведение к единым нормам характеристик тестов, процедуры тестирования и оценивания.

В системе тестирования используется несколько форм стандартизации:

• типов тестовых заданий, методик их разработки и комплектования в пакеты параллельных тестов;

• способов проверки надежности, валидности тестов, их апробации, отбраковки некачественных тестовых заданий, процедуры совершенствования структуры теста;

• способов обработки результатов тестирования, процедуры проведения, методики количественного и качественного анализа результатов тестирования;

• процедуры проведения тестирования, унификация инструкции, бланков, тестовых материалов, условий проведения тестирования;

• целей тестирования и категорий испытуемых;

• подсчета баллов по результатам тестирования.

Процесс тестирования стандартизируется, если выполняется ряд требований:

• инструкции к одной форме заданий даются одними и теми же словами;

• ни одному тестируемому не дается преимуществ перед другими;

• система подсчета баллов применяется одинаково ко всем испытуемым;

• тестирование всех групп испытуемых проводится в одно время;

• все испытуемые получают одинаковые по содержанию и трудности задания.

При этом подготовка к тестированию также предусматривает ряд требований:

• организацию контроля согласно разработанной инструкции;

• предварительную подготовку испытуемых к тестированию;

• создание соответствующих условий для проведения тестирования (место, техника, приборы, программно–методические материалы);

• создание благоприятных психологических условий;

• представление теста в эффективной форме;

• оптимизацию системы подсчета баллов, методов их представления и интерпретации результатов.

Кроме того, следует учитывать, что точность тестовых оценок возрастает по мере повышения однородности (гомогенности) содержания теста, когда содержание всех заданий нацелено на измерение одной и той же переменной.

В табл. 3 приведен один из вариантов матрицы тестирования, которая позволяет не только зафиксировать общее количество баллов, полученное каждым тестируемым, но и провести качественную оценку содержания знаний, усвоенных испытуемыми.

Таблица 3

Матрица результатов тестирования

Из практики применения тестов следует, что чем более массовый характер имеет тестирование, тем большее число задач оно решает, тем более ответственны процедура и результат тестирования, больше вероятность получения ошибочных выводов при использовании некачественных контрольно–оценочных материалов. Именно поэтому для массовых обследований необходимо разрабатывать и использовать качественные педагогические измерители, применять современные технологии обработки, оценивания, анализа и интерпретации результатов тестирования. Это правило создает границы применимости различных по качеству текстов: авторских претестовых заданий для текущего контроля; стандартизированных тестов для массовых проверок учебных достижений школьников; итоговой аттестации выпускников или отбора абитуриентов.

Применение авторских тестов на локальном уровне возможно, но их тиражирование может иметь следствием получение недостоверных результатов на больших выборках испытуемых. Сегодня на уровне регионов и территорий для аттестации и определения качества образовательных учреждений, как правило, используются авторские контрольно–оценочные материалы, не позволяющие определять качество и, тем более, сравнивать показатели разных образовательных систем между собой.