3.3. Основы конструирования тестов как контрольных измерительных материалов

Попытки ученых преодолеть многочисленные недостатки классической теории тестов для повышения точности измерений и оптимизации процедур контроля за счет адаптации трудности теста к уровню подготовленности учащегося позволили развить IRT и визуализировать формальные характеристики тестовых заданий, другими словами, позволили увидеть, как работают задания методами графических построений. Благодаря использованию математического аппарата и итерационных процессов (уточнений при последовательных испытаниях) теория IRT позволяет перейти от оценки внешних признаков, выявляемых экзаменаторами (наблюдаемых результатов выполнения задания), к оценкам латентных (скрытых, внутренних) параметров подготовленности испытуемых, обусловливающих некие константы состояния обучаемых (подготовленности) на момент измерения их знаний [238, 242]. Особенностью педагогических измерений по теории IRT является специфическая объективность результатов, связанная с тем, что на оценку испытуемого не влияют оценки других тестируемых данной выборки. Это связано со свойствами инструментария, обусловленными соответствующим подбором тестовых заданий определенного уровня трудности, и использованием специальных процедур шкалирования и оценивания в соответствии с используемыми моделями.

Поисками таких моделей занимались многие зарубежные математики, среди которых особо следует отметить работы Д. Батесона и других (D. Bateson, C. Nikol, T. Achroeder) [228], Р. Берка (R. Berk) [229], А. Бинета и Т. Симона (A. Binet and T. Simon) [230], А. Бирнбаума (A. Birnbaum) [231], Б. Блума (B. Bloom) [232], Я. Кевиса (J. Keeves) [238], К. Лорда (K. Lord) [241 —244], Г. Раша (G. Rasch) [247 —249], Д. Вайса и Г. Кинсбери (D.J. Weiss, G.G. Kingsbury) [252]. Применение этих моделей в отечественной практике тестирования изложено в работах В.С. Аванесова [1], М.Б.Челышковой [195—200], Ю.М.Неймана и В.А.Хлебникова [134], других авторов.

Использование специальных моделей измерения, соединяющих латентные параметры испытуемых с наблюдаемыми результатами выполнения теста, позволяет устранить многие трудности. В рамках IRT оценки качества подготовленности испытуемых можно отождествлять с модифицированными результатами тестовых измерений. При этом, казалось бы, совсем разные понятия «качество» и «количество» не противопоставляются друг другу, а, по определению М.Б. Челышковой и Г.С. Ковалевой, «вкладываются один в другой как показатели интенсивности проявления качества» [199]. Это позволяет представить образовательный процесс в качественных показателях и своевременно корректировать его.

Для решения задач педагогического измерения плодотворным явилось определение знания как объективно и субъективно достаточного признака истинности или проявления логического суждения. При этом латентно–структурный анализ нацелен на выявление внутренних, скрытых качеств и факторов поведения (деятельности) испытуемого посредством математических моделей измерения и статистической обработки полученных результатов. IRT представляет некоторое структурное построение или математическую модель, позволяющую соединить между собой несколько латентных переменных. В соответствии с положениями латентно–структурного анализа оценки испытуемых учитывают уровень трудности используемых при тестировании заданий и выдаются в виде тестовых баллов, рассчитанных с помощью математических моделей. В зависимости от числа оцениваемых параметров тестируемых различают несколько видов математических моделей современных тестов: однопараметрическую, двух–параметрическую, трехпараметрическую и др. Качество тестов, конструируемых на основе этих моделей, значительно улучшается, задания подбираются таким образом, чтобы обеспечить возможность проявления испытуемыми не только знаний, умений и навыков, но и других характеристик, проверка которых может быть заложена в спецификациях тестов.

В IRT вводится представление о существовании взаимосвязи между наблюдаемыми результатами тестирования и латентными качествами испытуемых, такими как уровень учебных достижений по предмету на момент тестирования. В отличие от классической теории тестов, где индивидуальный балл тестируемого рассматривается как постоянное наблюдаемое число Xi,  в IRT латентный параметр трактуется как некоторая переменная (латентная переменная), начальное значение которой получается непосредственно из эмпирических данных тестирования (например, первичный балл). При этом латентные параметры (уровень подготовленности испытуемого ?i и уровень трудности задания ?j) рассматриваются как результат взаимодействия двух множеств значений, порождающих наблюдаемые итоги выполнения теста. Элементами первого множества являются значения латентного параметра ?i – уровня знаний N испытуемый: (i = 1, 2, ..., N). Второе множество образуют значения латентного параметра ?i, соответствующего разной трудности заданий теста (j = 1, 2, ..., n). На практике всегда ставится задача оценить по ответам испытуемых значения параметров ? и ?. Для ее решения выбирается вид соотношения между этими параметрами (математическая модель).

Оказалось, что эмпирически наблюдаемые результаты Xi и соответствующие им латентные значения уровня подготовленности испытуемых ?i связаны нелинейно. Переменный характер измеряемой величины трудности задания ?j также указывает на возможность последовательного приближения ее к объективным оценкам параметров при помощи итеративных методов в процессе апробации. Выбором математической модели установливается взаимосвязь между эмпирическими результатами тестирования и значениями латентных переменных: ? – уровень знаний испытуемых и ? – уровень трудности задания.

Однопараметрическая модель датского математика Г. Раша (G. Rasch) устанавливает зависимость между уровнем подготовленности испытуемого (?i) и трудностью заданий (?j) [248]. Он предложил ввести это соотношение в виде разности между параметром уровня знаний испытуемых и параметром трудности заданий теста: ?i??j. При этом предполагается, что оба параметра оцениваются на одной и той же шкале логитов. Функция успеха, или вероятность правильного ответа Рj(?) при тестировании задается простой логистической моделью:

где параметром является разность (???j), абсолютная величина которой представляет в логитах расстояние между уровнем знаний данного испытуемого и уровнем трудности данного задания. Если эта разность велика и отрицательна, то такое трудное задание бесполезно для измерения уровня знаний данного тестируемого, в то же время если эта разность велика и положительна, то задание тоже не представляет интереса, оно неэффективно, так как такой уровень трудности данным тестируемым уже хорошо освоен.

Из логистической функции видно, что Pj(?) растет с ростом параметра ? испытуемых, так как чем выше уровень знаний тестируемых, тем выше вероятность правильного ответа на–е задание теста. Взаимосвязь между этими параметрами хорошо просматривается по характеристической кривой–го задания теста, вид которой представлен на рис. 7. Точка перегиба соответствует равенству уровня знаний тестируемого и уровня трудности тестового задания, ?=?j, вероятность правильного ответа при этом равна 0,5. Вероятность правильного ответа для хорошо подготовленных испытуемых стремится к 1, а для плохо подготовленных – к 0. Увеличение трудности задания на некоторую константу с > 0 смещает характеристическую кривую вправо, с прежней вероятностью на такое задание теперь сможет ответить тестируемый с другим уровнем знаний, равным (? + с).

В однопараметрической модели вероятность правильного ответа на задания выражается посредством логистической функции, после введения которой симметрично возникла математическая модель, описывающая вероятность правильного ответа в зависимости от трудности заданий [196]. Аналогично по формуле рассчитывается вероятность Рi(?) правильного ответа i – го испытуемого на разные по трудности задания теста:

Рис. 7. Характеристическая кривая тестового задания

Вероятность правильного выполнения i-м испытуемым будет убывающей функцией в зависимости от трудности заданий. График функции Рi(?), или график индивидуальной кривой испытуемого, показан на рис. 8.

Рис. 8. Индивидуальная кривая испытуемого: а – теоретическая, уровень знаний 0,5; б – эмпирическая, уровень знаний 0,6

В точке перегиба кривой вероятность правильного ответа, как и на характеристической кривой задания, равна 0,5. В процессе обучения, по мере накопления знаний, индивидуальная кривая испытуемого смещается вправо.

Двухпараметрическая модель А. Бирнбаума (А. Birnbaum) [231] была получена путем добавления к параметрам трудности заданий теста их дифференцирующей способности ?. В последнее время обработку эмпирических данных рекомендуется проводить на основе двухпараметрической модели, чтобы кроме латентного параметра трудности заданий теста можно было бы в широком диапазоне дифференцировать уровни знаний разных учащихся. Дифференцирующая способность является одной из важных характеристик заданий теста и определяется разностью долей правильных ответов слабой и сильной частей испытуемых в группе достаточно большой выборки (около 100 человек). Методика расчета достаточно проста: берут 27% испытуемых, имеющих наибольшие баллы, и 27% имеющих низкие баллы, считают долю правильных ответов в каждой группе рл и рх . Затем определяют дифференцирующую способность для каждого задания данного теста: ?j= pл? px.

Например: на одно из заданий среди лучших правильно ответили 30 испытуемых из 40 (рл = 3/4), а среди худших правильный ответ у 10 из 40 х = 1/4), из чего следует, что ?j = 1/2. Для других заданий расчеты делаются аналогично. Отметим, что для всех заданий теста значения дифференцирующей способности находятся в пределах от–1 до +1.

Вероятность правильного ответа на . – е задание в модели Бирнбаума записывается так:

где ? – уровень знаний тестируемых (переменная); ? – трудность j – го задания; – параметр, характеризующий дифференцирующую способность j – го задания; (? – ?j) – разность на шкале логитов между уровнем знаний учащегося и уровнем трудности j–го задания. При геометрической интерпретации его связывают с крутизной характеристической кривой в точке перегиба: чем круче кривая, тем больше дифференцирующая способность задания.

Совершенствование модели привело А. Бирнбаума к необходимости введения третьего параметра, учитывающего фактор угадывания правильного ответа. Новая модель стала называться логистической трехпараметрической. Ввиду большой сложности конструирования такого теста и статистической обработки результатов она не получила широкого распространения, так же как и метод наибольшего правдоподобия и метод моментов [250].

Для моделирования теста и, тем более, для создания системы адаптивного тестового контроля важную роль играет информационная функция теста, позволяющая задать на оси латентной переменной (логистической шкале) интервал, в котором проводится измерение уровня подготовки испытуемых. Бирнбаумом она представлена в виде

где Ij (?) – информационная функция; ? – уровень знаний испытуемого, латентная переменная; Pj(?) – вероятность правильного ответа на задание j; Q. (?) = 1—Pj(?), Q – вероятность неправильного ответа на задание j; n – число заданий в тесте;

Информационная функция задает интервал, в котором работает данное задание, чем меньше этот интервал и круче характеристическая кривая, тем выше информативность и дифференцирующая способность такого задания. Это утверждение привносит дополнительные возможности в отбор заданий при формировании теста, позволяя варьировать диапазон заданий на шкале логитов. Введение информационной функции позволяет оценить точность педагогических измерений. Информативность задания обратно пропорциональна ошибке измерения, следовательно, речь может идти о дифференцированной оценке точности, обеспечиваемой j – м заданием теста данного уровня подготовленности ?i.Каждому уровню подготовленности в соответствие ставится количество получаемой при измерении информации. Отсюда следует, что наиболее информативно измерение подготовленности i-го испытуемого будет j – м тестовым заданием с уровнем трудности в точке перегиба при равенстве ?i=?j. Таким образом, чем ближе значение разности (?i??j) к нулю, тем эффективнее подобрано задание и меньше стандартная ошибка измерения уровня подготовленности испытуемого.

Для получения качественного теста необходима его апробация на предмет получения статистических характеристик, выявления трудности заданий, их дифференцирующей способности, характеристик теста в целом. Поэтому требуется проведение апроба–ционных тестирований, проверки трудности теста на выборках генеральной совокупности для выявления устойчивости показателей. После проведения апробационного тестирования выполняется математико–статистическая обработка результатов испытания, которая состоит из нескольких этапов.

Обработка данных начинается с выбора правил оценивания ответов испытуемых на задания теста. В большинстве случаев используется дихотомическая оценка. Оценку выполнения i-м испытуемым j – го задания обозначим Xij.  Она может принимать значения 1 или 0, при этом i = 1, 2, ..., N,, где N – число учащихся или студентов; а j = 1, 2, ..., n, где n – количество заданий в тесте. Из значений Xij составляют матрицу эмпирических данных. Строки матрицы состоят из нулей и единиц, соответствующих ответам разных испытуемых, по столбцам располагаются профили ответов на каждое задание, т.е. столбцов должно быть столько, сколько заданий в тесте – n, а строк – сколько испытуемых – N. Матрицу данных тестирования (столбцы – число правильных ответов на каждое задание теста Rj, строки – правильные ответы тестируемых) упорядочивают, располагая Rj в порядке убывания результата. Строки матрицы меняют так, чтобы верхняя соответствовала обучаемому с минимальным индивидуальным тестовым баллом Xi.

По такой упорядоченной матрице рассчитываются доли правильных рi и неправильных qi ответов испытуемых:

pi = X i /n, qi = 1 – Pi , где (i= 1, 2, ..., N).

Аналогично рассчитываются доли правильных и неправильных ответов на задания теста:

Pj = Rj /N и qj = 1 – Pj , где (j= 1, 2, ..., n).

Сначала рассчитывается первичный балл каждого тестируемого:

являющийся только начальной оценкой уровня подготовки учащихся или студентов, и определяется число правильных ответов на каждое задание теста:

Это позволяет сделать первичную оценку трудности каждого задания. Следует иметь в виду, что показатель трудности задания Rj удобен до тех пор, пока число испытуемых N в разных группах остается неизменным. Если в группах число испытуемых меняется, то необходимо пользоваться нормированным статистическим показателем трудности Pj , он не зависит от N и характеризует долю правильных ответов:

Оценка латентных параметров в большинстве случаев проводится в предположении нормальности распределения эмпирических данных как по множеству испытуемых, так и по множеству заданий.

Для лучшей наглядности информация о распределении первичных баллов тестируемых может быть представлена в виде гистограммы или кривой распределения. Максимальная частота выбора правильного результата (число тестируемых, набравших соответствующий балл) должна находиться в центре кривой, к краям частота снижается. Проверка нормальности распределения значений индивидуальньж баллов Xi  (мера центральной тенденции) желательна при создании нормативно–ориентированных тестов. Одной из наиболее простых мер проверки центральной тенденции является среднее арифметическое; если его значение соответствует 50% общей суммы баллов для данного теста, то условие нормализации выполнено.

После этого определяются значения дифференцирующей способности ?j, как это было указано ранее. Найденные для всех заданий значения ?j позволяют перейти к оценке уровня знаний испытуемых, или уровня подготовленности, – латентного параметра ?. В качестве начального значения латентного параметра выбирается индивидуальный балл тестируемого Xi.

Аналогично проводится определение начального значения латентного параметра трудности задания ?j  по значению Rj. Затем вычисляются стандартные ошибки измерений ? и ?, строятся характеристические и информационные кривые, рассчитывается показатель эффективности заданий и другие параметры. Расчет статистических показателей заданий теста, как правило, проводится по специальным автоматизированным программам и не требует специальной подготовки [197].

Схематически целевая и эмпирическая функции (для разного числа заданий) в процессе разработки и совершенствования теста за счет добавления заданий показаны на рис. 9. Правило определения длины теста указывает, что в процессе моделирования необходимо собирать статистику и подсчитывать дисперсию индивидуальных баллов тестируемых после каждого удлинения теста, наблюдая за изменением информационной функции теста.

Как только (при удовлетворительном заполнении области под целевой информационной функцией и при высокой содержательной валидности) дисперсия

прекращает изменяться, можно найти оптимальную длину теста (Xi – число правильных ответов i – го испытуемого; N – число испытуемых).

Рис. 9. Динамика информационной функции теста J(?) – информационная функция; ? – уровень знаний

Апробация теста требует много времени, но обеспечивает высокий уровень качества теста. Верхняя часть кривой отражает стремление разработчиков создать тест, обеспечивающий равную точность оценок испытуемых в заданном интервале оценок на шкале логитов.

Для обработки статистических данных по результатам применения теста необходимо использовать ту же модель, что и при конструировании теста. Благодаря свойству инвариантности устойчивые оценки параметров тестовых заданий в IRT получаются на любой репрезентативной выборке (порядка 200 человек), даже если она существенно отличается от планируемой. На В –оси латентной переменной – информационная функция в пределах от–3 до +3 логитов соответствует диапазону оценки уровня знаний, определяемого нормативно–ориентированными тестами.

Следует обратить внимание на то, что при одной и той же спецификации заполнение области кривой под целевой информационной функцией может быть получено разными способами за счет использования разных по трудности тестовых заданий. В разрабатываемом тесте задания варьируются по трудности и дифференцирующей способности на основе одной и той же спецификации теста. Это особенно следует учитывать при создании параллельных тестов, когда крайне важно обеспечить равную трудность различных вариантов в соответствующих точках на оси переменной измерения, при переработках теста, исследованиях эффективности различных форм тестовых заданий, сопоставлении методов отбора заданий из банка и в других случаях. Поэтому необходимы сопоставление эффективности различных тестов и выбор оптимального набора заданий, обеспечивающих планируемые свойства теста.

Надежность теста снижается при подборе преимущественно легких или трудных заданий, кроме того, тест не отражает содержание учебной дисциплины. Наибольшей могла бы быть надежность теста, составленного из средних по трудности заданий, однако тогда снижаются содержательная валидность и дифференцирующая способность теста. В свою очередь, стремление поднять валидность может привести к снижению надежности. В теории конструирования тестов этот случай достаточно подробно описан Ф. Лордом (F.M. Lord) [242].

Подбор заданий сбалансированной сложности позволяет удовлетворить требованиям оптимальной надежности и валид–ности теста. Расчет надежности достаточно сложен, а поэтому для практических целей рекомендуется более простой метод. Проводится повторное тестирование испытуемых в одинаковых условиях по одним и тем же тестам, а потом выполняется проверка на коррелирование результатов. При значениях корреляции 0,9 и выше надежность отличная; от 0,85 до 0,89 – очень хорошая; от 0,8 до 0,84 – хорошая; далее – удовлетворительная; ниже 0,5 – неудовлетворительная. В практике применяется очень мало тестов, имеющих надежность 0,8 [2].

Валидность как пригодность тестов может быть определена экспертами – опытными преподавателями. При этом важно оценить, находятся ли задания в соответствии с программой, полностью ли ее охватывают, соответствуют ли стандарту. В итоге должно быть заключение, пригоден ли тест для оценки уровня подготовки учащихся по конкретной дисциплине (теме, разделу). Если тест по каким–либо параметрам не устраивает разработчика, то вся процедура его конструирования и параметризации повторяется заново. Это достаточно трудоемкая работа, но именно она обеспечивает качество педагогического измерителя.

Использование большого количества вариантов одного и того же теста и возможность статистической обработки результатов такого тестирования в рамках теории моделирования и параметризации педагогических тестов позволяют получать оценки латентных параметров знаний испытуемых на метрической шкале и сравнивать их между собой для разных выборок испытуемых. Однако, учитывая, что создание параллельных, одинаковых по трудности вариантов практически невозможно, используется методика выравнивания за счет введения во все варианты теста некоторого количества абсолютно одинаковых заданий – узлов, отвечающих определенным требованиям. Это позволяет определять начало метрической шкалы, переносить оценки всех испытуемых на единую шкалу и определять каждому участнику тестирования сертификационный балл. Для этого соответствующие оценки уровня подготовленности испытуемых путем линейных преобразований переводятся на множество натуральных чисел от 1 до 100 (100–балльную шкалу).

Таким образом, использование IRT приводит к созданию тестов, обладающих несколькими достоинствами:

• моделирование структуры теста по задачам тестирования;

• объективные оценки параметра, характеризующего подготовленности испытуемых;

• устойчивость, обусловленная относительной инвариантностью оценок независимо от трудности заданий теста при достаточном количестве испытуемых;

• объективность значений параметров трудности заданий, не зависящих от свойств выборки испытуемых, выполнявших тест;

• измерение значений оценок испытуемых и трудности заданий теста на единой шкале логитов, имеющей свойства интервальной шкалы;

• возможность с достаточной точностью предсказать вероятность правильного выполнения заданий теста испытуемыми любой выборки до предъявления теста;

• возможность оценить эффективность различных по трудности заданий для измерения данного значения латентного параметра знаний испытуемых;

• наличие дифференцированной ошибки измерений;

• сохранение сопоставимости результатов при проведении тестирования многих групп испытуемых различными вариантами одного и того же теста.

На рис. 10 представлены параметры и некоторые характеристики отдельных заданий тестов по математике.

Задания взяты из банка тестовых заданий Центра тестирования, используемых при критериально–ориентированной интерпретации результатов аттестационного тестирования. Данный рисунок является примером того, как можно визуализировать параметры самих тестовых заданий для последующего отбора и включения их в банк тестовых заданий, а затем в конструируемый или совершенствуемый тест. Результаты параметризации приведенных двух заданий указывают на их разные уровни трудности и значения дифференцирующих способностей.

По характеристической кривой задания 1 половина учащихся, выполнивших задание, приходится на –1,1 логита, а выполнивших задание 2 – на –1,7 логита. Этим же значениям логитов соответ

Рис. 10. Характеристики тестовых заданий

ствуют максимумы кривых эффективности заданий. Вид характеристической кривой (крутизна) указывает на дифференцирующую способность задания, т.е. большая крутизна характеристической кривой соответствует большей дифференцирующей способности задания. Задание 1 перекрывает на логистической шкале диапазон примерно от–2,5 до +0,5 логитов с дифференцирующей способностью ?= 1,3, а задание 2 – от–2,5 до–0,5 логитов с 0 =2. Работая с банком таким образом калиброванных заданий, можно их подбором перекрыть любой заранее запланированный интервал на шкале логитов.

В последнее время в обиход входит такой показатель, как информативность теста, связанный с использованием моделей IRT. Здесь обращается внимание на два ключевых понятия: число заданий теста и уровень подготовленности испытуемого. В данном случае информативность сопрягается с оптимальностью, если по трудности заданий тест соответствует уровню подготовленности учащегося или студента.

Поэтому для эффективности измерений уровня подготовленности испытуемых и повышения информативности контроля требуется набор тестов различной сложности, оцененных по шкале логитов. Показатель информативности впервые введен А. Бирн–баумом [231]. Считается, что чем больше трудность теста соответствует подготовленности испытуемого, тем больше информации можно получить, соответственно, выше эффективность такого тестирования. Согласно В.С. Аванесову, эффективное тестирование – это обязательно индивидуализированное измерение уровня подготовки каждого испытуемого с помощью теста, оптимального по трудности и минимального по количеству заданий [4].

В теории и практике тестирования качество тестов, так же как и тестовых заданий, оценивается по таким критериям, как надежность, валидность, дифференцирующая способность и др.

Оценка параметров трудности заданий и направления улучшения теста показаны на примере параметризации одного из абитуриентских тестов по математике, использованного при централизованном тестировании, и демонстрируют способ визуализации метрических возможностей исследуемого теста. Приведенный ниже пример указывает на возможности визуализации характеристик самого теста, пределы и возможности его использования, оценки недостатков и информацию о том, как на основе имеющегося банка калиброванных тестовых заданий поэтапно провести совершенствовать такой тест как педагогическое измерительное средство.

Параметризация теста выполняется с помощью современных математических моделей. Характеристические кривые трудности тестовых заданий, полученных таким образом, представлены на шкале логитов (рис. 11). Эмпирические данные тестирования большого числа учащихся (выборка составляла более 200 человек), выполнявших один и тот же вариант теста, обработаны с помощью программных средств [71], в основу которых положена однопараметрическая модель Г. Раша. Это позволило визуализировать структуру трудности теста. Вверху сетки рисунка обозначены номера тестовых заданий, по вертикали – доля выполненных заданий, по горизонтали – уровни трудности заданий теста на шкале логитов в диапазоне от–7 до +7. Видно, что характеристические кривые всех 20 заданий исследуемого нами теста достаточно равномерно распределены вдоль логистической шкалы. Неравномерность видна только на небольших участках в интервалах от–0,78 до–0,5 и от–0,27 до 0,07 логита. Для его совершенствования два промежутка неравномерности на логистической шкале можно заполнить либо корректировкой заданий под номерами 2, 15 и 3, 11, либо заменой их из банка тестовых заданий на другие, более соответствующие диапазону требуемой трудности.

Рис. 11. Характеристические кривые заданий абитуриентского теста по матем

Проверка теста на содержательную валидность показывает, что тест достаточно хорошо отображает учебную программу, но его можно еще улучшить, если произвести замену двух заданий 3 и 16 или 4 и 17 на задания из других тем. Коэффициент корреляции заданий с индивидуальной суммой баллов находился в пределах от 0,37 до 0,64, что позволяет считать такой тест и его задания достаточно валидными, хорошо дифференцирующими уровни знаний разных испытуемых. Информационная кривая этого теста симметрична относительно 0 и позволяет использовать тест для проверки испытуемых с уровнем знаний в диапазоне от–2,5 до +2,5 логита, соответствующем требованиям нормативно–ориентированной интерпретации результатов. В соответствии с требованиями абитуриентского тестирования такой тест можно считать качественным.

Распределение индивидуальных тестовых баллов испытуемых на 100–балльной шкале оказалось близким к нормальному с максимумом в середине оси сертификационных баллов, стандартное отклонение соответствовало значению 4,9. Трудность заданий теста находилась в пределах от–0,78 до 1 логита, среднее значение трудности всего теста составило 0,1 логита.

В случае использования готового теста с известными параметрами трудности его заданий задача сводится только к оцениванию параметра подготовленности тестируемого. Поскольку у всех обучающихся уровень подготовленности и темп обучения разные, то для развития мотивационно–побудительных стимулов следует подбирать уровень трудности заданий, соответствующий зоне актуального развития обучающегося, а сами задания – посильные для самостоятельного выполнения. В тесте необходимо предусматривать также наличие заданий более трудных, соответствующих зоне потенциального развития учащихся, выполнение которых возможно в сотрудничестве с педагогом. Включение легких заданий и заведомо трудных в процесс обучения неэффективно. Использование в учебном процессе тестов с заданиями известной трудности позволяет активизировать работу всех обучающихся на основе дифференцированного подхода к обучению.

Основываясь на рассмотренных выше основных положениях теории IRT, можно отметить, что современные технологии тестирования способствуют развитию технологий индивидуализированного обучения. Однако если при традиционных способах обучения учитель самостоятельно определяет зоны развития обучающихся интуитивно во взаимодействии с каждым отдельным учащимся путем опроса или контрольной работы, то технология использования тестов в учебном процессе позволяет с заданной точностью не только учителю, но и каждому обучающемуся определять зону своего развития и работать на грани своих возможностей. Это открывает новые перспективы в организации образовательного процесса на принципах дифференцированного обучения, перестройки взаимоотношений между обучающимися и обучаемыми на основе сотрудничества, доверия и творческой самостоятельности обучающихся. При таком подходе контроль из средства оценки и принуждения к обучению становится средством активизации познавательной деятельности и учебной активности, технологией самообучения и саморазвития. В этой связи возникает проблема методологического характера, связанная с обоснованием оптимальности использования тестов в учебном процессе не только при подготовке к итоговой аттестации выпускников, но и на ранних стадиях обучения. В этой связи в центре внимания находится вопрос об использовании тестовых заданий известной трудности для самообучения школьников, при аттестации и самоаттестации образовательных учреждений.