3.2. Понятийно–классификационная база современного тестирования

We use cookies. Read the Privacy and Cookie Policy

Многие специалисты в области оценивания знаний (В.С. Ава–несов, Н.Е.Архангельский, В.П. Беспалько, М.С. Бернштейн, Ю.К. Бабанский, Б.П. Битинас, Д.С. Горбатов, Л.Б. Ительсон, З.И.Калмыкова, В.В. Краевский, Г.С. Костюк, И.Я. Лернер, Е.К. Марченко, А.Н. Майоров, И.П. Подласый, В.М. Полонский, Н.М. Розенберг, М.Н. Скаткин и др.) отмечают, что плохая организация системы наблюдения за результативностью процесса обучения является одной из причин деградации образования. Она приводит к двум полярным явлениям: тотальному либерализму, с одной стороны, проявлению субъективизма и предвзятости – с другой.

Говоря о проблемах диагностики и экспертизы качества подготовленности учащихся, многие специалисты ориентируются на педагогическое тестирование как наиболее объективную, независимую диагностичную систему измерения учебных достижений обучающихся, предоставляющую возможность массовой, быстрой, многомерной диагностики результатов учебно–познавательной деятельности. Объективная диагностика учебных достижений становится необходимой при внедрении в образовательную практику инновационных концепций и технологий индивидуализированного обучения, рассматриваемого в сочетании с дея–тельностным подходом как одно из важнейших направлений по повышению качества образования (Б.Г. Ананьев, Л.С. Выготский, П.Я. Гальперин, В.В. Давыдов, О.Б. Лошнова, Г.К. Селевко, Г.А. Цукерман, В.В. Фирсов, В.Д. Шадриков, И.С. Якиманская, Е.А. Ямбург и др.).

Как объективное диагностическое средство, тесты предоставляют сопоставимую информацию о сильных и слабых сторонах процессов, происходящих в сфере образования, отличающуюся такими критериями, как точность, полнота, достаточность, систе–матизированность, оптимальность, обобщенность, оперативность и доступность. Для понимания современных тестовых материалов, методов и технологий проверки знаний и оценки уровня подготовленности испытуемых, а также их использования как средства контроля качества образовательного процесса важно введение определений не только педагогического теста, но и других понятий, связанных с тестированием. Опираясь на работы А.С. Аванесова, А. Анастази, Т.М. Балыхиной, В.П. Беспалько, П.П. Блонского, В.А. Болотова, М.И. Грабаря, К.А. Краснян–ской, Н.А. Дадыгкина, Л.М. Зарецкого, И.Я. Лернера, Я.А. Микка, Т.Г. Михалевой, В.И. Нардюжева, В.М. Полонского, Дж. Равена, И.А. Рапопорта, А.О. Татура, В.А. Хлебникова, А.Г.Шмелева, М.Б. Челышковой и других тестологов, мы систематизировали термины современного тестирования в порядке, отражающем последовательность действий от планирования и моделирования теста до его применения и обработки результатов. Краткий терминологический справочник в виде отраслевого стандарта терминов приведен в приложении 1.

В самом общем смысле измерение трактуется как процесс установления соответствия между некоторой совокупностью объектов и множеством чисел в соответствии с определенными правилами [76]. Научное обоснование процесса измерений включает:

• выбор переменных измерения (объектов), их количества;

• выбор измерительных процедур;

• конструирование и использование измерительных инструментов;

• выбор шкалы;

• построение отображения результатов измерения на шкалу по определенным процедурам и правилам;

• обработку и интерпретацию результатов измерения.

Что касается понятийного аппарата тестирования, то основной замысел состоит в попытке создания системы таких базовых определений, которые бы включали в себя признаки, отличающие современное тестирование от всего того, что нередко выдается за него. Такая ситуация объясняется тем, что до настоящего времени еще не выработаны устойчивые и однозначные определения многочисленных понятий современной тестологии и технологических операций, а уже существующие и вошедшие в практику понятия должным образом не систематизированы.

В теории педагогических измерений имеется множество определений понятия педагогический тест, но до сих пор нет одного четкого и однозначного. К примеру, Т.М. Балыхина приводит около двух десятков определений и видов тестов, различных по целям тестирования [16]. В переводе на русский язык английское слово «test» имеет вполне определенное значение – проверка, проба. Иногда понятие «педагогический тест» рассматривается в двух смыслах: как метод педагогического измерения и как результат применения теста, состоящего из множества заданий [53, 142]. В последнее время появились определения, учитывающие оба смысловых значения теста: и как метода, и как результата. Одно из них дает А.О. Татур: педагогический тест – это квалиметри–чески выверенная система тестовых заданий, методов их предъявления и оценивания результатов их выполнения, которая обеспечивает получение наиболее обоснованных характеристик объекта испытания [182]. Однако и оно не совсем корректно.

Педагогический тест следует рассматривать как измерительное средство, представляющее собой стандартизированную систему калиброванных заданий специфической формы, позволяющую надежно и объективно оценить уровень учебных достижений испытуемых и выразить результат в числовом эквиваленте.

Отечественная тестология, пройдя период негативного отношения к тестам, в настоящее время пытается дистанцироваться от самого термина «тест». Поэтому в последнее время в тезаурусе тестирования все чаще встречается понятие контрольные измерительные материалы. Такое название указывает на существенное отличие современного теста как контрольно–измерительного материала от теста классического – произвольного набора контрольных заданий, не оцененных по уровням трудности. В отличие от классических псевдотестов тесты как педагогические измерители построены по математическим моделям в соответствии с поставленными задачами измерения. Они обязательно проходят паспортизацию на соответствие целям на вполне определенных выборках испытуемых и имеют соответствующие статистические характеристики. Правильнее сегодня КИМы понимать не только как тесты. Это понятие шире понятия теста. В КИМы входят средства педагогических измерений (тесты), бланки ответов, инструкции по технологии и процедуре тестирования, выполнению заданий, методам обработки первичных результатов, шкалирования и оценивания.

В КИМе получает развитие сразу несколько идей: тест рассматривается не как произвольный набор заданий, а как система заданий специфической формы и известной трудности (калиброванных), позволяющих решать проблему объективизации педагогических измерений; тест является не только средством проверки, но и технологией и методом педагогического измерения. В профессиональном педагогическом тесте система заданий организуется таким образом, чтобы максимально сократить ошибочность оценивания истинного уровня подготовленности каждого испытуемого, объективно дать достоверные сведения в соответствии с едиными для всех испытуемых требованиями, а также исключить влияние субъективного фактора.

В современном понимании КИМы и тесты предусматривают научно обоснованную процедуру – тестирование, позволяющее выявить интересующие качества объекта реально. Поэтому тестирование можно рассматривать как целенаправленное, одинаковое для всех испытуемых обследование, проводимое в строго контролируемых условиях и позволяющее объективно измерить изучаемые характеристики испытуемого и педагогического процесса [1]. Это стандартизированная процедура измерений учебных достижений обучаемых, обработки результатов тестирования, количественного и качественного анализа учебной деятельности и учебных достижений [92]. В последнее время все большее внимание уделяется адаптивному тестированию, как правило компьютерному, при котором в зависимости от уровня подготовленности испытуемого ему выдаются задания соответствующей трудности, адаптированные к уровню знаний [194, 217].

Педагогическое задание в тесте рассматривается как единица контролируемого материала. Каждое задание выверяется по таким параметрам, как контролируемый элемент содержания с учетом требований стандарта, базовость, значимость, время выполнения, трудность, дифференцирующая способность и др. При отборе заданий соблюдаются принципы отображения содержания учебной дисциплины в заданиях теста: значимость, оптимальность, научная достоверность, возрастание трудности заданий, комплексность и сбалансированность, взаимосвязь формы и содержания, соответствие современному состоянию науки. После выделения единиц контролируемого материала формулировкам заданий придается тестовая форма. Задания в тестовой форме (или претестовые) – это задания, выраженные в логической форме утверждения истинного или ложного, предусматривающие определенный порядок расположения элементов задания и место фиксации ответов, сопровождающиеся одинаковой для всех испытуемых инструкцией по выполнению, правилами оценивания степени выполнения заания в рамках принятой его тестовой формы.

Претестовым заданиям придается так называемая правильная форма заданий, или тестовая, как средство упорядочения и организации содержания теста. Она позволяет точно выразить содержание учебной дисциплины (проводится посредством выделения укрупненных единиц знаний), понятна для всех испытуемых, исключает возможность появления ошибочных ответов по формальным признакам.

Для расширения возможностей тестового задания используется компактная форма записи нескольких вариантов одного и того же задания – фасет. Принцип фасетности широко используется при конструировании профессионально разрабатываемых тестов для формулирования большого числа параллельных (одинаковых по основным характеристикам) тестовых заданий. Число фасетов зависит «от богатства содержания задания и количества вариантов параллельных заданий, требуемых при создании теста» [1].

Только после проверки тестообразующих свойств претестовых заданий и статистической обработки результатов апробационного тестирования задания становятся тестовыми, или калиброванными, и могут включаться в тест. Тестовым заданиям приписываются параметры трудности, дифференцирующей способности, вариативности, локальной независимости, технологичности и эффективности, проверяемые эмпирическим путем. Без такой апробации задания не могут быть тестовыми. Требование известной трудности заданий является важнейшим системообразующим признаком тестового задания.

Чтобы оценить уровень подготовленности обучающихся в соответствии со всем перечнем требований учебной дисциплины, в тесте используются задания разных видов. Тестовые задания могут быть с выбором ответа, с кратким ответом, с полным ответом, задания–эссе.

Для заданий с выбором ответа подбираются дистракторы. Дистрактор (от англ. distractor – отвлекающий) – неправильный ответ на тестовое задание. Тестовые задания закрытого типа (с выбором ответа) содержат несколько вариантов ответов, среди которых только один является верным, остальные не берутся произвольно, а подбираются по принципу правдоподобия. Правильный подбор дистракторов является частью процедуры разработки качественного теста. Как правило, дистракторы получают, закладывая характерные ошибки в расчетах или рассуждениях, чаще всего допускаемых испытуемыми при апробации тестов. При совершении определенной ошибки каждый тестируемый найдет соответствующий результат в том или ином дистракторе.

Поэтому дистракторный анализ может дать информацию об уровне подготовленности и видах затруднений испытуемых. Качество дистракторов проверяется по равномерности распределения частот выбора различных дистракторов (дистракторный анализ) [134].

В связи с ростом массовости при тестировании появилась возможность получения надежных статистических характеристик тестовых заданий, проведения надежного дистракторного анализа, параметризации тестовых заданий и тестов. Накопление так называемых калиброванных тестовых заданий поставило задачу их систематизации в виде банка тестовых заданий и банка тестов для удобства их хранения и дальнейшего использования. Соответственно, вводится определение банка тестов как накопителя тестов, имеющих статистические характеристики, систематизированных определенным образом.

Для конструирования и использования теста требуется разработка его спецификации, в которой определяются цели и задачи тестирования, сроки его проведения, время работы над тестом, количество и тип используемых заданий, содержательная структура теста, статистические данные апробации, система оценивания результатов тестирования. Спецификация теста представляет собой его содержательный план, необходимый для разработчиков и экспертов, содержит все пункты последовательных действий и основные требования.

В свою очередь, цели и задачи тестирования определяют структуру теста, которая содержит всю информацию о количестве и названии частей теста, разделах учебной дисциплины, охватываемых указанными частями теста, количестве и последовательности тестовых заданий, сведения о разработчиках теста. С точки зрения содержания и структуры, целей и практики тестирования в современной литературе выделяют несколько типов тестов: гомогенные, гетерогенные, интегративные, адаптивные и др.

Гомогенные тесты представляют собой систему заданий (по возможности возрастающей трудности) содержательной однородности (монодисциплинарные) для измерения уровня подготовленности испытуемых по одной учебной дисциплине или по одному разделу.

Гетерогенные тесты состоят из системы заданий для измерения знаний по нескольким учебным дисциплинам сразу и для оценки уровня интеллектуального развития испытуемых. Гетерогенный тест может состоять из нескольких гомогенных субтестов [200]. Используются такие тесты для оценки комплексной профессиональной подготовленности выпускников или при приеме специалистов на работу.

Интегративные тесты также состоят из системы заданий возрастающей трудности и используются для диагностики подготовленности выпускника или специалиста. Они содержат такие задания, для ответов на которые требуются синтезированные знания по двум или нескольким учебным дисциплинам. Такому тестированию должно соответственно предшествовать и интегра–тивное обучение, являющееся высококвалифицированной формой подготовки, проводимой на межпредметном уровне.

Адаптивный тест представляет собой тест, по уровню трудности подобранный в соответствии с уровнем подготовленности испытуемого. Задания адаптивного теста, как правило, предъявляются по одному в зависимости от ответа тестируемого на предыдущий вопрос. В основном адаптивное тестирование проводится по компьютерным программам. Первым испытуемому выдается задание среднего уровня трудности. Затем тому, кто выполнил его верно, предлагаются задания более высокого уровня сложности, а тем, кто не выполнил, выдаются задания более низкого уровня и т.д. [213]. Такой тип тестирования отвечает концепции Л.С. Выготского об уровнях развития учащихся и соответствует оценке актуального уровня, достигнутого обучающимся на момент измерения знаний. При этом также могут реализоваться еще несколько целей: обучение, самоконтроль, контроль, олимпиады и др.

В последнее время стал широко применяться термин стандартизированный тест, определение которого пока еще не стало общепринятым. Скорее всего это тест определенной длины и трудности, параметры и характеристики которого получены на репрезентативной выборке испытуемых, удовлетворяют поставленным целям и позволяют использовать его для массового тестирования с последующей автоматизированной проверкой правильности его выполнения, оцениванием, статистической обработкой результатов тестирования на генеральной выборке. Одним из свойств стандартизированного теста является его целостность как устойчивое взаимодействие заданий интегра–тивного качества и наилучшего состава тестовых заданий, обеспечивающих объективность контроля учебных достижений испытуемых. Основной составляющей такого теста является тестовое задание с набором характеристик и показателей качества. Поскольку тестовое задание является единицей теста, то требования к тесту в целом, предъявляются и к каждому отдельному тестовому заданию. Количеством и трудностью тестовых заданий определяется длительность работы над тестом.

Иногда используется понятие эффективного теста, измеряющего уровень учебных достижений обучаемых при наименьшем числе заданий, качественно, быстро и дешево, удовлетворяя при этом всем требованиям оптимальности. Такой тест не может состоять из неэффективных заданий, т.е. заданий, не проверяющих какой–либо важный или ключевой элемент содержания учебной дисциплины. Кроме того, эффективный тест должен в максимальной степени соответствовать уровню подготовки испытуемых, а его эффективность как раз и подчеркивает научность критериев его качества.

Как правило, для проведения тестирования используют несколько вариантов одной и той же модели теста. При внешнем отличии различные варианты батареи тестов имеют сходное содержание, дают равные среднеарифметические результаты, дисперсии и другие характеристики. Такие тесты одинаковы по диапазону и точности измерения, концептуально измеряют то же самое на различных выборках испытуемых. Их статистические характеристики должны совпадать так, чтобы разные варианты теста могли заменять друг друга и обеспечивать одинаковые надежность и валидность измерений. При массовом тестировании создается несколько десятков различных вариантов, по существу, одного и того же теста, сконструированного по определенной математической модели. Такие тесты иногда называют параллельными. Параллельные тесты должны содержать одинаковое количество тестовых заданий и иметь одинаковую трудность, сложность и другие статистические характеристики.

По целям, которые определяют структуру контрольно–оценочных материалов, процедуры тестирования и анализ результатов, выделяют несколько типов тестов, различающихся концептуально и методологически в подходах к интерпретации результатов тестирования: нормативно–ориентированный, критериально–ориентированный, содержательно–ориентированный и др.

Нормативно–ориентированный тест представляет собой средство и метод диагностики, позволяющие дифференцировать испытуемых по уровням подготовленности. Все тестируемые отвечают на одинаковые задания, за одинаковое время, в одинаковых условиях, их результаты оцениваются на одной и той же шкале оценок. Такой метод позволяет распределить тестируемых по местам или рейтингу, а цель достигается при сравнительно малом числе заданий в тесте. Результат может быть получен при минимуме заданий, за короткое время, качественно, с наименьшими затратами для большого числа участников. Интерпретация результатов проводится преимущественно с опорой на среднюю арифметическую оценку или процентильные нормы (рейтинг), когда каждый знает, сколько процентов испытуемых имеют тестовый результат хуже или лучше его [40]. Такая интерпретация результатов также называется нормативно–ориентированной. Вывод на рейтинг обусловливается цепочкой: задания – ответы – выводы о знаниях испытуемых – рейтинг. При нормативно–ориентированной интерпретации результатов тестирования на первое место выходит задача не столько определения полноты содержания, сколько выяснения сравнительного места или рейтинга каждого из тестируемых, так как главная цель нормативно–ориентированного подхода – дифференциация испытуемых по уровню подготовки. Подбор заданий по трудности для такого теста осуществляется в широкой области – от самых легких до очень трудных. Тесты централизованного абитуриентского тестирования и единого государственного экзамена как раз построены в основном для нормативно–ориентированной интерпретации результатов педагогических измерений, обеспечивающих надежную дифференциацию выпускников по уровню подготовленности.

Критериально–ориентированные тесты предназначены для решения конкретных целей и задач, например для проверки уровня усвоения определенного перечня знаний, умений и навыков, аттестации выпускников на достижение ими минимально допустимого уровня компетентности.

Вывод строится по логической цепочке: задания – ответы–выводы о соответствии испытуемого заданным критериям [229]. Для объективной независимой оценки уровня подготовленности школьников по разным учебным дисциплинам используются тесты аттестационного тестирования, разработанные на основе критериально–ориентированной интерпретации. В отличие от нормативно–ориентированных критериально–ориентированные тесты обеспечивают дифференциацию только в сравнительно небольшой области вблизи порогового балла. Для такой интерпретации результатов требуется малое число заданий определенной или критериальной трудности, чтобы выявить, что знает и чего не знает испытуемый из заданного стандарта, задания подбираются приблизительно одинаковой трудности. Как правило, такие тесты используются работниками органов управления образованием или ведущими педагогами, на мнение которых опираются проверяющие при аттестации образовательных учреждений.

Практика массового тестирования показывает, что наиболее информативным мог бы быть тест, разработанный при совмещении этих двух подходов, так как, например, абитуриентские тесты используются как для дифференциации абитуриентов, так и для итоговой аттестации учащихся в школе. Однако разработка таких тестов наиболее сложна и трудоемка.

Содержательно–ориентированная интерпретация результатов тестирования является способом выяснения степени усвоения каждым испытуемым отдельных элементов содержания учебной дисциплины или предметно–педагогическим подходом к анализу результатов тестирования. Для этого требуется большое число заданий, чтобы можно было достаточно точно выяснить, что из всей совокупности предложенных заданий (Domain) знает и чего не знает испытуемый.

Разные авторы [1, 173, 181, 197, 214] для разработки тестовых заданий по различным целям и задачам используют специфические методологические основания и классифицируют тесты следующим образом:

диагностические тесты, или тесты общих умственных способностей, тесты специальных способностей, тесты обучен–ности и успешности академических достижений, тесты для выявления особых качеств личности (память, характер, творчество и др.), тесты для определения уровня воспитанности;

дидактические тесты, при тестировании выявляется как знание учебного материала, так и его незнание, а это позволяет широко применять тестирование в диагностических целях, разрабатывать диагностические тесты с особым отбором содержания, позволяющим оценить прочность знаний, полноту, глубину, гибкость, конкретность и обобщенность, системность и систематичность, оперативность;

• тесты по содержанию и структуре – гомогенные, гетерогенные, интегративные, адаптивные и др.;

• тесты по целевой направленности – критериально–ориентированные, нормативно–ориентированные, содержательно–ориентированные (определение уровня исходных знаний, дифференцирующие по качеству подготовки, разделяющие на успевающих и неуспевающих и т.д.);

• тесты по задачам тестирования – тематические, итоговые, обучающие, развивающие, контролирующие остаточные знания;

• по средствам предъявления – тестовые тетради; тесты на бумажных носителях с заполнением специальных бланков ответов; компьютерные адаптивные тесты с предъявлением последовательно каждого задания на экране монитора и фиксацией результата программными методами.

Для возможно более точного оценивания большого числа тестируемых (при массовых тестированиях), сопоставимости и достаточной дифференцируемости результатов тестирования в качестве системообразующего фактора может выступать время работы над тестом, от которого существенно зависит качество результатов. Оптимальное время тестирования определяется эмпирически (исходя из удобства тестирования и естественных возможностей непрерывной работы тестируемых) и указывается для каждого теста. При этом трудность теста определяется суммарной трудностью всех его заданий. Требования современного тестирования предусматривают, что задания не могут быть все одинаковой трудности, так как по определению педагогического теста они должны быть (в гомогенном тесте) нарастающей трудности. Испытуемые среднего уровня подготовленности должны ответить верно примерно на половину заданий теста, на задания самого высокого уровня трудности правильно должны ответить только самые подготовленные.

Долгое время в тестологии мерой трудности каждого задания была доля правильных ответов рj на j–e задание. В новых моделях вместе с долей правильных ответов pj составной частью новой единицы измерения стала величина qj = 1 – pj – доля неправильных ответов на j – е задание.

Мерой уровня трудности заданий в современной тестологии является логит трудности задания, определяемый натуральным логарифмом отношения доли невыполненных заданий к доле правильных ответов на данное задание ln qjj. Соответственно, введена и логарифмическая оценка логит уровня подготовленности i – го учащегося, определяемый как ln pj /qj [107]. Сопоставление логарифмических оценок уровня знаний каждого испытуемого с уровнем трудности каждого задания посредством их вычитания позволяет создавать программно–инструментальные средства индивидуализации обучения и контроля, осуществить переход к методам адаптивного тестирования.

Одной из важнейших составляющих современного теста являются его тестологические характеристики. Тестологические характеристики – это измерительные качества теста, которые появляются только в процессе использования его на апробационных выборках тестируемых. Создание так называемого качественного теста, обеспеченного соответствующими тестологическими характеристиками, – процесс сложный и длительный, связанный с выбором математической модели конструирования теста, наполнением ее заданиями, проведением апробационного тестирования, параметризацией, последовательным совершенствованием для достижения соответствия заданным целям и тестологическим свойствам методами последовательных итераций.

Важной характеристикой тестирования является различие тестовых баллов у разных испытуемых – вариация тестовых баллов. Отсутствие вариации свидетельствует либо о том, что все обладают одинаковыми знаниями, либо о несостоятельности теста в дифференцировке знаний испытуемых. Так, при традиционных экзаменах пятибалльная шкала снижает вариацию даже там, где она есть (например, на вступительных испытаниях сотни абитуриентов получают тройки, хотя качество знаний таких абитуриентов может сильно отличаться), в то время как тесты ее заметно повышают (на 100–балльной шкале вариация результатов достаточно высока). Удобной мерой вариации результатов тестирования является дисперсия. Это особенно важно для организации адаптивного компьютерного тестирования. Сопоставление в ло–гитах (на единой шкале переменной) уровня знаний испытуемого и трудности задания позволяет ЭВМ из любого множества заданий для любого числа испытуемых подбирать индивидуальные задания и соответственно оценивать результаты ответов. Эффективность этого метода оказала огромное влияние на развитие зарубежной и отечественной педагогической теории и практики.

Согласно теории педагогических измерений тесты могут быть качественными и давать достоверные результаты только в том случае, если они предварительно апробированы на типичных выборках испытуемых и показывают соответствие заложенным при разработке взаимосвязанным свойствам надежности и ва–лидности. В трудах теоретиков–тестологов валидность трактуется как многомерная характеристика теста, включающая сведения об области исследуемых явлений и репрезентативности тестовой методики по отношению к ней [93—95]. Валидность теста можно определить как совокупность характеристик, определяющих соответствие теста поставленной цели. Нередко процесс создания теста носит многоцелевой характер, поэтому часто стараются проверить валидность с разных позиций, основываясь на различных критериях целевой адекватности теста.

Надежность теста понимается как способность давать одни и те же результаты при его применении к одинаковым выборкам тестируемых и характеризуется устойчивостью результатов тестирования. Идея достижения требуемой точности педагогических измерений заданиями теста теоретически задается надежностью теста. Это вытекает из известного постулата о неизбежности погрешности любых измерений: имеряемая величина Х не равна истинному значению Т [1]. В практическом смысле надежность понимается как мера одинаковости, повторяемости и связанности двух измерений одного и того же качества одним и тем же тестом или его параллельными вариантами [219]. Выделяется несколько типов надежности:

• реестровая надежность, определяемая посредством повторного тестирования испытуемых с помощью одного и того же теста;

• надежность параллельных форм, которая определяется с помощью тестирования одной и той же группы испытуемых параллельными тестами;

• надежность частей теста – анализ устойчивости результатов отдельных блоков теста (в практике обычно для определения надежности прибегают к комбинированию различных типов).

Значение надежности наиболее просто рассчитывается по коэффициентам корреляции между результатами двукратного тестирования одного и того же контингента испытуемых по эквивалентным вариантам тестов. О надежности тестов судят по степени сохранения ранговых позиций испытуемых. На практике по ряду причин это используется редко. Иногда для определения надежности гомогенных тестов по коэффициенту корреляции используется метод расщепления, описанный и использованный в работах А. Анастази и С. Урбина [9], Ю.М. Неймана и В.А. Хлебникова [134], М.Б. Челышковой [199]. Для этого тест разделяют на две эквивалентные половины. Затем стандартным способом вычисляют коэффициент корреляции r ' между результатами тестирования по двум половинам теста. При этом получается значение корреляции только половины теста, для целого теста она получается из соотношения r = 2r '/(1 + r ' ).

Способность теста соответствовать поставленным задачам, т.е. пригодность тестовых результатов для определенной цели, задается валидностью. Валидность – это методологическая характеристика способности теста измерять то, для чего он был создан. Она зависит от качества заданий, их числа, степени полноты и глубины охвата содержания учебной дисциплины в заданиях теста; баланса и распределения заданий по трудности; метода отбора заданий из общего банка, от интерпретации результатов тестирования; организации сбора данных, отбора выборки испытуемых [1]. Как отмечает Э. Стоунс, «валидность – ахиллесова пята тестирования» [173]. В понятие валидности входит самая разнообразная информация о тесте, которая анализируется различными типами валидности:

• диагностической (конкурентной), отражающей способность теста дифференцировать испытуемых по изучаемому признаку; это возможность по результатам тестирования судить о структуре знаний, умений и навыков испытуемых;

• прогностической, определяющей «степень обоснованности и статистической надежности исследования измеряемого качества в будущем; возможность отбора учащихся по определенным признакам, например абитуриентов, способных успешно обучаться в вузе» [219].

Различают понятия валидности по «содержанию, критериаль–ности, конкурентности и т.д.» [134].

Эмпирическая валидность – независимый показатель, в котором используются экспертные оценки и характеристики теста, данные специалистами (педагогами, учеными–экспертами, сотрудниками центра тестирования и др.).

Конструктивная валидность используется при сложности или невозможности подобрать адекватные критерии валидизации. При этом используется комплекс характеристик, свидетельствующих о теоретической обоснованности методики, соответствии полученных с помощью теста результатов теоретическим ожиданиям и закономерностям.

Содержательная валидность отображает комплекс сведений о репрезентативности тестовых заданий как отражении всех важнейших составляющих контролируемых знаний. Содержательная валидность зависит от качества и числа заданий, степени полноты и глубины охвата содержания учебной дисциплины в заданиях теста по темам. Важно также распределение заданий по трудности.

К указанным выше типам валидности в педагогической литературе В.С. Аванесов, В.П. Беспалько, И.П. Подласый и многие другие добавляют:

• функциональную валидность, определяющую соответствие задания уровню усвоения контролируемых знаний;

• критериальную валидность, связанную с направленностью теста на измерение знаний по тем или иным заранее определенным критериям, например соответствие контролируемых знаний образовательному стандарту. Количественной мерой критериальной валидности служат коэффициенты ранговой и бисериальной корреляции между показателями теста и критериальной мерой, задаваемой при конструировании теста.

Построение числовой системы, в которой отношения между различными объектами тестирования выражены свойствами числового ряда, называется шкалированием. Для шкалирования результатов тестирования важное значение имеет структура нормативной выборки, представляющей группу тестируемых, содержащую представителей всех наиболее значимых страт, реально отражающих те же пропорции, что и выборка испытуемых. Преобразование шкал на основе анализа статистических результатов нормативной выборки «позволяет повысить качество педагогических измерений и выставить каждому испытуемому тестовый балл вне зависимости от того, в какой группе и над каким вариантом теста он работал» [190]. Эта процедура в настоящее время находится на стадии совершенствования и вызывает достаточно много споров.

В практике массового тестирования в качестве нормативной используется генеральная выборка, включающая всех обучающихся, участвующих в тестировании по данной учебной дисциплине. В сертификатах тестирования помимо тестового балла может быть указан рейтинг учащегося, который определяет место (ранг) тестируемого среди всех участников. Это, например, дает возможность выпускнику оценить свои конкурентные (конкурсные) возможности. При систематическом тестовом контроле появляется возможность по среднему рейтингу обучающихся формировать рейтинг образовательного учреждения, по рейтингу абитуриентов – рейтинг вузов. Все это может обеспечить условия для открытости всей системы образования. При этом пользователями результатов тестирования могут быть не только обучающиеся, но и родители, учителя, руководители общеобразовательных учреждений, органы управления образованием всех уровней и др.

Ежегодный статистический отчет, составляемый по итогам массового тестирования учащихся общеобразовательных учреждений, содержит детальную информацию о всех тестируемых, статистические данные о результатах тестирования по любой выборке учащихся, по каждому образовательному учреждению, району, городу, региону, стране в целом, по всем дисциплинам с указанием среднего тестового балла, средних оценок по пятибалльной шкале, процентов учащихся, правильно выполнивших задания. Материалы статистического отчета по результатам тестирования предоставляют уникальную возможность для анализа учебных достижений при независимом стандартизированном контроле знаний учащихся и являются основой образовательной статистики [129—131, 192]. Само понятие образовательная статистика может быть раскрыто как совокупность статистических показателей подготовленности различных выборок учащихся по результатам массового независимого тестирования.

В статистических отчетах массового тестирования, как правило, приводится несколько показателей, характеризующих интегральную подготовленность учащихся: средний тестовый балл по совокупности всех предметов по России, по отдельным регионам, территориям и общеобразовательным учреждениям, по каждой дисциплине для разных выборок учащихся, по видам тестирования, а также указывается процент правильно выполненных заданий теста, систематизируются другие показатели.

Рассмотренная выше систематизация понятий современного тестирования позволяет перейти к рассмотрению вопросов методологии тестирования, практики конструирования и параметризации контрольно–оценочных материалов, описанию форм, методов и процедур тестового контроля, а также методов анализа результатов, полученных на основе мониторинга учебных достижений школьников. Методологию современного педагогического тестирования можно определить как учение об основных положениях, формах, методах, принципах научного исследования и организации практики педагогического контроля и оценки уровня подготовленности обучающихся. Принципы научной организации тестового контроля, выработанные на основе обобщения зарубежного и отечественного передового опыта, формулируются в виде свода правил, способствующих повышению эффективности тестирования.