Запись написана

  • 29.03.2013
  • в 12:00 ДП
  • admin

Реклама

Тест как инструмент измерения уровня знаний в современной технологии обучения 0

МИНИСТЕРСТВО ВЫСШЕГО  И  СРЕДНЕГО  СПЕЦИАЛЬНОГО ОБРАЗОВАНИЯ   УКРАИНЫ

ДОНЕЦКИЙ    ГОСУДАРСТВЕННЫЙ    УНИВЕРСИТЕТ

Н.  М.  Олейник

У Ч Е Б Н О Е    П О С О Б И Е

ПО СПЕЦКУРСУ

«ТЕСТ КАК ИНСТРУМЕНТ ИЗМЕРЕНИЯ УРОВНЯ ЗНАНИЙ И ТРУДНОСТИ ЗАДАНИЙ В СОВРЕМЕННОЙ ТЕХНОЛОГИИ ОБУЧЕНИЯ»

ВВЕДЕНИЕ

Настоящее пособие скомпоновано на основе лекций по соответствующему специальному курсу, подготовленному составителем после окончания им факультета повышения квалификации в созданном под эгидой Госкомобразования СССР Исследовательском центре по проблемам управления качеством подготовки специалистов при Московском институте стали и сплавов. Помимо прослушанных на ФПК лекций, составителем также использовано пособие “Основы научной организации педагогического контроля в высшей школе”, изданное для слушателей ФПК в Москве в 1989 г. руководителем центра Аванесовым B.C.

В предлагаемом вашему вниманию пособии рассматриваются проблемы, связанные с составлением тестов, с обработкой результатов тестирования, определением качества тестов и их применением в современной технологии обучения. Собранный в пособии материал не имеет определенной профессиональной направленности. Более того, рассматриваемая методика может стать основой для организации обучения на всех уровнях, начиная от детского садика и заканчивая аспирантурой, не говоря уже о всякого рода факультетах повышения квалификации.

Следует подчеркнуть, что тест, несмотря на ряд его недостатков, является единственным известным в настоящее время технологическим инструментом измерения результатов педагогического процесса. А без количественного контроля ни один процесс, будь то научный, производственный или тем более, учебный, не имеет смысла осуществлять. Поэтому тест является тем звеном, с звеном которого, можно усвоить и внедрить за сравнительно короткое время с наименьшими затратами технологию современного образования. Учитывая, что такая работа потребует огромных материальных и интеллектуальных затрат, необходимо свести их к оптимальному минимуму. Последнее и призван обеспечить постоянный контроль, технологически возможный пока только на основе тестирования.

Современная методика обучения должна не только опираться на современные достижения науки, но и быть технологичной, т.е. для повышения своей эффективности использовать последние достижения производственной технологии. Таким достижением, несомненно, является производство достаточно дешевых и доступных персональных компьютеров. И те педагоги, которые постараются без них обойтись, обрекут свою деятельность на полный провал. Поэтому современное обучение, как и обучение будущего, должно стать всеобщей массовой технологией, основанной на применении персональных ЭВМ, как это уже фактически произошло в цивилизованных странах Запада.

4


Другим, не менее важным, элементом современной технологии обучения является тест как инструмент измерения уровня знаний и трудности заданий, поскольку без такого инструмента управлять учебным процессом, особенно в технологическом варианте, совершенно невозможно. Это, безусловно, не значит, что традиционные методы обучения (лекции, семинары, лабораторные занятия и т.п.) и контроля (экзамены, зачеты, коллоквиумы) утратят свое значение и не могут быть использованы. Современная технология их не отбрасывает. Однако, согласно новой технологии, основной упор в работе обучаемого переносится с обучения, натаскивания средней массы уча-щихся,(чем и занималась наша официальная педагогика) на самостоятельную, индивидуальную подготовку каждого обучающегося, базирующуюся на работе с контролирующее-обучающими программами на персональных ЭВМ. Наша рутинная педагогика забывала как о сильных, так и слабых учащихся, отупляя своими методами и тех и других и не давая им творчески развиваться. Современная же технология обучения должна обеспечить каждого учащегося индивидуальной программой, соответствующей его уровню знаний. И здесь инструмент для измерения результатов педагогической работы ещё раз приобретает особое значение, поскольку без него индивидуальную работу с каждым обучаемым организовать невозможно.

Задача педагога в условиях современной технологии обучения сводится не столько к чтению лекций и проведению практических и лабораторных занятий, сколько к организации рабочих мест обучаемых, созданию методического обеспечения учебного процесса и систематическому контролю за самостоятельной работой обучаемых и результатами своего педагогического труда в целом. Другими словами, задача педагога – создать все условия для мотивированной самостоятельной работы обучающихся и оказывать ему в этом деле консультационную помощь.

Могут сказать, что нашей стране еще очень далеко до того уровня компьютеризации, который необходим для начала разработки новой технологии. Да, уровень компьютеризации у нас низок, но не он будет основным тормозом перехода на современную технологию обучения. Более существенное торможение может оказать психология невосприятия необходимости непрерывного контроля за учебным процессом для управления им и неведение основной массы педагогов всех уровней о достаточно хорошо проявившей себя на Западе пропагандируемой в настоящем пособии технологии обучения на основе персональных ЭВМ и ее практически неограниченных возможностях.

Могут также сказать, что одна общая технология обучения во всех сферах человеческой деятельности будет подавлять индивидуальность и подго-

5


нять всех членов общества под один ранжир. Однако такое предположение неверно, поскольку персональные ЭВМ предоставляют и педагогу и ученику широчайшие возможности для индивидуализации процесса обучения с применением широчайшего набора методик при сохранении одних и тех же элементов технологии.

В заключение хотелось бы отметить, что начальные этапы подготовки тестов, обработки тестовых результатов и определения качества создаваемых тестов можно осуществлять вручную или при помощи элементарных приспособлений для расчетов (логарифмической линейки, микрокалькулятора). Чтобы получить хороший тест, исходный тестовый материал необходимо испытать на достаточно большой выборке обучающихся (не менее 150-200 человек). На накопление данных для такого количества испытуемых в условиях химического факультета потребуется около трех лет. Так что ожидать, когда появится достаточное количество персональных ЭВМ и компьютерных классов, совсем нет необходимости. Более того, если окажется, что тест будет готов к работе раньше, чем у вас появится достаточное количество техники и необходимое для ее работы программное обеспечение, то можно проводить тестирование на бланках.

6


Глава I..ТЕСТ И ТЕСТОВОЕ ЗАДАНИЕ

1.1. Определение теста

Педагогический тест – это система заданий специфической формы, определенного содержания, возрастающей трудности, позволяющая качес-твенно оценить структуру и измерить уровень знаний, умений и навыков. Чтобы выполнять функцию инструмента измерения, тест должен состоять из достаточного количества тестовых заданий, число которых определяет длину теста. По своей длине тесты могут быть короткими (10-20 заданий), средними и длинными (до 500 и более заданий). Оптимальное количество заданий, на которое испытуемые еще достаточно охотно отвечают в один присест, составляет 40-60.

Ключевые слова в определении теста – задание и его форма. Форуме заданий ниже посвящен целый раздел. Само же задание по своему содержанию – это исходная единица, клеточка теста, содержащая какой-то один элемент знания. Только при этом условии тестовое задание представляет собой дидактическое и технологически целесообразное средство объективного контроля подготовленности учащегося.

В ходе педагогического процесса тест выполняет следующие функции: диагностическую, обучающую, организующую и воспитывающую. Введение тестового контроля существенно повышает мотивацию обучения и заинтересованность обучаемого.

1.2. Преимущество теста перед традиционными формами контроля

1.2.1. Возможность количественного измерения уровня знаний и трудности заданий

Кроме теста, другого технологического инструмента для количествен-ного измерения таких скрытых (латентных) педагогических параметров, как уровень знаний и трудность заданий в настоящее время не существует. Причем, и тест не позволяет определить эти величины сразу и прямо. Только специальная математическая статистическая обработка результатов тестирования дает возможность методом последовательных итераций (приближений) получить количественные оценки указанных параметров с заданной степенью точности. Усваивающим эту технологию педагогам нематематического профиля не надо бояться такой обработки, ибо на современных ЭВМ она осуществляется в считанные минуты. При этом не только определяется уровень знания каждого обучаемого, но качественно оценивается и структура его знания. Под структурой знания, очевидно, следует понимать систематичность знаний обучаемого, позволявшая определить, какие разделы предмета он знает, а какие нет. Более того, структура знания позволяет легко выявить обучаемых, обладающих антизнаниями.

7


Имеются такие педагогические характеристики, как уровень интеллекта, темперамент, коммуникативность, совместимость и т.д., которые без применения теста количественно оценить невозможно. Если уровень знаний и трудность заданий может, хотя и субъективно, оценить каждый опытный преподаватель, то для оценки перечисленных характеристик человеческого индивида нет другого инструмента, кроме теста.

1.2.2. Объективность оценки и полный охват знаний при тестовом контроле

Экзамен дает субъективную оценку, которую трудно сравнивать для разных педагогов, разных учебных дисциплин и разных учебных заведений. Тест же дает количественную оценку, независимую от личности педагога, что позволяет объективно определять уровень подготовки каждого класса или группы, каждой школы или вуза. Более того, тест дает возможность определить и сравнить уровень подготовки по разным дисциплинам и уровень общей подготовки.

Экзамен осуществляет выборную проверку знаний испытуемого. Например, имеется 30 билетов по какому-то курсу. Таким образом, испытуемый демонстрирует преподавателю только 1/30 своих знаний. Разве у преподавателя при этом может быть уверенность, что сдающий экзамен знает остальные 29 частей курса так же хорошо? Ведь не исключена ситуация, когда испытуемый остальную часть курса вообще не знает. Тест же, состоящий из множества мелких вопросов, охватывает весь предмет в целом и поэтому дает информацию о знании каждым испытуемым всего курса.

Конечно же при тестировании должны быть соблюдены такие условия, которые исключают контакт тестируемых между собой, возможность списывания и подсказки. Объективность тестирования, особенно в условиях применения персональных ЭВМ, позволяет избежать и изжить такие уродливые явления как протекционизм, взяточничество и др.

1.2.3. Систематичность контроля и индивидуальный подход к обучению каждого испытуемого

Тест позволяет контролировать педагогический процесс на каждом занятии, что дает возможность педагогу немедленно вносить коррективы в обучение. Более того, количественное измерение уровня знаний каждого ученика или студента позволяет осуществить полную индивидуализацию его обучения. Педагогу не надо натаскивать подавляющее количество средних студентов в группе и самому терять за счет этого свой интеллект, эту функцию берет на себя машина. Обучающийся же волен выбирать программу обучения такой трудности, которая соответствует его уровню знания, чем и обеспечивается полная индивидуализация обучения. При этом интеллект талантливого индивида не будет загублен в средней массе обучаемых, как не будут погублены способности слабого, не способного усвоить данный предмет, но склонного к какой-либо другой области человеческой деятельности.

8


1.2.4. Технологичность тестов

Технологичность – одно из важнейших свойств тестов, которое позволяет полностью автоматизировать процесс обучения по строго индивидуальным программам и кардинально его совершенствовать. Ни одна из традиционных форм контроля знаний все сказанное выше сделать не позволяет.

1.2.5. Недостатки тестов

1.2.5.1. Возможность угадывания.

Если, например, закрытое тестовое задание содержит только два ответа, один из которых правильный, то вероятность угадывания правильного ответа равна 0,5, т.е. половину ответов на такие тестовые задания можно угадать. Однако, поправку на угадывание можно легко ввести в оценку по формуле:

(1.1)

где  – суммарный балл i-го тестируемого при двоичной (дихотомической) системе оценок, когда 1 балл дается за правильный ответ, а 0 – за неверный ответ; – оценка с поправкой на угадывание, – число неправильных ответов того же тестируемого, – число ответов в задании.

1.2.5.2. Относительная трудность создания качественного теста

Согласно классической теории тестов для создания качественного теста требуется большая выборка испытуемых, состоящая из нескольких десятков тысяч человек. Это требование практически невыполнимо в условиях любого вуза. Однако латентная, методика анализа позволяет снизить количество испытуемых уже до 500 при очень высоком качестве создаваемых тестов и даже до 150-200 при вполне достаточной надежности тестов. Это условие уже выполнимо в рамках одного вуза или школы, хотя создание теста и потребует существенного количества времени.

1.2.5.3. Наличие технических средств обучения

Современная технология обучения требует наличия автоматизированных рабочих мест преподавателя и обучаемых, обеспеченных персональными ЭВМ и другим не менее дорогим оборудованием. Таким образом, современное обучение будет весьма дорого стоить, но оно всегда себя окупит. Ибо только образование и культура могут спасти человеческую общность от тупикового развития.

1.2.5.4. Ошибки педагогических измерений

Педагогические измерения, как и все другие, всегда производятся с определенной ошибкой. Поэтому критики говорят, что раз измерения не точны,

9


то не стоит заниматься делом, которое связано с ошибкой. Кстати, то же имеет место и в случае физических измерений, и не смотря на это в физике, благодаря таким измерениям достигнуты поразительные успехи. Следовательно, таких же успехов может достичь и образование, если будет применять инструмент для количественного измерения хотя бы таких параметров, как уровень знания и трудность задания.

Согласно классической теории тестов наблюдаемая (измеряемая) оценка X состоит из истинного Т и ошибочного Е значений:

.                                                     (1.2)

Здесь мы не станем рассматривать классы ошибок (систематические, случайные, грубые и др.), остановимся на задаче оценки неизвестного значения Т. Поскольку величины X и Е подчиняются нормальному закону распре-деления, то естественно предположить, что этот же закон определяет характер распределения значений Т. Последнее методом последовательных итераций путем определения истинных значений ошибок позволяет приблизиться к истинному значению Т с требуемой степенью точности.

Только в последние годы было понято принципиальное отличие педагогических измерений от физических, которое состоит в том, что результаты педагогических измерений зависят от взаимодействия двух основных факторов педагогического процесса – уровня знаний θ и трудности предъявляемых обучаемым заданий β. У одних и тех же испытуемых при относительно легких заданиях значения баллов получаются высокими, при трудных – низкими. Аналогично зависит и оценка трудности самих тестовых заданий: в сильной группе трудность этих заданий становится заниженной, а в слабой – завышенной. Проблема взаимосвязи указанных педагогических параметров была решена в 1952 году, когда математик Георг Раш предложил свою математическую модель для связи θ и β, которая в настоящее время методом латентного анализа позволяет определять и то и другое путем последовательных приближений.

1.3. Форма тестового задания

В настоящее время известны четыре формы тестовых заданий. Исследователи настойчиво пытаются найти новую пятую форму, не исключено, что будет изобретена и шестая.

10


1.3.1. Закрытая форма тестовых заданий

Закрытой является такая форма, когда дается несколько готовых правдоподобных ответов, только один из которых правильный. Закрытые задания разделяются на виды: задания с 2, 3, 4, 5 и большим числом ответов. Помимо этого, существует четыре принципа формирования ответов в закрытом тестовом задании: альтернативный, классификационный, кумуляционный и сочетательный.

Задание закрытой формы строится в виде утвердительного предложения, т.е. в виде высказывания, истинного или ложного. Задание представляется в виде законченного лаконичного предложения, оно должно быть коротким, четким и ясным, в основном содержать 7±2 слов, в нем не должно быть ни одного лишнего слова или знака. Понимаемость заданий должна быть 100 %.  Если хотя бы один испытуемый не понимает задание – оно плохое!

Задания в тесте должны иметь сплошную цифровую нумерацию. Ответы в заданиях закрытой формы также должны иметь цифровую нумерацию. Каждой группе заданий одинаковой формы должна предшествовать инструкция. Пример инструкции для закрытой формы: отвечать на эти задания сравнительно просто. Для этого в каждом задании надо обвести кружком номер правильного ответа.

По написанию само задание должно четко отличаться от ответов либо шрифтом, либо цветом (при возможности).

1.3.1.1. Задания с двумя ответами

Задания с двумя ответами выявляют, как тестируемые ориентируются в своем предмете, и нужны в качестве предварительного тестирования. Примеры тестовых заданий, использующих принцип альтернативности,

1.       ПОВЫШЕНИЕ КОНЦЕНТРАЦИИ ИСХОДНЫХ ВЕЩЕСТВ СМЕЩАЕТ ХИМИЧЕСКОЕ РАВНОВЕСИЕ

1. влево

2. вправо

2.       ЛОГИКА РАЗВЕРТЫВАНИЯ УЧЕБНОГО МАТЕРИАЛА

НАЗЫВАЕТСЯ

1. индукцией

2. дедукцией

11


Это пример фасетного задания. Это по сути два отдельных задания, которые одинаковы по содержанию и по трудности. Фасетные задания очень нужны, поскольку позволяют создавать несколько параллельных тестов, что очень важно, если преподаватель желает, чтобы испытуемый при тестирований не списывали друг у друга.

Следующие задания составлены

- по классификационному принципу:

3.      ЯДРА ИЗОТОПОВ СОДЕРЖАТ ОДИНАКОВОЕ ЧИСЛО

1. протонов

2. нейтронов

-по кумуляционному принципу:

4.      ЧАСТОТА РЕЗОНАНСА В ЯМР ОПРЕДЕЛЯЕТСЯ

1. природой магнитных ядер

2. природой магнитных ядер и напряженностью постоянного магнитного поля

- по сочетательному принципу:

5.       МОСТ НАЗЫВАЕТСЯ МЕТАЛЛИЧЕСКИМ, ЕСЛИ ИЗ МЕТАЛЛА ВЫПОЛНЕНЫ

1. опоры и пролетные части

2. пролетные части и стяжные тросы

1.3.1.2. Задания с тремя ответами

Классификационный принцип:

6.       НАПРАВЛЕНИЕ СИЛЫ ЛОРЕНЦА ОПРЕДЕЛЯЕТСЯ ПО ПРАВИЛУ

1. правой руки

2. буравчика

3. левой руки

7.       СЛОВА И ОБОРОТЫ РЕЧИ ИНОСТРАННОГО ПРОИСХОЖДЕНИЯ

1. неологизмы

2. варваризмы

3. диалектизмы

Принцип альтернативности:

8.      МОРАЛЬ – ЭТО ВЫДУМКА ЧЕЛОВЕЧЕСТВА, А НЕ ВЫВОД ИЗ

ЖИЗНЕННОГО ОПЫТА

1. верно

2. затрудняюсь ответить

3. неверно

12


9. РАСТВОРИМОСТЬ ГАЗОВ ПРИ ПОВЫШЕНИИ ТЕМПЕРАТУРЫ

1. увеличивается

2. не изменяется

3. уменьшается

10.  КОРНИ УРАВНЕНИЯ

1. оба положительны

2.имеют разные знаки

3. оба отрицательны

11. ТЕПЛОТА РЕАКЦИИ МОЖЕТ ВЫТЬ

1. положительной

2. положительной и отрицательной

3. отрицательной

Ответ “затрудняюсь ответить” не допускается при проверке знаний но точным наукам, но им можно пользоваться при оценке мнения. Задание № 10 представляет тот идеальный случай фасетированного задания, когда, меняя уравнение в задании, можно создать бесконечное множество параллельных заданий одного содержания и одинаковой трудности.

У альтернативных заданий с тремя (а также с четырьмя) ответами появляется одна замечательная особенность, которая позволяет в массе испытуемых выявить лиц, обладающих антизнаниями. Для этого вводят троичную шкалу оценок: +1 дают за правильный ответ, 0 – за неправильный, -1 – за антизнание. Например, в задании № 9 за первый ответ дается оценка -1, за второй – 0, за третий – +1. И на машине, и вручную легко вычислить суммарный отрицательный балл, т.е. выявить лиц с ярко выраженным стремлением к антизнанию и работать с ними по особым индивидуальным программам.

Далее приводятся примеры, составленные по принципу – кумулятив-ности:

12. КОНСТАНТА СПИН-СПИНОВОГО ВЗАИМОДЕЙСТВИЯ МЕЖДУ МАГНИТНЫМИ ЯДРАМИ ОПРЕДЕЛЯЕТСЯ ЧИСЛОМ

1. и типом связей

2. и типом связей, угловыми параметрами между ними

3. взаимодействующих ядер, числом и типом связей, угловыми пара-метрами между ними

- сочетания:

13. В ИЗОТЕРМИЧЕСКОМ ПРОЦЕССЕ С ИДЕАЛЬНЫМ ГАЗОМ

ОСТАЮТСЯ ПОСТОЯННЫМИ

1. энтальпия и энтропия

2. энтропия и внутренняя энергия

3. внутренняя энергия и энтальпия

13


1.3.1.3. Задания с четырьмя ответами

Принцип альтернативности:

14. ПАДАЮЩЕЕ НА ЗЕМЛЮ ТЕЛО ОТКЛОНЯЕТСЯ К

1. западу

2. востоку

3. югу

4. северу

Принцип двойной альтернативы:

15. ПО СРАВНЕНИЮ СО. СТРУЙНЫМ ПРИНТЕРОМ У МАТРИЧНОГО

1. выше и быстродействие и качество печати

2. ниже быстродействие, но выше качество печати

3. выше быстродействие, но ниже качество печати

4. ниже и быстродействие и качество печати

16. ДИВЕРГЕНЦИЯ -

1. скалярная характеристика скалярного поля

2. векторная характеристика скалярного поля

3. скалярная характеристика векторного поля ■

4. векторная характеристика векторного поля

Сочетание принципов кумулятивности и альтернативности:

17. ДЛЯ НАБЛЮДЕНИЯ ЭПР НЕОБХОДИМО НАЛИЧИЕ

1. постоянного магнитного поля

2. перпендикулярных переменного и постоянного магнитных полей

3. перпендикулярных переменного и постоянного магнитных полей, частиц со спаренными электронами

4. перпендикулярных переменного и постоянного магнитных полей, частиц с неспаренными электронами

1.3.1.4. Задания с большим количеством ответов

В заданиях этого типа таятся огромные возможности для сочетания различных принципов.

Следующий пример задания с восемью ответами составлен по принципу тройной альтернативы:

18. ФОРМУЛА ОПИСЫВАЕТ ЧИСЛО ПОЛОС В МУЛЬТИ- ПЛЕТЕ РЕЗОНИРУЮЩИХ ЯДЕР ПРИ n.

1. эквивалентных соседних ядер со спином 1/2

2. неэквивалентных соседних ядер со спином 1/2

3. неэквивалентных соседних ядер со спином у  >1/2

14


4. эквивалентных соседних ядер со спином  >1/2

5. эквивалентных резонирующих ядер со спином 1/2

6. эквивалентных резонирующих ядер со спином  >1/2

7. неэквивалентных резонирующих ядер со спином 1/2

8. неэквивалентных резонирующих ядер со спином  >1/2

В следующем примере задания из 10 ответов использовано сочетание принципов кумуляции и сочетания:

19. В СПЕКТРЕ ПМР СПИНОВОЙ СИСТЕМЫ АХ3 СИГНАЛ ПРОТОНОВ А СОДЕРЖИТ ЧИСЛО ПОЛОС

1. одну

2. две с отношением интенсивностей 1:1

три с соотношением интенсивностей

3. 1:2:1

4. 2:1:2

четыре с соотношением интенсивностей.

5. 3:1:1:3

6. 3:3:1:1

7 .3:1:3:1

8. 1:3:1:3

9. 1:3:3:1

10. 1:1:1:1

1.3.2. Задания открытой формы

Инструкция по выполнению заданий открытой формы может быть составлена в следующем варианте:

А теперь вашему вниманию предлагаются задания, в которых нет готовых ответов, их надо написать от руки. Не забудьте, что ответы надо писать разборчиво.

20. ДЛЯ НАЛОЖЕНИЯ СОСУДИСТОГО ШВА ИСПОЛЬЗУЕТСЯ ___________ИГЛА

21. ТРАЕКТОРИЯ ДВИЖЕНИЯ ИОНА В МАГНИТНОМ ПОЛЕ ОПИ-СЫВАЕТСЯ ФОРМУЛОЙ_______________

22. ОБМЕН ЭНЕРГИЕЙ МЕЖДУ                                      НАЗЫВАЕТСЯ:

СПИНОВОЙ СИСТЕМОЙ ЯДЕР И

1. источником излучения______________

2. решеткой______________

3. спиновой системой таких же ядер, расположенных в пространстве рядом с первыми______________

15


1.3.3. Задания на соответствие

Задания этой формы станут понятными из конкретных примеров. Инструкция к ним может быть предложена в следующем варианте:

В данном виде заданий необходимо установить соответствие между левыми и правыми элементами задания и ответ записать в виде правильной комбинации цифр и букв.

Примеры:

УСТАНОВИТЬ СООТВЕТСТВИЕ:

23. ЛИДЕРЫ                                                     ПАРТИИ

1. Ленин.                                                            А. Кадеты

2. Мартов                                                          Б. Эсеры

3. Милюков                                                       В. Меньшевики

4. Плеханов                                                       Г. Большевики

24.КОЛЕБАНИЕ                   ТИП                                       ХАРАКТЕР

A. валентное                         а. симметричное

Б. деформацией                    б. антисимметричное

B. групповое                                  в. дважды вырожденное

Г. комбинированное            г. трижды вырожденное

ОТВЕТ: 1 _ _, 2 _ _, 3 _ _.

1.3.4. Задания на правильную последовательность

Задания этой формы очень важны для проверки у обучаемых различных навыков и умений. При помощи таких заданий можно, например, проверить порядок действия зубного врача при удалении зуба или пилота при той или другой аварии, порядок решения какой-то задачи или обработки детали на станке. При их помощи также – проверить очередность исторических событий или знание законов и определений. При их выполнении можно предложить следующий вариант инструкции:

16


При выполнении этой формы задания необходимо установить правильную последовательность выполняемых действий или слов в предложении. Для этого в клеточках необходимо поставить цифры, определяющие порядок слов или действий.

Примеры:

25. СОБЫТИЯ ФЕВРАЛЯ – ОКТЯБРЯ 1917 ГОДА

□ – V съезд РСДРП

□ – Отречение царя Николая II

□ – Приезд Ленина

□ – Создание Петроградского Совета

□ – Взятие Зимнего Дворца

□ – Корниловский мятеж

□ – II съезд Советов

26. ЗАКОН ОМА

□ – напряжение

□ – обратно пропорционально

□ – прямо пропорционально

□ – сопротивление

□ – сила тока

27. ПЕДАГОГИЧЕСКИЙ ТЕСТ

□ – знание

□ – система

□ – структура

□ – специфический

□ – задание

□ – качественно

□ – Тест – это

□ – уровень

□ – трудность

17


□ – форма

□ – оценить

□ – содержание

□ – и измерить

□ – позволяющая

□ – возрастающая

□ – определенное

В заданиях этой формы каждое действие (событие) можно начинать с большой, можно с малой букв. Слова предложения, как в заданиях 26 и 27, – с малой. Начальное слово можно начинать с большой буквы, хотя это и является подсказкой.

1.3.5. Ситуационные тесты

Ситуационный тест – это не новая форма тестового задания, а целенаправленный набор тестовых заданий, предназначенными для разрешения всякого рода проблемных ситуаций, свойственных будущей профессии обучаемых. Длина теста может быть различна и зависит от количества решений (шагов), которые предстоит выполнить испытуемому при выходе из такой ситуации. Форма отдельных тестовых заданий в таком тесте также может быть различной, хотя, очевидно, можно воспользоваться и какой-нибудь одной формой. Здесь не приведен пример ситуационного теста, ибо он занял бы слишком много места. Но опытный педагог в состоянии его составить применительно к своей профессии, тем более, что такого рода тесты еще недостаточно разработаны и здесь для творческой личности непочатый край работы.

Ситуационный тест, по-видимому, не сможет выполнять обычную диагностическую функцию, поскольку тестовые задания в нем вряд ли целесообразно располагать в порядке возрастания их трудности. Порядок заданий будет определяться теми действиями, которые испытуемые должны предпринять для разрешения проблемной ситуации. Поэтому ситуационные тесты, скорее всего, должны выполнять обучающую функцию, приучая обучаемых к творческому поиску

18


Глава 2. ОБРАБОТКА РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ И ОПРЕДЕЛЕНИЕ КАЧЕСТВА ТЕСТА

Составление теста неотделимо от математической обработки результатов тестирования и определения качества создаваемых тестов. Поэтому эти три проблемы объединены в одной главе и будут рассмотрены одна за другой в той последовательности, какая имеет место в ходе работы по созданию теста. Безусловно, вся эта работа должна начинаться с компоновки проекта теста, который в дальнейшем будет называться ‘Тестовым материалом. Последний, применяя методы математической статистики, предстоит превратить в тест хорошего качества.

Итак, перед создателем теста стоит задача превращения учебного материала в тестовые задания, которые в дальнейшем будут скомпонованы в нечто целое, т.е. в тестовый материал. При выполнении этой работы следует воспользоваться алгоритмом, который приведен ниже. Однако необходимо отметить, что этот алгоритм несколько отличается от того, который был предложен преподавателями исследовательского центра при МИСиС. Составитель настоящего пособия даже на опыте своей короткой работы с тестовым материалом пришел к выводу, что этапы определения трудности заданий и установления их последовательности в тесте будут выполнены автоматически в ходе статистической обработки результатов тестирования. Поэтому нет необходимости вводить их в алгоритм составления тестового материала.

2.1. Алгоритм составления тестового материала

2.1.1. Структурирование учебного материала

Приступая к составлению теста для проверки знаний по какому-то предмету, необходимо найти ответ, что такое знание предмета, которое необходимо оценить. Если, например, изучаемая дисциплина состоит из ряда разделов, то в определение понятия “знание предмета” должно включаться знание разделов. Затем вводится понятие “знание раздела”, которое раскрывается через названия тем, входящих в раздел. На следующем этапе структурирования материала вводится понятие “знание темы раздела”, которое в свою очередь формируется из названий параграфов (вопросов), составляющих тему. Выделяют также следующие структурные  элементы учебного материала (в скобках указаны примерные, часто, применяемое изображения некоторых элементов на логико-структурных схемах):

19


1.Теории, законы.

2.1.2. Установление логических связей между элементами и составление логико-структурных схем.

Выделяются следующие типы логических связей : внутренние (), внешние (), перспективные (), предшествующие(). Затем составляются логико-структурные схемы тем, разделов и всего предмета в целом.

2.1.3. Составление тестовых заданий на базе логико-структурной схемы

На логико-структурной схеме выделяются те структурные элементы и логические связи между ними,- знание которых необходимо проверить при помощи теста.„Выделенные элементы и составят содержание тестовых заданий.

2.1.4. Выбор оптимальной формы тестовых заданий

Наиболее-оптимальным вариантом теста является такой, который состоит из заданий одной формы. Если тест предназначен для проверки знаний по одной теме и состоит из заданий одной формы, то он является гомогенным и по форме и по содержанию. Те тесты, которые охватывают различные темы или даже дисциплины и составлены из заданий различной формы, являются гетерогенными по форме и содержанию.

Исходя из поставленной задачи, преподаватель волен выбрать, и форму задания, и форму теста. Например, если надо провести входной контроль только по неорганической химии, то следует выбрать закрытую форму заданий как наиболее простую и легкую. Составленный тест, следовательно, будет гомогенным и по форме, и по содержанию. Если же входной контроль надо провести по физическим методам исследования в химии, то тест должен содержать задания по химии, физике и математике. Однако форма этих заданий должна быть также самой простой, т.е. закрытой, и тест будет гомогенным по форме, но гетерогенным по содержанию. Если же надо составить тест для итогового контроля по всему предмету после завершения его изучения, то такой тест целесообразно составить из заданий всех известных форм, так как надо проверить и знания, и умения, и навыки.

20


2.1.5. Составление плана теста

Оптимальное количество тестовых заданий в тесте может колебаться от 30 до 60 при времени тестирования 10-20 минут. Проводят предварительную раскладку заданий по разделам курса, состоящего, например, из 4 разделов, главным из которых является 3-й. Раскладка представлена в табл. 2.1.

Таблица 2.1

Распределение тестовых заданий по разделам

В ходе контроля, например, надо проверить умение давать определения /А/, знание формул, законов и принципов /Б/, умение применять знание законов, формул и принципов для решения задач и примеров /В/, умение находить сходство и различие, недостатки и достоинства /Г/, умение представлять материал на графиках и схемах /Д/. Поэтому раскладку заданий конкретизируют по этим умениям (табл. 2.2)

Таблица 2.2

Раскладка заданий теста по видам знаний и умений

Поскольку в ходе математической обработки примерно 2/3 всех заданий будут забракованы как непригодные, то необходимо с самого начала составить тестовых заданий в 3 раза больше, чем требуется в тесте. Таким образом, для теста длиной в 60 заданий предварительно надо составить около 180 заданий.

21


2.1.6. Проверка теста на большой выборке испытуемых

К обработке результатов тестирования не следует приступать, пока не наберется достаточно большая выборка испытуемых, составляющая примерно 100-150 человек. Составляется матрица тестовых результатов, пример которой для тестового материала из 12 заданий, проверенного на выборке из 10 испытуемых, представлен в табл. 2.3. Конечно, требование к количеству испытуемых здесь не соблюдено ради экономии места. Для оценки знания здесь использована дихотомическая шкала: 1 – знает, 0 – не знает.

Таблица 2.3 – Матрица результатов тестирования

22


2.2. Обработка тестовых результатов

Представленная в табл. 2.3 матрица результатов  тестирования является неупорядоченной, ибо в ней и испытуемые и задания расположены в случайном порядке. Эту матрицу следует прежде всего упорядочить. Для этого испытуемых надо расположить в таком порядке, чтобы их суммарный балл увеличивался сверху вниз, а задания в свою очередь расположить так, чтобы число правильных ответов на задание понижалось слева направо. При этом из тестового материала сразу выбрасывают те задания, которые не служат цели дифференцирования знаний студентов и являются в этом отношении бесполезными. В данном случае такими заданиями являются второе и седьмое задания. Задание № 2 слишком легкое и на него ответили все испытуемые, задание № 7 слишком трудное, и на него никто не ответил. Получившаяся упорядоченная матрица представлена в табл. 2.4.

Помимо уже известных, в табл. 2.4 применены следующие обозначения. Индексы i и j относятся соответственно к испытуемому и к заданию; Wi- число неправильных ответов на j задание; N – число испытуемых; k – число заданий в тесте, – доля правильных ответов на j задание; – доля неправильных ответов на j задание; – дисперсия j задания; - стандартное отклонение результатов испытуемых по j заданию. Обе последние величины представляют собой показатель вариации трудности задания, которую мы обозначаем как .

Из табл. 2 видно, что в оставшемся тестовом материале имеется два задания, №6 и №7, которые имеют одну величину , что указывает на их одинаковую трудность. Два одинаковых по трудности задания не должны входить в один тест, но только при условии, что они контролируют один и тот же учебный вопрос (тему, раздел). Если же они относятся к различным разделам, и в тесте, кроме них, нет других заданий, контролирующих эти области знания, то такие задания обязательно надо оставить.

После упорядочения матрицы тестовых результатов вычисляют следующие величины: X – средний арифметический балл по всем испытуемым-

;                                                     (2.1)

- сумма квадратов отклонений по результатам испытуемых –

(2.2)

23


24


-дисперсия результатов испытуемых;

;                                               (2.3)

– стандартное (среднеквадратичное) отклонение результатов испытуемых

от .

(2.4)

При нормальном распределении результатов тестирования В нашем случае . Последнее, очевидно, связано с тем, что здесь использована очень малая выборка испытуемых, явно недостаточная для проверки применимости закона нормального распределения.

Следующим обязательным шагом при обработке тестовых результатов является вычисление показателей связи тестовых заданий как между собой, так и с суммой тестовых баллов испытуемых Xi. В пособии Аванесова описаны три таких показателя, но здесь будет использован только один обычный коэффициент корреляции Пирсона:

(2.5)

где х и у – параметры, показатель связи которых между собой рассчитывается; – сумма произведений отклонений от средних  значений по x и y; и – сумма квадратов отклонений по

Допустим, надо найти – коэффициент связи 5-го задания c суммой тестовых баллов для каждого испытуемого хi . Тогда .

25


По той же формуле (2.5) рассчитываются коэффициенты корреляции заданий между собой. Например, для связи 5-го задания с 6-м уравнение (2.5) записывается в виде:

Коэффициенты корреляции r здесь представляют собой коэффициенты валидности заданий, характеризующие их пригодность для поставленной цели – дифференциации знаний испытуемых. Все рассчитанные значения r сводятся в корреляционную матрицу, которая для приведенного здесь примера (табл. 2.4) представлена в табл. 2.5. Матрица квадратная, поскольку число строк и

столбцов равно числу заданий, а их номера соответствуют номерам заданий в табл. 2.4

Представленные в табл. 2.5 коэффициенты корреляции позволяют произвести объективную выбраковку заданий. Все те задания, для которых коэффициент связи задания с суммарным тестовым баллом испытуемых меньше или равен нулю, несостоятельны и непригодны для контроля знаний, поэтому их надо выбрасывать не только из создаваемого теста, но и существенно переделывать и улучшать. Задания же, для которых , являются кандидатами на удаление из теста, но не надо спешить удалять их из теста. Может так оказаться, что других заданий в тесте с подобным содержанием нет, и, если это задание выбросить, то окажется, что в тесте по целому разделу (теме, вопросу) образовался пробел. Итак, если тестовое задание уникально, то его стоит в тесте оставить, если даже

По величинам видно, что 3-е и 8-е задания теста из 10 являются наименее пригодными для контроля знаний испытуемых и являются кандидатами на удаление их из теста.

Eщё больше информации дают коэффициенты,, характеризующие степень связи заданий между собой. Как видно из табл. 2.5, на плохое качество заданий № 3 и 8 указывает наибольшее количество отрицательных коэффициентов в колонках, относящихся к этим заданиям. Средние значения  также являются мерой качества задания. Если , то такие задания имеют очень плохое качество. К таким как раз и относятся задания  №3 и №8.

26


Наглядно это обстоятельство характеризуют коэффициенты детерминации характеризующие меру связи данного задания со всей матрицей, которую можно выразить в процентах . Если, , то , и такое задание плохо связано со всей матрицей и должно быть выключено.

Даже  внешний  осмотр  упорядоченной  матрицы,  представленной в табл. 2.4, без детального анализа расчетов дает ценную информацию о качестве заданий. Одним из показателей качества заданий является их состоятельность, как и состоятельность испытуемых, о которых можно судить по количеству ошибок в столбцах (состоятельность заданий) и строчках (состоятельность испытуемых).

Визуальный осмотр матрицы показывает, что она состоит из двух треугольных матриц, одна из них (верхняя правая) состоит практически из одних нулей, другая (нижняя левая) – из одних единиц. Между указанными треугольными матрицами имеет место достаточно четкая граница. Однако для обеих матриц наблюдаются нарушения, т.е. имеются оценки (подчеркнуты), которые находятся не на своих местах. Чем больше таких нарушений, тем хуже качество теста в целом. Если же анализировать отдельные задания или, отдельных испытуемых, то можно сделать следующие выводы:

1. Самый слабый студент выполнил 8-е, одно из самых трудных заданий, следовательно, несостоятельно само задание.

2. Один из самых сильных студентов /Величко/ не выполнил 3-е задание, хотя он же выполнил остальные семь более трудных заданий. Очевидно, что несостоятельно задание. Обращает на себя внимание, что нарушения в этих случаях далеко отстоят от границы между треугольными матрицами, что лишний раз указывает на несостоятельность заданий, а не студентов. Кроме того, эти два вывода соответствуют заключению,

вытекающему из анализа величин r.

3. Студент Рябко не выполнил 6-е, но выполнил 7-е, наиболее трудное задание, но поскольку оценка 1 примыкает к столбцу единиц, а оценка 0 – к столбцу нулей, то, очевидно, здесь виноват студент, а не задание. Возможные причины вины студента – либо списал, либо имеет неуверенные знания в пограничной области.

27


28


4. Еще более несостоятельной является студентка Окатова, оценки которой нелогично расположены: ее ответы несостоятельны (скорее всего списала или угадала).

Проанализировав тестовые результаты указанными выше способами, с целью улучшения качества создаваемого теста проводят чистку упорядоченной матрицы тестовых результатов: из нее исключают не только несостоятельные задания, но и несостоятельных испытуемых. Если удаление заданий легко обосновать, то удаление испытуемых обосновать значительно труднее, ведь их так просто из учебной группы (класса) не исключишь. Поэтому при исключении испытуемых из тестовых результатов пользуются следующим правилом: из матрицы тестовых результатов исключают не более 5 %,  а еще лучше не более 1% испытуемых. Это, с одной стороны, позволяет защитить тест от очень несостоятельных студентов, но с другой также от искусственного завышения качества теста за счет исключения испытуемых, поведение которых не вписывается в рассматриваемую схему.

После чистки матрицы 2.4 получают улучшенную матрицу тестовых результатов 2.6, для которой повторяют всю математическую обработку. Корреляционная матрица после чистки тестовой матрицы представлена в табл. 2.7. Даже поверхностное сравнение корреляционных матриц 2.7 и 2.5 показывает, что окончательный тест из 8-ми заданий стал существенно качественнее, чем первоначальный тестовый материал. Об этом свидетельствуют величины (средние значения средних коэффициентов корреляции для всех тестовых заданий), представленные в табл. 2.5 и 2.7.

29


30


2.3.Структура знаний

Тест позволяет не только определить уровень знаний испытуемых, но и качественно оценить структуру знаний. Структура знаний – это характер знаний, их полнота, систематичность. Она позволяет более эффективно оценить результаты труда педагога, выявить, что студент не знает и почему, определить студентов с антизнанием. Без всего этого педагог работает вслепую и не может корректировать .учебный процесс в направлении повышения его эффективности. Тот, кто это делать не может, не может быть хорошим педагогом.

Структуру знаний характеризует профиль знаний. Например, четыре студента, ответив на тест из 10 заданий, получили суммарный тесто вый балл, равный 5. Однако, студенты имеют разные профили знаний:

Студент                        Профиль                      Характер

1                 1  1  1   1  1      0  0  0  0   0            правильный

2                 0  0  0   0  0      1  1  1  1   1            неправильный

(антизнания)

3                 0  1  0   1  0      1  0  1  0   1            неправильный,

4                1  0  1   0  1      0  1  0  1   0            несистематичные знания

(аварийщики)

За рубежом, особенно в Японии, педагоги обращают внимание не столько на уровень знания, сколько на профиль. Там учебный процесс формируется таким образом, чтобы пробелов в знаниях не было. Правильный профиль не требует пояснений. Обучаемый, обладавший антизнаниями (знает ответы на трудные вопросы и не знает – на легкие), заслуживает того, чтобы педагоги обратили на него внимание и не только выявили причины такого его состояния, но и составили для него индивидуальную программу обучения.. Но среди этих четырех особое беспокойство вызывают 3-й и 4-й студенты, показывающие несистематические знания. Это аварийщики, именно такие специалисты и привели к аварии Чернобыльскую АЭС.

Причину каждого неправильного профиля надо анализировать и добиваться ее устранения. Нет сомнения, что неправильный профиль может быть связан с двумя видами причин;

1) студент и его знания;

2) тест и его надежность.

Если окажется, что по какому-то заданию множество студентов (>10%) дают неправильный профиль (по другим заданиям профиль правильный) то такие задания надо исключать из теста, несмотря на хорошие коэффициенты корреляции.

31


Структуированность профиля знаний испытуемых характеризуется числом правильности, профиля или оценкой осторожности (в отношении к уровню знания), которая вычисляется по уравнению:

(2.6)

где xi – тестовый балл испытуемого, Rj – число правильных ответов на j -e задание, k – число заданий,

Такие расчеты можно продемонстрировать на примере следующих тестовых результатов, полученных на выборе из 29 испытуемых для теста из 6 заданий и представленных в табл. 2.8.

Примеры расчетов:

Если Ci=0, то к профилю знаний полное доверие, если же Ci=1 – то полное недоверие. Величину 1-Ci называют индексом структуры знаний, который можно использовать для корректировки тестового балла на неправильный профиль:

Хс = Xi(1-Ci). Например, для 5-го студента

Хс=4(1-0,56-1,76≈2.

2.4. Оценка качества теста

Научно-обоснованный тест – это инструмент измерения, соответствующий установленным стандартам надежности и валидности, определяющим качество теста. Только качественный тест обеспечивает качественный контроль знаний и позволяет составить качественные индивидуальные программы обучения. Валидность теста характеризует пригодность теста для достижения поставленной педагогом цели. В нашем случае – пригодность для дифференциации знаний испытуемых. Надежность же теста связана с точностью измерения уровня знаний.

32


33


2.4.1. Надежность теста

Существует множество способов определения надежности.

Способ 1 -вычисление коэффициента корреляции Пирсона между двумя параллельными тестами на одной и той же выборке испытуемых. Метод был бы прекрасен, если бы не имел существенных недостатков:

а) повторная проверка знаний по одному и тому же вопросу связана с лишней психологической нагрузкой учащихся и их переутомлением;

б) создание параллельных тестов – дело чрезвычайно трудное, ибо истинно параллельные тесты практически нереальны.

Способ 2 – корреляция между повторными испытаниями через определенное время одного и того же теста на той же группе. Недостатки очевидны.

Способ 3 – корреляция тестовых результатов и экспертных опенок. К перечисленным уже недостаткам в этом случае добавляется еще необходимость организации группы экспертов, что увеличивает нагрузку преподавателей.

Другие приведенные ниже методы более удобны.

Способ 4 – расчет коэффициента корреляции по формуле Спирмана-Брауна:

(2.7)

Где rK- коэффициент корреляции между двумя половинками теста. Чтобы обе половинки теста удовлетворяли условию параллельности корреляцию необходимо проверить между четными и нечетными заданий. Пример расчета по этому способу дан ниже для тестовых результатов (табл. 2.4).

Эти данные формируются в две параллельные группы, как это показано в табл. 2.9.

34


Таблица 2.9

Применение формулы (2.7) к данным табл.2.4

Испытуемые

Сумма баллов

по заданиям

X2

Y2

XY

Вектор ошибок

Е, Е=X-Y

Е2

Четным

X

Нечетным

Y

1

2

3

4

5

6

7

8

Майков

1

0

1

0

0

1

1

Попов

1

1

1

1

1

0

0

Шушкин

1

2

1

4

2

-1

1

Окатова

1

3

1

9

3

-2

4

Боброва

2

2

4

4

4

0

0

Совков

2

2

4

4

4

0

0

Рябко

2

4

4

16

8

-2

4

Иванов

3

4

9

16

12

-1

1

Величко

5

4

25

16

20

1

1

Алиев

4

5

16

25

20

-1

1

Всего:

22

27

66

95

74

-5

13

Тест достаточно надежен, поскольку

Способ 5:

где – дисперсия ошибок, – дисперсия баллов по всему тесту. Дисперсия ошибок вычисляется по уравнениям:

(2.9)

(2.10)

35


По данным табл. 2.9

Предложенные выше методы определения надежности основаны на допущениях параллельности и эквивалентности, что далеко не всегда выполняется. Вот почему были найдены методы, которые основаны только на фактах без всяких допущений.

Способ 6:

(2.11)

где k – число заданий, – среднее значение средних величин коэффициентов корреляции. Для тестовой матрицы 2.4

Интересно сравнить, как изменяется надежность теста после удаления двух несостоятельных заданий и одного испытуемого. По данным табл. 2.7:

Увеличение rHT было бы еще заметней, если бы число заданий было большим. Например, если k=20, то при том же значении rHT=0,942 . Отсюда вытекает очень важный вывод, что надежность теста возрастает по мере увеличения его длины. Но длину теста нельзя увеличивать до бесконечности по вполне очевидным причинам, она должна быть разумной. Оптимальна длина тестов, которые испытуемые охотно выполняют – 40-60 заданий.

Способ 7. Формула KR-20 (авторы Kuder, Richardson, 20-й вариант их формулы);

,                                          (2.12)

где k – число заданий в тесте, – сумма дисперсий испытуемых. Для данных в табл. 2.4 , при k=10, откуда rHT=0,837. Формула позволяет избежать дополнительных вычислений.

36


Для недихотомической шкалы оценок (например, семи или пятибалльной) имеется своя формула надежности:

,                                              (2.13)

где – сумма дисперсий заданий теста, дисперсия суммарных баллов . Пример такого расчета приведен в табл. 2.10, в которой сведен рейтинг в семибалльной шкале (например, сумма баллов семи экспертов) по восьми видам общественной нагрузки (шефская помощь, выступление на собраниях, участие в субботниках и т.д.)

37


Способ 8. Надежность теста по Гутману:

(2.14)

где – сумма ошибочных элементов упорядоченной матрицы тестовых результатов. Например, для представленной в табл. 2.4 упорядоченной матрицы (обшее число подчеркнутых элементов). Отсюда:

Таким образом, как видно, вычисленные различными способами коэффициенты надежности для одного и того же теста различны. Поэтому возникает вопрос, какое же значение коэффициента надежности истинно. Ответ может быть только один: никакое! Ибо нельзя знать точно величину ошибки измерения, но всегда можно получить оценку вероятного значения rHT, что и было выполнено различными способами. Поэтому всегда важно вычислить rHT различными способами. Если rHT вычисленные различными способами, сходны-, то тест надежен (если rHT>0,8). Если же вычисленные значения сильно различаются, то тест не отвечает нужным требованиям, надо искать причину его низкого качества.

Для оценки надежности тестов разработаны и другие методы, основанные на применении дисперсионного и факторного анализа.

2.4.2. Дисперсионный и факторный анализ

Не вдаваясь в теорию дисперсионного анализа, затронем лишь практическую сторону его применения для оценки надежности теста. Алгоритм расчета сводится к нескольким этапам:

38


1. Нахождение SSt – суммы квадратов отклонений баллов всех испытуемых по всем заданиям от средней арифметической по тесту в целом (обшей вариации по всему тесту):

(2.15)

Дисперсия                            (2.16)

Для табл.2.10 

2. Нахождение SSw суммы квадратов отклонений суммы баллов испытуемых по каждому заданию отдельно  (вариации только по заданиям теста):

(2.17)

Дисперсия                  (2.18)

Для рассматриваемой в табл. 2.10 тестовой матрицы:

3. Нахождение SSB суммы квадратов отклонений суммы баллов заданий по каждому испытуемому (вариации только по ответам испытуемых)

(2.19)

Дисперсия                  (2.20)

Для тех же экспериментальных данных:

39


4. Определение остаточной вариации SSост (вариации ошибок) – суммы квадратов отклонений от средней ошибки:

(2.21)

Дисперсия ошибок

(2.22)

6. Вычисление коэффициента надежности:

(2.23)

7. Нахождение индекса гомогенности теста:

(2.24)

Чем выше индекс гомогенности, тем гомогеннее тест.

Все эти вычисления надежности применимы только к гомогенным тестам. Но тесты часто бывают гетерогенными. Их надежность проверяется с помощью факторного анализа. Факторный анализ требует достаточно сложной системы расчетов, которая оформлена в виде программы для ЭВМ и которую невозможно изложить в безмашинном варианте. Говоря о факторном анализе, необходимо отметить, что всегда стремятся свести анализ к возможно меньшему числу факторов. Например, успеваемость можно поставить в зависимость от таких факторов, как пол, жизненные условия, тип оконченной школы (сельская, городская, специальная), время окончания школы и т.д. При анализе может оказаться, что какие-то факторы влияют на уровень знаний, другие – нет.

2.4.3. Интерпретация коэффициента надежности

Надежность теста связана с ошибкой измерения соотношением

(2.25)

где  – среднеквадратичное отклонение ошибки, – среднеквадратичное отклонение результатов тестирования. Исходя из стандартного отклонения ошибки , вычисляется доверительный интервал тестовых баллов

(2.26)

где  t – критерий значимости статистики (коэффициент Стьюдента).

40


Его находят из статистических таблиц. Например, при N>120 и р=0,95  t=1,96. Здесь р – надежность, т.е. вероятность риска допустить ошибку. При  р=0,95 имеется риск допустить ошибку измерения,. превышающую доверительный интервал, в 5 случаях из 100.

2.4.4. Валидность тестов

Качество педагогического контроля зависит не только от надежности инструмента измерения, но и от его валидности. Однако в отличие от надежности, определение которой сводится к выбору одной из множества изложенных выше расчетных схем, обоснование валидности теста представляет задачу методологического характера. Процесс валидизации начинается с уточнения цели и конкретных задач педагогического контроля. Если ставится цель проверить знания студентов по определенной дисциплине и при этом неважно, каким методом это будет сделано, то легко понять, что эта цель будет достигнута с помощью зачетов, экзаменов, курсовых и дипломных работ и т.п. Эти методы неравноценны с точки зрения временных затрат, объективности и качества оценки, и потому вопрос о валидности легко переводится в прагматическую плоскость оценки сравнительной пригодности того или иного метода для достижения поставленной цели.

2.4.4.1. Валидность по нормальному распределению

Валидность любого теста можно и нужно оценивать с позиций нормативного типа мышления, при котором любой результат должен быть соотнесен с нормой. Если нет нормы, то трудно сказать, что означает, например, полученный испытуемым Ивановым в каком-нибудь тесте балл 35 – хорошо это или плохо, Если же известно, что нормой является 25 баллов, то оценка 35 принадлежит одному из лучших студентов. В тестовой практике за норму берется средняя арифметическая, результатов тестирования. На требованиях.к норме мы не будем останавливаться, ибо нормирование будет иметь значение при межвузовском контроле знаний и проблема становится актуальной только при разработке тестов для межвузовского контроля.

Тест считается валидным, если средний результат тестирования присущ, большей части учащихся, а сами результаты распределяются по нормальному закону. Нормальность распределения достигается путем варьирования числа легких и трудных заданий в тесте. Валидный тест должен содержать подавляющую долю заданий средней трудности, но он обязательно должен иметь и откровенно легкие задания, которые не решает 1 из 100 или даже 1 из 1000 испытуемых, и откровенно трудные задания, которые решает 1 из 100 или 1 из 1000 испытуемых. Валидность теста по распределению легко достигается путем замены заданий, нарушающих нормальность распределения.

41


2.4.4.2.       Валидность по содержанию

Если перед тестом стоит цель оценить знание предмета, то задания теста должны охватывать хотя бы все разделы и темы предмета. Когда начинают обрабатывать тест, то зачастую в нем образуются провалы по содержанию, т.е. могут исчезнуть отдельные темы и даже разделы. Перед создателем теста стоит трудная задача заполнить эти пробелы. Ведь при этом необходимо не только втиснуть в задание нужное содержание, но и придать ему ту трудность, которая необходима. Для соответствующего места задания в тесте. При этом задание должно еще и обладать высокой различающей способностью.

2.4.4.3. Валидность по различающей способности

Задача теста – дифференцировать студентов по уровню знаний. Чем выше дифференцирующая способность теста, тем выше его валидность. Чтобы повысить валидность теста, нужно ввести в него задание с высокой различающейся способностью (РСЗ).

Определить РСЗ можно путем вычисления коэффициентов корреляции ответов по каждому заданию с суммой баллов для всех студентов, как это было показано в разд. 2.2.Если r>0,3, то задание обладает достаточной РСЗ.

Другой способ определения РСЗ состоит в следующем. Проводится предварительное тестирование достаточно большой выборки испытуемых (N>100), например, при входном контроле, которое при условие нормального распределения результатов позволяет отобрать по 27 %  испытуемых в худшую и лучшую группы. Тогда –

,                                                           (2.27)

где и – доли правильных ответов в лучшей и худшей группах:

Здесь n – число правильных ответов.

42


Различающую способность теста можно повысить следующими способами.

1.      Регулирование по времени тестирования. Ограничение времени тестирования сильно влияет на результаты тестирования. В связи с этим введем два понятия:

а)      тестирование с ограничением времени – такой контроль, при котором ни одному испытуемому не удается ответить на все задания;

б)      тестирование без ограничения времени – когда 95 %  испытуемых успевают попробовать ответить на все задания. Обычно выбирают среднее время, при котором стандартное отклонение результатов испытуемых наибольшее.

2. Правильное комплектование групп. В группах должны быть и слабые, и сильные обучаемые, но доля людей со средними возможностя­ми должна быть преобладающей.

3. Оптимальный подбор заданий. В тесте должны быть задания всех уровней трудности, точное их количество зависит от конкретных об­стоятельств, но всегда доля заданий средней трудности должна быть наибольшей.

2.4.4.4. Валидность теста и его длина

С увеличением длины теста растет его теоретическая надежность. Но на практике после какой-то определенной (оптимальной) длины и надежность, и валидность теста начинают падать вследствие и усталости испытуемых, и возникающих организационных проблем (организация перерывов и других мероприятий). Поэтому оптимальная длина теста – 40-60 заданий.

Существуют различные формулы, связывающие длину и надежность теста.

1. Формула Спирмана-Брауна

(2.28)

позволяет предсказать надежность теста , которая будет получена после увеличения длины теста в n раз при имеющейся надежности rHT.

43


2. Другой вариант формулы для связи длины и надежности:

(2.29)

где n – число, указывающее; во сколько раз нужно удлинить тест, чтобы получить надежность rq; rq и rK – надежности длинного и короткого тестов.

2.4.4.5. Валидность и расположение заданий

Существует несколько способов расположения заданий в тесте: в порядке возрастания трудности, расположение по спирали, случайный и специальный порядок.

Наиболее валидным в случае гомогенного теста является расположение заданий в порядке возрастания трудности, в гетерогенном – расположение по спирали: сначала находятся наиболее легкие задания по разным дисциплинам, затем задания следующего уровня трудности. Например, для теста по четырем дисциплинам (А, В, С, Д) спиральное расположение заданий будет выглядеть следующим образом:

A1B1C1D1A2B2C2D2A3B3C3D3……………………….AnBnCnDn

где индекс внизу соответствует уровню трудности задания.

Случайный порядок наиболее валиден в психологических тестах. На специальном порядке мы останавливаться не будем.

2.4.5. Способы валидизации.теста

Из различных способов определения валидности теста остановимся на одном, наиболее часто применяемом. Это сравнение результатов тестирования с результатами экспертной оценки. Для примера можно привести два следующих варианта этого метода:

1. Например, ставится задача создать тест для отбора курсантов в летное училище. Проверять создаваемый тест на самих курсантах нет смысла, ибо, во-первых, неизвестно, какие получатся летчики (ни один летчик не должен быть плохим при таком отборе), а, во-вторых, долго ждать результатов. Поэтому сознаваемый тест дается летчикам во время переаттестаций, профессиональные умения которых так или иначе должны оцениваться экспертами. Если результаты тестирования хорошо коррелируются с экспертной оценкой, то такой тест валиден, т.е. он пригоден для отбора курсантов в летное училище.

2. Многие преподаватели ставят под сомнение возможность приме­нения тестов для контроля знаний. Поэтому многократно ставился эксперимент, в соответствии с которым проводилась корреляция резуль­татов тестирования с экспертной оценкой группы опытных преподавате­лей устных (письменных) ответов по тем же вопросам, что и в тесте, одной и той же выборки

44


испытуемых. Если тест составлен правильно, то коэффициенты корреляции получаются неизменно высокими. Таким образом, надежность оценки знаний тестом по крайней мере не ниже, чем у экспертов. Но тест дает ряд преимуществ: объективность, резкое сокращение времени на проверку, охват всего материала в одной проверке и освобождение преподавателя для творческой работы.

2.5. Оценка качества теста

Качество теста оценивают отдельно по надежности и валидности, сравнивая экспериментальные данные с требованиями, представленными

в табл. 2. 11.

Так же, как нет единой, раз навсегда установленной, надежности теста, так нет и единой валидности теста. В научных публикациях наряду с информацией о коэффициенте валидности теста, необходимо сообщать о способе его валидизации.

45


Глава 3. МЕТОД ЛАТЕНТНОГО АНАЛИЗА РЕЗУЛЬТАТОВ ТЕСТИРОВАНИЯ

Наша официальная педагогика отвергала возможность измерения уровня знаний и интеллекта. На западе широко, у нас меньше, да и то только в последнее время, ведутся исследования по разработке теории таких измерений и по их практическому применению. В данной главе будет рассмотрена не столько теория, сколько практика вычисления: уровня знаний и трудности заданий методами латентного анализа на базе результатов тестирования.

Эти оба педагогических параметра, уровень знаний и трудность заданий, являются латентными, скрытными, потому что их нельзя измерить, как длину стола, физическими методами. Эти величины нельзя определить точно сразу. Они оцениваются приблизительно, а затем путем математических действий и итераций приближаются постепенно к их истинному значению.

В основе определения указанных латентных параметров лежит представление, что измеряемый параметр, например, сумма тестовых баллов X, состоит из истинного значения Т и ошибки Е; согласно уравнению (1.2).

Поскольку X и Е подчиняются нормальному закону распределения, то считается, что и Т также подчиняются нормальному закону. Путем многоступенчатого уточнения ошибки удается определить истинное значение латентного параметра с требуемой степенью точности.

Из множества математических моделей для описания вероятности правильного ответа в зависимости от уровня знаний i -го испытуемого и трудности j – го задания выбрано однопараметровое уравнение Георга Раша:

,                                                              (3.1)

где D=1,7. Параметр D введен для того, чтобы стандартизировать шкалы вероятностей для различных математических моделей. Для опного i -го испытуемого – функция Раша имеет вид:

(3.2)

46


Зависимость вероятности правильного ответа от β, показанная на рис. 3.1, представляет собой геометрический образ i -го испытуемого. Для одного j – го задания функция Раша записывается следующим образом:

.                                                               (3.3)

Зависимость же вероятности правильного ответа от Ө для j-го задания, представленная на рис. 3.2, является геометрическим образом задания.

Необходимо обратить внимание, что на кривых, представляющих геометрические образы испытуемых и заданий, имеется одна единственная точка, в которой Ө=β. Это точка перегиба при Р=0,5. Таким образом, наиболее точно значения Өi (и βj) можно измерить в точке перегиба кривых, когда уровень знания равен трудности задания, вероятность правильного ответа наиболее сильно зависит от латентной переменной и позволяет дифференцировать знания испытуемых.

3.1. Алгоритмы вычисления параметров Өi и βj по однопараметровой модели Раша

Все вычисления будут продемонстрированы на конкретном примере тестирования 10 испытуемых тестом из 10 заданий, представленном в табл. 2.4. В этом случае N=k=10

В общем задача сводится к определению Ө и β путем алгоритмических действий и последовательных итераций, исходя из экспериментальных данных тестирования:

xi→Өi;

Rj→βj,

47


где xj. – суммарный балл i -го тестируемого, a Rj – сумма правильных ответов для j -го задания. Для измерения этих двух латентных переменных используют одну и ту же единицу измерения – логит:

(3.4)

(3.5)

где и – логиты уровня знаний i-го испытуемого и трудности j-го задания соответственно, Pi и qi – доля правильных и неправильных ответов для i -го испытуемого, Pj и qj – доля правильных и неправильных ответов по всем испытуемым для j -го задания соответственно.

Алгоритм вычислений разбивается на ряд этапов:

1. Упорядочивается матрица данных тестирования, как это описывается в разд. 2.2.

2. Расчет начальных значений .

Для всех заданий по уравнению (3.5) вычисляются логиты трудности заданий, затем их среднее значение

.                                                               (3.6)

В следующем шаге переносят центр распределения логитов трудности задания:

.                                                            (3.7)

Результаты расчетов сведены в табл. 3.1.

3. Расчет начальных значений.

Для всех испытуемых по уравнению (3.4) вычисляются логиты уровня знаний, затем их среднее значение:

.                                                             (3.8)

48


49


Перенося центр распределения логитов уровня знаний, находят:

.                                                           (3.9)

Результаты расчетов сведены в табл. 3.2.

4. Нормировка шкал уровня знаний и трудности заданий.

Этой операцией приводятся в соответствие обе шкалы на основе закона нормального распределения ошибок. Для нормирования вычисляют величины X и Y:

(3.10)

Где 2,89=D2; 8,35=D4, и дисперсии β и Ө – соответственно. Для расчета u и используют уравнения:

.                  (3.11)

5. Расчет окончательных значений Өi и βj.

Расчет проводится по формулам:

(3.12)

.                                                        (3.13)

6. Расчет стандартных ошибок измерений

Дня каждой величины Өi и βj вычисляются их стандартные ошибки измерения по уравнениям:

.                  (3.14)

Вычисленные значения стандартных ошибок для приведенного примера тестирования сведены в табл. 3.3, из которой следует, что наименьшие ошибки наблюдаются для испытуемых со средними знаниями и заданий со средней трудностью. Следует обратить внимание, что эти ошибки весьма существенны. Для 11-балльной шкалы оценок (глава 4) доверительный интервал для величин Ө (см. уравнение (2. 26)) должен быть не более единицы, что соответствует одному баллу указанной шкалы. Тогда при N=10 и P=0,95 величина t=2,26, а должна быть 0,44, что существенно ниже представленных в табл. 3.3 значе-

50


ний. Опыт статистической обработки показывает, что Se сильно понижается при увеличении N , при этом слегка падает также и t (при N=100 t=1,98 ). Таким образом, для оценки латентных переменных с приемлемой точностью выборка испытуемых в 10 человек очень мала, и, возможно, недостаточно и количество заданий.

Стандартные ошибки измерений Өi и βj по данным табл. 2.4

7. Построение геометрических образов теста и группы испытуемых.

Подставляя в уравнения (3.2) и (3.3) рассчитанные величины Өi и βj соответственно и меняя значения другого параметра, находим величины pi- и pj- для всех испытуемых и всех заданий и строим для каждого из них геометрические образы. Последние в своей совокупности лают геометрический образ теста (сплошные кривые) и группы испытуемых (пунктирные линии), которые показаны на рис. 3.3.

Из рис. 3.3 видно, что кривые для заданий №6 и 7 совпадают между собой, поэтому одно из этих заданий в тесте лишнее. Вопрос о том, какое из них исключить, решается точно, также же, как и при обработке теста классическим образом (разд. 2.2)

51


Из рис. 3.3 также следует, что для всех испытуемых имеются задания, кривые которых пересекаются с кривыми испытуемых в области, где проявляется наибольшая дифференцирующая способность заданий, которую можно охарактеризовать либо наклоном кривой, либо производной от модельной функции. Эта область находится в интервале Pj, равном 5±0,2. С этой точки зрения тест валиден. Если же для какого-то испытуемого это условие не соблюдалось бы, то в тест для повышения точности измерения уровня знания этого испытуемого необходимо добавить хотя бы одно задание, кривая которого пересекала бы кривую испытуемого вблизи точки с Pj=0,5.

По сути дела на этом заканчивается первый этап обработки данных тестирования, которую можно проводить вручную или при помощи простейшего микрокалькулятора. Проведение следующих этапов латентного анализа вручную уже не возможно, для этого необходимо применение достаточно мощных ЭВМ (в том числе и персональных), на которых можно использовать стандартную программу для проведения такого анализа.         .

3.2. Двух – и трехпараметровые модели для нахождения латентных параметров Өi и βj

На рис. 3.3 представлен набор идеализированных математических кривых. Поставим перед собой вопрос, а на сколько они соответствуют действительности? Чтобы получить ответ, следует вычислить экспериментальные значения доли P правильных ответов (при больших N приближающихся к вероятности) на каждое задание в зависимости от уровня знания испытуемых. Однако этого нельзя сделать, если только один испытуемый имеет уровень знания, для которого наблюдается равенство Өij хотя бы в пределах стандартного отклонения ошибки, ибо он дает либо правильный (P=1) , либо неправильный ответ (P=0). Причем, оба они далеки от истины, ибо в этой области P~0,5. Чтобы получить достаточно точные значения Р, необходимо иметь большое количество испытуемых с одним и тем же значением Өi.

52


Допустим, у нас 300 испытуемых, а раскладка оценок для теста из 10 заданий такая, какая показана в табл. 3.4. Причем, распределение испытуемых в данном случае близко к нормальному. Для вычисления значений Pj необходима упорядоченная матрица тестовых результатов начало которой для данного случая представлено в табл. 3.5.

Например, тестовый балл 1 получили 10 человек, и из матрицы очень легко вычислить долю правильных ответов на каждое задание при данном уровне знания (Өi=-3,6). И чем больше группа испытуемых, тем ближе эта доля к вероятности того, что люди с таким уровнем знания дадут правильный ответ на соответствующее задание.

Возможны 4 варианта расположения экспериментальных точек относительно идеализированных (усредненных) кривых, показанные на рис. 3.4. Случай А соответствует ситуации, когда однопараметровая модель Раша достаточно хорошо отражает действительность. Все остальные случаи свидетельствуют об обратном, и здесь необходимо переходить к двух- и трехпараметровым моделям.

53


54


3.2.1. Двухпараметровая модель. Дифференцирующая способность задания aj.

Если точки не совпадают с кривой, как показано на рис. 3.4, то необходимо ввести eщe один параметр:

(3.15)

где aj – параметр, характеризующий крутизну кривой. Если aj=1, то эта зависимость вырождается в однопараметровую модель Раша, если aj>1, то кривая крутая, если aj<0, то пологая. Следовательно, каждое задание характеризуется не только величинами βj, но и aj. Параметр aj – дифференцирующая способность задания.

Рис. 3.4. Соответствие экспериментальных данных однопараметровой функции Раша

Крутая кривая задания позволяет лучше дифференцировать тех студентов, уровни знаний которых лежат по разные стороны перегиба. Если точки лежат по одну сторону от перегиба, то знания плохо дифференцируются. Тест должен содержать крутые задания, особенно в средней области трудности, где больше всего студентов, чтобы знания их всех дифференцировать. Например, в случае теста, результаты тестирования по которому представлены в табл. 2.4 и на рис.3.3, вместо одного из заданий №6 или №7 нужно включить несколько крутых заданий, чтобы, дифференцировать знания студентов с обшей суммой баллов, равной 4.

При формировании теста в него можно и нужно включать задания с различными значениями и aj, и βj. Если тестируемая группа однородна по уровню знаний, то в тест необходимо брать задание с большой крутизной, если же группа неоднородна, то в тест включаются задания с малой крутизной, но при этом надо стараться, чтобы кривые заданий не пересекались и были расположены по всему пространству.

55


Величина вычисляется при помощи бисериального коэффициента корреляции между баллами  i -го задания и суммой индивидуальных баллов всех испытуемых:

(3.16)

Для дихотомической системы оценок бисериальный коэффициент корреляции описывается зависимостью:

(3.17)

Здесь: – средний суммарный балл тех испытуемых, которые на j- е задание дали правильный ответ (xij=1), (x0j) – тоже самое для тех испытуемых, которые на j-е задание дали неправильный ответ (xij=0); n1j и n0j- количество правильных и неправильных ответов на j- е задание; uj- ордината функции нормального распределения в точке, за которой лежит площади под кривой нормального распределения как показано на рис.3.5.

Рис.3.5. Нахождение функции по статистическим таблицам (Э.Ферстер, Б.Рёнц. Методы корреляционного и регрессионного анализа – м.:Финансы и статистика, 1983)

Для примера величину рассчитаем для второго задания табл.2.4. Для этого случая n12=8, n02=2, Sx=2,76,

56


Отсюда

, а a2=0,866.

Задание 2 в тесте не очень хорошее, но и не очень плохое, его можно оставить, если нет лучшего.

Имея различную крутизну, задания вносят различный вклад в оценку. Поэтому скорректированный балл описывается уравнением

(3.18)

Здесь значение aj играет роль оптимального весового коэффициента, характеризующего вклад каждого задания в конечный суммарный балл.

3.2.2. Трехпараметровая модель.

Для описания ситуаций, представленных на рис. 3.4В и 3.4Г, двух-параметровой модели уже недостаточно, поскольку здесь необходимо ввести поправку на угадывание, т.е. третий параметр. Тогда уравнение модельной функции будет иметь вид:

(3.19)

где cj – вероятность угадывания ответа для закрытых заданий. Для заданий с двумя ответами cj=0,5, с тремя – 0,33, с четырьмя – 0,25 и т.д.

Проблема угадывания правильного ответа может быть решена двумя путями. Первый заключается в введении поправки на угадывание уже в исходные данные при помогай уравнения (1.1). Во втором случае все три параметра (cj, aj и βj) определяются ЭВМ. К сожалению, в настоящее время пока нет формулы, которая позволила бы вычислить скорректированный балл xci с учетом и cj и aj.

3.3. Метод максимального правдоподобия

Метод максимального правдоподобия позволяет при нахождении уровня знаний учесть профиль знаний каждого испытуемого (разд. 2.3). По уже разработанным программам ЭВМ подбирает функцию, характеризующую правдоподобие каждого профиля знаний, а затем таким образом улучшает (подгоняет) значение Өi путем последующей итерации, чтобы функция правдоподобия принимала максимальное значение.

57


Итак, вычисление латентных переменных при помощи новой технологии, основанной на латентном анализе, осуществляется в два этапа:

I этап – алгоритм                            П этап – оценка наибольшего

вычисления правдоподобия. Профилей

знаний испытуемых

3.4. Информационная функция заданий и тестов

Перед новой технологией, основанной на латентном анализе, ставится задача подбора заданий в тест таким образом, чтобы ошибка измерения каждого Өi была наименьшей, т.е. проводится минимизация ошибки:

Этой цели служит информационная функция задания Ij(Ө). Эта функция представляет собой обратное значение стандартной ошибки измерения Өi с помощью данного задания. Эта функция дает количество информации, которую вносит задание в тест. Информационная функция, описывается уравнением:

(3.20)

Информационная функция теста представляет собой сумму информационных функций заданий, поскольку они адаптивны:

.                                                          (3.21)

58


Рисунок 3.6 – Информационная функция теста, результаты тестирования по которому представлены в табл.2.4; aj для всех заданий приравнена 1.

Из рис. 3.6 видно, что рассматриваемый здесь тест дает максимум информации в точке Ө=0,5, причем, информационная функция мало изменяется в центре, т.е. в области, на которую приходится основная масса студентов. Это свидетельствует о том, что тест обладает низкой разрешающей способностью. Поэтому его надо улучшить, добавив в него задания средней трудности, но обладающие высокой разрешающей способностью.

При составлении теста в него необходимо отбирать задачи, вносящие наибольшее количество информации и обладающие высокой разрешающей способностью. Из представленных на рис. 3.7 трех заданий в тест следует включить задание №2, обладающее высокой разрешающей способностью. Задание №3, хотя и обладающее высокой разрешающей способностью, но несущее мало информации, и задание №1 с низкой разрешающей способностью в тест включать нет смысла.

Информационная функция теста позволяет вычислить:

1) долю информации в процентах, которую вносит j -е задание в оценку испытуемого с заданной величиной Өi;

2) количество заданий заданной трудности, которые необходимо включить в тест, чтобы обеспечить максимум информации в каждой точке на шкале Өi при заданной степени точности измерения Өi ;

3) количество испытуемых, необходимое для нахождения βj, каждого задания с заданной степенью точности.

59


Работа с информационной функцией – завершающий этап технологии составления теста на основе латентного анализа. И этот этап можно выполнить только при помощи ЭВМ.

3.5. Адаптивный контроль и адаптивное обучение

Представим себе, что у нас по определенному разделу в результате обработки тестовых материалов отобрано 100 заданий разной трудности во всем диапазоне βj(-6< βj<6) и с высокой дифференцирующей способностью.

Ясно, что нет смысла давать все задания всем студентам: слабый студент не решит заданий средней трудности и тем более трудных заданий, а сильному незачем решать легкое задание. Особенно необходимо иметь ввиду, что в случае несоответствия трудности задания уровню знаний обучаемого происходит отупление сильных студентов и оболванивание слабых, которые теряют веру в свои силы, получая нерешаемые для них задания. Чтобы уменьшить влияние этих отрицательных факторов контроля, обучаемым надо давать те задания, которые соответствуют (адаптированы) их уровню знаний. Этим и  занимается адаптивный контроль.

По методике такого контроля ЭВМ (или преподаватель) по таблице случайных чисел выдает учащемуся задание из средней части пакета званий. Если студент не знает ответа, выдается среднее задание из более легкой половины пакета. Если он не отвечает и в этом случае, то выдается одно из средних заданий самой легкой четверти пакета, затем из самой легкой восьмой части и т.д., пока студент не начнет отвечать. Если же студент правильно ответил на задание средней трудности всего пакета, ему выдается среднее задание более трудной половины пакета заданий, затем среднее задание из самой трудной четверти, из самой трудной восьмой части, т.е. до тех пор, пока студент не перестает отвечать.

Таким образом, используя минимальное количество заданий, выявляют последнее в ряду трудности задание, на которое данный испытуемый дает правильный ответ. Трудность этого задания и приравнивают к уровню знаний тестируемого испытуемого. На этом контроль заканчивается.

Необходимо отметить, что этот контроль пригоден для учащихся с правильным профилем знаний. Чтобы определить профиль, очевидно, необходимо давать короткий тест, среднее задание которого равно уровню знаний испытуемого.

Тестовые задания могут и должны выполнять другую свою роль – обучающую. Поэтому их используют в адаптивном обучении, когда обучающий материал соответствует уровню знаний обучаемого.

60


На вопрос, какой трудности задания надо брать при адаптивном обучении, можно ответить, выделяя отдельные зоны на кривой обучаемого, как это показано на рис. 3.8. Если для адаптивного контроля берут задания, для которых соблюдается неравенство 0,7>Рi≥0,5, то для актуального (адаптивного) обучения берут задания, которым соответствует неравенство 0,5>Рi> 0,3. Для ближайшего развития планируют задания, соответствующие неравенству 0,3> Рi> 0,2, в перспективе планируют задания, для которых

Рi<0,2. Таким образом, составляется план адаптивного обучения на какой-то ближайший период обучения. Когда он будет выполнен, составляется новый план, адаптированный уже к новому уровню знаний обучаемого.

Рис. 3.8. Зоны развития на кривой обучаемого

Эффективность обучения за определенный период можно оценить по уравнению:

(3.22)

где – прирост уровня знания за время уровни знании испытуемого в начальный период обучения и по истечении времени t.

61


Глава 4. МЕТОДЫ СРАВНЕНИЯ И ИНТЕГРАЦИИ РЕЗУЛЬТАТОВ ПЕДАГОГИЧЕСКОГО КОНТРОЛЯ

Имеется несколько способов выражения тестовых результатов таким образом, чтобы их можно было сравнивать для тестов различной длины, по различным дисциплинам и для разных учебных заведений. Более того эти способы позволяют суммировать тестовые результаты и проводить их накопление, т.е. по сути определять рейтинги испытуемых по всему объему полученных ими знаний. Этим условиям удовлетворяют следующие шкалы оценок тестовых результатов.

4.1. Шкала Z

Для определения оценки по результатам тестирования в шкале Z помимо суммарного бала xi i-го испытуемого по j-й дисциплине (тесту, вузу),- необходимо знать среднее арифметическое баллов для всей группы студентов и стандартное отклонение . Тогда оценка Z будет определяться по формуле:

(4.1)

Здесь Zij – стандартный результат, представляющий собой нормированное отклонение балла испытуемого от среднего арифметического по тесту. При подчинении результатов тестирования закону нормального распределения, когда , величина Z непрерывно изменяется от -3 до +3.

При округлении оценок в шкале Z до целых единиц возникает семибалльная шкала: -3, -2, -1, 0, +1, +2, +3. Шкала Z очень неудобна, ибо дробная и имеет отрицательные и положительные значения.

4.2. Шкала Т

Для устранения указанных выше недостатков шкалы вводится шкала Tij:

(4.2)

Здесь произведение 10Zij округляют до целых чисел, поэтому шкала Т в 10 раз более дифференцирующая знания, чем шкала Zij. Для сравнения этих шкал приведем пример для семи испытуемых:

62


4.3. Процентная шкала

Процентная шкала рассчитывается для большого массива данных. Для примера рассчитаем процентную шкалу по результатам тестирования 50 студентов, получивших следующие баллы: 4, 15, 6, 14, б, 7, 12, 9, 6, 5, 11, 8, 11, 8, 10, 7, 6, 8, 8, 8, 3, 12, 9, 14, 12, 13, 7, 9, 10, 5, 9., 6, 8, 7, 7, 11, 7, 11, 9, 4, 8, 12, 5, 7, 8, 10, 13, 10 ( N-50).

Прежде всего данные группируются и на этой основе определяется характер распределения тестовых баллов. Характер распределения будет приближаться к нормальному, если N>>100. Поэтому приведенные здесь пример далек от нормального распределения.

Группировка данных по так называемым классам выполняется таким образом, чтобы число классов было в пределах от 10 до 15. Для этого определяется размах тестовых результатов (R), который в нашем примере равен R=15-4=11. Таким образом, у нас образуется 11 классов, и в каждый класс, попадает один тестовый балл.

Далее строится вспомогательная табл. 4.1, где в первую колонку помешают тестовые баллы испытуемых от большего значения к меньшему сверху вниз. Вторая колонка представляет собой результат разноски исходных данных по баллам (классам). В третью колонку внесены частоты, с какими встречаются в результатах тестовые баллы. В четвертой колонке показаны кумулированные (накопленные) частоты, представляющие собой сумму частот снизу вверх.

Таблица 4.1

63


Так как уровень знаний непрерывно изменяется, мы оперируем дискретными значениями баллов, то необходимо ввести понятие “верхняя и нижняя граница” балла (класса). В нашем примере, например, для балла 12 нижняя граница 11,5 (12-0,5, где 0,5-точность измерения балла, поскольку мы измеряемую величину, т.е. уровень знаний, округляем до целого значения балла с точностью до 0,5), верхняя – 12,5. Именно эти понятия используются

для построения шкалы процентных рангов, цель которой узнать, сколько процентов испытуемых показывают результаты, равные интересующему нас баллу или меньше него.

Вычислим для примера процентный ранг для тестового балла 5. В пределах от нижней границы балла 4,5 до верхней 5,5 находятся результаты 3 испытуемых. Предполагается, что эти результаты равномерно располагаются в указанном интервале, т.е. от 4,5 до 5,5. Следовательно, в интервале от 4,5 до 5 находится 1,5 долей испытуемых (половина от 3 см предпоследнюю колонку). Таким образом, балл ниже 5 имеют 4,5 (3 + 1,5) долей испытуемых, или 9 %.  Балл 3 и ниже имеют 0,5 доли испытуемых, или 1%. Балл 15 имеют 49+0,5=49,5 доли испытуемых, т.е. 99%.

Итак, что значит PR=86% для балла 12. Это значит, что знания испытуемого, получившего 12 баллов, превосходят знания 86% студентов группы и он принадлежит к лучшим 14% студентов. Для сравнения общего результата по нескольким тестам процентные данные каждого студента суммируются и суммы сравниваются.

4.4. Приведение шкал стандартных величин к 11-балльной шкале оценок

Существующая в настоящее время пятибалльная шкала оценок (вернее, даже 4 балльная: неудовлетворительно, удовлетворительно, хорошо и отлично) чрезвычайно не дифференцирующая. Она порождает проблему полупроходных баллов на вступительных экзаменах, не позволяет определить самого лучшего из группы лучших и самого худшего из группы худших. Поэтому наблюдается тенденция к расширению шкалы оценок. В разд. 4.1 уже упоминалась 7-балльная шкала, легко перейти к 9-балльной. Мы предлагаем ввести в практику 11-балльную шкалу, хотя рекомендовать можно и 21-балльную, и 41-балльную и т.д. Однако шкалы, содержащие более 11 баллов, в отличие от 11-балльной шкалы, могут оказаться психологически неудобными и искусственно растянутыми. С нашей точки зрения, в настоящей ситуации, в которой находится педагогика, эта шкала является достаточно дифференцирующей, поскольку позволяет идентифицировать целых 11 групп учащихся вместо 5 при нынешней шкале оценок.

11-балльная шкала вытекает из шкалы логитов, получаемых по самой современной технологии обучения, основанной на латентном анализе. Оказалось, что уровень знаний в шкале логитов лежит в интервале от -6 до +6, что легко трансформируется в 11-балльную шкалу, как это представлено в табл. 4.2.

64


65


Даже беглого взгляда на табл. 4.2 достаточно, чтобы оценить дифференцирующую способность 11-балльной шкалы по сравнению с ныне существующей 5-балльной, народному образованию, особенно высшей школе, давно пора переходить к более дифференцирующей шкале оценок.

ЗАКЛЮЧЕНИЕ

Составитель не претендует на полноту охвата проблем современной технологии и современных методов обучения. Это в принципе невозможно. Если на современном уровне развития мировой цивилизации имеется пока одна современная технология обучения, то методик обучения может быть бесконечное множество, в пределе ровно столько, сколько существует педагогов. И только современная технология, основанная на персональных компьютерах, допускает полную индивидуализацию как обучения, так и преподавания. Более того, возможно введение игрового элемента обучения на современных ЭВМ, что усугубляет разнообразие методик обучения. И никакая стандартизация, тем более идеологизация, методик обучения в педагогике просто недопустима.

Несмотря на огромные возможности, составитель в настоящем пособии ограничился одним звеном современной технологии обучения, потянув за которое, можно в нашей далеко не цивилизованной стране вытянуть всю цепочку народного образования на достаточно приличный уровень развития. И самым важным звеном является разработка инструмента измерения уровня знаний и трудности заданий, без которого никакая технология, и не только современная, невозможна. Эта работа самая трудная, не только в научном и технологическом плане, сколько в психологическом. Составитель до недавнего времени сам отвергал тестирование, да и сейчас относится к нему с некоторым недоверием. В самом деле, а не будем ли мы подавлять, применяя тесты с готовыми ответами, способности человеческой личности к логическому мышлению, очевидно, самому важному виду умственной деятельности? Очевидно, что путей для поиска здесь необозримое количество.

Но к сожалению, другого инструмента для педагогических измерений, кроме теста, пока нет. Да и неизвестно, появится ли? Поэтому преподавателям, которым не безразлична судьба своего народа, ничего другого не остается, как заняться созданием такого инструмента.

подписка на RSS комментариев

Комментарии are closed

Тестирование знаний - наша работа