Научное сообщество студентов XXI столетия - Материалы III студенческой международной заочной научно-практической конференции. Часть II

Методика расчета тестовых характеристик

Бовтрукевич Мария Викторовна, студент 3 курса, кафедра информационных технологий, БГУ, г. Минск E-mail: shporann@mail.ru

Киреенко Анна Владимировна студент 3 курса, кафедра информационных технологий, БГУ, г. Минск E-mail: shporann@mail.ru

Сиротина Ирина Казимировна

научный руководитель, ст. преподаватель, БГУ, г. Минск

На сегодняшний день вопрос тестового контроля очень актуален. Широкое применение он получил при проведении вступительной компании в вузы, при проверке знаний учащихся школ, лицеев, средних специальных и высших учебных заведений, при приеме на работу. Поскольку тесты помогают определить человеку его способности, задатки, склонности, а также уровень знаний, умений и навыков, то они заняли значимую позицию в сфере образования.

Тест — это инструмент, состоящий из квалиметрически выверенной системы тестовых заданий, стандартизированной процедуры проведения и заранее спроектированной технологии и анализа результатов для измерения качеств и свойств личности,  учебных достижений, изменение которых возможно в процессе систематического обучения [5, с. 14].

Педагогическим тестом называется система заданий специфической формы, определенного содержания, равномерно возрастающей трудности — система,  создаваемая  с  целью  объективно  оценить  структуру  и  измерить уровень подготовленности учащихся (студентов). [1, с. 5].

Главная проблема тестового контроля знаний — сам процесс создания тестов, их унификация и анализ. Чтобы довести тест до полной готовности к применению необходимо несколько лет собирать статистические данные. Довольно часто встречается значительный субъективизм в формировании содержания самих тестов, в отборе и формулировке тестовых вопросов. Многое

также зависит от конкретной тестовой системы, от того, сколько времени отводится на контроль знаний, от структуры включенных в тестовое задание вопросов и т. д. Для объективной оценки уровня знаний необходимо грамотное составление теста: недостаточно придумать вопросы и варианты ответов, так как в этом случае может возникнуть немало противоречий, ошибок, неопределенностей, задания могут оказаться слишком простыми или же наоборот,  слишком  сложными.  В  связи  с  чем  тестовые  задания  проходят процесс специальной оценки, который мы и рассмотрим в нашей работе.

Целью нашей работы является систематизация методов, позволяющих рассчитывать тестовые характеристики. Проведя анализ научной литературы по теме исследования [1—6], мы отобрали самые распространенные тестовые характеристики, собрали их воедино, подробно расписали их применение, составили общие правила для создания качественного теста, привели примеры. Мы надеемся, что данная работа усовершенствует такую форму проверки знаний, как тестовый контроль, что в свою очередь улучшит качество образования.

В теории и практике тестовых измерений последователи выделяют разнообразные тестовые характеристики: надежность, валидность, дискриминативность, социокультутраняя адаптированность, достоверность, однозначность, стандартизированность, точность, сложность, нормирование и др.   В   данной   работе   в   силу   спецификации   нашего   исследования   мы рассмотрели следующие из них: надежность, валидность, дискриминативность.

1. Дискриминативность задач определяется, как способность отделять испытуемых с высоким общим баллом по тесту от тех, кто получил низкий балл, или испытуемых с высокой продуктивностью учебной деятельности от испытуемых с низкой продуктивностью. [5, с. 162].

Для вычисления дискриминативности мы будем использовать метод крайних групп: при расчете дискриминативности тестового задания учитываются результаты наиболее и наименее успешных студентов. Доля членов крайних групп может изменяться в широких пределах в зависимости от

величины выборки. Чем больше выборка, тем меньшей долей испытуемых можно ограничиться при выделении групп с высоким и низким результатами. Нижняя   граница   «отсечения   групп»   составляет   10 \%   от   общего   числа испытуемых   в   выборке,   верхняя   —   33 \%.   В   нашей   работе   мы   будем использовать  27 \%  группу,  так  как  при  таком  процентном  соотношении достигается максимальная точность определения дискриминативности.

Индекс дискриминации D  определяется как разность между долей лиц, правильно решивших      задачу,            из        «высокопродуктивной»       и

«низкопродуктивной» групп и находится по формуле:

D =

 
Nnmax

N max

 Nnmin

N min

 

,           (1)

 

где:  Nnmax   —  количество  студентов  в  группе  лучших,  верно  выполнивших задание;

Nnmin  — количество студентов в группе худших, верно выполнивших задание; Nmax — общее количество испытуемых в группе лучших;

Nmin — общее количество испытуемых в группе худших.

В. К. Гайда    и    В. П. Захаров    предлагают    вычислять    коэффициент дискриминации, рассчитывая меру соответствия между успешностью решения одной задачи и всего теста. Этот показатель будет являться коэффициентом

дискриминации, для его расчета используют формулу:

D  xn   x

 x

n

N d    n

 

,           (2)

 

где: x — среднее арифметическое значение всех индивидуальных оценок по тесту;

xn — среднее арифметическое значение оценок по тесту у тех испытуемых, которые правильно решили задачу;

δx  — среднеквадратическое отклонение индивидуальных оценок по тесту для выборки;

n — число испытуемых, правильно решивших задачу;

Nd — общее число испытуемых.

Коэффициент дискриминации может принимать значения от —1 до +1. Высокое положительное значение дискриминативности тестового задания свидетельствует  об  эффективности  деления  испытуемых,  высокое отрицательное значение свидетельствует о непригодности данной задачи для теста, о ее несоответствии суммарному результату. Результат D ≥ 0,3 считается удовлетворительным. Если значение коэффициента близко к 0, то задачи должны рассматриваться как некорректно сформулированные.

2. Валидность означает пригодность тестовых результатов для той цели, ради  чего  проводилось  тестирование [6].  Валидность  —  это  характеристика способности  теста  служить  поставленной  цели  измерения [1].  Валидность определяет, насколько тест отражает то, что он должен оценивать [5].

Различают следующие ее виды: содержательная валидность — характеристика репрезентативности содержания теста по отношению к запланированным для проверки знаниям и умениям [1, с. 342]; конструктная (концептуальная) валидность — характеристика адекватного измерения теоретического конструкта, т. е. действительно ли тест на умственное развитие определяет коэффициент умственного развития; критериальная валидность — определяет способность теста служить индикатором строго определенных особенностей, форм поведения; текущая валидность — характеристика теста, отражающая его способность различать испытуемых на основании того признака, который является объектом выявления в данной методике; прогностическая  валидность  предоставляет  информацию  о  том,  насколько точно можно судить о качестве, выявленном в ходе тестирования, по прошествии определенного времени после измерения [5, c. 181].

Для оценки валидности теста обычно используют корреляцию между показателями теста и некоторым внешним критерием. Для педагогических тестов в качестве критерия обычно берутся оценки экспертов, выставленные ими при традиционной проверке знаний студентов без использования тестов. Процесс   валидизации   осложняется   необходимостью   установления   меры

согласованности  оценок  экспертов,  которых  обычно  бывает  не  менее  трех человек.

Валидность по количественным способам определения преимущественно выясняется с помощью качественных оценок, как правило, с привлечением экспертов [5, c. 183]:  о  факторном  анализе  говорят,  когда  для  определения валидности используется факторный анализ с целью определения факторных нагрузок   и   факторного   состава   теста;   консенсусная   валидность   —   для получения второго ряда оценок используют данные внешних экспертов; эмпирическая валидность — для получения второго ряда оценок используют результаты, полученные путем применения методики известной ранее или из других источников.

В  данной  работе  мы  рассмотрим  пример  расчета  валидности  с  учетом

результатов тестирования и экспертных оценок:

      n

                  n

S  S       n

 
V      1

  1  E Z

  EZ  

 

n

 

ø

 
,           (3)

E     Z   

i     i

i 1     

          1

 

где: E   — среднее арифметическое экспертных оценок,

S E   — стандартное отклонение этих оценок:

1  n   

n

 
E         Ei 

(3.1)

 i 1 

 

S E  

1

n  1

n                    

2

 
( (Ei   E) )

i 1

 

(3.2)

 

Аналогично   — среднее арифметическое тестовых баллов студентов, а

— стандартное отклонение этих баллов, вычисляются также по формулам

(3.1), (3.2).

3. Надежностью называется характеристика теста, отражающая точность тестовых измерений, а также устойчивость тестовых результатов к действию случайных факторов [1, с. 319].

Различают      два      вида    надежности:   надежность    как      устойчивость;

надежность как внутреннюю согласованность.

Надежность как устойчивость. Устойчивость результатов теста — возможность получения одинаковых результатов у испытуемых в различных случаях. Надежность как устойчивость измеряется с помощью повторного проведения теста на той же выборке испытуемых, обычно через две недели после  первого  тестирования.  Надежность  теста  тем  выше,  чем  более согласованы результаты одного и того же человека при повторной проверке знаний  посредством  того  же  теста  или  эквивалентной  его  формы (параллельного  теста).  Для  нахождения  данной  характеристики  предлагают

в [2], [1] использовать формулу Пирсона:

N          N

 N 

N  X i Yi     X i  Yi  

r1  

N

i 1

 N

 i 1

2

 i 1          

N          N

,           (4)

2

N  ( X

) 2     X  

N  (Y ) 2     Y 

i

i 1

i

 i 1             

i

i 1

i

 i 1             

 

где Xi — тестовый балл i-го испытуемого при первом измерении;

Yi — тестовый балл того же испытуемого при повторном измерении;

N —количество испытуемых.

Надежность как внутренняя согласованность. Внутренняя согласованность определяется связью каждого конкретного элемента теста с общим результатом, тем, насколько каждый элемент входит в противоречие с остальными,   насколько  каждый   отдельный   вопрос   измеряет   признак,   на который направлен весь тест. Для проверки внутренней согласованности рассматриваются следующие методы: метод расщепления или метод автономных частей; метод эквивалентных бланков; метод Альфа Кронбаха. В методе расщепления применяются формулы: Спирмана-Брауна; Рюлона; Кьюдера-Ричардсона; Стенли. Если значения коэффициента r попадают в интервал 0,80—0,89, то говорят, что тест обладает хорошей надежностью, а если этот коэффициент не меньше 0,90, то надежность можно назвать очень высокой. При применении метода расщепления тестовую матрицу разбивают на две половины, состоящие из заданий с четными и нечетными номерами.

Формула Спирмена — Брауна выглядит так:

r      2r1

 

(5)

1

 
2          1  r

Перед применением этой формулы, надо применить формулу (3). Обратите внимание на то, что в данном случаи Xi  — тестовый балл i-го испытуемого за задания с четным номером; Yi — тестовый балл того же испытуемого за задания с нечетным номером.

Формула Рюлона выглядит так:

S 2

S

 

3                                2

 
r   1            d

z

 

,           (6)

 

Дисперсия разностей между результатами каждого испытуемого по обеим

половинам теста S2d находится по формуле:

 

d

 
S 2  

 

(

 
1          N

 ( X i

i 

 

 Yi  

 

1 æ N

 

- Y ) ÷) 2 ,                    (6.1)

 

ö

 
  X i        i

 i 

N  1  1

N         1          

 

где: Xi — тестовый балл i-го испытуемого за задания с четным номером;

Yi — тестовый балл того же испытуемого за задания с нечетным номером. Дисперсия суммарных баллов результата S2z находится по формуле:

 

2                   1

 N     N         2

ö  ö

 

å            å      i                      i

 

æ

 

1

 

æ

 

ö

 
      

S                            Z    Z  

z          N  1        N

 ,       (6.2)

 i 1  

 i 1                     

 

где: Zi — суммарный балл за весть тест i-го студента.

Формула Кьюдера-Ричардсона выглядит так:

         N         

          p j q j  

r                    N         

j 1

S

 
,           (7)

4       1    2          

N  1           z          

         

где: pj   — доля правильных  ответов на j-ое задание, т.е. кол-во правильных ответов, деленное на кол-во студентов;

qj — доля неправильных ответов на j-ое задание, т. е. кол-во неправильных ответов, деленное на кол-во студентов (qj=1 — pj);

S2z  — дисперсия суммарных баллов результата, которая вычисляется по

формуле (5.2).

При подсчете надежности по формуле Стенли студентов необходимо разделить на две группы. В первую группу войдут 27\% «сильных» студентов (те, кто набрал наибольшее количество баллов), а в слабую 27\% «слабых» студентов (те, кто набрал наименьшее количество баллов).

Формула Стенли:

 

5

 
r    n

1  2  WL    WH    WL    WH   

 

,           (8)

æ

 

)

 

2

 

÷

 

è

 

2

 

ø

 
n  1 

0,666

WL

 WH 

 

где WL — количество неправильных ответов на данный вопрос в слабой группе;

WH—  количество  неправильных  ответов  на  данный  вопрос  в  сильной группе;

n— количество вопросов в тесте;

k  —  количество  испытуемых  в  сильной  (слабой)  группе,  т. е.  27 \%  от общего числа испытуемых.

Коэффициент Альфа Кронбаха показывает внутреннюю согласованность

характеристик, описывающих один объект, и находится по формуле:

         N         

Y

 
 S 2    S 2  

N

 
Yi

               i 1     

 

S

 
N 1            2

         Y

 ,       (9)

 

где: S2Y  — дисперсия суммарных баллов результата, которая вычисляется по формуле (3.2);

S2Yi — дисперсия элемента i.

Методику расчета тестовых характеристик покажем на конкретном примере. Мы получили результаты тестирования студентов, представленные в таблице 1.

 

Результаты первого тестирования

Таблица 1

 

Студент

i

Экспертная оценка

Номер задания

1

2

3

4

5

6

7

8

9

10

1

8

+

+

-

+

+

+

+

+

-

+

2

4

-

-

-

+

-

-

+

-

-

+

3

3

-

-

-

+

-

-

+

-

-

-

4

7

-

+

+

+

-

-

+

+

+

-

5

4

-

-

-

-

-

+

+

-

-

-

6

6

+

+

-

+

+

+

-

-

-

+

7

5

+

-

-

+

-

-

+

-

-

+

8

5

-

-

+

-

+

-

-

-

+

-

9

5

-

+

-

+

-

+

-

-

-

+

10

7

+

+

+

+

+

-

-

-

+

+

 

Спустя            две      недели            тест     провели          повторно        и          получили       результат,

представленный в таблице 2.

 

Результаты второго тестирования

Таблица 2

 

 

i

Экспертная оценка

Номер задания

1

2

3

4

5

6

7

8

9

10

1

8

+

+

-

+

+

+

+

+

+

+

2

4

-

+

-

+

-

-

+

-

+

+

3

3

-

+

-

+

-

-

-

-

-

-

4

7

-

+

+

+

-

-

+

+

+

-

5

4

-

+

+

-

-

+

+

-

-

-

6

6

+

+

-

+

+

+

-

-

-

+

7

5

+

-

-

+

-

-

+

+

-

+

8

5

-

-

+

-

+

-

-

+

+

-

9

5

+

+

-

+

-

+

+

-

-

+

10

7

+

+

+

+

+

-

+

-

+

+

 

Используя данные таблиц, перейдем к расчету всех вышеперечисленных характеристик.

Дискриминативность

1. Рассчитываем количество студентов в крайних группах, сразу округляя

до целых:

Nmax   Nmin   0,27 10  2,7  3 .

2.  Рассмотрим группу лучших  и группу худших,  в  каждой из  которых будет по 3 человека. Получим таблицу 3.

Таблица 3

Сводная таблица тестирования с экспертными оценками

 

 

i

 

Экспертная оценка, Ei

Номер задания

 

Общий балл за тест

1

2

3

4

5

6

7

8

9

10

1

8

1

1

0

1

1

1

1

1

0

1

8

2

4

0

0

0

1

0

0

1

0

0

1

3

3

3

0

0

0

1

0

0

1

0

0

0

2

4

7

0

1

1

1

0

0

1

1

1

0

6

5

4

0

0

0

0

0

1

1

0

0

0

2

6

6

1

1

0

1

1

1

0

0

0

1

6

7

5

1

0

0

1

0

0

1

0

0

1

4

8

5

0

0

1

0

1

0

0

0

1

0

3

9

5

0

1

0

1

0

1

0

0

0

1

4

10

7

1

1

1

1

1

0

0

0

1

1

7

 

Таким образом в группу лучших входят студенты под номером 1, 10, 4; в группу худших: 3, 5, 2 (если встречаются студенты с одинаковым баллом за тест, учитываем экспертные оценки).

3. Составим таблицу 4, состоящую только из студентов группы лучших и студентов группы худших, сразу рассчитывая количество студентов в каждой группе, правильно выполнивших задание.

Таблица 4

Сводная таблица тестирования с экспертными оценками для крайних групп

 

 

i

Экспертная оценка, Ei

Номер задания

1

2

3

4

5

6

7

8

9

10

Группа лучших

1

8

1

1

0

1

1

1

1

1

0

1

10

7

1

1

1

1

1

0

0

0

1

1

4

7

0

1

1

1

0

0

1

1

1

0

Nnmax

2

3

2

3

2

1

2

2

2

2

Группа худших

3

3

0

0

0

1

0

0

1

0

0

0

5

4

0

0

0

0

0

1

1

0

0

0

2

4

0

0

0

1

0

0

1

0

0

1

Nnmin

0

0

0

2

0

1

3

0

0

1

4.  Рассчитываем  индекс  дискриминативности  для  каждого  задания  по

формуле (1):

D   2  0  2 , D

 3  0  1, D

 2  0  2 , D

 3  2  1 , D

 2  0  2 ,

1          3          3          3

2          3          3

3          3          3          3

4          3          3          3

5          3          3          3

 

D   1  1  0 , D

 2  3   1 , D

 2  0  2 , D

 2  0  2 , D

 2  1  1 .

6          3          3

7          3          3

3          8          3          3          3

9          3          3          3

10        3          3          3

 

Длаем вывод, что задания 6 и 7 недискриминативны.

Валидность

В таблице 6 найдены Ei (экспертная оценка), Zi ( общий балл за тест), n —

известно, в нашем случае равно 10.

1.         Находим E и Z по формуле (3.1):

 n      

i

 
E  1   E

n  i 1

  0,18  4  3  7  4  6  5  5  5  7  5,4 ,

 

 n      

i

 
Z  1   Z

n  i 1

  0,18  3  2  6  2  6  4  3  4  7  4,5 .

 

2.         Находим S E

и S Z

по формуле (3.2):

 

n                      n                    

 

S E  

1

n  1

( (Ei

i 1

 

 E) 2 )  1,577621 ,

 

S Z  

1

n  1

(

i 1

 

(Z i

 

 Z ) 2 )  1,577621 .

 

3.  Валидность  рассчитывается  по  формуле  (3).  Для  удобства  отдельно

посчитаем:

1

 
n

 Ei Z i

 

 0,18  8  4  3  3  2  7  6  4  2  6  6  5  4  5  3  5  4  7  7  27,2 .

n i 1

      n

                  n

 

Получим: V 

1            1  E Z

  EZ  

   27,2  5,4  4,5

 10  0,9628 .

è è

 
S E S Z    n

i     i

i 1     

  n  1

1,57762 1,57762      9

 

ø

 
Надежность как устойчивость

1. Для начала построим таблицу 5.

 

Нахождения надежности по формуле Пирсона

Таблица 5

 

Номер

ученика i

Балл    при      первом

тестировании Xi

Балл при повторном

тестировании Yi

 

Xi Yi

 

(Xi)2

 

(Yi)2

1

8

9

72

64

81

2

3

5

15

9

25

3

2

2

4

4

4

4

6

6

36

36

36

5

2

4

8

4

16

6

6

6

36

36

36

7

4

5

20

16

25

8

3

4

12

9

16

9

4

6

24

16

36

10

7

8

56

49

64

 

45

55

283

243

339

 

2. Применим формулу (4):

r     10  283  45  55

      355

 

 0,923 .

1          10  243  45  45

10  339  55  55

20,127 19,105

 

Надежность как внутренняя согласованность. Данную характеристику мы будем считать методом расщепления по формуле Рюлона (6).

1. Для начала найдем дисперсию разностей между результатами каждого

испытуемого по обеим половинам теста. Заполним таблицу 6.

 

 

 

i

Балл         за

задания      с четным номером Xi

Балл            за

задания         с нечетным номером Yi

 

 

Xi -Yi

 

(X  - Y )- 1 ç å (X  - Y ) ÷

è =1

 

å ((X  - Y )- 1 ç å (X  - Y ) ÷)

i =1                    i                   i                   N è i =1                     i                        i ø

1

5

3

2

1,5

2,25

2

2

1

1

0,5

0,25

3

1

1

0

-0,5

0,25

4

3

3

0

-0,5

0,25

5

1

1

0

-0,5

0,25

6

4

2

2

1,5

2,25

7

2

2

0

-0,5

0,25

8

0

3

-3

-3,5

12,25

9

4

0

4

3,5

12,25

10

3

4

-1

-1,5

2,25

 

25

20

5

 

32,5

 

 
Расчет дисперсии разностей результатов

Таблица 6

 

 N              N

i           i           N   i     i           i 

 N      2

 

2. Применим формулу (6.1):

 

d

 
S 2  

1

10  1

 

 32,5  3,611.

3.         Найдем  дисперсию  суммарных  баллов  результата,      предварительно построив таблицу 7.

 

 

I

Балл за все задания Zi

N

 

N             i              i

æ             N                                                             ö2

ç 1  å (Z ) - Z ÷

N                     i                               i

è            I =1                                                         ø

1

8

-3,5

12,25

2

3

1,5

2,25

3

2

2,5

6,25

4

6

-1,5

2,25

5

2

2,5

6,25

6

6

-1,5

2,25

7

4

0,5

0,25

8

3

1,5

2,25

9

4

0,5

0,25

10

7

-2,5

6,25

 

45

 

40,5

 

 
Расчет дисперсии суммарных баллов

1  Z   Z

I 1

Таблица 7

 

4. Применяя формулу (6.2), а затем и формулу (6), получим:

 

z

 
S 2  

 

1

10  1

 

40,5  4,5 ,

r   1  3,611  0,198

.

 
3          4,5

 

Интерпретация результатов

1. Надежность как устойчивость: поскольку значение коэффициента приблизительно равно 0,923, то тест имеет высокую степень надежности. Значит, с этой точки зрения он составлен очень хорошо.

2. Надежность как внутренняя согласованность: значение коэффициента корреляции приблизительно равно 0,198. Это говорит о низкой надежности, поэтому лучше провести повторное тестирование с целью определения, какие тестовые задания необходимо заменить.

3. Дискриминативность: недискриминативны задания 6 и 7, так как неудовлетворительным считается коэффициент дискриминации менее 0,3. Это значит, что эти задания непригодны для теста и их необходимо заменить.

4. Валидность: степень корреляции между результатами теста и внешним критерием (экспертными оценками) достаточно высока и составляет 0,962823. Данный результат говорит о высокой валидности рассмотренного теста.

Обращаем ваше внимание на особые случаи.

 Иногда при нахождении коэффициента надежности происходит деление на   нуль.   Это   может   произойти,   если   все   студенты   имеют   одинаковое количество правильных и неправильных ответов. Такое редко бывает на практике, скорее всего, произошла утечка ответов. В данном случае следует тест провести повторно.

 При нахождении надежности как устойчивости, так же возможен случай, который  дает  в  ответе  неопределенность,  т. е.  происходит  деление  нуля  на нуль. Такое может произойти, когда студент дал одинаковое количество правильных и неправильных ответов на первом и повторном тестировании. Это означает, что тест составлен очень удачно или же наоборот, очень неудачно. Советуем вам проверить другие тестовые характеристиками и, исходя из них, сделать заключение.

 При  расчете  валидности  также  возможен  случай,  когда  происходит деление на 0. Это может произойти в том случае, если все студенты имеют одинаковое количество правильных и неправильных ответов или, если все экспертные оценки одинаковы. Такой случай редко может произойти на практике, скорее всего, произошла утечка ответов, и данный результат искажен.

Рекомендации для тестолога

Если мы хотим составить тестовые задания, обладающие удовлетворительной дискриминативностью, то необходимо избегать следующего: 1) излишней сложности, запутанности формулировок; 2) неоднозначности условий; 3) очевидности решения; 4) зависимости результата от памяти или от других индивидуальных особенностей испытуемого, а не от уровня развития тех умений и навыков, для оценки которых разрабатывается тест; 5) абсурдности,  нереальности вариантов  ответов; 6)  появления двух  и более правильных ответов, не оговоренных в условии.

Существуют следующие способы повышения валидности теста: 1) подбор оптимальной трудности заданий для обеспечения нормального закона распределения  баллов  по  тесту;  2)  экспертиза  качества  содержания  теста;

3)  расчет  оптимального  времени  выполнения  теста;  4)  подбор  заданий  с высокой дискриминативностью.

Предварительное исследование источников ненадежности позволяет по возможности устранить их влияние при конструировании теста. К числу таких источников обычно относят:

1. Субъективизм при оценке результатов выполнения заданий теста. Наиболее эффективный метод преодоления отмеченного недостатка — использование закрытых  заданий,  которые благодаря  возможности объективной оценки результатов выполнения при прочих равных ведут к повышению надежности теста.

2. Угадывание. Как показывают специальные исследования, угадывание существенно снижает надежность теста, особенно в тех случаях, когда тестируется группа слабых учеников, которые обычно прибегают к догадке при выполнении наиболее трудных заданий теста.

3. Отсутствие логической корректности формулировок заданий теста. Как правило, некорректные задания пропускают сильные ученики, что в целом негативно отражается на надежности теста.

4. Неоправданный выбор весовых коэффициентов. При правильном положении вещей выбор весовых коэффициентов в процессе подсчета индивидуальных баллов обучаемых должен базироваться на соответствующей теории.

5. Длина теста. Надежность растет по мере увеличения длины теста. Для удовлетворительной, но не хорошей надежности обычно достаточно 30 заданий теста.

6.  Отсутствие  стандартной  инструкции  к  тесту.  Инструкции  к  тесту должны быть предельно стандартизованы и точны. Любые неоднозначности,

двусмысленности и отступления от требований стандартизации в инструкции ведут к снижению надежности теста.

7.   Иные  источники   ненадежности  связаны  с  испытуемыми,   а  не  с заданиями теста. Например, испытуемый может плохо себя почувствовать во время работы над тестом либо ошибиться в инструкции. На результаты выполнения теста могут повлиять усталость и скука, температура в помещении, шум за окном и т. п.

В заключение отметим, что в рамках нашего проекта с целью оптимизации процесса эмпирической обработки тестовых характеристик студентами специальности «Информатика» Фалеем Александром и Березюком Сергеем разработан и реализован онлайн сервис. Обработка пользовательских данных разделена  на  три  этапа:  прием  информации  от  клиента  и  формирование массивов исходных данных, обработка значений с помощью расчетных формул и алгоритмов, компоновка и вывод результатов пользователю. Целевой аудиторией данного сервиса преимущественно могут стать учителя школ и преподаватели вузов. Адрес проекта: www.qualitester.com.

Список литературы:

1.  Аванесов В. С.  Композиция  тестовых  заданий  /  В. С. Аванесов.  —  М.: Адепт, 1998. — 217 с.

2.  Аванесов В. С.    Применение    заданий    в    тестовой    форме    в    новых образовательных технологиях / В.С. Аванесов // Школьные технологии. —

2007. — № 3. — С. 146—163.

3.  Аванесов В. С. Форма тестовых заданий: учеб. пособие / В. С. Аванесов. М.: Центр тестирования, 2005. — 120 с.

4.  Гуцанович С. А.,   Радьков А. М.   Тестирование   в   обучении   математике: диагностико-дидактические  основы  /  С. А. Гуцанович,  А. М. Радьков.  — Мозырь: Издательский Дом «Белый Ветер», 2001. — 168 с.

5.  Майоров А. Н. Теория и практика создания тестов для системы образования.

— Москва: «Интеллект-Центр», 2002. — 296 с.

6.  Челышкова,  М.Б.  Теория  и   практика  конструирования  педагогических тестов. — Москва: «Логос», 2002. — 432 с.