Статистическая обработка результатов учебно-исследовательской деятельности учащихся - Учебное пособие (Мельникова Ю.Б.)

3.1 генеральная совокупность и выборка

Напомним, что предметом математической статистики является изучение случайных величин (или случайных событий) по результатам наблюдений. Для получения опытных данных необходимо провести обследование соответствующих объектов. Например, если исследователя интересует вероятность того, что диаметр валика определенного типоразмера после шлифов­ки окажется за пределами технического допуска, то надо знать закон распределения этого диаметра, а для этого, прежде всего надо располагать набором возможных значений диаметра. Однако обследовать все валики зачастую трудно, поскольку их количество может быть велико. Поэтому приходится из всей совокупности объектов для обследования отбирать только часть, т. е. проводить выборочное обследование. В некоторых случаях обследование объектов всей совокупности практически не имеет смысла, поскольку они разрушаются в результате обследования.

Пример. Пусть на некотором комбинате выпускаются рыбные консервы. Для проверки на качество каждую банку приходится вскрывать, тем самым портить продукт. Как же в этом случае проверить качество консервного производства, если сплошное обследование всех банок невозможно?

Допустим, что комбинату к определенному сроку требуется отправить в торговую сеть определенное количество качественной продукции. Чтобы иметь представление о качестве всей отправляемой партии консервов, берут небольшую часть продукции и проверяют на качество. По полученным результатам можно судить о качестве всей продукции, не приводя в негодность всю партию консервов. •

Пример. При проверке качества производства электролампочек последние должны находиться под напряжением довольно большое время, что, естественно, невозможно в условиях массового производства. Поэтому для проверки на стандартность подвергают контролю только небольшую часть изготовленных лампочек. Практика подтверждает, что выводы о всей совокупности объектов, сделанные на основании анализа данных наблюдения только над заведомо меньшей частью этой совокупности, бывают достаточно надежными. •  

Зачастую реально существующую совокупность объектов можно мысленно дополнить любым количеством таких же однородных объектов. Например, совокупность электромоторов определенной марки, изготовленных на данном заводе в течение квартала, можно дополнить гипотетической совокупностью таких же электромоторов, которые могут быть изготовлены во II, в III и т. д. кварталах. В соответствии с этим наблюдения над объектами такой совокупности, в результате которых «снимаются» конкретные значения случайной величины (значения изучаемого признака объекта), можно мысленно продолжать в неизменных условиях как угодно долго.

Такие совокупности объектов или совокупности значений определенной случайной величины, соответствующие каждому из этих объектов, будем называть генеральными.

Определение. Совокупность всех мысленно возможных объектов данного вида, над которыми проводятся наблюдения с целью получения конкретных значений определенной случайной величины, или совокупность результатов всех мыслимых на­блюдений, проводимых в неизменных условиях над одной из случайных величин, связанных с данным видом объектов, называ­ется генеральной совокупностью.

Как видно из определения, генеральная совокупность объектов данного вида и соответствующая совокупность значе­ний случайной величины не различаются. Так как понятия генеральной совокупности и случайной величины связаны с наблюдениями (испытаниями) в неизменных условиях, то для простоты в дальнейшем эти понятия не будем различать. На самом деле понятие генеральной совокупности несколько шире понятия случайной величины, так как любое значение случайной величины может быть результатом нескольких наблюдений.

Генеральную совокупность будем называть конечной или бесконечной в зависимости от того, конечна или бесконечна совокупность составляющих ее элементов. Если множество значений случайной величины Х бесконечно, то генеральная совокупность бесконечна. Если случайная величина дискретна и ее множество значений, конечно, то генеральная совокупность может быть как конечной (например, по статистическим Данным оценивается доля мальчиков среди детей, родившихся за год; здесь генеральная совокупность—это все родившиеся за год дети), так и бесконечной (если рассматривать до бесконечности непрерывное воспроизводство населения).

В заключение отметим, что не следует смешивать понятие генеральной совокупности с реально существующими совокуп­ностями. Например, на склад поступила продукция некоторого цеха за месяц, что является реально существующей совокупностью, которую нельзя назвать генеральной, поскольку выпуск этой продукции можно мысленно продолжить сколь угодно долго.

Определение. Часть отобранных объектов из генераль­ной совокупности (результаты наблюдений над ограниченным числом объектов из этой совокупности) называется выборочной совокупностью или выборкой.

Число N объектов генеральной совокупности и число n объектов выборочной совокупности будем называть объемами генеральной и выборочной совокупностей соответственно. При этом будем предполагать, что N>n(N значительно больше n). Как уже отмечалось выше, о свойствах генеральной совокупности (случайной величины X) можно судить по данным наблюдений над отобранными объектами, т. е. по выборке. Однако не всякая выборка может дать действительное представ­ление о генеральной совокупности.

Пример.  В цехе по производству специальных втулок на токарных станках работают квалифицированные токари и только начинающие. Для проверки качества продукции на контроль взята партия втулок. Если эти втулки изготовлены квалифицированным токарем, то, очевидно, представление о качестве всей продукции цеха будет «завышенным», а если втулки изготовлены начинающим токарем, то это представление будет «занижен­ным».     Для того чтобы по выборке можно было достаточно уверенно судить о случайной величине, выборка должна быть представительной (репрезентативной). Репрезентативность вы­борки означает, что объекты выборки достаточно хорошо представляют генеральную совокупность. Заметим, что при отборе объектов могут сыграть роль личные мотивы или психологические факторы, о которых исследователь, проводя­щий выборку, и не подозревает. При этом, как правило, выборка не будет репрезентативной.

Репрезентативность выборки обеспечивается случайностью отбора. Последнее означает, что любой объект выборки отобран случайно, при этом все объекты имеют одинаковую вероятность попасть в выборку. Существует несколько способов отбора, обеспечивающих репрезентативность выборки. Рас­смотрим некоторые из них.

Пусть небольшие по размеру объекты генеральной совокуп­ности находятся, например, в ящике. Каждый раз после тщательного перемешивания, если оно не является причиной деформации объектов, из ящика наудачу берут один объект. Эту операцию повторяют до тех пор, пока не образуется выборочная совокупность. Такой отбор невозможен, если генеральная совокупность состоит из достаточно больших по размерам объектов, например из мощных электромоторов, или таких объектов, которые при перемешивании разрушаются, например, из электролампочек. Тогда поступают следующим образом. Все объекты генеральной совокупности нумеруют, затем каждый номер записывают на отдельную карточку. После этого карточки с номерами тщательно перемешивают из полученной пачки карточек выбирают одну наудачу. Объект, номер которого совпал с номером на карточке, считается попавшим в выборку. Такую операцию повторяют до тех пор, пока не образуется необходимая выборка. При этом можно осуществить два различных варианта выборки.

1) Каждая вынутая карточка возвращается назад в пачку, карточки снова тщательно перемешиваются. Повторяя эту операцию, необходимое число раз, можно получить выборочную совокупность, которая называется случайной выборкой с возвратом.

2) Каждая вынутая карточка не возвращается назад пачку. Образованная таким способом выборка называется  случайной выборкой без возврата.

Так как при выборке с возвратом одну и ту же карточку можно выбрать дважды, а значит, соответствующий объект придется обследовать также дважды, то эту выборку называют также случайной повторной. Аналогично, выборку без возврата называют случайной бесповторной.

При большом объеме генеральной совокупности применение карточек для организации случайной выборки затруднительно, что связано с необходимостью написания большого числа номеров, при этом хорошее перемешивание карточек трудно обеспечить. В таких случаях прибегают к помощи таблицы случайных чисел. Предположим, например, что требуется сделать для контроля выборку из генеральной совокупности большого объема, представляющей собой изготовленные заводом в течение квартала электромоторы, каждый из которых имеет четырехзначный заводской номер. Ели выборка должна содержать 20 моторов, то из таблицы произвольным образом берут 20 четырехзначных чисел (можно подряд) и моторы с соответствующими номерами отправляют на контроль. В выборку могут попасть моторы с номерами 1534, 106, 2836 и т. д. Если не обращать внимание на то, что некоторые номера могут повторяться и, следовательно, некоторые моторы должны обследоваться дважды, то выборка является, очевидно, выборкой с возвратом. Если же необходимо организовать случайную выборку без возврата, то при отборе случайных чисел следует вновь встретившееся число пропустить.

Пусть требуется организовать выборку без возврата из 100 объектов (они все пронумерованы), содержащую семь объектов. Для этого достаточно выбрать в таблице любой столбец, а в каждом числе этого столбца—две определенные цифры, которые будут означать двузначный номер объекта. Выберем, например, третий столбец и две последние цифры чисел этого столбца. Для определенности возьмем первые семь чисел этого столбца. Они дадут следующие семь номеров объекта: 36; 02; 44; 05; 25; 41; 88.

Если объем генеральной совокупности велик, то различие между выборками с возвратом и без возврата, которые составляют ее небольшую часть, незначительно и практически не сказывается на окончательных результатах. В таких случаях, как правило, используют выборку без возврата. Если генераль­ная совокупность имеет не очень большой объем, то различие между указанными выборками будет существенным.

При любой выборке предполагается, что все объекты генеральной совокупности имеют в одном испытании оди­наковую вероятность попасть в выборку. Убедимся на примере в том, что эта вероятность и для выборки с возвратом и для выборки без возврата не изменяется при переходе от одного испытания к другому.

Пример. В урне а белых и Ь черных шаров. Шары отличаются только цветом. Из урны наугад вынули два шара. Найдем вероятности двух событий: А1— первый шар белый, А2 —второй шар также белый—для следующих двух случаев: выборка с возвратом и выборка без возврата.

Очевидно, для выборки с возвратом

Р(А1)=Р(А2)=а/(а+b)Для выборки без возврата

Р(А1)= а/(а+b)

Найдем Р(А2). Событие А2  может наступить лишь при условии появления одного из двух следующих событии: А1— первый шар белый (гипотеза Н1). В1-первый шар черный (гипотеза Н2 ). Тогда по формуле полной вероятности получим

Р(А2)=Р(Н1)РН1(А2)+Р(Н2)РН2(А2)=Р(А1)РА1(А2)+ (В1)РВ1(А2)=

= а/(а+b) * а-1/((а+b)-1) + а/(а+b)* а/((а+b)-1)= а/(а+b)= Р(А1)

Таким образом, и для выборки с возвратом, и для выборки без возврата вероятность того, что объект попадет в выборку, не изменяется при переходе от одного испытания к другому, или, иными словами, с вероятностной точки зрения условия испытаний не изменяются. Однако если в выборке с возвратом испытания независимы, то в выборке без возврата испытания таким свойством не обладают: здесь испытания зависимы. При выборке с воз­вратом условная вероятность РА1(А2 ) вытащить второй шар белый при условии, что первый – белый, совпадает с безусловной вероятностью Р(А2):

РА1(А2)= а/(а+b) , Р(А2)= а/(а+b)

Для выборки без возврата:

РА1(А2)= а-1/((а+b)-1) , Р(А2)= а/(а+b)

Условие независимости является одним из основных используемых в теоремах теории вероятностей, поэтому в дальнейшем будем предполагать, что имеет место случайная выборка с возвратом, и при этом иметь ввиду, что выражение «случайная выборка с возвратом» тождественно выражению «испытания независимы и проведены в одинаковых условиях».

После того как сделана выборка, т. е. получена выборочная совокупность объектов, все объекты этой совокупности обследуют по отношению к определенной случайной величине (или случайному событию) и в результате этого получают наблюдаемые данные.    

Следующая задача математической статистики заключается в обработке результатов наблюдений.