Статистика привести пример ряда распределения. Понятие и виды статистических рядов

Предположим, что в результате измерений параметров исследуемых объектов имеется статистическая совокупность, представляющая собой множество значений СВ Х, полученное в результате измерений(наблюдений).

Построение гистограммы осуществляется в следующем порядке.

1. Весь диапазон измерений СВ () делится на интервалы и подсчитывается количество значений , приходящееся на каждый -й интервал. Это число делится на общее количество измерений (изделий) и определяется частота, соответствующая данному интервалу.

Сумма частот всех разрядов очевидно должна быть равна единице.

2. Строится таблица 1.1 , в которой приведены интервалы в порядке их расположения вдоль оси абсцисс и соответствующие частоты. Эта таблица называется статистическим рядом .

Таблица 1.1

Статистический ряд значений СВ

Интервал,
Количество значений
Частота,

Здесь -обозначение i-го интервала; - его границы; k- число интервалов.

При группировке наблюденных значений СВ по интервалам может возникнуть ситуация, при которой значение попадает на границу интервала. В этом случае встает вопрос о том, к какому разряду отнести это значение. Рекомендуется считать данное значение принадлежащим в равной мере обоим интервалам и прибавлять к числам того и другого интервала по 0,5.

3. Определение числа интервалов.

Число интервалов, на которые следует группировать статистический ряд, не должно быть слишком большим, поскольку в этом случае ряд распределения становится невыразительным, и частоты в нем обнаруживают незакономерные колебания. С другой стороны оно не должно быть слишком малым, так как при малом числе интервалов свойства распределения описываются статистическим рядом слишком грубо.

Практика показывает, что в большинстве случаев рационально выбирать число интервалов в пределах 10¸20. Чем больше и однороднее статистический материал, тем большее количество интервалов можно выбирать при составлении статистического ряда.

Для определения количества интервалов можно также использовать эмпирические формулы, предлагаемые различными авторами. В работе в качестве таких формул предлагается использовать следующие выражения

Эти выражения получены для наиболее часто встречающихся на практике распределений с эксцессом, находящимся в пределах от 1,8 до 6, то есть от равномерного до распределения Лапласа.

Длины интервалов могут быть как одинаковыми, так и различными. Очевидно, что проще их брать одинаковыми. Однако, при оформлении данных о СВ, распределенных слишком неравномерно, иногда бывает удобно выбирать в области наибольшей плотности распределения интервалы более узкие, чем в области малой плотности.

4. Оформление гистограммы графически.

Статистический ряд оформляется графически в виде так называемой гистограммы (рис.1.1). Она строится следующим образом. По оси абсцисс откладываются интервалы, а на каждом из интервалов как основании строится прямоугольник, площадь которого равна частоте данного интервала. Для построения гистограммы нужно частоту каждого интервала разделить на его длину и полученное число взять в качестве высоты прямоугольника. В случае равных по длине интервалов высоты прямоугольников пропорциональны соответствующим частотам. Из способа построения гистограммы следует, что полная площадь ее равна единице.

Очевидно, что при увеличении числа опытов можно выбирать все более мелкие интервалы, и при этом верх гистограммы будет все более приближаться к кривой, ограничивающей площадь, равную единице. Эта кривая представляет собой график функции плотности распределения вероятности f(x) (дифференциальная функция распределения для непрерывных СВ).

5. Статистическая функция распределения.

Пользуясь данными статистического ряда, можно построить и статистическую(эмпирическую) функцию распределения СВ Х. Для этого из ряда берутся точки x i границ интервалов и соответствующие им суммы частот p i , приходящиеся на прямоугольники гистограммы, лежащие левее этих точек. Эти частоты и их суммы обозначают как F(x i). Тогда получим систему выражений, определяющих точки статистической функции распределения. Соединяя их ломаной линией или плавной кривой, получим приближенный график статистической функции распределения (интегральной функции распределения для непрерывных СВ) F(x) (рис.1.2).

При систематизации данных выборочных обследований используются статистические дискретные и интервальные ряды распределения.

1. Статистическое дискретное распределение. Полигон.
Пусть из генеральной совокупности извлечена выборка, причем х 1 наблюдалось n 1 раз, х 2 – n 2 раз, х k – n k раз и ∑n i =n - объем выборки. Наблюдаемые значения х 1 называют вариантами, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом. Число наблюдений варианты называют частотой, а ее отношение к объему выборки - относительной частотой n i /n=w i

ОПРЕДЕЛЕНИЕ. Статистическим (эмпирическим) законом распределения выборки, или просто статистическим распределением выборки называют последовательность вариант х i и соответствующих им частот n i или относительных частот w i .

Статистическое распределение выборки удобно представлять в форме таблицы распределения частот, называемой статистическим дискретным рядом распределения:

(сумма всех относительных частот равна единице ∑w i =1)

Пример 1. При измерениях в однородных группах обследуемых получены следующие выборки: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72, 74 (частота пульса). Составить по этим результатам статистический ряд распределения частот и относительных частот.

Решение. 1) Статистический ряд распределения частот:

x i 70 71 72 73 74
n i 2 4 8 2 4

2) Объем выборки: n=2+4+8+2+4=20. Найдем относительные частоты, для чего разделим частоты на объем выборки n i /n=w i: w i =2/20=0.1; w 2 =4/20=0.2; w 3 =0.4; w 4 =4/20=0.1; w 5 =2/20=0.2. Напишем распределение относительных частот:

x i 70 71 72 73 74
w i 0.1 0.2 0.4 0.1 0.2

Контроль: 0,1+0,2+0,4+0,1+0,2=1.

Полигоном частот называют ломаную, отрезки, которой соединяют точки (х 1 ,n 1),(х 2 ,n 2),...,(х k ,n k). Для построения полигона частот на оси абсцисс откладывают варианты х 2 , а на оси ординат – соответствующие им частоты n i . Точки (х i ,n i) соединяют отрезками и получают полигон частот.

Полигоном относительных частот называют ломаную, отрезки, которой соединяют точки (х 1 ,w 1),(х 2 ,w 2),...,(х k ,w k). Для построения полигона относительных частот на оси абсцисс откладывают варианты х i , а на оси ординат соответствующие им частоты w i . Точки (х i ,w i) соединяют отрезками и получают полигон относительных частот.

Пример 2. Постройте полигон частот и относительных частот по данным примера 1.
Решение: Используя дискретный статистический ряд распределения, составленный в примере 1 построим полигон частот и полигон относительных частот:

2. Статистический интервальный ряд распределения. Гистограмма. Статистическим дискретным рядом (или эмпирической функцией распределения) обычно пользуются в том случае, когда отличных друг от друга вариант в выборке не слишком много, или тогда, когда дискретность по тем или иным причинам существенна для исследователя. Если же интересующий нас признак генеральной совокупности Х распределен непрерывно или его дискретность нецелесообразно (или невозможно) учитывать, то варианты группируются в интервалы.

Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

Замечание. Часто h i -h i-1 =h при всех i, т.е. группировку осуществляют с равным шагом h. В этой ситуации можно руководствоваться следующими эмперическими рекомендациями по выборке а, k и h i:

1. R размах =X max -X min
2. h=R/k; k-число групп
3. k≥1+3.321lgn (формула Стерджеса)
4. a=x min , b=x max
5. h=a+ih, i=0,1...k

Полученную группировку удобно представить в форме частотной таблицы, которая носит название статистический интервальный ряд распределения:

Аналогическую таблицу можно образовать, заменяя частоты ni относительными частотами:

Пример 3. Из очень большой партии деталей извлечена случайная выборка объема 50 интересующий нас признак Х-размеры деталей, измеренные с точностью до 1см, представлен следующим вариоционным рядом: 22, 47, 26, 26, 30, 28, 28, 31, 31, 31, 32, 32, 33, 33, 33, 33, 34, 34, 34, 34, 34, 35, 35, 36, 36, 36, 36, 36, 37, 37, 37, 37, 37, 37, 38, 38, 40, 40, 40, 40, 40, 41, 41, 43, 44, 44, 45, 45, 47, 50. Найти статистический интервальный ряд распределения.

Решение. Определим характеристики группировки с помощью замечания.
k≥1+3.321lg50=1+3.32lg(5 10)=1+3.32(lg5+lg10)=6.6
Имеем, a=22, k=7, h=(50-22)/7=4, h i =22+4i, i=0,1,…,7.

Интервалы группировки 22-26 26-30 30-34 34-38 38-42 42-46 46-50
Частоты n i 1 4 10 18 9 5 3
Отн.частоты w i 0.02 0.08 0.2 0.36 0.18 0.1 0.06

Десятичные логарифмы от 1 до 10

n 1 2 3 4 5 6 7 8 9 10
lnn 0 0.3 0.48 0.6 0.7 0.78 0.85 0.9 0.95 1

Наиболее информативной графической формой частот является специальный график, называемы гистограммой частот.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению n i /h (плотность частоты).

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии n i /h. Площадь i-го частичного прямоугольника равна h n i /h=n i - сумме частот вариант i-го интервала; следовательно, площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению w i /h (плотность относительной частоты).

Для построения гистограммы относительных частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии w i /h. Площадь i-го частичного прямоугольника равна h w i /h=w i - относительной частоте вариант, попавших в i-й интервал. Следовательно, площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. единице.

Пример 4. Постройте гистограмму частот и относительных частот по данным примера 3.

Выборочная медиана – это середина вариационного ряда, значение, расположенное на одинаковом расстоянии от левой и правой границы выборки.

Выборочная мода – это наиболее вероятное, т.е. чаще всего встречающееся, значение в выборке.

Тема 9. Ряды распределения

Статистические ряды распределения – это первичная характеристика массовой статистической совокупности, упорядоченное разложение единиц изучаемой совокупности на группы по группировочному признаку. Любой статистический ряд распределения состоит из двух элементов:

1) отдельных значений варьирующего признака (вариантов );

2) величин, которые показывают, сколько раз повторяется данная варианта (частот ).

Примечание . Частоты, выраженные в долях единицы или в процентах к итогу, называются частостями ; это численность ряда распределения выражается суммой частот .

Если за основу группировки взят качественный признак, то такой ряд распределения называют атрибутивным (распределение по видам труда, по полу, по профессии, по религиозному признаку, национальной принадлежности и т.д.). Если ряд распределения построен по количественному признаку, то такой ряд называют вариационным . Построить вариационный ряд - значит упорядочить количественное распределение единиц совокупности по значениям признака, а затем подсчитать числа единиц совокупности с этими значениями (построить групповую таблицу).

Выделяют три формы вариационного ряда :

1) ранжированный ряд - это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака; ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются; другие формы вариационного ряда - групповые таблицы , составленные по характеру вариации значений изучаемого признака;

2) дискретный ряд - это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением, между которыми нет промежуточных значений (дискретные признаки - тарифный разряд, количество детей в семье, число работников на предприятии и т.д.); эти признаки могут принимать только конечное число определенных значений;

Дискретный ряд представляет собой групповую таблицу , которая состоит из двух граф: в первой графе указывается конкретное значение признака, а во второй - число единиц совокупности с определенным значением признака;

3) если признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость основных фондов предприятия и т.д., которые в определенных границах могут принимать любые значения), то для этого признака нужно строить интервальный ряд (с равными или неравными интервалами).

Групповая таблица здесь также имеет две графы. В первой указывается значение признака в интервале «от - до» (варианты), во второй - число единиц, входящих в интервал (частота). Очень часто таблица дополняется графой, в которой подсчитываются накопленные частоты S, которые показывают, какое количество единиц совокупности имеет значение признака не большее, чем данное значение. Частоты ряда f могут заменяться частностями w , выраженными в относительных числах (долях или процентах). Они представляют собой отношения частот каждого интервала к их общей сумме (9.1):



(9.1)

При построении вариационного ряда с интервальными значениями, прежде всего, необходимо установить величину интервала i, которая определяется как отношение размаха вариации R к числу групп n (9.2):

где R = x max - x min ; n = 1 + 3,322 lgN(формула Стерджесса ); N - общее число единиц совокупности.

Интервальные вариационные ряды могут быть построены и для признаков с дискретной вариацией. Нередко в статистическом исследовании указывать отдельное значение дискретного признака нецелесообразно, т.к. это, как правило, затрудняет рассмотрение вариации признака. Поэтому возможные дискретные значения признака распределяются по группам и подсчитываются соответствующие им частоты (частности). При построении интервального ряда по дискретному признаку границы смежных интервалов не повторяют друг друга: следующий интервал начинается со следующего по порядку (после верхнего значения предыдущего интервала) дискретного значения признака.

При сравнении частот ряда с неравными интервалами для характеристики их наполненности рассчитывают плотность распределения. Средняя плотность в интервале – это частное от деления частоты и частности на величину интервала. В первом случае плотность абсолютная, во втором – относительная. Средняя плотность показывает, сколько единиц или их процентов приходится на единицу измерения варианты. Частота, частность, плотность и накопленная частота – это различные функции от величины варианты.

В процессе анализа статистических данных , представленных рядами распределения, кроме знания о характере распределения (или структуре совокупности) могут вычисляться различные статистические показатели (числовые характеристики), которые в обобщенном виде отражают особенности распределения изучаемых признаков. Эти характеристики (показатели) могут быть разделены на 3 основные группы

1) характеристики центра распределения (средняя, мода, медиана);

2) характеристики степени вариации (вариационный размах, среднее линейное отклонение, дисперсия, среднее квадратическое отклонение, коэффициент вариации);

3) характеристики формы (типа) распределения (показатели эксцесса и асимметрии, ранговые характеристики, кривые распределения).

Наиболее надежный путь выявления закономерности распределения состоит в следующем:
1) увеличить количество наблюдаемых случаев (в соответствии с законом больших чисел, в таких рядах случайные отклонения от общей закономерности у индивидуальных значений будут взаимно погашаться);

2) первоначально совокупность разбить на максимальное возможное число групп, затем, постепенно сокращая число групп, оптимизировать группировку с точки зрения выявления закономерности распределения.

При реализации такого подхода закономерность, характерная для данного распределения будет выступать все более и более ясно, а ломаная линия, изображающая полигон, будет приближаться к некоторой плавной линии и в пределе должна превратиться в кривую линию.

Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку.

Назначение сервиса . С помощью онлайн-калькулятора Вы сможете:

  • построить вариационный ряд , построить гистограмму и полигон;
  • найти показатели вариации (среднюю, моду (в т.ч. и графическим способом), медиану, размах вариации, квартили, децили, квартильный коэффициент дифференциации, коэффициент вариации и другие показатели);

Инструкция . Для группировки ряда необходимо выбрать вид получаемого вариационного ряда (дискретный или интервальный) и указать количество данных (количество строк). Полученное решение сохраняется в файле Word (см. пример группировки статистических данных).

Количество исходных данных
",0);">

Если группировка уже осуществлена и заданы дискретный вариационный ряд или интервальный ряд , то необходимо воспользоваться онлайн-калькулятором Показатели вариации . Проверка гипотезы о виде распределения производится с помощью сервиса Изучение формы распределения .

Виды статистических группировок

Вариационный ряд . В случае наблюдений дискретной случайной величины одно и то же значение можно встретить несколько раз. Такие значения x i случайной величины записывают с указанием n i числа раз его появления в n наблюдениях, это и есть частота данного значения.
В случае непрерывной случайной величины на практике применяют группировку.
  1. Типологическая группировка – это разделение исследуемой качественно разнородной совокупности на классы, социально–экономические типы, однородные группы единиц. Для построения данной группировки используйте параметр Дискретный вариационный ряд.
  2. Структурной называется группировка , в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому–либо варьирующему признаку. Для построения данной группировки используйте параметр Интервальный ряд.
  3. Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется аналитической группировкой (см. аналитическая группировка ряда).

Принципы построения статистических группировок

Ряд наблюдений, упорядоченных по возрастанию, называется вариационным рядом . Группировочным признаком называется признак, по которому производится разбивка совокупности на отдельные группы. Его называют основанием группировки. В основание группировки могут быть положены как количественные, так и качественные признаки.
После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность.

При использовании персональных компьютеров для обработки статистических данных группировка единиц объекта производится с помощью стандартных процедур.
Одна из таких процедур основана на использовании формулы Стерджесса для определения оптимального числа групп:

k = 1+3,322*lg(N)

Где k – число групп, N – число единиц совокупности.

Длину частичных интервалов вычисляют как h=(x max -x min)/k

Затем подсчитывают числа попаданий наблюдений в эти интервалы, которые принимают за частоты n i . Малочисленные частоты, значения которых меньше 5 (n i < 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
В качестве новых значений вариант берут середины интервалов x i =(c i-1 +c i)/2.

Цель: научиться составлять статистические распределения выборок, строить полигоны, гистограммы, строить эмпирические функции распределения.

Математическая статистика – это раздел прикладной математики, посвящённый методам сбора, группировки и анализа статистических сведений, полученных в результате наблюдений или экспериментов.

Генеральной совокупностью называют множество объектов, однородных относительно некоторого признака.

Выборочной совокупностью (выборкой) называется совокупность случайно отобранных объектов.

Повторной называют выборку, при которой отобранный объект (перед отбором следующего) возвращается в генеральную совокупность.

Бесповторной называют выборку, при которой отобранный объект в генеральную совокупность не возвращается.

Число объектов совокупности называется её объёмом.

Выборка называется репрезентативной , если каждый объект выборки отобран случайно из генеральной совокупности, и если все объекты имеют одинаковую вероятность попасть в выборку.

Численное значение количественного признака называется вариантой .

Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот .

Вариационным рядом называется ранжированный в порядке возрастания (или убывания) ряд вариант с соответствующими им частотами.

Вариационный ряд называется дискретным , если любые его варианты отличаются на постоянную величину, и – интервальным , если варианты могут отличаться одна от другой на сколь угодно малую величину.

Дискретный статистический ряд задается таблицей, в которой указываются варианты, частоты или относительные частоты их встречаемости. Графическое изображение дискретного статистического ряда называетсяполигоном частот (относительных частот). Это ломаная, в которой концы отрезков имеют координаты или , .

Пример . Закон распределения дискретного статистического рядя и полигон частот.

Интервальный статистический ряд для случайных непрерывных величин и для случайных дискретных величин при больших объемах выборок. Интервальный ряд представляет собой таблицу, в которой указаны частичные интервалы, плотности частот или плотности относительных частот. Графическое изображение интервального статистического ряда называетсягистограммой. Представляет собой ступенчатую фигуру из прямоугольников с основаниями, равными интервалам значений признака, и высотами, равными частотам интервалов.

Пример . Закон распределения интервального статистического ряда и гистограмма.

(55;60) (60;65) (65;70) (70;75) (75;80) (80;85) (85;90)

Алгоритм построения интервального ряда:

Пусть дана выборка с объёмом .

1) находим размах выборки ,

2) определяем число классов разбиения по формулам:

(формула Стерджесса для )

(формула Брукса для ),

3) находим величину классового интервала ,

4) границы частичных интервалов находим по формулам:

, , , .



5) подсчитываем частоты попадания вариант в каждый интервал.

Кумулятивная кривая (кумулята) – кривая накопленных частот. Для дискретного ряда кумулята представляет собой ломаную, соединяющую точки или , . Для интервального вариационного ряда ломаная начинается с точки, абсцисса которой равна началу первого интервала, а ордината накопленной частоте, равной 0. Другие точки соответствуют концам интервалов.

Эмпирической функцией распределения называется относительная частота того, что признак примет значение, меньшее заданного , то есть .

Для дискретного вариационного ряда эмпирическая функция представляет собой разрывную ступенчатую функцию, для интервального – совпадает с кумулятой.

Основные числовые характеристики вариационного ряда :

Среднее арифметическое вариационного ряда , где - варианты дискретного ряда или середины интервалов интервального, - соответствующие им частоты.

Основные свойства средней арифметической :

6) , где - общая средняя, - групповая средняя -той группы с объёмом , - число групп.

Дисперсия вариационного ряда .

Основные свойства дисперсии :

2) ,

3) ,

4) ,

5) , где - общая дисперсия, - групповая дисперсия, - средняя арифметическая групповых дисперсий, - межгрупповая дисперсия.

6) - дисперсия среднего значения.

Среднее квадратическое отклонение .

Коэффициент вариации .

Медиана вариационного ряда , где - начало медианного интервала, - его длина, - объём выборки, - сумма частот интервалов, предшествующих медианному, - частота медианного интервала. Для дискретного ряда медиана - значение признака, приходящееся на середину ранжированного ряда наблюдений.

Мода , где - начало модального интервала, - его длина, - частота модального интервала, и - частоты соответственно предшествующего и последующего за модальным интервалов. Для дискретного ряда мода - варианта, которой соответствует наибольшая частота.

Начальный момент -го порядка .

Центральный момент -го порядка .

Коэффициент асимметрии .

Эксцесс .

Контрольные вопросы:

1. Генеральная и выборочная совокупности, их объём.

2. Статистическое распределение выборки. Вариационный ряд.

3. Дискретный статистический ряд. Полигон частот.

4. Интервальный статистический ряд. Гистограмма.

5. Алгоритм построения интервального статистического ряда.

6. Эмпирическая функция распределения. Кумулятивная кривая.

7. Среднее арифметическое вариационного ряда и его свойства.

8. Дисперсия и её свойства. СКО.

Контрольные задания:

1.Как известно, почерк человека, в том числе наклон букв, тесно связан с его характером. Низкий наклон (30 – 40 град.) свидетельствует о вспыльчивости и возбудимости человека, излишней прямоте и торопливости в поступках; наклон 40 – 50 град. характеризует гармоническое развитие натуры; наклон 50 – 90 град. свидетельствует о самообладании, узком диапазоне увлечений.

Среди студентов института выборочно был исследован почерк 50 человек. Оказалось, что почерк у 30% присутствующих имеет низкий наклон, у 50% - наклон 40 – 50 и у 20% - наклон 50 – 90 град.

Найти распределение частот, относительных частот, построить полигон и гистограмму.

2. Дано распределение признака , полученное по наблюдениям. Необходимо:

4. Изучался рост (см) мужчин возраста 25 лет. По случайной выборке объема 35: 175, 167, 168, 169, 168, 170, 174, 173, 177, 172, 174, 167, 173, 172, 171, 171, 170, 167, 174, 177, 171, 172, 173, 169, 171, 173, 173, 168, 173, 172, 166, 164, 168, 172, 174, найти статистический интервальный ряд распределения и построить гистограмму частот.

Задания для домашней работы:

Дано распределение признака , полученное по наблюдениям. Необходимо:

1) построить (полигон) гистограмму, кумуляту и эмпирическую функцию распределения;

2) найти: среднюю арифметическую, моду и медиану, дисперсию, СКО и коэффициент вариации, начальные и центральные моменты -го порядка.

5-10 10-15 15-20 20-25 25-30 30-35 35-40

Тема №12 «Нахождение точечных и интервальных оценок параметров распределения»

Цель: научиться определять точечные и интервальные статистические оценки генеральных параметров нормального распределения по выборочным данным генеральной совокупности.

Краткие теоретические сведения:

Статистической оценкой (статистикой) неизвестного параметра q распределения генеральной совокупности называют функцию результатов наблюдений q* .

Статистическая оценка q* является случайной величиной.

Оценка, определяемая одним числом, зависящим от выборочных данных, называется точечной .

Требования, предъявляемые к точечным статистическим оценкам:

1) состоятельность (стремление по вероятности к оцениваемому параметру при ),

2) несмещённость (отсутствие систематических ошибок при любом объёме выборки (q*) = q ),

3) эффективность (среди всех возможных оценок эффективная оценка обладает наименьшей дисперсией).

Точечные оценки генеральных параметров нормально распределённой совокупности:

Интервальной оценкой называют оценку, которая определяется двумя числами – концами интервала.

Интервальные оценки позволяют установить точность и надёжность точечной оценки.

Точностью оценки называется отклонение по модулю q* от q.

Предельной ошибкой выборки называется максимально допустимое по модулю отклонение q* от q .

Надёжностью (доверительной вероятностью) оценки q* называют вероятность , с которой осуществляется неравенство |q - q*|< . Обычно = 0,95; 0,99; 0,999…

Вероятность того, что неизвестный параметр не попадёт в интервал |q - q*|< , равна - уровню значимости .

Доверительным называется интервал (q*- ;q*+ ), который покрывает неизвестный параметр с заданной надёжностью .

Интервальные оценки параметров нормального распределения:

1) Доверительный интервал для математического ожидания при известной дисперсии .

, где находят из таблицы функции Лапласа, учитывая .

2) Доверительный интервал для математического ожидания при неизвестной дисперсии .

Рис.:
, где находят из таблицы коэффициентов Стьюдента.

3) Доверительный интервал для дисперсии при известном .

< < , где , - находят при с числом степеней свободы .

4) Доверительный интервал для дисперсии при неизвестном .

, где - находят из таблицы распределения при 1- , - находят при с числом степеней свободы .

Пример 1 . Вычислить несмещённые оценки параметров генеральной совокупности по выборочным данным: 64 63 71 68 73 71 74 73 70 75 68 67 73.

,

,

.

Пример 2 . Найти доверительные интервалы для математического ожидания, дисперсии и стандартного отклонения при уровне значимости 0,05, если из генеральной совокупности сделана выборка, используемая в примере 1.

Решение. Используем данные из примера 1 для нахождения доверительного интервала для математического ожидания при неизвестной дисперсии:

,

.

Используем данные из примера 1 для нахождения доверительного интервала для дисперсии при неизвестном математическом ожидании:

,

где = ()= =4,4 и =

,

Контрольные вопросы:

1. Статистическая оценка неизвестного параметра теоретического распределения.

2. Точечная оценка.

3. Требования к точечным оценкам: несмещённость, состоятельность, эффективность.

4. Генеральная и выборочная средняя.

5. Генеральная и выборочная дисперсии.

6. Поправочный коэффициент. Исправленная выборочная дисперсия.

7. Генеральное среднеквадратическое отклонение и его точечная оценка.

8. Оценка дисперсии и СКО выборочной средней.

9. Интервальная оценка неизвестного параметра генеральной совокупности.

10. Доверительная вероятность и уровень значимости.

11. Доверительный интервал.

12. Правило нахождения доверительного интервала.

13. Доверительный интервал для математического ожидания при известной дисперсии .

14. Доверительный интервал для математического ожидания при неизвестной дисперсии .

15. Доверительный интервал для дисперсии при известном .

16. Доверительный интервал для дисперсии при неизвестном .

Контрольные задания:

1. При проверке успеваемости факультета были выборочно протестированы 50 обучаемых, распределившихся по результатам тестирования следующим образом ( - балл, - количество обучаемых с данным баллом):

Найти выборочную среднюю дистанции общения.

3. Найти разброс среднего балла в задании 1 тестирования 50 студентов.

4. Найти оценку разброса скорости чтения, распределение, которой представлено в таблице, предварительно определив относительную частоту средней скорости чтения.

5. Найти несмещённые оценки генеральной средней, дисперсии и среднеквадратического отклонения генеральной совокупности по выборке объема 12, описывающей продолжительность в секундах физической нагрузки до развития приступа стенокардии: 289, 208, 259, 243, 232, 210, 251, 246, 224, 239, 220, 211.

6. Имеется выборка объема – это значения систолического давления у мужчин в начальной стадии шока: 127, 124, 155, 129, 77, 147, 65, 109, 145, 141. Определить дисперсию и среднеквадратическое отклонение выборочной средней.

7. По схеме бесповторной выборки из 400 испытуемых в опытах Францена и Оффенлоха с применением вызванных потенциалов отобраны 100 человек и проведены замеры латентных периодов. Результаты испытаний приведены в таблице:

Задано среднее квадратическое отклонение . Найти:

а) вероятность того, что средний латентный период всех 400 человек отличается от среднего периода в выборке не более чем на 0,31 мс (по абсолютной величине),

б) границы, в которых с вероятностью заключено среднее значение латентного периода,

в) объём выборки, для которой доверительные границы с предельной ошибкой имели бы место с доверительной вероятностью .

8. Распределение ежедневных визитов Карлсона к Малышу в течение месяца показано в таблице:

Определить границы, в которых с вероятностью заключено среднее количество визитов.

9. Случайная величина имеет нормальное распределение с известным средним квадратическим отклонением =3. Найти доверительные интервалы для оценки неизвестного математического ожидания а по выборочным средним =24,5, если объём выборки и задана надёжность оценки .

10. Количественный признак генеральной совокупности распределён нормально. По выборке объёма найдены выборочная средняя =20,2 и исправленное среднее квадратическое отклонение . Оценить неизвестное математическое ожидание при помощи доверительного интервала с надёжностью 0,95.

11. Для 9 претендентов на должность руководителя была проведена оценка профессионального показателя , характеризующего способность руководить людьми. Считая показатель распределённым по нормальному закону со средним квадратическим отклонением усл. ед., определить с надёжностью доверительный интервал для истинного среднего квадратического отклонения показателя .

Задания для домашней работы:

1. Найти оценки генеральных средней, дисперсии и среднего квадратического отклонения, если совокупность задана таблицей распределения:

Оценить с надежностью 0,95 математическое ожидание нормально распределённого признака генеральной совокупности с помощью доверительного интервала.

4. Найти доверительные интервалы для математического ожидания, дисперсии и среднего квадратического отклонения при доверительной вероятности 0,95, если из генеральной совокупности сделана выборка:

67 70 69 68 74 72 66 66 74 69 72 78 67

Тема №13 «Проверка статистических гипотез о равенстве дисперсий и математических ожиданий»

Цель: научиться проверять статистические гипотезы о равенстве дисперсий и математических ожиданий нормальных генеральных совокупностей.

Краткие теоретические сведения:

Статистической называют гипотезу о виде неизвестного распределения, или о параметрах известных распределений.

Нулевой (основной) называют выдвинутую гипотезу .

Конкурирующей (альтернативной) называют гипотезу , которая противоречит нулевой.

Ошибка первого рода состоит в том, что будет отвергнута правильная гипотеза.

Ошибка второго рода состоит в том, что будет принята неправильная гипотеза.

Вероятность совершить ошибку второго рода – уровень значимости .

Статистическим критерием называют случайную величину , которая служит для проверки нулевой гипотезы.

Наблюдаемым значением называют значение критерия, вычисленное по выборкам.

Критической областью называют совокупность значений критерия, при которой нулевую гипотезу отвергают.

Область принятия гипотезы – совокупность значений критерия, при котором гипотезу принимают.

Если принадлежит критической области – гипотезу отвергают, если принадлежит области принятия гипотезы – гипотезу принимают.

Критическими точками называют точки, отделяющие критическую область от области принятия гипотезы.

Критические точки ищут, исходя из требования, что при условии справедливости нулевой гипотезы, вероятность того, что критерий попадет в критическую область, была равна принятому уровню значимости.

Для каждого критерия имеются соответствующие таблицы, по которым находят критическую точку, удовлетворяющую этому требованию.

Когда найдена, вычисляют по данным выборок и, если > (правосторонняя критическая область), < (левосторонняя), < < , < (двусторонняя), то отвергается.

Сравнение двух дисперсий нормальных генеральных совокупностей:

Пусть и распространены нормально. По независимым выборкам с объемами, соответственно равными и , извлеченным из этих совокупностей, найдены исправленные выборочные дисперсии и . Требуется по исправленным дисперсиям при заданном уровне значимости проверить нулевую гипотезу .

1) выдвигаем конкурирующую гипотезу (),

2) находим ,

3) по таблице критических точек Фишера –Снедекора находим (), где , и - объём выборки, которой соответствует , - ,

4) если , то принимаем нулевую гипотезу, в противном случае – альтернативную.