Статистические ряды. Ряды распределения

Пусть из генеральной совокупности извлечена выборка, причем х 1 наблюдалось п 1 раз, х 2 - п 2 раз, х к - п к раз и - объем выборки. Наблюдаемые значения х 1 называют вариантами, а последовательность вариант, записанных в возрастающем порядке - вариационным рядом .

Число наблюдений варианты называют частотой, а ее отношение к объему выборки - относительной частотой .

Определение. Статистическим (эмпирическим) законом распределения выборки, или просто статистическим распределением выборки называют последовательность вариант и соответствующих им частот п i или относительных частот .

Статистическое распределение выборки удобно представлять в форме таблицы распределения частот, называемой статистическим дискретным рядом распределения:

(сумма всех относительных частот равна единице ).

Пример 1 . При измерениях в однородных группах обследуемых получены следующие выборки: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72,74 (частота пульса). Составить по этим результатам статистический ряд распределения частот и относительных частот.

Решение. 1) Статистический ряд распределения частот:

Контроль: 0,1 + 0,2 + 0,4 + 0,1 + 0,2 = 1.

Полигоном частот называют ломаную, отрезки, которой соединяют точки Для построения полигона частот на оси абсцисс откладывают варианты х 2 , а на оси ординат - соответствующие им частоты п i . Точки соединяют отрезками и получают полигон частот.

Полигоном относительных частот называют ломаную, отрезки, которой соединяют точки . Для построения полигона относительных частот на оси абсцисс откладывают варианты х i , а на оси ординат соответствующие им частоты w i . Точки соединяют отрезками и получают полигон относительных частот

Пример 2. Постройте полигон частот и полигон относительных частот по данным примера 1.

Решение: Используя дискретный статистический ряд распределения, составленный в примере 1 построим полигон частот и полигон относительных частот:


2. Статистический интервальный ряд распределения. Гистограмма .

Статистическим дискретным рядом (или эмпирической функцией распределения) обычно пользуются в том случае, когда отличных друг от друга вариант в выборке не слишком много, или тогда, когда дискретность по тем или иным причинам существенна для исследователя. Если же интерисующий нас признак генеральной совокупности Х распределен непрерывно или его дискретность нецелесообразно (или невозможно) учитывать, то варианты группируются в интервалы.


Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

1. R(размах) = X max -X min

2. k- число групп

3. (формула Стерджеса)

4. a = x min , b = x max

Полученную группировку удобно представить в форме частотной таблицы, которая носит название статистический интервальный ряд распределения:

Интервалы группировки ...
Частоты ...

Аналогическую таблицу можно образовать, заменяя частоты n i относительными частотами.

Статистический ряд распределения - упорядоченное распределение единиц совокупности на группы по определенному признаку. Он характеризует состав (структуру) изучаемого явления, позволяет судить об однородности совокупности, закономерности распределения и границах варьирования единиц совокупности.

Ряды распределения, построенные по атрибутивным (качественным) признакам, называются атрибутивными (распределение населения по полу, занятости, национальности, профессии и т.д.).

Ряды распределения, построенные по количественному признаку, называются вариационными (распределение населения по возрасту, рабочих – по стажу работы, зарплате и т.д.). Вариационные ряды распределения состоят из двух элементов: вариантов и частот. Варианты – отдельные значения признака, которые он принимает в ряду. Частоты – это численность отдельных вариантов или каждой группы вариационного ряда, т.е. это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот называется объемом совокупности и определяет число элементов всей совокупности. Частости – это частоты, выраженные в долях единиц или в % к итогу.

Вариационные ряды в зависимости от характера вариации подразделяются на дискретные и интервальные. Дискретные вариационные ряды основаны на дискретных (прерывных) признаках, имеющих только целые значения, на дискретных признаках, представленных в виде интервалов. Интервальные вариационные ряды основаны на непрерывных признаках (имеющих любые значения, даже дробные).

7. Табличное и графическое представление статистических данных.

Результаты сводки и группировки излагаются в виде таблиц. Таблица – рациональная, наглядная и компактная форма стат.материала.

Статистическая таблица – таблица, содержащая результаты подсчета практических данных и является итогом сводки первоначальной информации.

Таблица характеризует совокупность по одному или нескольким признакам, взаимосвязанным логикой.

Статистическая таблица имеет свое подлежащее и сказуемое. Подлежащее – объект, характеризующийся цифрами. Сказуемое таблицы - система показателей.

Таблицы бывают простые и сложные. В простой таблице дается простой перечень объектов. Сложная таблица содержит группировку единиц совокупности одновременно по 2-м и более признакам. Таблица д/б компактной, заголовки краткими, информация в столбцах и графах должна завершаться итоговой строкой. Графы и строки должны иметь единицы измерения, затем необходимо провести четную и логическую проверку таблицы.

Статистический график – чертеж, на котором стат.совокупности, характеризуемые определенными показателями описываются с помощью условных геометрических образов или знаков. При построении графика необходимо соблюдать требования: наглядность, выразительность, понятность. Поле графика – часть плоскости, где расположены графические образы. Виды графиков: линейные, столбиковые, полосовые, круговые, секторные, фигурные, точечные, объемные, применяются диаграммы и стат.карты. Картограмма – схематическая географическая карта, на которой выделены отрасли промышленности или структура состава населения.

Введение

С незапамятных времен человечество осуществляло учет многих сопутствующих его жизнедеятельности явлений и предметов и связанные с ним вычисления. Люди получали разносторонние, хотя и различающиеся полнотой на различных этапах общественного развития. Данные, учитывавшиеся повседневно в процессе принятия хозяйственных решений, а в обобщенном виде и на государственном уровне при определении русла экономической и социальной политики и характера внешнеполитической деятельности.

Руководствуясь соображениями зависимости благосостояния нации от величины создаваемого полезного продукта, интересов стратегической безопасности государств и народов от численности взрослого мужского населения, доходов казны от размера налогооблагаемых ресурсов и т. д., издавна отчетливо осознавалась и реализовывалась в форме различных учетных акций.

С учетом достижений экономической науки стал возможен расчет показателей, обобщенно характеризующих результаты воспроизводственного процесса на уровне общества: совокупного общественного продукта, национального дохода, валового национального продукта.

Всю перечисленную информацию в постоянно возрастающих объемах предоставляет обществу статистика, являющаяся необходимо принадлежностью государственного аппарата. Статистические данные, таким образом, способны сказать языком статистических показателей о многом в весьма яркой и убедительной форме.

Для статистического анализа данных в своей работе я использовала программу Excel (расчет формул и построение графиков).

Статистические ряды распределения, их значение и применение в статистике

В результате обработки и систематизации первичных данных статистического наблюдения получают группировки, называемые рядами распределения. В них известна численность единиц наблюдения в группах. Представленная в абсолютном и относительном выражении.

Статистический ряд распределения представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку. Он характеризует состав (структуру) изучаемого явления, позволяет судить об однородности совокупности, закономерности распределения и границах варьирования единиц совокупности.

Статистические ряды подразделяются на:

Атрибутивные - это ряды, построенные по атрибутивным признакам, в порядке возрастания или убывания наблюдаемых знаний.

То есть качественным признакам, не имеющим числового выражения и характеризующим свойство, качество изучаемого социально-экономического явления.

Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам.

Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры.

Число групп атрибутивного ряда распределения адекватно числу градаций. Разновидностей атрибутивного признака.

Пример атрибутивного ряда распределения приведен в таблице 1.

Таблица 1. Распределение студентов 1-го курса по успеваемости

Элементами данного ряда распределения являются градации атрибутивного признака «Успеваемость» («успевают» - «не успевают») и численность каждой группы в абсолютном (человек) и относительном (%) выражении.

Студентов, сдавших экзамен по дисциплине, было 46 человек. Их удельный вес составил 92%.

Вариационные - это ряды, построенные по количественному признаку.

Вариационные ряды распределения состоят из двух элементов: вариантов и частот:

Варианты - это числовые значения количественного признака в вариационном ряду распределения. Они могут быть положительными и отрицательными, абсолютными и относительными. Так, при группировке предприятий по результатам хозяйственной деятельности варианты положительные - это прибыль, а отрицательные числа - это убыток.

Частоты - это численности отдельных вариантов или каждой группы вариационного ряда, т.е. это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот называется объемом совокупности и определяется числом элементов всей совокупности.

Частости - это частоты, выраженные в виде относительных величин (долях единиц или процентах). Сумма частостей равна единице или 100%. Замена частот частостями позволяет сопоставлять вариационные ряды с разным числом наблюдений.

Вариационные ряды в зависимости от характера вариации подразделяются на дискретные и интервальные.

Дискретный вариационный ряд распределения - это ряд, в котором группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

Пример дискретного вариационного ряда распределения приведен в таблице 2.

Таблица 2. Распределение студентов по экзаменационному баллу

В гр. 1 таблицы 2 представлены варианты дискретного вариационного ряда. В гр. 2 - частоты, а в гр. 3 - частости. В случае непрерывной вариации величина признака у единиц совокупности может принимать в определенным пределах любые значения. Отличающиеся друг от друга на сколь угодно малую величину.

Интервальный вариационный ряд распределения - это ряд, в котором группировочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения, в том числе и дробные.

Интервальный ряд распределения целесообразно строить, прежде всего, при непрерывной вариации признака, а также, если дискретная вариация проявляется в широких пределах, т.е. число вариантов дискретного признака достаточно велико.

Правила и принципы построения интервальных рядов распределения аналогичны правилам и принципам построения статистических группировок. В случае, если интервальный вариационный ряд распределения построен с равными интервалами, частоты позволяют судить о степени заполнения интервала единицами совокупности. При построении неравных интервалов нельзя получить информацию о степени заполнения каждого интервала. С целью проведения сравнительного анализа заполненности интервалов определяется показатель, характеризующий плотность распределения. Это отношение числа единиц совокупности к ширине интервала.

Пример интервального вариационного рада распределения приведен в таблице 3.

Таблица 3. Распределение строительных фирм региона по среднесписочной численности работающих*

* - Цифры условные

Представленный ряд распределения является интервальным, в основании образования групп которого лежит непрерывный признак.

Анализ рядов распределения можно для наглядности проводить на основе их графического изображения. Для этой цели строят полигон, гистограмму, огиву и кумуляту распределения.

Расчетная часть задания № 5

Имеются выборочные данные (выборка 5%-я механическая) о среднегодовой стоимости основных производственных фондов и выпуске продукции предприятий отрасли экономики за отчетный период.

Таблица 4. Исходные данные

Выпуск продукции, млн. руб.

По исходным данным:

1. Постройте статистический ряд распределения предприятий по среднегодовой стоимости основных производственных фондов, образовав четыре группы предприятий с равными интервалами, охарактеризовав их числом предприятий и удельным весом предприятий.

2. Рассчитайте обобщающие показатели ряда распределения:

а) среднегодовую стоимость основных производственных фондов, взвешивая значения признака по абсолютной численности предприятий и их удельному весу;

б) моду и медиану;

в) постройте графики ряда распределения и определите на них значение моды и медианы.

Решение:

1. Сначала определяем длину интервала по формуле:

е=(х max - x min)/k,

где k - число групп в группировке (из условия k=4),

х max и x min - максимальное и минимальное значения ряда распределения,

е=(60 - 20)/4=10 млн. руб.

Затем определим нижнюю и верхнюю интервальные границы для каждой группы:

Номер группы

нижняя граница

верхняя граница

Составим рабочую таблицу 5, куда сведем исходные данные:

Таблица 5. Рабочая таблица

Группы пред-ий по среднегодовой стоимости ОПФ,

№ предпри-ятия

Среднегодовая стоимость ОПФ, млн. руб.

Выпуск продукции,

Рассчитаем характеристику ряда распределения по удельному весу предприятий по формуле:

где d - удельный вес предприятия;

f i - кол-во предприятий в группе;

F i - общее кол-во предприятий.

Подставляем данные в формулы. Полученные результаты заносим в итоговую таблицу 6.

Все формулы и расчеты таблицы 6 введены в программе Excel и даны в Приложении 1.

Таблица 6. Распределения предприятий по среднегодовой стоимости основных производственных фондов

Данная группировка показывает, что у наибольшей части данных предприятий (33,3%) среднегодовая стоимость основных производственных фондов составляет от 40 до 50 млн. руб.

2. а) Рассчитаем среднегодовую стоимость основных производственных фондов по формуле средней арифметической взвешенной, взвешивая значения по абсолютной численности предприятий:

и по удельному весу:

Для расчета средней из интервального ряда необходимо выразить варианты одним (дискретным) числом, это средняя арифметическая простая из верхнего и нижнего значений интервала:

Подставляем данные в формулы. Полученные результаты занесем в таблицу 7.

Все формулы и расчеты таблицы 7 введены в программе Excel и даны в Приложении 1.

Таблица 7. Расчет среднегодовой стоимости ОПФ

Показатели средних равны, что доказывает правильность расчетов. Среднегодовая стоимость ОПФ равна 41,333 млн. руб.

б) Рассчитаем моду и медиану данного ряда.

Мода - это значение признака, наиболее часто встречающееся в изучаемой совокупности. Для интервальных вариационных рядов распределения мода рассчитывается по формуле:

где x Mo - нижняя граница модального интервала;

i Mo - величина модального интервала;

f Mo - частота модального интервала;

f Mo-1 - частота интервала, предшествующего модальному;

f Mo+1 - частота интервала, следующего за модальным.

Первоначально по наибольшей частоте признака определим модальный интервал. Наибольшее число предприятий - 10 - среднегодовая стоимость основных производственных фондов в интервале 40 - 50 млн. руб., который и является модальным.

Подставляем данные в формулу.

Из расчета видно, что модальным значением стоимости ОПФ предприятий является стоимость равная 44 млн. руб.

Медиана - это вариант, расположенный в середине упорядоченного вариационного ряда, делящий его на две равные части. Для интервальных вариационных рядов медиана рассчитывается по формуле:

где x Mе - нижняя граница медианного интервала;

i Mе - величина медианного интервала;

F - сумма частот ряда;

S Mе-1 - сумма накопленных частот ряда, предшествующих медианному интервалу;

f Mе - частота медианного интервала.

Определяем медианный интервал, в котором находится порядковый номер медианы. Для этого подсчитаем сумму частот накопленным итогом до числа, превышающего половину объема совокупности (30/2 = 15). Полученные данные заносим в расчетную таблицу 8.

Таблица 8. Расчет медианны

В графе «Сумма накопленных частот» значение 23 соответствует интервалу 40 - 50. Это и есть медианный интервал, в котором находится медиана.

Подставляем данные в формулу.

Из расчета видно, что у половины предприятий среднегодовая стоимость основных производственных фондов до 42 млн. руб., а у другой половина - выше этой суммы.

в) Построим графики данного ряда распределения по полученным данным:

Рис. 1.

Медиана

Рис. 2. Кумулята распределения предприятий по среднегодовой стоимости ОПФ

Теория статистики: конспект лекций Бурханова Инесса Викторовна

1. Статистические ряды распределения

В результате обработки и систематизации первичных данных статистического наблюдения получают группировки, называемые рядами распределения.

Статистические ряды распределения представляют собой упорядоченное расположение единиц изучаемой совокупности на группы по группировочному признаку.

Различают атрибутивные и вариационные ряды распределения.

Атрибутивный – это ряд распределения, построенный по качественным признакам. Он характеризует состав совокупности по различным существенным признакам.

По количественному признаку строится вариационный ряд распределения. Он состоит из частоты (численности) отдельных вариантов или каждой группы вариационного ряда. Данные числа показывают, насколько часто встречаются различные варианты (значения признака) в ряду распределения. Сумма всех частот определяет численность всей совокупности.

Численности групп выражаются в абсолютных и относительных величинах. В абсолютных величинах выражается числом единиц совокупности в каждой выделенной группе, а в относительных величинах – в виде долей, удельных весов, представленных в процентах к итогу.

В зависимости от характера вариации признака различают дискретные и интервальные вариационные ряды распределения. В дискретном вариационном ряде распределения группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

В интервальном вариационном ряде распределения группиро–вочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения.

Вариационные ряды состоят из двух элементов: частоты и варианты.

Вариантой называют отдельное значение варьируемого признака, которое он принимает в ряду распределения.

Частота – это численность отдельных вариант или каждой группы вариационного ряда. Если частоты выражены в долях единицы или в процентах к итогу, то их называют частостями.

Правила и принципы построения интервальных рядов распределения строятся по аналогичным правилам и принципам построения статистических группировок. Если интервальный вариационный ряд распределения построен с равными интервалами, частоты позволяют судить о степени заполнения интервала единицами совокупности. Для проведения сравнительного анализа заполненности интервалов определяют показатель, который будет характеризовать плотность распределения.

Плотность распределения – это отношение числа единиц совокупности к ширине интервала.

Из книги Купить ресторан. Продать ресторан: от создания к продаже автора Горелкина Елена

Статистические методы Подсчет в толпе. Метод, честно говоря, наивный, но очень популярный. Организатор ресторанного бизнеса берет блокнот и карандаш, становится у двери похожего заведения в равноценном районе и считает, сколько человек проходит мимо в единицу времени.

Из книги Столетие войны. (Англо-американская нефтяная политика и Новый Мировой Порядок) автора Энгдаль Уильям Фредерик

Глава 6 АНГЛО-АМЕРИКАНЦЫ СМЫКАЮТ РЯДЫ Генуэзская конференция16 апреля 1922 года на генуэзской вилле «Альберта» немецкая делегация, присутствовавшая на послевоенной международной конференции по экономике, взорвала бомбу, ударная волна от которой докатилась до другого

Из книги Теория статистики: конспект лекций автора

1. Статистические ряды распределения В результате обработки и систематизации первичных данных статистического наблюдения получают группировки, называемые рядами распределения.Статистические ряды распределения представляют собой упорядоченное расположение единиц

Из книги Общая теория статистики: конспект лекции автора Коник Нина Владимировна

3. Статистические таблицы В виде статистических таблиц оформляются результаты сводки и группировки материалов наблюдения.Статистическая таблица – это особый способ краткой и наглядной записи сведений об изучаемых общественных явлениях. Статистическая таблица

Из книги Теория статистики автора Бурханова Инесса Викторовна

ЛЕКЦИЯ № 10. Ряды динамики и их изучение в коммерческой деятельности 1. Основные понятия о рядах динамики Все процессы и явления, протекающие в общественной жизни человека, являются предметом изучения статистической науки они находятся в постоянном движении и

Из книги Финансовая статистика автора Шерстнева Галина Сергеевна

3. Статистические таблицы После того как данные статистического наблюдения собраны и даже сгруппированы, их трудно воспринимать и анализировать без определенной, наглядной систематизации. Результаты статистических сводок и группировок получают оформление в виде

Из книги Общая теория статистики автора Щербина Лидия Владимировна

4. Ряды агрегатных индексов с постоянными и переменными весами При изучении динамики экономических явлений строятся и исчисляются индексы за ряд последовательных периодов. Они образуют ряды либо базисных, либо цепных индексов. В ряду базисных индексов сравнение

Из книги Бизнес-план на 100%. Стратегия и тактика эффективного бизнеса автора Абрамс Ронда

18. Статистические ряды распределения и их графическое изображение Статистические ряды распределения представляют собой упорядоченное расположение единиц изучаемой совокупности на группы по группировочному признаку.Различают атрибутивные и вариационные ряды

Из книги автора

19. Статистические таблицы В виде статистических таблиц оформляются результаты сводки и группировки материалов наблюдения.Статистическая таблица – это особый способ краткой и наглядной записи сведений об изучаемых общественных явлениях. Статистическая таблица

Из книги автора

6. Статистические термины Статистическая информация, получаемая в результате наблюдения, необходима для предоставления органам государственного управления, для обеспечения информацией руководителей предприятий, компаний и т. д., для информирования общественности об

Из книги автора

44. Статистические методы Особенно широко используются статистические методы при изучении финансовых инвестиций. В основе изучения финансовых инвестиций лежит построение уравнения эквивалентности, так называемого баланса финансовой операции. Содержание данного

Из книги автора

45. Статистические модели Для эффективной работы на фондовом рынке необходимо знать, как доходность конкретного наименования акций (или портфеля акций конкретного инвестора) связана со средней рыночной доходностью всей совокупности акций, т. е. с рыночным индексом. Для

Из книги автора

15. Статистические таблицы Статистическая таблица – таблица, которая дает количественную характеристику статистической совокупности и представляет собой форму наглядного изложения полученных в результате статистической сводки и группировки числовых (цифровых)

Из книги автора

19. Статистические карты Статистические карты представляют собой вид графических изображений статистических данных на схематичной географической карте, характеризую–щих уровень или степень распространения того или иного явления на определенной территории.

Из книги автора

38. Ряды агрегатных индексов с постоянными и переменными весами При изучении динамики экономических явл* ний строятся и исчисляются индексы за ряд последов тельных периодов. Они образуют ряды либо бази ных, либо цепных индексов. В ряду базисных индексе сравнение

Из книги автора

Международные статистические данные Интернет существенно упростил сбор данных в мировом масштабе. В большинстве развитых и многих развивающихся странах обеспечен интернет-доступ к статистической информации. В свободном доступе размещают свои данные и международные

Выборка, полученная при проведении экспериментального исследования, представляет собой неупорядочен­ный набор чисел, записанных в той последовательности, в которой производились измерения. Обычно выборка оформляется в виде таблицы, в первой строке (или столбце) которой стоит номер опыта i , а во второй (втором) - зафиксированное значение случайной величины признака. В таком виде выборка представляет собой первичную форму записи статистического материала, который может быть обработан различными способами. В качестве примера рассмотрим результаты, показанные на легкоатлетических соревнованиях толкателями ядра и приведенные в таблице 1. В первой строке этой таблицы записаны номера измерений, а во второй - их численные значения в метрах.

Таблица 1

Результаты соревнований в толкании ядра

x i 16,36 14,91 15,31 14,26 14,77 13,88 14,97 14,01 14,07 14,48
x i 14,44 14,81 13,81 15,15 15,23 15,69 14,29 14,15 14,57 13,92
x i 13,62 14,92 15,73 13,22 14,65 14,8 13,04 15,1 13,3

Как видно из таблицы 1, простая статистическая совокупность перестает быть удобной формой представления статистического материала даже при относительно небольшом объеме выборки: она является достаточно громоздкой и мало наглядной. Проанализировать полученные экспериментальные данные и тем более сделать какие-либо выводы на их основе весьма затруднительно. Исходя из этого, полученный статистический материал должен быть обработан для проведения дальнейшего исследования. Простейшим способом обработки выборки является ранжирование. Ранжированием называют расстановку вариант в порядке возрастания или убывания их значений. Ниже в таблице 2 приведена ранжированная выборка, элементы которой расположены в порядке возрастания.

Таблица 2

Ранжированные результаты соревнований в толкании ядра

x i 13,04 13,22 13,3 13,62 13,81 13,88 13,92 14,01 14,07 14,15
x i 14,26 14,29 14,44 14,48 14,57 14,65 14,77 14,8 14,81 14,91
x i 14,92 14,97 15,1 15,15 15,23 15,31 15,69 15,73 16,36

Но и в таком виде полученные экспериментальные данные плохо обозримы и мало пригодны для непосредственного анализа. Именно поэтому для придания статистическому материалу большей компактности и наглядности он должен быть подвергнут дальнейшей обработке – строится так называемый статистический ряд. Построение статистического ряда начинается с группировки.

Группировкой называется процесс упорядочения и систематизации данных, полученных в ходе проведения эксперимента, направленный на извлечение содержащейся в них информации. В процессе группировки осуществляется распределение вариант выборки по группам или интервалам группировки, каждый из которых содержит некоторый диапазон значений изучаемого признака. Процесс группировки начинается с разбиения всего диапазона варьирования признака на интервалы группировки.

Для каждой конкретной цели статистического исследования, объема рассматриваемой выборки и степени варьирования признака в ней существует оптимальное значение числа интервалов и ширины каждого из них. Ориентировочное значение оптимального числа интервалов k может быть определено, исходя из объема выборки п либо с помощью данных, приведенных в таблице 3., либо с помощью формулы Стэрджесса:

k = 1 + 3,322 lgn .

Таблица 3

Определение числа интервалов группировки

Получаемое по формуле значение k почти всегда оказывается дробной величиной, которую необходимо округлить до целого числа, поскольку количество интервалов не может быть дробным. Практика показывает, что, как правило, лучше округлять в меньшую сторону, ибо формула дает хорошие результаты при больших значениях n , а при малых - несколько завышенные.

Рассмотрим группировку вариант выборки на конкретном примере. Для этого обратимся к примеру с толкателями ядра (см. таблицы 1, 2). Определение числа интервалов группировки будем производить на основе данных, приведенных в таблице 3. При объеме выборки n =29 число интервалов целесообразно выбрать равным k =5 (формула Стэрджесса дает значение k =5,9).

Условимся использовать в рассматриваемом примере интервалы равной ширины. В этом случае после того, как число интервалов группировки определено, следует вычислить ширину каждого из них с помощью соотношения:

Здесь h - ширина интервалов, а х max и х min - соответственно максимальное и минимальное значение признака в выборке. Величины х max и х min определяются непосредственно по таблице исходных данных (см. таблицу 2). В рассматриваемом случае:

(м).

Здесь необходимо остановиться на точности определения ширины интервала. Возможны две ситуации: точность вычисленного значения h совпадает с точностью проведения эксперимента или превышает ее. В последнем случае возможно использование двух подходов для определения границ интервалов. С теоретической точки зрения наиболее правильно использовать полученное значение h для построения интервалов. Такой подход не внесет дополнительных искажений, связанных с обработкой экспериментальных данных. Однако для практических целей в статистических исследованиях, относящихся к физической культуре и спорту, принято округлять полученное значение h до точности измерения данных. Связано это с тем, что для наглядного представления получаемых результатов удобно, чтобы границами интервалов являлись возможные значения признака. Таким образом, полученное значение ширины интервалов следует округлить с учетом точности проводимого эксперимента. Особо отметим, что округление необходимо производить не в общепринятом математическом смысле, а в сторону увеличения, т.е. с избытком, чтобы не уменьшить общий диапазон варьирования признака - сумма ширины всех интервалов не должна быть меньше разности между максимальным и минимальным значениями признака. В рассматриваемом примере экспериментальные данные определены с точностью до сотых (0,01 м), поэтому полученное выше значение ширины интервалов следует округлить с избытком с точностью до сотых. В результате получаем:

h = 0,67 (м).

После определения ширины интервалов группировки следует определить их границы. Нижнюю границу первого интервала целесообразно принять равной минимальному значению признака в выборке x min:

x Н1 = x min .

В рассматриваемом примере x Н1 = 13,04 (м).

Для получения верхней границы первого интервала (x В1) следует к значению нижней границы первого интервала прибавить значение ширины интервала:

x В1 = х Н1 +h .

Заметим, что верхняя граница каждого интервала (здесь – первого) будет являться одновременно и нижней границей следующего (в данном случае второго) интервала: x Н2 = x В1 .

Подобным образом определяются значения нижних и верхних границ всех оставшихся интервалов:

x В i =x Н i +1 = x Н i +h .

В рассматриваемом примере:

x В1 = x Н2 = x Н1 +h =13,04+0,67=13,71 (м),

x В2 = x Н3 = x Н2 +h =13,71+0,67=14,38 (м),

x В3 = x Н4 = x Н3 +h =14,38+0,67=15,05 (м),

x В4 = x Н5 = x Н4 +h =15,05+0,67=15,72 (м),

x В5 = x Н5 +h =15,72+0,67=16,39 (м).

Перед группировкой вариант введем понятие срединного значения интервала x i , равного значению признака, равноудаленного от концов этого интервала. Учитывая, что оно отстоит от нижней границы на величину, равную половине ширины интервала, для его определения удобно воспользоваться соотношением:

x i = x Н i + h /2,

где x Н i - нижняя граница i -ro интервала, а h - его ширина. Срединные значения интервалов будут использоваться в дальнейшем при обработке сгруппированных данных.

После определения границ всех интервалов следует распределить выборочные варианты по этим интервалам. Но предварительно следует решить вопрос о том, к какому интервалу отнести значение, находящееся в точности на границе двух интервалов, т. е. когда значение варианты совпадает с верхней границей одного и нижней границей соседнего с ним интервала. В таком случае варианта может быть отнесена к любому из двух соседних интервалов и, для исключения неоднозначности при группировке, условимся в таких случаях относить варианты к верхнему интервалу. В пользу такого подхода можно привести следующий довод. Поскольку минимальное значение признака совпадает с нижней границей первого интервала и входит в этот интервал, то варианту, попадающую на границу двух интервалов, следует отнести к тому из них, значение нижней границы которого равно рассматриваемой варианте.

Перейдем к рассмотрению статистической таблицы - см. таблицу 4, которая состоит из семи столбцов.

Таблица 4

Табличное представление результатов в толкании ядра

В первых трех столбцах статистической таблицы содержатся соответственно номера интервалов группировки i , их границы x Н i - x В i и срединные значения интервалов x i .

В четвертом столбце располагаются частоты интервалов. Частотой интервала называется число, показывающее сколько вариант, т.е. результатов измерений попало в данный интервал. Для обозначения этой величины принято использовать символ n i . Сумма всех частот всех интервалов всегда равна объему выборки п ,что можно использовать для проверки правильности проведенной группировки.

Пятый столбец таблицы 4 предназначен для занесения в негонакопленной частоты интервала - числа, полученного суммированием частоты текущего интервала с частотами всех предыдущих интервалов. Накопленную частоту принято обозначать латинской буквой N i . Накопленная частота показывает, сколько вариант имеют значения не больше, чем верхняя граница интервала.

В шестой столбец таблицы помещается частость. Частостью называется частота, представленная в относительном выражении, т.е. отношение частоты к объему выборки. Сумма всех частостей всегда равна 1. Для обозначения частости используется символ f i :

f i =n i /n .

Частость интервала связана с вероятностью попадания случайной величины в этот интервал. Согласно теореме Бернулли, при неограниченном увеличении числа опытов частость события сходится по вероятности к его вероятности. Если понимать под событием попадание значения исследуемой величины в определенный интервал, то становится ясно, что при большом числе опытов частость интервала приближается к вероятности попадания измеряемой случайной величины в этот интервал.

И частота, и частость характеризуют повторяемость результатов в выборке. Сравнивая их статистическое значение, следует отметить, что информативность частости существенно выше, чем у частоты. Действительно, если, как, например, в таблице 4 частота второго интервала равна 8 и, значит, 8 результатов попало в этот интервал, то трудно понять - мало это или много; если в выборке 1000 вариант, то такая частота мала, а если 20, то велика. В таком случае для объективной оценки необходимо сопоставить значение частоты с объемом выборки. Если же воспользоваться частостью, то сразу можно сказать, какая доля результатов попала в рассматриваемый интервал (примерно 28% в приведенном примере). Поэтому частость дает более наглядное представление о повторяемости признака в выборке. Особо следует отметить другое важное достоинство частости. Ее использование позволяет сопоставлять выборки различного объема. Частота для таких целей не применима.

В седьмом столбце таблицы расположена накопленная частость. Накопленной частостью является отношение накопленной частоты к объему выборки. Накопленная частость обозначается буквой F i :

Накопленная частость показывает, какая доля вариант выборки имеет значения, не превосходящие значения верхней границы интервала.

Последняя строка статистической таблицы используется для контроля над проведением группировки.

После заполнения таблицы вернемся к определению статистического ряда. Как правило, статистический ряд оформляется в виде таблицы, в первой строке которой перечислены интервалы, а во второй – соответствующие им частости или частоты. Таким образом, статистическим рядом называется двойной числовой ряд, устанавливающий связь между численным значением исследуемого признака и его повторяемостью в выборке. Существенным достоинством статистических рядов является то, что они, в отличие от статистических совокупностей, дают наглядное представление о характерных особенностях варьирования признаков.


©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-08-20



Похожие статьи