Ряды распределения и группировки. Вариационные ряды

Метод группировок позволяет также измерить вариацию (изменчивость, колеблемость) признаков. При относительно малом числе единиц совокупности вариация измеряется на основе ранжированного ряда единиц, образующих совокупность. Ряд называется ранжированным, если единицы расположены по возрастанию (убыванию) признака.

Однако ранжированные ряды довольно малопоказательны тогда, когда необходима сравнительная характеристика вариации. Кроме того, во многих случаях приходится иметь дело со статистическими совокупностями, состоящими из большого числа единиц, которые практически трудно представить в виде конкретного ряда. В связи с этим для первоначального общего ознакомления со статистическими данными и особенно для облегчения изучения вариации признаков исследуемые явления и процессы обычно объединяют в группы, а результаты группировки оформляют в виде групповых таблиц.

Если в групповой таблице имеется всего две графы - группы по выделенному признаку (варианты) и численности групп (частоты или частости), она называется рядом распределения.

Ряд распределения - простейшая разновидность структурной группировки по одному признаку, отображенная в групповой таблице с двумя графами, в которых содержатся варианты и частоты признака. Во многих случаях с такой структурной группировки, т.е. с составления рядов распределения, начинается изучение исходного статистического материала.

Структурная группировка в виде ряда распределения может быть превращена в подлинную структурную группировку, если выделенные группы будут охарактеризованы не только частотами, но и другими статистическими показателями. Главное предназначение рядов распределения - изучение вариации признаков. Теорию рядов распределения подробно разрабатывает математическая статистика.

Ряды распределения делят на атрибутивные (группировка по атрибутивным признакам, например деление населения по полу, национальности, семейному положению и т.д.) и вариационные (группировка по количественным признакам).

Вариационный ряд представляет собой групповую таблицу, которая содержит две графы: группировку единиц по одному количественному признаку и численность единиц в каждой группе. Интервалы в вариационном ряду образуются обычно равные и закрытые. Вариационным рядом является следующая группировка населения России по величине среднедушевых денежных доходов (табл. 3.10).

Таблица 3.10

Распределение численности населения России по величине среднедушевых доходов в 2004-2009 гг.

Группы населения по величине среднедушевых денежных доходов, руб./мес

Численность населения в группе, в % к итогу

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Свыше 25 000,0

Все население

Вариационные ряды в свою очередь подразделяются на дискретные и интервальные. Дискретные вариационные ряды объединяют варианты дискретных признаков, изменяющихся в узких пределах. Примером дискретного вариационного ряда может служить распределение российских семей по числу имеющихся детей.

Интервальные вариационные ряды объединяют варианты либо непрерывных признаков, либо изменяющихся в широких пределах дискретных признаков. Интервальным является вариационный ряд распределения населения России по величине среднедушевых денежных доходов.

Дискретные вариационные ряды на практике применяются не слишком часто. Между тем составление их несложно, поскольку состав групп определяется конкретными вариантами, которыми реально обладают изучаемые группировочные признаки.

Более широко распространены интервальные вариационные ряды. При их составлении возникает сложный вопрос о количестве групп, а также о величине интервалов, которые должны быть установлены.

Принципы решения этого вопроса изложены в главе о методологии построения статистических группировок (см. параграф 3.3).

Вариационные ряды представляют собой средство свертывания или сжатия многообразной информации в компактную форму, по ним можно составить достаточно ясное суждение о характере вариации, изучить различия признаков явлений, входящих в исследуемую совокупность. Но важнейшее значение вариационных рядов состоит в том, что на их основе исчисляются особые обобщающие характеристики вариации (см. главу 7).

​ Вариационный ряд – ряд, в котором сопоставлены (по степени возрастания или убывания) варианты и соответствующие им частоты

​Варианты – отдельные количественные выражения признака. Обозначаются латинской буквой V . Классическое понимание термина "варианта" предполагает, что вариантой называется каждое уникальное значение признака, без учета количества повторов.

Например, в вариационном ряду показателей систолического артериального давления, измеренного у десяти пациентов:

110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

вариантами являются только 6 значений:

110, 120, 130, 140, 160, 170.

​Частота – число, показывающее, сколько раз повторяется варианта. Обозначается латинской буквой P . Сумма всех частот (которая, разумеется, равна числу всех исследуемых) обозначается как n .

    В нашем примере частоты будут принимать следующие значения:
  • для варианты 110 частота Р = 1 (значение 110 встречается у одного пациента),
  • для варианты 120 частота Р = 2 (значение 120 встречается у двух пациентов),
  • для варианты 130 частота Р = 3 (значение 130 встречается у трех пациентов),
  • для варианты 140 частота Р = 2 (значение 140 встречается у двух пациентов),
  • для варианты 160 частота Р = 1 (значение 160 встречается у одного пациента),
  • для варианты 170 частота Р = 1 (значение 170 встречается у одного пациента),

Виды вариационных рядов:

  1. простой - это ряд, в котором каждая варианта встречается только по одному разу (все частоты при этом равны 1);
  2. взвешенный - ряд, в котором одна или несколько вариант встречаются неоднократно.

Вариационный ряд служит для описания больших массивов чисел, именно в этой форме изначально представляются собранные данные большинства медицинских исследований. Для того, чтобы охарактеризовать вариационный ряд, рассчитываются специальные показатели, в том числе средние величины, показатели вариабельности (так называемой, дисперсии), показатели репрезентативности выборочных данных.

Показатели вариационного ряда

1) Средняя арифметическая - это обобщающий показатель, характеризующий размер изучаемого признака. Средняя арифметическая обозначается как M , представляет собой самый распространенный вид средней. Средняя арифметическая рассчитывается как отношение суммы значений показателей всех единиц наблюдения к числу всех исследуемых. Методика расчета средней арифметической различается для простого и взвешенного вариационного ряда.

Формула для расчета простой средней арифметической:

Формула для расчета взвешенной средней арифметической:

M = Σ(V * P)/ n

​ 2) Мода – еще одна средняя величина вариационного ряда, соответствующая наиболее часто повторяющейся варианте. Или, если выразиться по другому, это варианта, которой соответствует наибольшая частота. Обозначается как Мо . Мода рассчитывается только для взвешенных рядов, так как в простых рядах ни одна из вариант не повторяется и все частоты равны единице.

Например, в вариационном ряду значений частоты сердечных сокращений:

80, 84, 84, 86, 86, 86, 90, 94;

значение моды составляет 86, так как данная варианта встречается 3 раза, следовательно ее частота - наибольшая.

3) Медиана – значение варианты, делящей вариационный ряд пополам: по обе стороны от нее находится равное число вариант. Медиана также, как и средняя арифметическая и мода, относится к средним величинам. Обозначается как Me

4) Среднее квадратическое отклонение (синонимы: стандартное отклонение, сигмальное отклонение, сигма) - мера вариабельности вариационного ряда. Является интегральным показателем, объединяющим все случаи отклонения вариант от средней. Фактически, отвечает на вопрос: насколько далеко и как часто варианты распространяются от средней арифметической. Обозначается греческой буквой σ ("сигма") .

При численности совокупности более 30 единиц, стандартное отклонение рассчитывается по следующей формуле:

Для малых совокупностей - 30 единиц наблюдения и менее - стандартное отклонение рассчитывается по другой формуле:

(определение вариационного ряда; составляющие вариационного ряда; три формы вариационного ряда; целесообразность построения интервального ряда; выводы, которые можно сделать по построенному ряду)

Вариационным рядом называется последовательность всех элементов выборки, расположенных в неубывающем порядке. Одинаковые элементы повторяются

Вариационные – это ряды, построенные по количественному признаку.

Вариационные ряды распределения состоят из двух элементов: вариантов и частот:

Варианты – это числовые значения количественного признака в вариационном ряду распределения. Они могут быть положительными и отрицательными, абсолютными и относительными. Так, при группировке предприятий по результатам хозяйственной деятельности варианты положительные – это прибыль, а отрицательные числа – это убыток.

Частоты – это численности отдельных вариантов или каждой группы вариационного ряда, т.е. это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот называется объемом совокупности и определяется числом элементов всей совокупности.

Частости – это частоты, выраженные в виде относительных величин (долях единиц или процентах). Сумма частостей равна единице или 100%. Замена частот частостями позволяет сопоставлять вариационные ряды с разным числом наблюдений.

Выделяют три формы вариационного ряда: ранжированный ряд, дискретный ряд и интервальный ряд.

Ранжированный ряд - это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака. Ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются.

Другие формы вариационного ряда - групповые таблицы, составленные по характеру вариации значений изучаемого признака. По характеру вариации различают дискретные (прерывные) и непрерывные признаки.

Дискретный ряд - это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением (дискретные признаки). К последним можно отнести тарифный разряд, количество детей в семье, число работников на предприятии и т.д. Эти признаки могут принимать только конечное число определенных значений.

Дискретный вариационный ряд представляет таблицу, которая состоит из двух граф. В первой графе указывается конкретное значение признака, а во второй - число единиц совокупности с определенным значением признака.

Если признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость основных фондов предприятия и т.д., которые в определенных границах могут принимать любые значения), то для этого признака нужно строить интервальный вариационный ряд.



Групповая таблица здесь также имеет две графы. В первой указывается значение признака в интервале «от - до» (варианты), во второй - число единиц, входящих в интервал (частота).

Частота (частота повторения) - число повторений отдельного варианта значений признака, обозначается fi , а сумма частот, равная объему исследуемой совокупности, обозначается

Где k - число вариантов значений признака

Очень часто таблица дополняется графой, в которой подсчитываются накопленные частоты S, которые показывают, какое количество единиц совокупности имеет значение признака не большее, чем данное значение.

Дискретный вариационный ряд распределения – это ряд, в котором группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

Интервальный вариационный ряд распределения – это ряд, в котором группировочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения, в том числе и дробные.

Интервальным вариационным рядом называется упорядоченная совокупность интервалов варьирования значений случайной величины с соответствующими частотами или частостями попаданий в каждый из них значений величины.

Интервальный ряд распределения целесообразно строить, прежде всего, при непрерывной вариации признака, а также, если дискретная вариация проявляется в широких пределах, т.е. число вариантов дискретного признака достаточно велико.

По этому ряду уже можно сделать несколько выводов. Например, средний элемент вариационного ряда (медиана) может быть оценкой наиболее вероятного результата измерения. Первый и последний элемент вариационного ряда (т.е. минимальный и максимальный элемент выборки) показывают разброс элементов выборки. Иногда если первый или последний элемент сильно отличаются от остальных элементов выборки, то их исключают из результатов измерений, считая, что эти значения получены в результате какого-то грубого сбоя, например, техники.

Вариационный ряд - это статистический ряд, показывающий распределение изучаемого явления по величине какого-либо количественного признака. Например, больных по возрасту, по срокам лечения, новорожденных по весу и т.п.

Варианта - отдельные значения признака, по которому проводится группировка (обозначается V ) .

Частота- число, показывающее, как часто встречается та или иная варианта (обозначается P ) . Сумма всех частот показывает общее число наблюдений и обозначается n . Разность между наибольшей и наименьшей вариантой вариационного ряда называется размахом или амплитудой .

Различают вариационные ряды:

1. Прерывные (дискретные) и непрерывные.

Ряд считается непрерывным, если группировочный признак может выражаться дробными величинами (вес, рост т.п.), прерывным, если группировочный признак выражается только целым числом (дни нетрудоспособности, число ударов пульса и т.п.).

2.Простые и взвешенные.

Простой вариационный ряд представляет собой ряд, в котором количественное значение варьирующего признака встречается один раз. Во взвешенном вариационном ряду количественные значения варьирующего признака повторяются с определённой частотой.

3. Сгруппированные (интервальные) и несгруппированые.

Сгруппированный ряд имеет варианты, объединённые в группы, объединяющие их по величине в пределах определённого интервала. В несгруппированном ряду каждой отдельной варианте соответствует определённая частота.

4. Четные и нечетные.

В чётных вариационных рядах сумма частот или общее число наблюдений выражено чётным числом, в нечётных ― нечётным.

5. Симметричные и асимметричные.

В симметричном вариационном ряду все виды средних величин совпадают или очень близки (мода, медиана, среднее арифметическое).

В зависимости от характера изучаемых явлений, от конкретных задач и целей статистического исследования, а также от содержания исходного материала, в санитарной статистике применяются следующие виды средних величин:

структурные средние (мода, медиана);

средняя арифметическая;

средняя гармоническая;

средняя геометрическая;

средняя прогрессивная.

Мода (М о ) - величина варьирующего признака, которая более часто встречается в изучаемой совокупности т.е. варианта, соответствующая наибольшей частоте. Находят ее непосредственно по структуре вариационного ряда, не прибегая к каким-либо вычислениям. Она обычно является величиной очень близкой к средней арифметической и весьма удобна в практической деятельности.

Медиана (М е ) - делящая вариационный ряд (ранжированный, т.е. значения вариант располагаются в порядке возрастания или убывания) на две равные половины. Медиана вычисляется при помощи так называемого нечетного ряда, который получают путем последовательного суммирования частот. Если сумма частот соответствует четному числу, тогда за медиану условно принимают среднюю арифметическую из двух средних значений.

Мода и медиана применяются в случае незамкнутой совокупности, т.е. когда наибольшая или наименьшая варианты не имеют точной количественной характеристики (например, до 15 лет, 50 и старше и т.п.). В этом случае среднюю арифметическую (параметрические характеристики) рассчитать нельзя.

Средня я арифметическая - самая распространенная величина. Средняя арифметическая обозначается чаще через М .

Различают среднюю арифметическую простую и взвешенную.

Средняя арифметическая простая вычисляется:

― в тех случаях, когда совокупность представлена простым перечнем знаний признака у каждой единицы;

― если число повторений каждой варианты нет возможности определить;

― если числа повторений каждой варианты близки между собой.

Средняя арифметическая простая исчисляется по формуле:

где V - индивидуальные значения признака; n - число индивидуальных значений;
- знак суммирования.

Таким образом, простая средняя представляет собой отношение суммы вариант к числу наблюдений.

Пример: определить среднюю длительность пребывания на койке 10 больных пневмонией:

16 дней - 1 больной; 17–1; 18–1; 19–1; 20–1; 21–1; 22–1; 23–1; 26–1; 31–1.

койко-дня.

Средняя арифметическая взвешенная исчисляется в тех случаях, когда индивидуальные значения признака повторяются. Ее можно вычислять двояким способом:

1. Непосредственным (среднеарифметическим или прямым способом) по формуле:

,

где P - частота (число случаев) наблюдений каждой варианты.

Таким образом, средняя арифметическая взвешенная представляет собой отношение суммы произведений вариант на частоты к числу наблюдений.

2. С помощью вычисления отклонений от условной средней (по способу моментов).

Основой для вычисления взвешенной средней арифметической является:

― сгруппированный материал по вариантам количественного признака;

― все варианты должны располагаться в порядке возрастания или убывания величины признака (ранжированный ряд).

Для вычисления по способу моментов обязательным условием является одинаковый размер всех интервалов.

По способу моментов средняя арифметическая вычисляется по формуле:

,

где М о - условная средняя, за которую чаще принимают величину признака, соответствующую наибольшей частоте, т.е. которая чаще повторяется (Мода).

i - величина интервала.

a - условное отклонение от условий средней, представляющее собой последовательный ряд чисел (1, 2 и т.д.) со знаком + для вариант больших условной средней и со знаком–(–1, –2 и т.д.) для вариант, которые ниже условной средней. Условное же отклонение от варианты, принятой за условную среднюю равно 0.

P - частоты.

- общее число наблюдений или n.

Пример: определить средний рост мальчиков 8 лет непосредственным способом (таблица1).

Т а б л и ц а 1

Рост в см

мальчиков P

Центральная

варианта V

Центральная варианта ― середина интервала ― определяется как полу сумма начальных значений двух соседних групп:

;
и т.д.

Произведение VP получают путем умножения центральных вариант на частоты
;
и т.д. Затем полученные произведения складывают и получают
, которую делят на число наблюдений (100) и получают среднюю арифметическую взвешенную.

см.

Эту же задачу решим по способу моментов, для чего составляется следующая таблица 2:

Т а б л и ц а 2

Рост в см (V)

мальчиков P

n=100

В качестве М о принимаем 122, т.к. из 100 наблюдений у 33 человек рост был 122см. Находим условные отклонения (a) от условной средней в соответствии с вышесказанным. Затем получаем произведение условных отклонений на частоты (aP) и суммируем полученные величины (
). В итоге получится 17. Наконец, данные подставляем в формулу:

При изучении варьирующего признака нельзя ограничиваться только вычислением средних величин. Необходимо вычислять и показатели, характеризующие степень разнообразия изучаемых признаков. Величина того или иного количественного признака неодинакова у всех единиц статистической совокупности.

Характеристикой вариационного ряда является среднее квадратичное отклонение (), которое показывает разброс (рассеивание) изучаемых признаков относительно средней арифметической, т.е. характеризует колеблемость вариационного ряда. Оно может определяться непосредственным способом по формуле:

Среднее квадратичное отклонение равняется квадратному корню из суммы произведений квадратов отклонений каждой варианты от средней арифметической (V–M) 2 на свои частоты деленной на сумму частот (
).

Пример вычисления: определить среднее число больничных листов, выдаваемых в поликлинике за день (таблица 3).

Т а б л и ц а 3

Число больничных

листов, выданных

врачом за день (V)

Число врачей (Р)

;

В знаменателе при числе наблюдений менее 30 необходимо от
отнимать единицу.

Если ряд сгруппирован с равными интервалами, тогда можно определить среднее квадратичное отклонение по способу моментов:

,

где i - величина интервала;

- условное отклонение от условной средней;

P - частоты вариант соответствующих интервалов;

- общее число наблюдений.

Пример вычисления : Определить среднюю длительность пребывания больных на терапевтической койке (по способу моментов) (таблица 4):

Т а б л и ц а 4

Число дней

пребывания на койке (V)

больных (Р)

;

Бельгийский статистик А. Кетле обнаружил, что вариации массовых явлений подчиняются закону распределения ошибок, открытому почти одновременно К. Гауссом и П. Лапласом. Кривая, отображающая это распределение, имеет вид колокола. По нормальному закону распределения колеблемость индивидуальных значений признака находится в пределах
, что охватывает 99,73% всех единиц совокупности.

Подсчитано, что если к средней арифметической прибавить и отнять 2, то в пределах полученных величин находится 95,45% всех членов вариационного ряда и, наконец, если к средней арифметической прибавить и отнять 1, то в пределах полученных величин будут находиться 68,27% всех членов данного вариационного ряда. В медицине с величиной
1связано понятие нормы. Отклонение от средней арифметической больше, чем на 1, но меньше, чем на 2является субнормальным, а отклонение больше, чем на 2ненормальным (выше или ниже нормы).

В санитарной статистике правило трех сигм применяется при изучении физического развития, оценке деятельности учреждений здравоохранения, оценке здоровья населения. Это же правило широко применяется в народном хозяйстве при определении стандартов.

Таким образом, среднее квадратичное отклонение служит для:

― измерения дисперсии вариационного ряда;

― характеристики степени разнообразия признаков, которые определяются коэффициентом вариации:

Если коэффициент вариации более 20% - сильное разнообразие, от 20 до 10% - среднее, менее 10% - слабое разнообразие признаков. Коэффициент вариации в известной мере является критерием надежности средней арифметической.

Вариационными называют ряды распределения, построенные по количественному признаку. Значения количественных признаков у отдельных единиц совокупности непостоянны, более или менее различаются между собой.

Вариация - колеблемость, изменяемость величины признака у единиц совокупности. Отдельные числовые значения признака, встречающиеся в изучаемой совокупности, называют вариантами значений. Недостаточность средней величины для полной характеристики совокупности заставляет дополнять средние величины показателями, позволяющими оценить типичность этих средних путем измерения колеблемости (вариации) изучаемого признака.

Наличие вариации обусловлено влиянием большого числа факторов на формирование уровня признака. Эти факторы действуют с неодинаковой силой и в разных направлениях. Для описания меры изменчивости признаков используют показатели вариации.

Задачи статистического изучения вариации:

  • 1) изучение характера и степени вариации признаков у отдельных единиц совокупности;
  • 2) определение роли отдельных факторов или их групп в вариации тех или иных признаков совокупности.

В статистике применяются специальные методы исследования вариации, основанные на использовании системы показателей, с помощью которых измеряется вариация.

Исследование вариаций имеет важное значение. Измерение вариаций необходимо при проведении выборочного наблюдения, корреляционном и дисперсионном анализе и т. д. Ермолаев О.Ю. Математическая статистика для психологов: Учебник [Текст]/ О.Ю. Ермолаев. - М.: Изд-во Флинта Московского психолого-социального института, 2012. - 335с.

По степени вариации можно судить об однородности совокупности, об устойчивости отдельных значений признаков и типичности средней. На их основе разрабатываются показатели тесноты связи между признаками, показатели оценки точности выборочного наблюдения.

Различают вариацию в пространстве и вариацию во времени.

Под вариацией в пространстве понимают колеблемость значений признака у единиц совокупности, представляющих отдельные территории. Под вариацией во времени подразумевают изменение значений признака в различные периоды времени.

Для изучения вариации в рядах распределения проводят расположение всех вариантов значений признака в возрастающем или убывающем порядке. Этот процесс называют ранжированием ряда.

Самыми простыми признаками вариации являются минимум и максимум - самое наименьшее и наибольшее значение признака в совокупности. Число повторений отдельных вариантов значений признаков называют частотой повторения (fi). Частоты удобно заменять частостями - wi. Частость - относительный показатель частоты, который может быть выражен в долях единицы или процентах и позволяет сопоставлять вариационные ряды с различным числом наблюдений. Выражается формулой:

где Хmax, Хmin - максимальное и минимальное значения признака в совокупности; n - число групп.

Для измерения вариации признака применяются различные абсолютные и относительные показатели. К абсолютным показателям вариации относятся размах вариации, среднее линейное отклонение, дисперсия, среднее квадратическое отклонение. К относительным показателям колеблемости относят коэффициент осцилляции, относительное линейное отклонение, коэффициент вариации.

Пример нахождения вариационного ряда

Задание. По данной выборке:

  • а) Найти вариационный ряд;
  • б) Построить функцию распределения;

№=42. Элементы выборки:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Решение.

  • а) построение ранжированного вариационного ряда:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • б) построение дискретного вариационного ряда.

Вычислим число групп в вариационном ряду пользуясь формулой Стерджесса:

Примем число групп равным 7.

Зная число групп, рассчитаем величину интервала:

Для удобства построения таблицы примем число групп равным 8, интервал составит 1.

Рис. 1 Объем продаж магазином товара за определенный промежуток времени

КАТЕГОРИИ

ПОПУЛЯРНЫЕ СТАТЬИ

© 2024 «kingad.ru» — УЗИ исследование органов человека