Ранове на разпределение. Серии на разпределение на атрибути и вариации

Първата стъпка в статистическото изследване на вариацията е конструирането вариационна серия - подредено разпределение на единици от популацията според нарастващи (по-често) или намаляващи (по-рядко) стойности на атрибута и преброяване на броя на единиците с една или друга стойност на атрибута.

Има три форми на вариационна серия: диапазонна серия, дискретна серия, интервална серия. Вариационната серия често се нарича близко разпространение.Този термин се използва при изследване на вариациите както в количествените, така и в неколичествените признаци. Серията за разпространение е структурно групиране(виж гл. 6).

Класиран ред -това е списък на отделните единици от съвкупността във възходящ (низходящ) ред на изследваната характеристика.

Таблица 1 може да служи като пример за класирана серия. 5.5.

Таблица 5.5

Големи банки в Санкт Петербург, класирани по размерсобствен капитал към 01.07.96г

Ако броят на съвкупните единици е достатъчно голям, класираният ред става тромав и изграждането му, дори с помощта на компютър, отнема много време. В такива случаи вариационната серия се конструира чрез групиране на единиците от популацията според стойностите на изследваната черта.

Ако атрибутът приема малък брой стойности, се изгражда дискретна вариационна серия. Пример за такава серия е разпределението на футболните срещи по брой отбелязани голове (Таблица 5.1). Серия с дискретни вариации -това е таблица, състояща се от два реда или графика: специфични стойности на променлив атрибут хази броя на единиците съвкупност с дадената стойност на признака фичестоти (f е началната буква на английската дума frequency).

Определяне на броя на групите

Броят на групите в серия от дискретни вариации се определя от броя на действително съществуващите стойности на променливия атрибут. Ако признакът може да приема дискретни стойности, но техният брой е много голям (например броят на добитъка на 1 януари на годината в различни селскостопански предприятия може да варира от нула до десетки хиляди глави), тогава серия от интервални вариации е изградена. Интервална вариационна серия също е конструирана за изследване на характеристики, които могат да приемат всякакви, както цели, така и дробни стойности в областта на тяхното съществуване. Такива са например рентабилността на продадените продукти, себестойността на единица продукция, доходът на 1 жител на града, делът на хората с висше образование сред населението на различни територии и като цяло всички второстепенни характеристики, стойностите на които се изчисляват чрез разделяне на стойността на една основна характеристика на стойността на друга (виж глава 3).

Интервални вариационни сериие таблица (състояща се от две колони (или редове) - интервали на признака, чиято вариация се изследва, и броя на единиците от популацията, попадащи в този интервал (честоти), или съотношението на това число от общо население (честоти).

При конструирането на серия от интервални вариации е необходимо да изберете оптималния брой групи (интервали на знаци) и да зададете дължината на интервала. Тъй като при анализ на вариационна серия честотите се сравняват в различни интервали, е необходимо стойността на интервала да бъде постоянна. Оптималният брой групи се избира по такъв начин, че разнообразието от стойности на чертите в съвкупността да се отразява достатъчно добре и в същото време редовността на разпределението, неговата форма не се изкривява от случайни честотни колебания. Ако има твърде малко групи, няма да има модел на вариация; ако има твърде много групи, произволните честотни скокове ще изкривят формата на разпределението.

Най-често броят на групите във вариационния ред се определя, като се придържаме към формулата, препоръчана от американския статистик Стърджис (Стърджис):

Където к- брой групи; н- размерът на населението.

Тази формула показва, че броят на групите е функция на количеството данни.

Да предположим, че е необходимо да се изгради вариационна серия от разпределение на предприятията в региона според добива на зърнени култури за определена година. Броят на земеделските предприятия със зърнени култури е 143; най-ниската стойност на добива е 10,7 c/ha, най-високата е 53,1 c/ha. Ние имаме:

Тъй като броят на групите е цяло число, следователно се препоръчва да се изградят 8 или 9 групи.

Определяне на размера на интервала

Знаейки броя на групите, изчислете стойността на интервала:

В нашия пример стойността на интервала е:

а) с 8 групи

б) с 9 групи

За да изградите серия и да анализирате вариацията, е много по-добре да имате закръглени стойности на размера на интервала и неговите граници, ако е възможно. Следователно най-доброто решение би било да се изгради вариационна серия от 9 групи с интервал, равен на 5 q/ha. Тази вариационна серия е дадена в табл. 5.6, а графичното му представяне е дадено на фиг. 5.1.

Границите на интервалите могат да бъдат определени по различни начини: горната граница на предишния интервал повтаря долната граница на следващия, както е показано в табл. 5.6, или не се повтаря.

В последния случай вторият интервал ще бъде обозначен като 15.1-20, третият като 20.1-25 и т.н., т.е. предполага се, че всички стойности на добива са задължително закръглени до една десета. Освен това възниква нежелано усложнение със средата на интервала 15.1-20, който, строго погледнато, вече ще бъде равен не на 17.5, а на 17.55; съответно, когато заменим закръгления интервал 40-60 с 40,1-6,0, вместо закръглената стойност на средата му 50, получаваме 50,5.Затова е за предпочитане да оставим интервалите с повтаряща се закръглена граница и да се съгласим, че единиците на съвкупността, които имат стойност на характеристиката, равна на границата на интервала, са включени в интервала, където тази точна стойност е докладвана за първи път. Така ферма с добив от 15 центнера от хектар е включена в първата група, стойност от 20 центнера от хектар е включена във втората и т.н.

Ориз. 5.1. Разпределение на стопанствата по добив

Таблица 5.6

Разпределение на стопанствата в района според добива на зърнени култури

Групи ферми по добив,

ц/ха хй

Брой ферми

Средата на интервала

ц/ха хй"

Натрупана честота f'j

Графично представяне на вариационната серия

Значителна помощ при анализа на вариационния ред и неговите свойства оказва графичното представяне. Интервалната поредица е представена от лентова графика, в която основите на лентите, разположени на абсцисната ос, са интервалите на стойностите на променливия атрибут, а височините на лентите са честотите, съответстващи на скалата по оста y. Графично представяне на разпределението на стопанствата в региона по отношение на добивите от зърнени култури е показано на фиг. 5.1. Този вид диаграма често се нарича хистограма(от гръцката дума "histos" - тъкан, структура).

Таблица данни. 5.5 и фиг. 5.1 показва формата на разпределение, характерна за много знаци: стойностите на средните интервали на знака са по-чести, по-рядко - екстремни; малки и големи стойности на характеристиката. Формата на това разпределение е близка до закона за нормалното разпределение, разглеждан в хода на математическата статистика. Великият руски математик А. М. Ляпунов (1857 - 1918) доказва, че нормалното разпределение се формира, ако променливата променлива е повлияна от голям брой фактори, нито един от които няма преобладаващо влияние. Случайна комбинация от много приблизително равни фактори, които влияят върху изменението на добива на зърнени култури, както природни, така и агротехнически, икономически, създава разпределение на фермите в региона по добив, близък до нормалния закон за разпределение.

Ако има дискретна вариационна серия или се използват средните точки на интервалите, тогава графичното представяне на такава вариационна серия се нарича многоъгълник(от гръцките думи - многоъгълник). Всеки от вас може лесно да построи тази графика, като свърже точките с координати с прави линии Х,И /.

Съотношението на височината на многоъгълник или диаграма към основата му се препоръчва в съотношение приблизително 5:8.

Концепцията за честота

Ако в таблицата 5.6 Изразете броя на фермите с едно или друго ниво на производителност като процент от общия брой, като целият брой ферми (143) се приема за 100%, тогава средният добив може да се изчисли, както следва:

Където w- честота на 7-ма категория от вариационната серия;

Кумулативно разпределение

Трансформираната форма на вариационната серия е редица натрупани честоти,дадени в табл. 5.6, колона 5. Това е поредица от стойности за броя на единиците в съвкупността с по-малко и равно на долната граница на съответните интервални стойности на атрибута. Такава поредица се нарича кумулативен.Можете да изградите кумулативно разпределение „не по-малко от“ или можете „по-голямо от“. В първия случай се извиква диаграмата на кумулативното разпределение натрупвам,във втория - огив(фиг. 5.2).

Плътност, разпределения

Ако трябва да се справите с вариационна серия с неравни интервали, тогава за съпоставимост трябва да приведете честотата или честотата към единицата на интервала. Полученото съотношение се нарича плътност на разпространение:

Плътността на разпределение се използва както за изчисляване на обобщаващи показатели, така и за графично представяне на вариационни серии с неравни интервали.

Ориз. 5.2. Ogiva и разпределение на кумулативния добив

5.7. Структурни характеристики на вариационния ред

Медиана на разпределение

При изучаване на вариацията се използват такива характеристики на вариационната серия, които описват количествено нейната структура, структура. Такава е напр. Медиана-стойността на променливата характеристика, разделяща съвкупността на две равни части ~ със стойности на характеристиките по-малки от медианата И със стойности на характеристиките по-големи от медианата (третата банка от пет в таблица 5.5, т.е. 196 милиарда рубли).

На примера на табл. 5.5 показва фундаменталната разлика между медианата и средната стойност. Медианата не зависи от стойностите на характеристиките в краищата на класираната серия. Дори ако капиталът на най-голямата банка в Санкт Петербург беше десет пъти по-голям, средната стойност няма да се промени. Следователно медианата често се използва като по-надежден индикатор за типичната стойност на характеристика от средноаритметичната стойност, ако серията от стойности е разнородна, включва резки отклонения от средната стойност. В тази серия средната стойност на собствения капитал, равна на 269 милиарда рубли, се формира под силното влияние на най-голямата опция. 80% от банките имат капитал под средния и само 20% имат повече. Малко вероятно е такава средна стойност да се счита за типична стойност. При четен брой единици на съвкупността, медианата се приема като средна аритметична стойност на двете централни опции, например с десет стойности на атрибута, средната стойност на петата и шестата стойност в класираната серия.

В интервална вариационна серия формулата (5.14) се използва за намиране на медианата.

където Me е медианата;

x 0 -долната граница на интервала, в който се намира медианата;

f M e-1 - натрупаната честота в интервала, предхождащ медианата;

е аз- честота в медианния интервал;

аз- интервална стойност;

к - брой групи.

В табл. 5.6 медианата е средната от 143 стойности, т.е. седемдесет и втора от началото на серията стойност на производителността. Както се вижда от броя на натрупаните честоти, той е в четвъртия интервал. Тогава

При нечетен брой единици от съвкупността, средното число, както виждаме, е равно на не , както във формула (5.14), a , но това разграничение не е съществено и обикновено се пренебрегва на практика.

В дискретна вариационна серия медианата трябва да се счита за стойността на признака в групата, в която е натрупаната честота;

повече от половината от населението. Например за данните в табл. 5.1 Средният брой отбелязани голове на мач ще бъде 2.

Квартили на разпределение

Подобно на медианата, стойностите на атрибута се изчисляват, разделяйки съвкупността на четири части, равни по брой единици. Тези количества се наричат квартилии се означават с главна латинска "буква" Qс подписана значка с квартилен номер. Това е ясно Q 2 съвпада с мен. За първи и трети квартил представяме формулите и изчислението съгласно табл. 5.6.

защото Q 2 = Me = 29,5 c/ha, вижда се, че разликата между първия квартил и медианата е по-малка, отколкото между медианата и третия квартил. Този факт показва наличието на известна асиметрия в средната област на разпределението, което също се забелязва на фиг. 5.1.

Наричат ​​се характеристичните стойности, които разделят серията на пет равни части квинтилина десет части децили,сто части процентили.Тъй като тези характеристики се използват само когато е необходимо да се проучи подробно структурата на вариационните серии, ние няма да даваме техните формули и изчисление.

Режим на разпространение

Несъмнено такава стойност на черта, която се среща в изследваната серия, най-често в съвкупност, е от голямо значение. Това количество се нарича модаи обозначават Mo. В дискретна серия режимът се определя без изчисление като стойност на признака с най-висока честота. Например, според табл. 5.1 най-често са отбелязани 2 гола във футболен мач - 71 пъти. Режимът е номер 2. Обикновено има редове с една модална стойност на характеристиката. Ако две или повече равни (и дори няколко различни, но по-големи от съседните) стойности на характеристика присъстват в серията вариации, тя се счита съответно за бимодална („подобна на камила“) или мултимодална. Това показва хетерогенността на набора, вероятно представляваща съвкупност от няколко комплекта с различни режими.

Така че в тълпата туристи, дошли от различни страни, вместо едно модно облекло, преобладаващо сред местните жители, можете да намерите смесица от различни „моди“, възприети от различни народи по света.

В серия от интервални вариации, особено при непрекъсната вариация на характеристика, строго погледнато, всяка стойност на характеристиката се среща само веднъж. Модалният интервал е интервалът с най-висока честота.В рамките на този интервал се намира условната стойност на атрибута, в близост до която плътността на разпределение, т.е. броят на единиците съвкупност на единица измерване на променлив атрибут достига максимум. Това е условна стойност и се взема предвид мода на точки.Логично е да се приеме, че такава точкова мода е разположена по-близо до тази на границите на интервала, отвъд която честотата в съседния интервал е по-голяма от честотата в интервала зад другата граница на модалния интервал. Следователно имаме често използваната формула (5.15):

Където х 0 - долната граница на модалния интервал;

fMo - честота в модалния интервал;

fMo -1 - честота в предходния интервал;

fMo +1 - честота в следващия интервал след модала;

аз - интервална стойност.

Според табл. 5.6 изчислете модата:

Изчисляването на режима в интервалните серии е доста условно. Приблизително Mo може да се определи графично (виж фиг. 5.1).

Средноаритметичната стойност също е от значение за изследване на структурата на вариационния ред, въпреки че основната стойност на този обобщаващ показател е друга. В сериите на разпределение на фермите по добив (Таблица 5.6), средният добив се изчислява като честотно претеглената среда на интервалите х(по формула (5.2)):

Връзка между средна стойност, медиана и мода

Разликата между средното аритметично, медианата и модата в това разпределение е малка. Ако разпределението по форма е близко до нормалния закон, тогава медианата е между модата и средната стойност и е по-близо до средната, отколкото до модата.

С дясностранна асиметрия х̅ > Аз > Мо;

с лявостранна асиметрия х̅ < аз< Mo.

За умерено изкривени разпределения равенството е вярно:

5.8. Мерки за размер и интензитет вариации

Абсолютни средни размери на вариация

Следващият етап в изследването на вариацията на признака в съвкупността е измерването на характеристиките на силата, величината на вариацията. Най-простият от тях може да бъде обхватили амплитуда на вариация -абсолютната разлика между максималните и минималните стойности на черта от стойностите, налични в изследвания набор от стойности. По този начин диапазонът на вариация се изчислява по формулата

Тъй като величината на диапазона характеризира само максималната разлика в стойностите на атрибута, той не може да измери регулярната сила на неговата вариация в цялата популация. Индикаторът, предназначен за тази цел, трябва да отчита и обобщава всички разлики в стойностите на атрибута в съвкупността, без изключение. Броят на тези разлики е равен на броя на комбинациите от две от всички единици на съвкупността; според табл. 5.6 ще бъде: C^= 10 153. Въпреки това, няма нужда да се вземат предвид, изчисляват и осредняват всички отклонения. По-лесно е да се използва средната стойност на отклоненията на отделните стойности на атрибута от средноаритметичната стойност на атрибута, а те са само 143. Но средното отклонение на стойностите на атрибута от средноаритметичната стойност, според към добре известното свойство на последния, е нула. Следователно показател за силата на вариацията не е алгебричната средна стойност на отклоненията, а среден модул на отклонения:

Според табл. 5.6 среден модул, или средно линейно отклонение,в абсолютна стойност се изчислява като честотно претеглено отклонение по модул средните точки на интервалите от средната аритметична стойност, т.е. според формулата

Това означава, че средно добивът в изследваната група стопанства се отклонява от средния добив в района с 6,85 ц/ха. Простотата на изчисление и интерпретация са положителните страни на този индикатор, но математическите свойства на модулите са „лоши“: техенне може да се приведе в съответствие с никакъв вероятностен закон, включително нормалното разпределение, чийто параметър не е средният модул на отклонение, а стандартно отклонение(в английски компютърни програми, наречени "стандартно отклонение", съкратено "s.d." или просто « с», на рускоезични - NKO). В статистическата литература стандартното отклонение от средната стойност обикновено се обозначава с малка (малка) гръцка буква сигма (st) или с(виж гл. 7):

за класирани серии

за интервални серии

Според табл. 5.6 стандартното отклонение на добива на зърно е:

Трябва да се отбележи, че известно закръгляване на средната стойност и средните точки на интервалите, например до цели числа, има малък ефект върху стойността на σ, която тогава би възлизала на 8,55 c/ha.

Стандартното отклонение в величината в реалните популации винаги е по-голямо от средния модул на отклонение. Съотношение (при: Азависи от наличието на резки, изпъкнали отклонения в агрегатите и може да служи като индикатор за "замърсеността" на агрегата с разнородни елементи с основната маса: колкото по-голямо е това съотношение, толкова по-силно е такова "замърсяване". За нормалния закон за разпределение σ: а = 1,2.

Концепцията за дисперсия

Квадратът на стандартното отклонение дава стойността дисперсия σ 2 .Формула за дисперсия:

просто (за негрупирани данни):

претеглени (за групирани данни):

Почти всички методи на математическата статистика се основават на дисперсия. От голямо практическо значение е правилото за добавяне на отклонения (виж гл. 6).

Други мерки за вариация

Друг показател за силата на вариацията, който я характеризира не в цялата популация, а само в централната й част, е средно четвърт разстояние,тези. средната стойност на разликата между квартилите, означена по-долу като q:

За разпределението на земеделските предприятия по добив в табл. 5.2

р\u003d (36.25 - 25.09): 2 \u003d 5,58 kg / ha. Силата на вариация в централната част на популацията като правило е по-малка, отколкото в цялата популация. Съотношението между средния модул на отклонения и средното тримесечно отклонение също служи за изследване на структурата на вариацията: голяма стойност на това съотношение показва наличието на слабо вариращо "ядро" и силно разпръсната среда около това ядро ​​или "ореол" “ в изследваната популация. За данните в табл. 5,6 съотношение а: в= 1,23, което показва малка разлика в силата на вариацията в централната част на популацията и в нейната периферия.

За да се оцени интензивността на вариацията и да се сравни в различни популации и още повече за различни признаци, е необходимо да относителни показатели за вариация.Те се изчисляват като отношение на абсолютните показатели за силата на вариация, разгледани по-рано, към средноаритметичната стойност на признака. Получаваме следните показатели:

1) относителен обхват на вариация p:

2) относително отклонение по модул T:

3) коефициент на вариация като относително квадратно отклонение v:

4) относителна четвърт разстояние д:

Където р - средно квартилно разстояние.

За да варирате добива според табл. 5.6 тези индикатори са:

ρ = 42,4: 30,3 = 1,4, или 140%;

T= 6,85 : 30,3 = 0,226, или 22,6%;

v = 8,44: 30,3 = 0,279, или 27,9%;

д= 5,58: 30,3 = 0,184, или 18,4%.

Оценката на степента на интензивност на вариацията е възможна само за всяка отделна характеристика на популация с определен състав. Така че, за набор от селскостопански предприятия, вариацията в добива в един и същи естествен регион може да се оцени като слаба, ако v < 10%, умеренная при 10% < v < 25% и сильная при v > 25%.

Напротив, вариацията във височината в популацията на възрастни мъже или жени вече с коефициент, равен на 7%, трябва да се оценява и възприема от хората като силна. По този начин оценката на интензитета на вариацията се състои в сравняване на наблюдаваната вариация с някаква нейна обичайна интензивност, взета за стандарт. Ние сме свикнали с факта, че производителността, доходите или доходите на глава от населението, броят на жилищните стаи в сградата могат да се различават няколко или дори десетки пъти, но разликата във ръста на хората поне един път и половина вече се възприема като много силен.

Различните вариации в силата, интензитета се дължат на обективни причини. Например продажната цена на щатския долар в търговските банки в Санкт Петербург на 24 януари 1997 г. варира от 5675 до 5640 рубли. на средна цена от 5664 рубли. Относителен диапазон на вариация ρ = 35:5664 = 0.6%. Такава малка вариация се дължи на факта, че при значителна разлика в обменния курс на долара веднага ще има отлив на купувачи от „скъпата“ банка към „по-евтините“. Напротив, цената на килограм картофи или говеждо месо в различните региони на Русия варира значително - с десетки процента и повече. Това се дължи на различните разходи за доставка на стоки от региона на производителя до региона на потребителя, т.е. поговорката "юница в чужбина е половината, но рублата се транспортира."

5.9. Моменти на разпределение и показатели неговите форми

Разпределителни централни моменти

За по-нататъшно изследване на естеството на вариацията се използват средните стойности на различни степени на отклонение на отделните стойности на даден признак от неговата средна аритметична стойност. Тези показатели се наричат централни моментиразпределения на реда, съответстващ на мощността, до която се повишават отклоненията (Таблица 5.7), или просто моменти (нецентралните моменти се използват рядко и няма да бъдат разглеждани тук). Стойността на третия момент ts- зависи, подобно на неговия знак, от преобладаването на положителните кубове на отклонения над отрицателните кубове или обратно. При нормално и всяко друго строго симетрично разпределение сумата от положителните кубове е строго равна на сумата от отрицателните кубове.

Индикатори за асиметрия

Въз основа на момента на третия ред е възможно да се конструира индикатор, характеризиращ степента на асиметрия на разпределението:

КатоНаречен коефициент на асиметрия.Може да се изчисли както от групирани, така и от негрупирани данни. Според табл. 5.6 индексът на асиметрия беше:

тези. асиметрията е лека. Английският статистик К. Пиърсън, въз основа на разликата между средната стойност и режима, предложи друг показател за асиметрия

Таблица 5.7

Централни моменти

Според табл. 5.6 Индексът на Pearson е:

Индексът на Pearson зависи от степента на асиметрия в средната част на серията на разпределение, а индексът на асиметрия, базиран на момента от третия ред, зависи от екстремните стойности на признака. Така в нашия пример в средната част на разпределението асиметрията е по-значима, което се вижда и от графиката (фиг. 5.1). Разпределенията със силна дясна и лява (положителна и отрицателна) асиметрия са показани на фиг. 5.3.

Характеризиране на ексцеса на разпределението

С помощта на момента от четвърти ред, още по-сложно свойство на реда на разпределение от асиметрията, т.е. ексцес.


Ориз. 5.3. Асиметрия, разпределения

Индикаторът за ексцес се изчислява по формулата

(5.30)

Често ексцесът се тълкува като "стръмност" на разпределението, но това е неточно и непълно. Графиката на разпределението може да изглежда произволно стръмна в зависимост от силата на вариацията на чертата: колкото по-слаба е вариацията, толкова по-стръмна е кривата на разпределение в даден мащаб. Да не говорим за факта, че чрез смяна на мащабите по абсцисата и по ординатата всяко разпределение може изкуствено да се направи "стръмно" и "наклонено". За да покажете какъв е ексцесът на разпределението и да го интерпретирате правилно, трябва да сравните серии с еднаква сила на вариация (една и съща стойност на σ) и различни показатели за ексцес. За да не объркате ексцеса с изкривяването, всички сравнявани редове трябва да са симетрични. Такова сравнение е показано на фиг. 5.4.

Фиг.5.4. Ексцес на разпределение

За вариационна серия с нормално разпределение стойностите аз показател за ексцес, изчислен по формула (5.30), j е равно на три.

Такъв показател обаче не трябва да се нарича терминът "ексцекс", което в превод означава "излишък". Терминът "ексцес" трябва да се прилага не към самото съотношение по формулата (5.30), а към сравнението на такова съотношение за изследваното разпределение със стойността на даденото съотношение на нормалното разпределение, т.е. със стойност 3. Оттук и окончателните формули за показателя ексцес, т.е. ексцесиите в сравнение с нормалното разпределение със същата сила на вариация имат формата:

за класирани серии

за интервални и дискретни вариационни серии

Наличието на положителен ексцес, както и отбелязаната по-рано значителна разлика между малко тримесечно разстояние и голямо стандартно отклонение, означава, че в изследваната маса от явления има „ядро“, което варира леко в тази характеристика, заобиколено от разпръснат „ореол“. При значителен отрицателен ексцес изобщо няма такова „ядро“.

По стойностите на показателите за асиметрия и ексцес на разпределението може да се съди за близостта на разпределението до нормалното, което е от съществено значение за оценка на резултатите от корелационния и регресионния анализ, възможностите за вероятностна оценка на прогнозите ( вижте глави 7,8,9). Разпределението може да се счита за нормално, или по-точно, хипотезата за сходството на действителното разпределение с нормалното разпределение не може да бъде отхвърлена, ако показателите за асиметрия и ексцес не надвишават техните двукратни стандартни отклонения Cm. Тези стандартни отклонения се изчисляват по формулите:

5.10. Максимално възможни стойности вариационни индикатори и тяхното приложение

При прилагането на всякакъв вид статистически показатели е полезно да се знае какви са максималните възможни стойности на даден показател за изследваната система и какво е съотношението на реално наблюдаваните стойности към максимално възможните. Този проблем е особено актуален при изучаване на вариациите на показателите за обем, като обема на производството на определен вид продукт, наличието на определени ресурси, разпределението на капиталовите инвестиции, доходите и печалбите. Нека разгледаме теоретично и практически този въпрос на примера на разпределението на зеленчукопроизводството между земеделските предприятия в региона.

Очевидно е, че минималната възможна стойност на показателите за вариация се постига при строго равномерно разпределение на обемния признак между всички единици на съвкупността, т.е. при еднакъв обем на продукцията във всяко от земеделските предприятия. При такова ограничаващо (разбира се, много малко вероятно на практика) разпределение няма вариация и всички показатели, вариации са равни на нула.

Максималната възможна стойност на показателите за вариация се постига при такова разпределение на обемния признак в популацията, при което целият му обем е съсредоточен в една единица от популацията; например целият обем зеленчукопроизводство - в едно земеделско предприятие от областта при липса на производство в други стопанства. Вероятността за такава изключително възможна концентрация на обема на признак в една единица от съвкупността не е толкова малка; във всеки случай е много по-голяма от вероятността за строго равномерно разпределение.

Разгледайте експонентите на вариацията за посочения граничен случай на неговия максимум. Нека обозначим броя на единиците от съвкупността П,средната стойност на характеристиката х̅ , тогава общият обем на характеристиката в съвкупността ще бъде изразен като х̅ П.Целият този обем е концентриран в една единица от съвкупността, така че хмакс= х̅ стр. хмин = 0, откъдето следва, че максималната стойност на амплитудата (диапазон на изменение) е равна на:

За да изчислим максималните стойности на средните модулни и квадратични отклонения, ще изградим таблица с отклонения (Таблица 5.8).

Таблица 5.8

Модули и квадрати на отклонения от средната стойност при максимумвъзможна вариация

Брой единици на населението

Стойности на характеристиките

Отклонения от средната стойност

x i - х̅

Модули за отклонение

|x i - x̅|

Квадрати за отклонение

аз- х̅ ) 2

х̅ П

х̅ (P - 1)

-х̅

-х̅

-х̅

х̅ (P - 1)

х̅

х̅

х̅

х̅ 2 (P - 1) 2

х̅ 2

х̅ 2

х̅ 2

х̅ П

2х̅ (P - 1)

х̅ 2 [(P - 1) 2 +(n-1)]

Въз основа на изразите в последния ред на табл. 5.8, получаваме следните максимални възможни стойности на индикаторите за вариация.

Среден модул на отклонения или средно линейно отклонение:

Стандартно отклонение:

Относително модулно (линейно) отклонение:

Коефициентът на вариация:

Що се отнася до тримесечното разстояние, системата с максимално възможна вариация има изродена структура на разпределението на характеристиките, в която няма („не работят“) характеристики на структурата: медиана, квартили и други подобни.

Въз основа на получените формули за максимално възможните стойности на основните показатели на вариация, на първо място, следва заключението за зависимостта на тези стойности от обема на популацията П.Тази зависимост е обобщена в табл. 5.9.

Най-тесните граници на изменение и слабата зависимост от размера на популацията разкриват средния модул и относителното линейно отклонение. Напротив, стандартното отклонение и коефициентът на вариация силно зависят от броя на единиците от съвкупността. Тази зависимост трябва да се вземе предвид, когато се сравнява интензивността на вариация в популации с различни размери. Ако в съвкупността от шест предприятия коефициентът на вариация в обема на производството е 0,58, а в съвкупността от 20 предприятия е 0,72, тогава справедливо ли е да се заключи, че обемът на производството във втората съвкупност е по-неравномерен? Наистина, в първия, по-малък, той възлиза на 0,58: 2,24 = 25,9% от максимално възможния, т.е. граница, нивото на концентрация на производство в едно предприятие от шест, а във втората, по-голяма група, наблюдаваният коефициент на вариация е само 0,72: 4,36 = 16,5% от максимално възможния.

Таблица 5.9

Гранични стойности на показателите за вариация на обемна характеристика за различни размери на популацията

Размер на населението

Максимални стойности на индикаторите

х̅

х̅

1,5х̅

1,73х̅

1,67х̅

2,24х̅

1,80х̅

3х̅

1,90х̅

4,36х̅

1,96х̅

7х̅

1,98х̅

9,95х̅

2х̅

От практическо значение е такъв показател като съотношението на действителния среден модул на отклонение към максимално възможния. Така за съвкупността от шест предприятия това съотношение е: 0,47 : 1,67 = 0,281, или 28,1%. Тълкуването на получения показател е следното: за да се премине от наблюдаваното разпределение на продукцията между предприятията към равномерно разпределение, ще е необходимо да се преразпределят

, или 23,4% от общото производство. Ако степента на действителната концентрация на производството (действителната стойност на σ или v) е определена част от пределната стойност в случай на монополизиране на производството в едно предприятие, тогава съотношението на действителния показател към пределния може да характеризира степента на концентрация (или монополизация) на производството.

Съотношенията на действителните стойности на показателите за вариация или промяна в структурата към максимално възможните също се използват при анализа на структурните промени (виж Глава 11).

1. Джийни К.Средни стойности. - М.: Статистика, 1970.

2. Кривенкова Л. Н., Юзбашев М. М.Областта на съществуване на вариационни индикатори и неговото приложение // Статистически бюлетин. - 1991. - № 6. - С. 66-70.

3. Пасхавер И. С.Средни стойности в статистиката. - М.: Статистика. 1979 г.

4. Шураков В. В., Даитбегов Д. М. и др.Автоматизирана работна станция за статистическа обработка на данни (Глава 4. Предварителна статистическа обработка на данни). - М.: Финанси и статистика, 1990.

Ранжиране- процедурата за подреждане на всякакви обекти във възходящ или низходящ ред на някои от техните свойства, при условие че притежават това свойство.

Можете да класирате:

Състояние по стандарт на живот, раждаемост, безработица;

Професии по престиж;

Стоки според предпочитанията на потребителя;

Респонденти по политическа дейност, финансово състояние;

Обектите за класиране са тези обекти, които са директно подредени. Базово класиране(ranking attribute) - свойството, по което се подреждат обектите. В резултат на класирането получаваме класирана серия, в която на всеки обект е присвоен свой индивид ранг- място на обекта в класирания ред. Броят на местата и съответно броят на ранговете в класираната серия е равен на броя на обектите.

Видове класирани серии:

1) всеки обект има стойност на характеристика, която е различна от стойностите на характеристиката на други обекти, тогава на всеки обект от класираната серия се присвоява собствен ранг, различен от друг обект;

2) няколко обекта имат една и съща стойност на атрибута, тогава на тези обекти в класираната серия се присвояват еднакви рангове, изчислени по определена формула. В този случай класираната серия се нарича класирана серия със свързани рангове. При решаване на задачи ще присвоим първи ранг на най-високата стойност на атрибута. Свързаният ранг се изчислява като средната стойност на местата, заети от обекти, които имат същата стойност на характеристиката. Установяването на статистическа връзка за 2 или повече класирани серии се извършва с помощта на коефициенти на ранг на връзка- такива коефициенти, които ви позволяват да изчислите степента на последователност в класирането на едни и същи обекти по две различни основания (характеристики). Най-често срещаният коефициент на рангова връзка (рангова корелация) е ρ-коефициентът на Спирман.

Да кажем, че n обекта са подредени според атрибута x и според атрибута y. Позволявам

Мярката за несъответствие на ранговете на i-тия обект: d i = R x i - R y i

Имоти:

Промени в диапазона от -1 до 1;

Po = 1, ако има пълна последователност на класираната серия; ранговете на един и същи обект са еднакви по две основания.

Po = -1, ако има пълно несъответствие на класираната серия; тази ситуация възниква, ако ранкинг серията има противоположна посока: R x i – 1 2 3 4 5; R y i – 5 4 3 2 1.

Забележка: може да се изчисли за два вида равни (ако всеки обект има свой собствен ранг и ако има свързани рангове).

Тестване на хипотезата за статистическата значимост на ρ-коефициента на Спирман.

H 0: ρ gs = 0

H 1: ρ gs ≠ 0

Нулевата хипотеза винаги гласи, че ρ е равно на 0. Алтернативната хипотеза е, че стойността на ρ е различна от 0.

Ниво на значимост като в таблиците за непредвидени обстоятелства.

състояние А б IN Ж д д И У И
Качеството на живот 6,8 7,0 6,5 5,9 4,6 5,7 4,5 5,8 4,0
Безработица 20,3 18,0 19,8 23,4 21,6 20,8
ранг x
ранг y
|d i |
d 2 i
Σ d 2 i

τ - Кендъле разликата между вероятностите за правилен и неправилен ред за две наблюдения, извлечени на случаен принцип от популацията, при условие че няма свързани рангове. Имоти:

Промени от -1 до 1;

Ако характеристиките x и y са статистически независими, тогава коефициентът τ става 0; ако τ е равно на 0, това не означава, че характеристиките са статистически независими;

Ако τ е равно на 1, това означава, че има пълна пряка статистическа връзка между характеристиките или класираните серии са напълно последователни; ако τ е -1, това означава, че има пълна статистическа обратна връзка или класираните серии са непоследователни.

S е общият брой двойки обекти с постоянен правилен ред и за двата обекта. D е общият брой двойки обекти с непоследователен грешен ред и за двата обекта.

Тестване на хипотезата за статистическата значимост на коефициента τ:

H 0: τ gs = 0

H 1: τ gs ≠ 0

Коефициентът τ е статистически значим, ако стойността му за HS е различна от 0.

|Z H | > Z cr => H 1

Ако изградим класирана серия за малък брой обекти, тогава потвърждението на нулевата хипотеза ни казва, че трябва да изследваме по-голям брой обекти.

Ако са изследвани достатъчен брой обекти, тогава потвърждаването на нулевата хипотеза показва, че няма връзка между характеристиките.

Коефициент на връзка с множество рангове

Използва се в случаите, когато е необходимо да се измери връзката между повече от 2 класирани серии (например, когато искаме да оценим съответствието на експертните мнения (повече от 2) при оценка 1 и едни и същи обекти).

S е сумата от квадратните отклонения на стойностите на ранга за реда от средния ранг за цялата популация. k 2 – брой променливи (брой експерти). n е броят на класираните обекти.

Понятие за обобщение, групиране, класификация

Резюме- систематизиране и обобщаване: метеорологична справка, сводка от полетата. Резюмето не позволява подробен анализ на информацията. Всяко обобщение трябва да се основава на групиране на данни, т.е. първо групиране, след това обобщаване на данните.

групиране- разделяне на популациите на редица групи според най-съществените признаци.

Правете разлика между качествено и количествено групиране. качество- атрибутивни количествен- вариация. От своя страна вариацията се дели на структурна и аналитична . Структурнигрупирането включва изчисляване на дела на всяка група. Пример: в едно предприятие 80% са работници, 20% са служители, от които 5% са ръководители, 3% са служители, 12% са специалисти. Мишена аналитиченгрупиране - за идентифициране на връзката между знаците: трудов стаж и средна печалба, опит и продукция и др.

Когато групирате, трябва:

Извършване на цялостен анализ на същността на изследваното явление;

Идентифициране на групиращ признак (един или повече);

Задайте границите на групите по такъв начин, че групите да се различават значително една от друга и във всяка група да се комбинират хомогенни елементи.

Според степента на сложност групировките могат да бъдат прости и комбинирани (по признаци).

Според първоначалната информация се разграничават първични и вторични групи, първиченизвършено въз основа на данните от първоначалното наблюдение, вториизползва данни за първично групиране.

Определя се броят на групите по формулата на Стърджис:

Където н- броя на групите, н- общо население.

Ако се използват равни интервали, тогава интервална стойносте равно на .

Интервалимогат или не могат да бъдат равни. Последните от своя страна се разделят на такива, които се променят според закона на аритметичната или геометричната прогресия. Първият и последният интервал могат да бъдат отворени или затворени. Затворените интервали включват или не включват граници на интервали.

Ако интервалите са затворени и нищо не се казва за включването на горни граници, тогава приемаме, че горните граници са включени.

Ако интервалите са отворени, тогава се ръководим от последния интервал.

Знак в тези интервали може да бъде измерен дискретно и непрекъснато (т.е. разделен). При непрекъснат знак границите са затворени 1-10, 10-20, 20-30; ако атрибутът се променя дискретно, тогава може да се използва следният запис: 1 - 10, 11 - 20, 21 - 30.

Ако интервалите са отворени, тогава стойността на последния интервал е равна на предходния, а стойността на първия - на втория.

Класификациягрупиране по качество. Той е относително стабилен, стандартизиран и одобрен от органите на държавната статистика.


3.2. Ранове на разпределение: видове и основни характеристики

Под близко разпространениесе отнася до поредица от данни, които характеризират всяко социално-икономическо явление на една основа. Това е най-простият тип групиране по два признака.

Сериите на разпределение са разделени на качествени и количествени, класирани и некласирани, групирани и негрупирани, с дискретно и непрекъснато разпределение на характеристиките.

Пример за негрупирана, некласирана поредица от заплати е ведомостта. В същото време списъкът на служителите може да бъде подреден по азбучен ред или по номера на персонала. Пример за класирана серия е списък с отбори, класация на тенисисти.

класиран редразпределения - поредица от данни, подредени в низходящ или възходящ ред на характеристика.

За групирани класирани серии се разграничават следните характеристики: вариант, честота или честота, кумулация и плътност на разпространение.

Вариант()е средната интервална стойност на характеристиката. защото при създаване на групиране трябва да се спазва принципът за равномерно разпределение на признак във всеки интервал, тогава вариантът може да се изчисли като полусума от границите на интервалите.

Честота() показва колко пъти се среща дадената стойност на функцията. Изразът на относителната честота е честота(.) , т.е. дял, специфично тегло от сумата на честотите.

Кумулирайте() – кумулативна честота или честота, кумулативно изчисление. Обемът, разходите, приходите се изчисляват кумулативно, т.е. резултати от дейността.

маса 1

Групиране на действащи кредитни институции
от размера на регистрирания уставен капитал

през 2008 г. в Русия

Първата стъпка в статистическото изследване на вариацията е изграждането на вариационна серия - подредено разпределение на единиците на съвкупността според нарастващи (по-често) или намаляващи (по-рядко) стойности на признак и преброяване на броя на единиците с една или друга стойност на характеристиката.

Има три форми на вариационни серии: диапазонни, дискретни, интервални. Вариационната серия често се нарича серия на разпределение. Този термин се използва при изучаване на вариациите както на количествени, така и на неколичествени признаци. Серията на разпространение е структурна група (глава 6).

Класирана серия е списък на отделни единици от популацията във възходящ (низходящ) ред на изследваната характеристика.

По-долу е дадена информация за големите банки в Санкт Петербург, класирани по собствен капитал към 01.10.1999 г.

Име на банката Собствен капитал, милиони рубли

Балтонексим банка 169

Банка Санкт Петербург 237

Петровски 268

Балтийско 290

Промстройбанк 1007

Ако броят на съвкупните единици е достатъчно голям, класираният ред става тромав и изграждането му, дори с помощта на компютър, отнема много време. В такива случаи вариационната серия се конструира чрез групиране на единиците от популацията според стойностите на изследваната черта.

Определяне на броя на групите

Броят на групите в серия от дискретни вариации се определя от броя на действително съществуващите стойности на променливия атрибут. Ако признакът приема дискретни стойности, но техният брой е много голям (например броят на добитъка на 1 януари на годината в различни селскостопански предприятия може да варира от нула до десетки хиляди глави), тогава се изгражда интервална вариационна серия . Интервална вариационна серия също е конструирана за изследване на характеристики, които могат да приемат всякакви, както цели, така и дробни стойности в областта на тяхното съществуване. Такива са например рентабилността на продадените продукти, себестойността на единица продукция, доходът на жител на града, делът на хората с висше образование сред населението на различни територии и като цяло всички вторични характеристики, стойностите от които се изчисляват чрез разделяне на стойността на една основна характеристика на стойността на друга (виж глава 3).

Серията от интервални вариации е таблица, състояща се от две колони (или редове) - интервалите на признака, чиято вариация се изследва, и броя на единиците от съвкупността, попадащи в този интервал (честоти), или съотношението на това число от общата популация (честоти).

Най-често се използват два вида интервални вариационни серии: с еднакъв интервал и с еднаква честота. Серията с равен интервал се използва, ако вариацията на признака не е много силна, т.е. за хомогенна съвкупност, чието разпределение по даден признак е близко до нормалния закон. (Такава серия е представена в таблица 5.6.) Серия с еднаква честота се използва, ако вариацията на характеристиката е много силна, но разпределението не е нормално, а например хиперболично (таблица 5.5).

При конструирането на серия с равен интервал, броят на групите се избира така, че разнообразието от стойности на характеристиките в съвкупността да се отразява достатъчно добре и в същото време редовността на разпределението, неговата форма не се изкривява от случайни честотни колебания. Ако има твърде малко групи, няма да има модел на вариация; ако има твърде много групи, произволните честотни скокове ще изкривят формата на разпределението.


Границите на интервалите могат да бъдат определени по различни начини: горната граница на предишния интервал повтаря долната граница на следващия, както е показано в табл. 5.5, или не се повтаря.

В последния случай вторият интервал ще бъде обозначен като 15.1-20, третият - като 20.1-25 и т.н., т.е. предполага се, че всички стойности на добива са задължително закръглени до една десета. Освен това възниква нежелано усложнение със средата на интервала 15.1-20, който, строго погледнато, вече ще бъде равен не на 17.5, а на 17.55; съответно при замяна на закръгления интервал 40-60 с 40.1-60, вместо закръглената стойност на средата му 50, получаваме 50.5. Поради това е за предпочитане да се оставят интервали с повтаряща се закръглена граница и да се приеме, че единиците от съвкупността, които имат характерна стойност, равна на границата на интервала, са включени в интервала, където тази точна стойност е докладвана за първи път. Така ферма с добив от 15 центнера от хектар е включена в първата група, стойност от 20 центнера от хектар е включена във втората и т.н.

Необходима е вариационна серия с еднаква честота при много силна вариация на признак, тъй като при разпределение с еднакъв интервал повечето от единиците на съвкупността са

Таблица 5.5

Разпределение на 100 руски банки според балансовата оценка на активите към 01.01.2000 г.

Границите на интервалите за равномерно разпределение са действителните стойности на активите на първа, десета, единадесета, двадесета и т.н. банки.

Графично представяне на вариационната серия

Значителна помощ при анализа на вариационния ред и неговите свойства оказва графичното представяне. Интервалната поредица е представена от лентова графика, в която основите на лентите, разположени по абсцисната ос, са интервалите на стойностите на променливия атрибут, а височината на лентите са честотите, съответстващи на скалата по протежение на у-ос. Графично представяне на разпределението на стопанствата в региона по отношение на добивите от зърнени култури е показано на фиг. 5.1. Диаграма от този вид често се нарича хистограма (гр. histos - тъкан).

Таблица данни. 5.6 и фиг. 5.1 показват формата на разпределение, характерна за много черти: стойностите на средните интервали на чертата са по-чести, по-рядко екстремните, малки и големи стойности на чертата. Формата на това разпределение е близка до закона за нормалното разпределение, разглеждан в хода на математическата статистика. Великият руски математик А. М. Ляпунов (1857-1918) доказва, че нормалното

Таблица 5.6 Разпределение на стопанствата в региона по добив на зърнени култури

Малко разпределение се формира, когато една променлива е повлияна от голям брой фактори, нито един от които няма преобладаващо влияние. Случайна комбинация от много приблизително равни фактори, влияещи върху промените в добива на зърнени култури, както естествени, така и агротехнически, икономически, създава разпределение на фермите в региона по отношение на добива, близък до нормалния закон за разпределение.

Ориз. 5.2. Кумулатно и огива разпределение на фермите по добив

Такава серия се нарича кумулативна. Можете да изградите кумулативно разпределение „не по-малко от“ или можете „по-голямо от“. В първия случай графиката на кумулативното разпределение се нарича кумулативно, във втория - огив (фиг. 5.2).

Плътност на разпространение

Ако трябва да се справите с вариационна серия с неравни интервали, тогава за съпоставимост трябва да приведете честотата или честотата към единицата на интервала. Полученото съотношение се нарича плътност на разпределение:

Плътността на разпределение се използва както за изчисляване на обобщаващи показатели, така и за графично представяне на вариационни серии с неравни интервали.

производство на картофи класирани статистически

Въз основа на показателите в таблица 2 съставяме ранжирани редове за производство на картофи на 100 хектара обработваема земя; върху добива на картофи; на цена. Връзката между тези показатели е изобразена графично.

Първата стъпка в статистическото изследване на вариацията е изграждането на вариационна серия - подредено разпределение на популационните единици според нарастващи (по-често) или намаляващи (по-рядко) стойности на черта.

Има три форми на вариационна серия: диапазонна серия, дискретна серия, интервална серия. Вариационната серия често се нарича серия на разпределение.

Класирана серия е списък на отделни единици от популацията във възходящ (низходящ) ред на изследваната характеристика

Класирането е процедура за подреждане на обектите на изследване, която се извършва на базата на предпочитание. Диапазонът на вариация показва колко голяма е разликата между единиците на съвкупността.

Рангът е поредният номер на стойностите на атрибута, подредени във възходящ или низходящ ред на техните стойности. Ако стойността на атрибута има еднаква количествена оценка, тогава рангът на всички тези стойности се приема равен на средноаритметичното на съответния брой места, които са определени. Тези редици се наричат ​​свързани.

Графиките в статистиката са начин за визуализиране на статистически показатели под формата на геометрични фигури и знаци, чертежи или схематични карти. Визуалното изображение улеснява възприемането на информация, позволява ви да покриете набор от показатели във взаимовръзка, да идентифицирате тенденциите на развитие и типичните съотношения на показателите.

За показване на динамични индикатори е препоръчително да използвате линейни графики или лентови диаграми. Графиката трябва да е визуална, разбираема, лесна за четене и по възможност артистично оформена, която да привлича вниманието към нея.

При конструирането на точкови диаграми набор от точки се използва като графични проби; при конструиране на линейни - линии. Графиката винаги е творчески процес. Тук е необходимо известно търсене. Само след компилиране и сравняване на няколко чернови версии е възможно да се определи правилният състав на графиката, да се зададе мащабът и местоположението на знаците в полето на графиката.

От класирания ред за производство на картофи на 100 ха обработваема земя може да се направи следният извод, че най-ниско производство се наблюдава в Балаганския район, а Ангарският район има най-висока производителност на картофи от 100 ха обработваема земя.

Най-нисък е добивът в Качугски район - 10 ц / ха, а най-висок в Усолски - 195,5 ц / ха.

В област Чунски, с високо производство на картофи на 100 хектара обработваема земя, най-ниската цена от 1 c. Максималната цена се наблюдава в района на Нижне-Илимск. Диапазонът на вариация в цената на центнер картофи е много голям и е равен на 1161,01 рубли.

Други публикации

Анализ на стопанската дейност на предприятието
Преходът към пазарна икономика изисква предприятието да повиши ефективността на производството, конкурентоспособността на продуктите и услугите чрез въвеждане на ефективни форми на икономическо управление и управление на производството, постиженията на научния и технологичния прогрес и активирането на ...

Анализ на финансово-икономическата дейност на АД ТрансКонтейнер
Финансовият анализ е процес, базиран на изследване на данни за финансовото състояние на предприятието и резултатите от дейността му в миналото с цел оценка на бъдещите условия и резултати. По този начин основната задача на финансовия анализ е ...

КАТЕГОРИИ

ПОПУЛЯРНИ СТАТИИ

2023 "kingad.ru" - ултразвуково изследване на човешки органи