Rangurile de distribuție. Serii de distribuție de atribute și variații

Primul pas în studiul statistic al variației este construcția serie de variații - distribuția ordonată a unităților populației în funcție de valorile crescătoare (mai des) sau descrescătoare (mai rar) ale atributului și numărarea numărului de unități cu una sau alta valoare a atributului.

Există trei forme ale unei serii de variații: o serie variată, o serie discretă, o serie de intervale. Seria de variații este adesea numită aproape de distribuție. Acest termen este folosit în studiul variației atât a trăsăturilor cantitative, cât și a celor necantitative. Seria de distribuție este grupare structurală(vezi cap. 6).

Rând clasat - aceasta este o listă a unităților individuale ale populației în ordine crescătoare (descrescătoare) a trăsăturii studiate.

Tabelul 1 poate servi ca exemplu de serie clasificată. 5.5.

Tabelul 5.5

Băncile mari ale Sankt Petersburgului, clasate după dimensiunecapital propriu la data de 01.07.96

Dacă numărul de unități de populație este suficient de mare, seria clasată devine greoaie, iar construcția ei, chiar și cu ajutorul unui computer, durează mult. În astfel de cazuri, seria de variații se construiește prin gruparea unităților populației în funcție de valorile trăsăturii studiate.

Dacă atributul ia un număr mic de valori, se construiește o serie variațională discretă. Un exemplu de astfel de serie este distribuția meciurilor de fotbal după numărul de goluri marcate (Tabelul 5.1). Seria de variații discrete - acesta este un tabel format din două rânduri sau un grafic: valori specifice ale unui atribut variabil Xiși numărul de unități de populație cu valoarea dată a caracteristicii fi frecvențe (f este litera inițială a cuvântului englez frecvență).

Determinarea numărului de grupuri

Numărul de grupuri dintr-o serie de variații discrete este determinat de numărul de valori efectiv existente ale atributului variabil. Dacă trăsătura poate lua valori discrete, dar numărul lor este foarte mare (de exemplu, numărul de animale la 1 ianuarie a anului în diferite întreprinderi agricole poate varia de la zero la zeci de mii de capete), atunci o serie de variații pe intervale este construit. O serie variațională de interval este, de asemenea, construită pentru a studia caracteristicile care pot lua orice valoare, atât întreagă, cât și fracțională, în zona existenței lor. Astfel, de exemplu, profitabilitatea produselor vândute, costul unei unități de producție, venitul pe 1 locuitor al unui oraș, proporția persoanelor cu studii superioare în populația diferitelor teritorii și, în general, toate caracteristicile secundare, ale căror valori sunt calculate prin împărțirea valorii unei caracteristici primare la valoarea alteia (vezi cap. 3).

Seria de variație de interval este un tabel (format din două coloane (sau linii) - intervale ale trăsăturii, a căror variație este studiată și numărul de unități ale populației care se încadrează în acest interval (frecvențe), sau proporția acestui număr din populaţia totală (frecvenţe).

Atunci când construiți o serie de variații de interval, este necesar să alegeți numărul optim de grupuri (intervale de caractere) și să setați lungimea intervalului. Deoarece atunci când se analizează o serie variațională, frecvențele sunt comparate în intervale diferite, este necesar ca valoarea intervalului să fie constantă. Numărul optim de grupuri este ales în așa fel încât diversitatea valorilor trăsăturilor în agregat să fie suficient reflectată și, în același timp, regularitatea distribuției, forma acesteia să nu fie distorsionată de fluctuațiile aleatorii ale frecvenței. Dacă sunt prea puține grupuri, nu va exista nici un model de variație; dacă există prea multe grupuri, salturile aleatorii de frecvență vor distorsiona forma distribuției.

Cel mai adesea, numărul de grupuri din seria variațională este determinat prin respectarea formulei recomandate de statisticianul american Sturgess (Sturgess):

Unde k- numărul de grupuri; n- mărimea populaţiei.

Această formulă arată că numărul de grupuri este o funcție de cantitatea de date.

Să presupunem că este necesar să se construiască o serie variațională de distribuție a întreprinderilor din regiune în funcție de randamentul culturilor de cereale pentru un anumit an. Numărul întreprinderilor agricole cu culturi de cereale a fost de 143; cea mai mică valoare de producție este de 10,7 c/ha, cea mai mare este de 53,1 c/ha. Avem:

Deoarece numărul de grupuri este întreg, se recomandă să construiți 8 sau 9 grupuri.

Determinarea mărimii intervalului

Cunoscând numărul de grupuri, calculați valoarea intervalului:

În exemplul nostru, valoarea intervalului este:

a) cu 8 grupe

b) cu 9 grupe

Pentru a construi o serie și a analiza variația, este mult mai bine să aveți valori rotunjite ale mărimii intervalului și limitelor acestuia, dacă este posibil. Prin urmare, cea mai bună soluție ar fi construirea unei serii de variații cu 9 grupuri cu un interval egal cu 5 q/ha. Această serie de variații este dată în tabel. 5.6, iar reprezentarea sa grafică este dată în fig. 5.1.

Limitele intervalelor pot fi specificate în diferite moduri: limita superioară a intervalului anterior repetă limita inferioară a celui următor, așa cum se arată în tabel. 5.6, sau nu se repetă.

În acest din urmă caz, al doilea interval va fi desemnat ca 15.1-20, al treilea ca 20.1-25 etc., i.e. se presupune că toate valorile randamentului sunt în mod necesar rotunjite la o zecime. În plus, o complicație nedorită apare la mijlocul intervalului 15,1-20, care, strict vorbind, va fi deja egal nu cu 17,5, ci cu 17,55; în consecință, la înlocuirea intervalului rotunjit 40-60 cu 40,1-6,0, în loc de valoarea rotunjită a mijlocului său 50, obținem 50,5. Prin urmare, este de preferat să lăsăm intervalele cu o margine rotunjită care se repetă și să convină că unitățile populației care au o valoare caracteristică egală cu marginea intervalului, sunt incluse în intervalul în care această valoare exactă este raportată pentru prima dată. Astfel, o fermă cu un randament de 15 cenți la hectar este inclusă în prima grupă, o valoare de 20 cenți la hectar este inclusă în a doua și așa mai departe.

Orez. 5.1. Repartizarea fermelor după randament

Tabelul 5.6

Repartizarea fermelor din regiune în funcție de randamentul culturilor de cereale

Grupuri de ferme după randament,

c/ha Xj

Numărul de ferme

Mijlocul intervalului

c/ha Xj"

Frecvența acumulată f'j

Reprezentarea grafică a seriei de variații

O asistență semnificativă în analiza seriei variaționale și a proprietăților sale este oferită de o reprezentare grafică. Seria de intervale este reprezentată de un grafic cu bare, în care bazele barelor, situate pe axa absciselor, sunt intervalele valorilor atributului variabil, iar înălțimile barelor sunt frecvențele corespunzătoare scalei. de-a lungul axei y. În fig. 5.1. Acest tip de diagramă este adesea numit histogramă(din cuvântul grecesc „histos” - țesut, structură).

Date din tabel. 5.5 și fig. 5.1 arată forma de distribuție caracteristică multor semne: valorile intervalelor medii ale semnului sunt mai frecvente, mai rar - extreme; valori mici și mari ale caracteristicii. Forma acestei distribuții este apropiată de legea distribuției normale luată în considerare în cursul statisticii matematice. Marele matematician rus A. M. Lyapunov (1857 - 1918) a demonstrat că o distribuție normală se formează dacă o variabilă variabilă este influențată de un număr mare de factori, dintre care niciunul nu are o influență predominantă. O combinație aleatorie a mai multor factori aproximativ egali care afectează variația randamentului culturilor de cereale, atât naturale, cât și agrotehnice, economice, creează o distribuție a fermelor din regiune după randament apropiată de legea normală de distribuție.

Dacă există o serie variațională discretă sau se folosesc punctele medii ale intervalelor, atunci reprezentarea grafică a unei astfel de serii variaționale se numește poligon(din cuvintele grecești - un poligon). Fiecare dintre voi poate construi cu ușurință acest grafic conectând punctele cu coordonate cu linii drepte X,Și /.

Raportul dintre înălțimea unui poligon sau diagramă și baza acestuia este recomandat la un raport de aproximativ 5:8.

Conceptul de frecvență

Dacă în tabel 5.6 Exprimați numărul de ferme cu unul sau altul nivel de productivitate ca procent din total, luând întregul număr de ferme (143) ca 100%, apoi randamentul mediu poate fi calculat după cum urmează:

Unde w- frecventa categoriei a 7-a a seriei de variatii;

Distribuție cumulativă

Forma transformată a seriei de variații este un număr de frecvențe acumulate, dat în tabel. 5.6, coloana 5. Aceasta este o serie de valori pentru numărul de unități din populație cu mai puțin și egal cu limita inferioară a valorilor intervalului corespunzătoare ale atributului. O astfel de serie se numește cumulativ. Puteți construi o distribuție cumulată „nu mai puțin decât” sau puteți „mai mare decât”. În primul caz, se numește diagrama de distribuție cumulată cumula, in secunda - ogivă(Fig. 5.2).

Densitate, distribuții

Dacă aveți de-a face cu o serie variațională cu intervale inegale, atunci pentru comparabilitate trebuie să aduceți frecvența sau frecvența la unitatea intervalului. Raportul rezultat se numește densitatea de distribuție:

Densitatea de distribuție este utilizată atât pentru calcularea indicatorilor generalizatori, cât și pentru reprezentarea grafică a seriilor de variații cu intervale inegale.

Orez. 5.2. Ogiva și distribuția cumulată a randamentului

5.7. Caracteristicile structurale ale variationalului rând

Mediana de distribuție

Când se studiază variația, se folosesc astfel de caracteristici ale seriei variaționale care descriu cantitativ structura, structura acesteia. Așa este, de exemplu, median- valoarea caracteristicii variabile care împarte populația în două părți egale ~ cu valori ale caracteristicilor mai mici decât mediana ȘI cu valori ale caracteristicilor mai mari decât mediana (al treilea banc de cinci din Tabelul 5.5, adică 196 de miliarde de ruble).

Pe exemplul lui Table. 5.5 arată diferența fundamentală dintre mediană și medie. Mediana nu depinde de valorile caracteristicilor de la marginile seriei clasate. Chiar dacă capitalul celei mai mari bănci din Sankt Petersburg ar fi de zece ori mai mare, valoarea mediană nu s-ar modifica. Prin urmare, mediana este adesea folosită ca un indicator mai fiabil al valorii tipice a unei caracteristici decât media aritmetică, dacă seria de valori este eterogenă, include abateri puternice de la medie. În această serie, valoarea medie a capitalului propriu, egală cu 269 de miliarde de ruble, s-a format sub influența puternică a celei mai mari opțiuni. 80% dintre bănci au capital mai mic decât media și doar 20% au mai mult. Este puțin probabil ca o astfel de medie să poată fi considerată o valoare tipică. Cu un număr par de unități de populație, mediana este luată ca medie aritmetică a celor două opțiuni centrale, de exemplu, cu zece valori ale atributului, media valorilor a cincea și a șasea din seria clasată.

Într-o serie variațională de interval, formula (5.14) este utilizată pentru a găsi mediana.

unde Eu este mediana;

x 0 - limita inferioară a intervalului în care se află mediana;

f M e-1 - frecventa acumulata in intervalul care precede mediana;

f Eu- frecventa in intervalul median;

i- valoarea intervalului;

k - număr de grupuri.

În tabel. 5,6 mediana este media a 143 de valori, i.e. șaptezeci și secunde de la începutul seriei valoarea productivității. După cum se poate observa din numărul de frecvențe acumulate, acesta se află în al patrulea interval. Apoi

Cu un număr impar de unități de populație, numărul median, după cum vedem, este egal cu nu , ca în formula (5.14), a , dar această distincție nu este semnificativă și este de obicei ignorată în practică.

Într-o serie variațională discretă, mediana trebuie considerată valoarea caracteristicii din grupul în care frecvența acumulată;

mai mult de jumătate din populație. De exemplu, pentru datele din tabel. 5.1 Numărul mediu de goluri marcate pe meci va fi de 2.

Quartile de distribuție

În mod similar cu mediana, se calculează valorile atributului, împărțind populația în patru părți egale în numărul de unități. Aceste cantități se numesc quartilesși sunt notate cu o „litera” latină majusculă Q cu o insignă semnată cu numărul quartilei. Este clar că Q 2 se potrivește cu Mine. Pentru prima și a treia quartile, prezentăm formulele și calculul conform tabelului. 5.6.

Deoarece Q 2 = Me = 29,5 c/ha, se poate observa că diferența dintre prima cuartilă și mediană este mai mică decât între mediană și a treia cuartilă. Acest fapt indică prezența unei anumite asimetrii în regiunea mijlocie a distribuției, care este de asemenea observabilă în Fig. 5.1.

Se numesc valorile caracteristice care împart seria în cinci părți egale chintileîn zece părți decili, o sută de părți percentile. Deoarece aceste caracteristici sunt utilizate numai atunci când este necesar să se studieze în detaliu structura seriei variaționale, nu le vom oferi formulele și calculul.

Modul de distribuție

Fără îndoială, o asemenea valoare a unei trăsături care apare în seria studiată, în agregat cel mai adesea, are o importanță deosebită. Această cantitate se numește Modăși notează Mo. Într-o serie discretă, modul este determinat fără calcul ca valoare a caracteristicii cu cea mai mare frecvență. De exemplu, conform tabelului. 5,1 cel mai adesea s-au marcat 2 goluri într-un meci de fotbal - de 71 de ori. Modul este numărul 2. De obicei, există rânduri cu o singură valoare modală a atributului. Dacă două sau mai multe valori egale (și chiar mai multe diferite, dar mai mari decât învecinate) ale unei caracteristici sunt prezente în seria de variații, aceasta este considerată bimodală („camel-like”) sau, respectiv, multimodală. Aceasta indică eterogenitatea mulțimii, reprezentând eventual un agregat de mai multe mulțimi cu moduri diferite.

Deci, în mulțimea de turiști care au venit din diferite țări, în loc de o îmbrăcăminte la modă care predomină printre rezidenții locali, puteți găsi un amestec de diferite „mode” adoptate de diferite popoare ale lumii.

Într-o serie de variații de interval, în special cu o variație continuă a unei caracteristici, strict vorbind, fiecare valoare a caracteristicii apare o singură dată. Intervalul modal este intervalul cu cea mai mare frecvență.În acest interval se găsește valoarea condiționată a atributului, lângă care densitatea distribuției, adică. numărul de unităţi de populaţie pe unitatea de măsură a unui atribut variabil atinge un maxim. Aceasta este o valoare condiționată și este luată în considerare modă puncte. Este logic să presupunem că un astfel de mod punctual este situat mai aproape de cel al limitelor intervalului, dincolo de care frecvența în intervalul vecin este mai mare decât frecvența în intervalul dincolo de cealaltă limită a intervalului modal. Prin urmare, avem formula utilizată în mod obișnuit (5.15):

Unde X 0 - limita inferioară a intervalului modal;

f Mo - frecvența în intervalul modal;

f Mo -1 - frecventa in intervalul anterior;

f Mo +1 - frecventa in intervalul urmator dupa modal;

i - valoarea intervalului.

Conform Tabelului. 5.6 calculați moda:

Calculul modului în seria de intervale este mai degrabă condiționat. Aproximativ, Mo poate fi determinat grafic (vezi Fig. 5.1).

Valoarea medie aritmetică este, de asemenea, relevantă pentru studiul structurii seriei variaționale, deși valoarea principală a acestui indicator de generalizare este diferită. În seria de distribuție a fermelor după randament (Tabelul 5.6), randamentul mediu este calculat ca mijlocul ponderat în funcție de frecvență al intervalelor. X(prin formula (5.2)):

Relația dintre medie, mediană și mod

Diferența dintre media aritmetică, mediană și mod în această distribuție este mică. Dacă distribuția în formă este apropiată de legea normală, atunci mediana este între mod și valoarea medie și mai aproape de medie decât de mod.

Cu asimetrie pe partea dreaptă X̅ > Eu > Mo;

cu asimetrie pe partea stângă X̅ < Pe mine< Mo.

Pentru distribuțiile moderat deformate, egalitatea este adevărată:

5.8. Măsuri de mărime și intensitate variatii

Mărimile medii absolute ale variației

Următoarea etapă în studiul variației trăsăturii în agregat este măsurarea caracteristicilor forței, mărimea variației. Cel mai simplu dintre ele poate fi domeniul de aplicare sau amplitudinea variației - diferența absolută dintre valorile maxime și minime ale unei trăsături față de valorile disponibile în setul de valori studiat. Astfel, intervalul de variație este calculat prin formulă

Deoarece mărimea intervalului caracterizează doar diferența maximă a valorilor atributului, nu poate măsura puterea regulată a variației sale în întreaga populație. Indicatorul destinat în acest scop ar trebui să ia în considerare și să generalizeze toate diferențele dintre valorile atributului în agregat, fără excepție. Numărul acestor diferențe este egal cu numărul combinațiilor a doi din toate unitățile populației; conform tabelului. 5.6 va fi: C^= 10 153. Cu toate acestea, nu este nevoie să se ia în considerare, să se calculeze și să se facă o medie a tuturor abaterilor. Este mai ușor să utilizați media abaterilor valorilor atributelor individuale de la valoarea medie aritmetică a atributului și există doar 143. Dar abaterea medie a valorilor atributelor de la valoarea medie aritmetică a atributului, conform la proprietatea binecunoscută a acestuia din urmă, este zero. Prin urmare, un indicator al puterii variației nu este media algebrică a abaterilor, ci modulul mediu al abaterilor:

Conform Tabelului. 5.6 modul mediu sau abaterea liniară medie,în valoare absolută se calculează ca o abatere ponderată în frecvență modulo punctele medii ale intervalelor de la media aritmetică, i.e. conform formulei

Aceasta înseamnă că, în medie, randamentul din ansamblul fermelor studiat a deviat de la randamentul mediu din regiune cu 6,85 c/ha. Simplitatea calculului și interpretării sunt aspectele pozitive ale acestui indicator, cu toate acestea, proprietățile matematice ale modulelor sunt „rele”: al lor nu poate fi adus în conformitate cu nicio lege probabilistică, inclusiv cu distribuția normală, al cărei parametru nu este modulul de abatere medie, ci deviație standard(în engleză programe de calculator numite „deviația standard”, abreviat „s.d.” sau pur și simplu « s», în limba rusă - NKO). În literatura statistică, abaterea standard de la valoarea medie este de obicei indicată printr-o literă greacă mică (minuscule) sigma (st) sau s(vezi cap. 7):

pentru seriale clasate

pentru serii de intervale

Conform Tabelului. 5.6 abaterea standard a randamentului cerealelor a fost:

Trebuie subliniat că o anumită rotunjire a valorii medii și a punctelor medii ale intervalelor, de exemplu, la numere întregi, are un efect redus asupra valorii lui σ, care ar ajunge apoi la 8,55 c/ha.

Abaterea standard în mărime în populațiile reale este întotdeauna mai mare decât modulul de abatere medie. Raport (la: A depinde de prezența abaterilor ascuțite, proeminente în agregate și poate servi ca un indicator al „contaminarii” agregatului cu elemente eterogene cu masa principală: cu cât acest raport este mai mare, cu atât mai puternică o astfel de „contaminare”. Pentru legea distribuției normale σ: a = 1,2.

Conceptul de dispersie

Pătratul abaterii standard dă valoarea dispersie σ 2 . Formula de dispersie:

simplu (pentru date negrupate):

ponderat (pentru date grupate):

Aproape toate metodele de statistică matematică se bazează pe dispersie. De mare importanță practică este regula de adăugare a variațiilor (vezi cap. 6).

Alte măsuri de variație

Un alt indicator al puterii variației, care o caracterizează nu în întreaga populație, ci numai în partea centrală, este distanță medie sfert, acestea. valoarea medie a diferenței dintre cuartile, notată mai jos ca q:

Pentru repartizarea întreprinderilor agricole după randament în tabel. 5.2

q\u003d (36,25 - 25,09): 2 \u003d 5,58 kg / ha. Puterea variației în partea centrală a populației, de regulă, este mai mică decât în ​​întreaga populație. Raportul dintre modulul mediu al abaterilor și abaterea medie trimestrială servește și la studiul structurii variației: o valoare mare a acestui raport indică prezența unui „nucleu” slab variabil și a unui mediu puternic împrăștiat în jurul acestui nucleu, sau „halo”. „în populația studiată. Pentru datele din tabel. raport 5,6 a: q= 1,23, ceea ce indică o mică diferență în puterea variației în partea centrală a populației și la periferia acesteia.

Pentru a evalua intensitatea variației și pentru a o compara în diferite populații, și cu atât mai mult pentru diferite trăsături, este necesar să se indicatori relativi de variație. Ele sunt calculate ca raportul dintre indicatorii absoluti ai puterii variației, discutați mai devreme, și valoarea medie aritmetică a trăsăturii. Obținem următorii indicatori:

1) interval relativ de variație p:

2) abaterea relativă modulo T:

3) coeficientul de variație ca abatere relativă pătrată v:

4) distanță relativă sfert d:

Unde q - distanță medie de quartile.

Pentru a varia randamentul conform tabelului. 5.6 acești indicatori sunt:

ρ = 42,4: 30,3 = 1,4 sau 140%;

T= 6,85: 30,3 = 0,226 sau 22,6%;

v = 8,44: 30,3 = 0,279 sau 27,9%;

d= 5,58: 30,3 = 0,184 sau 18,4%.

O evaluare a gradului de intensitate a variației este posibilă numai pentru fiecare caracteristică individuală a unei populații cu o anumită compoziție. Deci, pentru un set de întreprinderi agricole, variația randamentului în aceeași regiune naturală poate fi evaluată ca slabă dacă v < 10%, умеренная при 10% < v < 25% и сильная при v > 25%.

Dimpotrivă, variația înălțimii în populația bărbaților sau femeilor adulți aflat deja la un coeficient egal cu 7% ar trebui evaluată și percepută de oameni ca fiind puternică. Astfel, aprecierea intensității variației constă în compararea variației observate cu o parte din intensitatea ei obișnuită, luată ca standard. Suntem obișnuiți cu faptul că productivitatea, câștigurile sau venitul pe cap de locuitor, numărul de camere de locuit dintr-o clădire poate diferi de câteva ori chiar de zeci de ori, dar diferența de înălțime a oamenilor de cel puțin o dată și jumătate este deja percepută ca fiind foarte puternic.

Diferite variații de forță, intensitate se datorează unor motive obiective. De exemplu, prețul de vânzare al dolarului american în băncile comerciale din Sankt Petersburg la 24 ianuarie 1997 a variat de la 5675 la 5640 de ruble. la un preț mediu de 5664 de ruble. Gama relativă de variație ρ = 35:5664 = 0,6%. O variație atât de mică se datorează faptului că, cu o diferență semnificativă a cursului de schimb al dolarului, ar exista imediat o ieșire de cumpărători de la banca „scumpă” către cele „mai ieftine”. Dimpotrivă, prețul unui kilogram de cartofi sau carne de vită în diferite regiuni ale Rusiei variază foarte mult - cu zeci de procente sau mai mult. Acest lucru se datorează costurilor diferite pentru livrarea mărfurilor din regiunea producătoare către regiunea consumatoare, de exemplu. proverbul „o junincă de peste mări este jumătate, dar o rublă se transportă”.

5.9. Momente de distribuție și indicatori formele sale

Momente centrale de distribuție

Pentru studiul suplimentar al naturii variației, se folosesc valorile medii ale diferitelor grade de abatere ale valorilor individuale ale unei trăsături de la valoarea medie aritmetică a acesteia. Acești indicatori se numesc momente centrale distribuții de ordin corespunzătoare puterii la care sunt ridicate abaterile (Tabelul 5.7), sau pur și simplu momente (momentele necentrale sunt rar folosite și nu vor fi luate în considerare aici). Valoarea celui de-al treilea moment ts- depinde, ca și semnul său, de predominanța cuburilor pozitive de abateri asupra cuburilor negative, sau invers. Sub distribuția normală și în orice altă distribuție strict simetrică, suma cuburilor pozitive este strict egală cu suma cuburilor negative.

Indicatori de asimetrie

Pe baza momentului de ordin al treilea, este posibil să se construiască un indicator care caracterizează gradul de asimetrie a distribuției:

La fel de numit factor de asimetrie. Poate fi calculat atât din date grupate, cât și din date negrupate. Conform Tabelului. 5.6 indicele de asimetrie a fost:

acestea. asimetria este ușoară. Statisticianul englez K. Pearson, pe baza diferenței dintre valoarea medie și mod, a propus un alt indicator al asimetriei

Tabelul 5.7

Momente centrale

Conform Tabelului. 5.6 Indicele lui Pearson a fost:

Indicele Pearson depinde de gradul de asimetrie din partea de mijloc a seriei de distribuție, iar indicele de asimetrie, bazat pe momentul de ordinul al treilea, depinde de valorile extreme ale trăsăturii. Astfel, în exemplul nostru, în partea de mijloc a distribuției, asimetria este mai semnificativă, ceea ce se poate observa și din grafic (Fig. 5.1). Distribuțiile cu asimetrie puternică pe partea dreaptă și pe partea stângă (pozitivă și negativă) sunt prezentate în Fig. 5.3.

Caracterizarea curtozei distribuţiei

Cu ajutorul momentului de ordinul al patrulea, o proprietate și mai complexă a seriei de distribuție decât asimetria, numită curtoză.


Orez. 5.3. Asimetrie, distribuții

Indicatorul de curtoză este calculat prin formula

(5.30)

Adesea, kurtoza este interpretată ca „abruptitatea” distribuției, dar aceasta este imprecisă și incompletă. Graficul de distribuție poate arăta arbitrar abrupt, în funcție de puterea variației trăsăturii: cu cât variația este mai slabă, cu atât curba de distribuție este mai abruptă la o scară dată. Ca să nu mai vorbim de faptul că prin schimbarea scărilor de-a lungul abscisei și de-a lungul ordonatei, orice distribuție poate fi făcută artificial „abruptă” și „înclinată”. Pentru a arăta care este curtoza distribuției și pentru a o interpreta corect, trebuie să comparați serii cu aceeași putere de variație (aceeași valoare a lui σ) și diferiți indicatori de curtoză. Pentru a nu confunda kurtosis cu asimetrie, toate rândurile comparate trebuie să fie simetrice. O astfel de comparație este prezentată în fig. 5.4.

Fig.5.4. Curtoza de distribuție

Pentru o serie variațională cu o distribuție normală, valorile i indicator de curtoză, calculat prin formula (5.30), j este egal cu trei.

Cu toate acestea, un astfel de indicator nu ar trebui să fie numit termenul „kurtosis”, care înseamnă „exces” în traducere. Termenul „kurtoză” ar trebui aplicat nu raportului în sine conform formulei (5.30), ci comparării unui astfel de raport pentru distribuția studiată cu valoarea raportului dat al distribuției normale, adică. cu o valoare de 3. De aici formulele finale pentru indicatorul de curtoză, i.e. excesele în comparație cu distribuția normală cu aceeași putere de variație, au forma:

pentru seriale clasate

pentru serii de intervale și variații discrete

Prezența unei kurtoze pozitive, precum și diferența semnificativă observată anterior între o distanță trimestrială mică și o abatere standard mare, înseamnă că în masa studiată a fenomenelor există un „miez” care variază ușor în această caracteristică, înconjurat de o „aureola” împrăștiată. Cu o curtoză negativă semnificativă, nu există deloc un astfel de „nucleu”.

Prin valorile indicatorilor de asimetrie și curtoză ai distribuției, se poate aprecia apropierea distribuției de cea normală, ceea ce este esențial pentru evaluarea rezultatelor analizei de corelație și regresie, posibilitățile de evaluare probabilistică a prognozelor ( vezi capitolele 7,8,9). Distribuția poate fi considerată normală, sau mai precis, ipoteza asemănării distribuției reale cu distribuția normală nu poate fi respinsă dacă indicatorii de asimetrie și curtoză nu își depășesc abaterile standard de două ori Cm. Aceste abateri standard sunt calculate prin formulele:

5.10. Valori maxime posibile indicatori de variație și aplicarea acestora

Atunci când se aplică orice fel de indicatori statistici, este util să se cunoască care sunt valorile maxime posibile ale unui indicator dat pentru sistemul studiat și care este raportul dintre valorile efectiv observate și maximul posibil. Această problemă este deosebit de relevantă atunci când se studiază variația indicatorilor de volum, cum ar fi volumul producției unui anumit tip de produs, disponibilitatea anumitor resurse, distribuția investițiilor de capital, veniturile și profiturile. Să luăm în considerare teoretic și practic această problemă pe exemplul distribuției producției de legume între întreprinderile agricole din regiune.

Este evident că valoarea minimă posibilă a indicatorilor de variație se realizează cu o distribuție strict uniformă a trăsăturii de volum între toate unitățile populației, adică cu același volum de producție în fiecare dintre întreprinderile agricole. Într-o astfel de distribuție limitativă (desigur, foarte puțin probabilă în practică), nu există nicio variație și toți indicatorii, variațiile sunt egale cu zero.

Valoarea maximă posibilă a indicatorilor de variație se realizează cu o astfel de distribuție a trăsăturii de volum în populație, în care întregul său volum este concentrat într-o unitate a populației; de exemplu, întregul volum al producției de legume - într-o întreprindere agricolă a raionului în absența producției lor în alte ferme. Probabilitatea unei astfel de concentrari extrem de posibile a volumului unei caracteristici într-o unitate a populației nu este atât de mică; în orice caz, este mult mai mare decât probabilitatea unei distribuții strict uniforme.

Luați în considerare exponenții de variație pentru cazul limită indicat al maximului său. Să notăm numărul de unități de populație P, valoarea medie a trăsăturii X̅ , atunci volumul total al caracteristicii în agregat va fi exprimat ca X̅ P. Tot acest volum este concentrat într-o unitate a populaţiei, astfel încât Xmax= x̅ p. xmin = 0, de unde rezultă că valoarea maximă a amplitudinii (gamă de variație) este egală cu:

Pentru a calcula valorile maxime ale abaterilor medii modulo și pătratice, vom construi un tabel de abateri (Tabelul 5.8).

Tabelul 5.8

Module și pătrate ale abaterilor de la medie la maximposibila variatie

Numerele unităților populației

Valori caracteristice

Abateri de la medie

x i - X̅

Module de abatere

|x i - x̅|

Pătratele de abatere

(Xi- X̅ ) 2

X̅ P

X̅ (P - 1)

-X̅

-X̅

-X̅

X̅ (P - 1)

X̅

X̅

X̅

X̅ 2 (P - 1) 2

X̅ 2

X̅ 2

X̅ 2

X̅ P

2X̅ (P - 1)

X̅ 2 [(P - 1) 2 +(n-1)]

Pe baza expresiilor din linia finală a tabelului. 5.8, obținem următoarele valori maxime posibile ale indicatorilor de variație.

Modulul mediu al abaterilor sau deviația liniară medie:

Deviație standard:

Abatere relativă modulară (liniară):

Coeficientul de variație:

În ceea ce privește distanța trimestrială, sistemul cu variația maximă posibilă are o structură degenerată a distribuției caracteristicilor, în care nu există caracteristici („nu funcționează”) ale structurii: mediană, quartile și altele asemenea.

Pe baza formulelor obținute pentru valorile maxime posibile ale principalelor indicatori de variație, în primul rând, urmează concluzia despre dependența acestor valori de volumul populației P. Această dependență este rezumată în tabel. 5.9.

Cele mai înguste limite de schimbare și o dependență slabă de mărimea populației relevă modulul mediu și deviația liniară relativă. Dimpotrivă, abaterea standard și coeficientul de variație depind puternic de numărul de unități de populație. Această dependență ar trebui luată în considerare atunci când se compară intensitatea variației în populațiile de diferite dimensiuni. Dacă în totalul a șase întreprinderi coeficientul de variație a volumului producției a fost de 0,58, iar în totalul a 20 de întreprinderi a fost 0,72, atunci este corect să concluzionăm că volumul producției în a doua populație este mai inegal? Într-adevăr, în primul, mai mic, acesta se ridica la 0,58: 2,24 = 25,9% din maximul posibil, adică. limită, nivelul de concentrare a producției într-o întreprindere din șase, iar în al doilea set, mai mare, coeficientul de variație observat a fost de numai 0,72: 4,36 = 16,5% din maximul posibil.

Tabelul 5.9

Valori limită ale indicatorilor de variație a unei caracteristici volumetrice pentru diferite dimensiuni ale populației

Dimensiunea populației

Valorile maxime ale indicatorilor

X̅

X̅

1,5X̅

1,73X̅

1,67X̅

2,24X̅

1,80X̅

3X̅

1,90X̅

4,36X̅

1,96X̅

7X̅

1,98X̅

9,95X̅

2X̅

De importanță practică este un astfel de indicator precum raportul dintre modulul de abatere medie reală și maximul posibil. Astfel, pentru agregatul celor șase întreprinderi, acest raport a fost: 0,47: 1,67 = 0,281, sau 28,1%. Interpretarea indicatorului obținut este următoarea: pentru a trece de la distribuția observată a producției între întreprinderi la o distribuție uniformă, ar fi necesară redistribuirea

, sau 23,4% din producția totală totală. Dacă gradul de concentrare reală a producției (valoarea reală a σ sau v) este o anumită fracțiune din valoarea marginală în cazul monopolizării producției la o întreprindere, atunci raportul dintre indicatorul efectiv și cel marginal poate caracteriza gradul de concentrare (sau monopolizare) a producției.

Rapoartele valorilor reale ale indicatorilor de variație sau modificare a structurii la maximum posibil sunt, de asemenea, utilizate în analiza schimbărilor structurale (a se vedea capitolul 11).

1. Jeanie K. Valori medii. - M.: Statistică, 1970.

2. Krivenkova L. N., Yuzbashev M. M. Zona de existență a indicatorilor de variație și aplicarea acestora // Buletin de statistică. - 1991. - Nr. 6. - S. 66-70.

3. Paskhaver I. S. Valori medii în statistici. - M.: Statistică. 1979.

4. Shurakov V. V., Dayitbegov D. M. și alții. Stație de lucru automatizată pentru prelucrarea datelor statistice (Capitolul 4. Prelucrarea preliminară a datelor statistice). - M.: Finanțe și statistică, 1990.

Variind- procedura de ordonare a oricăror obiecte în ordinea crescătoare sau descrescătoare a unora dintre proprietățile lor, cu condiția ca acestea să aibă această proprietate.

Poți clasa:

Stat după nivel de trai, natalitate, șomaj;

Profesii prin prestigiu;

Bunuri conform preferintei consumatorului;

Respondenți după activitate politică, situație financiară;

Obiectele de clasare sunt acele obiecte care sunt ordonate direct. Clasament de bază(atribut de clasare) - proprietatea după care sunt ordonate obiectele. Ca rezultat al clasamentului, obținem o serie clasată, în care fiecărui obiect i se atribuie propriul său individ rang- locul obiectului în rândul clasat. Numărul de locuri și, în consecință, numărul de ranguri din seria clasată este egal cu numărul de obiecte.

Tipuri de serii clasate:

1) fiecărui obiect are o valoare caracteristică care este diferită de valorile caracteristicii altor obiecte, apoi fiecărui obiect din seria clasată i se atribuie propriul rang, diferit de alt obiect;

2) mai multe obiecte au aceeași valoare de atribut, apoi acestor obiecte din seria clasată li se atribuie aceleași ranguri, calculate după o anumită formulă. În acest caz, seria clasată se numește o serie clasificată cu ranguri asociate. Când rezolvăm probleme, vom atribui primul rang celei mai mari valori a caracteristicii. Rangul asociat este calculat ca media locurilor ocupate de obiecte care au aceeași valoare caracteristică. Stabilirea unei relații statistice pentru 2 sau mai multe serii clasate se realizează folosind rang coeficienți de conexiune- astfel de coeficienți care vă permit să calculați gradul de consistență în clasamentul acelorași obiecte pe două temeiuri (trăsături) diferite. Cel mai comun coeficient de conexiune de rang (corelația de rang) este coeficientul ρ-Spearman.

Să presupunem că n obiecte sunt ordonate după atributul x și după atributul y. Lăsa

Măsura nepotrivirii rangurilor celui de-al i-lea obiect: d i = R x i - R y i

Proprietăți:

Modificări în intervalul de la -1 la 1;

Po = 1 dacă există consistență completă a seriei clasate; rangurile unuia și aceluiași obiect sunt aceleași din două motive.

Po = -1 dacă există o inconsecvență completă a seriei clasate; această situație apare dacă seriile de clasare au sens invers: R x i – 1 2 3 4 5; R y i – 5 4 3 2 1.

Notă: poate fi calculat pentru două tipuri de egali (dacă fiecare obiect are propriul rang și dacă există ranguri înrudite).

Testarea ipotezei despre semnificația statistică a coeficientului ρ-Spearman.

H 0: ρ gs = 0

H 1: ρ gs ≠ 0

Ipoteza nulă afirmă întotdeauna că ρ este egal cu 0. Ipoteza alternativă este că valoarea lui ρ este diferită de 0.

Nivel de semnificație ca în tabelele de situație.

Stat A B ÎN G D E ȘI W ȘI
Calitatea vieții 6,8 7,0 6,5 5,9 4,6 5,7 4,5 5,8 4,0
Şomaj 20,3 18,0 19,8 23,4 21,6 20,8
rangul x
rangul y
|d i |
d 2 i
Σ d 2 i

τ - Kendall este diferența dintre probabilitățile de ordine corectă și incorectă pentru două observații extrase aleatoriu din populație, cu condiția să nu existe ranguri asociate. Proprietăți:

Modificări de la -1 la 1;

Dacă caracteristicile x și y sunt independente statistic, atunci coeficientul τ devine 0; dacă τ este egal cu 0, nu înseamnă că caracteristicile sunt independente statistic;

Dacă τ este egal cu 1, aceasta înseamnă că există o relație statistică directă completă între caracteristicile sau seriile clasificate sunt complet consistente; dacă τ este -1, înseamnă că există o relație statistică inversă completă, sau seriile clasificate sunt inconsecvente.

S este numărul total de perechi de obiecte cu o ordine corectă consecventă pentru ambele obiecte. D este numărul total de perechi de obiecte cu ordine greșită inconsecventă pentru ambele obiecte.

Testarea ipotezei despre semnificația statistică a coeficientului τ:

H0: τ gs = 0

H1: τ gs ≠ 0

Coeficientul τ este semnificativ statistic dacă valoarea lui pentru HS este diferită de 0.

|Z H | > Z cr => H 1

Dacă construim o serie clasată pentru un număr mic de obiecte, atunci confirmarea ipotezei nule ne spune că trebuie să studiem un număr mai mare de obiecte.

Dacă a fost studiat un număr suficient de obiecte, atunci confirmarea ipotezei nule indică faptul că nu există nicio relație între trăsături.

Coeficientul de legături de rang multiplu

Se folosește în cazurile în care este necesară măsurarea relației dintre mai mult de 2 serii clasate (de exemplu, atunci când dorim să evaluăm consistența opiniilor experților (mai mult de 2) atunci când evaluăm 1 și aceleași obiecte).

S este suma abaterilor pătrate ale valorilor rangului pentru rând de la rangul mediu pentru întreaga populație. k 2 – numărul de variabile (numărul de experți). n este numărul de obiecte clasate.

Conceptul de rezumat, grupare, clasificare

rezumat- sistematizare și însumare: buletin meteo, rezumat din câmpuri. Rezumatul nu permite analiza detaliată a informațiilor. Orice rezumat ar trebui să se bazeze pe gruparea datelor, de ex. mai întâi gruparea, apoi rezumarea datelor.

gruparea- împărțirea populațiilor într-un număr de grupe după cele mai semnificative trăsături.

Faceți distincția între gruparea calitativă și cea cantitativă. calitate- atributiv cantitativ- variație. La rândul său, variaționalul este împărțit în structural și analitic . Structural gruparea presupune calcularea proporţiei fiecărui grup. Exemplu: într-o întreprindere, 80% sunt muncitori, 20% sunt angajați, dintre care 5% sunt manageri, 3% sunt angajați, 12% sunt specialiști. Ţintă analitic grupări - pentru a identifica relația dintre semne: experiența de muncă și câștigul mediu, experiența și producția și altele.

La grupare, trebuie să:

Efectuarea unei analize cuprinzătoare a naturii fenomenului studiat;

Identificarea unei caracteristici de grupare (una sau mai multe);

Stabiliți limitele grupurilor în așa fel încât grupurile să difere semnificativ unele de altele, iar elementele omogene să fie combinate în fiecare grup.

După gradul de complexitate, grupările pot fi simple și combinaționale (în funcție de caracteristici).

Conform informațiilor inițiale, se disting grupările primare și secundare, primar efectuate pe baza datelor de observație inițială, secundar utilizează date de grupare primară.

Se stabilește numărul de grupuri conform formulei Sturgess:

Unde n- numărul de grupuri, N- populatie generala.

Dacă se folosesc intervale egale, atunci valoarea intervalului este egal cu .

Intervale poate fi sau nu egal. Acestea din urmă, la rândul lor, se împart în cele care se modifică conform legii progresiei aritmetice sau geometrice. Primul și ultimul interval pot fi deschise sau închise. Intervalele închise includ sau nu limitele intervalului.

Dacă intervalele sunt închise și nu se spune nimic despre includerea limitelor superioare, atunci presupunem că sunt incluse limitele superioare.

Dacă intervalele sunt deschise, atunci ne ghidăm după ultimul interval.

Un semn în aceste intervale poate fi măsurat discret și continuu (adică, împărțit). Cu semn continuu, limitele sunt închise 1-10, 10-20, 20-30; dacă atributul se modifică discret, atunci se poate folosi următoarea intrare: 1 - 10, 11 - 20, 21 - 30.

Dacă intervalele sunt deschise, atunci valoarea ultimului interval este egală cu cea precedentă, iar valoarea primului - cu al doilea.

Clasificare gruparea după calitate. Este relativ stabil, standardizat și aprobat de autoritățile de statistică ale statului.


3.2. Rangurile de distribuție: tipuri și caracteristici principale

Sub aproape de distribuție se referă la o serie de date care caracterizează pe o singură bază orice fenomen socio-economic. Acesta este cel mai simplu tip de grupare pe două motive.

Serii de distribuție sunt împărțite în calitative și cantitative, ordonate și neclasificate, grupate și negrupate, cu distribuție discretă și continuă a caracteristicilor.

Un exemplu de serie de salarii negrupate, neclasificate este statul de plată. Totodată, lista angajaților poate fi ordonată alfabetic sau după numere de personal. Un exemplu de serie clasată este o listă de echipe, un clasament al jucătorilor de tenis.

rând clasat distribuții - o serie de date dispuse în ordinea descrescătoare sau crescătoare a unei caracteristici.

Pentru seriile clasate grupate se disting următoarele caracteristici: variantă, frecvență sau frecvență, densitate cumulat și distribuție.

Variantă() este valoarea medie a intervalului a caracteristicii. Deoarece la crearea unei grupări, trebuie urmat principiul distribuției uniforme a unei caracteristici în fiecare interval, apoi varianta poate fi calculată ca jumătate de sumă a limitelor intervalelor.

Frecvență() arată de câte ori apare valoarea caracteristică dată. Expresia frecvenței relative este frecvență(.) , adică cotă, pondere specifică din suma frecvențelor.

Cumula() – frecvență sau frecvență cumulată, calcul cumulativ. Volumul, costurile, veniturile sunt calculate cumulativ, i.e. rezultatele activitatii.

tabelul 1

Gruparea instituţiilor de credit operaţionale
cu valoarea capitalului social autorizat

în 2008 în Rusia

Primul pas în studiul statistic al variației este construirea unei serii de variații - o distribuție ordonată a unităților populației în funcție de valorile crescătoare (mai des) sau descrescătoare (mai rar) ale unei caracteristici și numărând numărul de unități cu una. sau altă valoare a caracteristicii.

Există trei forme de serie de variații: interval, discret, interval. O serie variațională este adesea numită serie de distribuție. Acest termen este folosit atunci când se studiază variația atât a trăsăturilor cantitative, cât și a celor necantitative. Seria de distribuție este o grupare structurală (Capitolul 6).

O serie clasificată este o listă de unități individuale ale populației în ordine crescătoare (descrescătoare) a trăsăturii studiate.

Mai jos sunt informații despre băncile mari din Sankt Petersburg, clasificate în funcție de capitalul propriu la 01.10.1999.

Numele băncii Capitalul propriu, milioane de ruble

Banca Baltonexim 169

Banca Sankt Petersburg 237

Petrovsky 268

Baltica 290

Promstroybank 1007

Dacă numărul de unități de populație este suficient de mare, seria clasată devine greoaie, iar construcția ei, chiar și cu ajutorul unui computer, durează mult. În astfel de cazuri, seria de variații se construiește prin gruparea unităților populației în funcție de valorile trăsăturii studiate.

Determinarea numărului de grupuri

Numărul de grupuri dintr-o serie de variații discrete este determinat de numărul de valori efectiv existente ale atributului variabil. Dacă trăsătura ia valori discrete, dar numărul acestora este foarte mare (de exemplu, numărul de animale la 1 ianuarie a anului în diferite întreprinderi agricole poate varia de la zero la zeci de mii de capete), atunci se construiește o serie de variații de interval. . O serie variațională de interval este, de asemenea, construită pentru a studia caracteristicile care pot prelua orice, atât valori întregi, cât și fracționale, în zona existenței lor. Astfel, de exemplu, profitabilitatea produselor vândute, costul unei unități de producție, venitul pe locuitor al orașului, proporția persoanelor cu studii superioare în rândul populației din diferite teritorii și, în general, toate caracteristicile secundare, valorile dintre care se calculează prin împărțirea valorii unei caracteristici primare la valoarea alteia (vezi cap. 3).

Seria de variații de interval este un tabel format din două coloane (sau rânduri) - intervalele trăsăturii a cărei variație este studiată și numărul de unități ale populației care se încadrează în acest interval (frecvențe), sau proporția acestui număr din populaţia totală (frecvenţe).

Două tipuri de serii de variații de interval sunt cele mai frecvent utilizate: interval egal și frecvență egală. Seria cu intervale egale este folosită dacă variația trăsăturii nu este foarte puternică, adică. pentru o populație omogenă, a cărei distribuție după un atribut dat este apropiată de legea normală. (O astfel de serie este prezentată în Tabelul 5.6.) O serie cu frecvență egală este utilizată dacă variația caracteristicii este foarte puternică, dar distribuția nu este normală, ci, de exemplu, hiperbolică (Tabelul 5.5).

Atunci când se construiește o serie cu intervale egale, numărul de grupuri este ales astfel încât diversitatea valorilor trăsăturilor în agregat să fie suficient reflectată și, în același timp, regularitatea distribuției, forma acesteia să nu fie distorsionată de la întâmplare. fluctuatii de frecventa. Dacă sunt prea puține grupuri, nu va exista nici un model de variație; dacă există prea multe grupuri, salturile aleatorii de frecvență vor distorsiona forma distribuției.


Limitele intervalelor pot fi specificate în diferite moduri: limita superioară a intervalului anterior repetă limita inferioară a celui următor, așa cum se arată în tabel. 5.5, sau nu se repetă.

În acest ultim caz, al doilea interval va fi desemnat ca 15.1-20, al treilea - ca 20.1-25 etc., i.e. se presupune că toate valorile randamentului sunt în mod necesar rotunjite la o zecime. În plus, o complicație nedorită apare la mijlocul intervalului 15,1-20, care, strict vorbind, va fi deja egal nu cu 17,5, ci cu 17,55; în consecință, la înlocuirea intervalului rotunjit 40-60 cu 40,1-60, în loc de valoarea rotunjită a mijlocului său 50, obținem 50,5. Prin urmare, este preferabil să se lase intervalele cu o limită rotunjită care se repetă și să fie de acord că unitățile de populație care au o valoare caracteristică egală cu limita intervalului să fie incluse în intervalul în care această valoare exactă este raportată pentru prima dată. Astfel, o fermă cu un randament de 15 cenți la hectar este inclusă în prima grupă, o valoare de 20 cenți la hectar este inclusă în a doua și așa mai departe.

O serie variațională de frecvență egală este necesară cu o variație foarte puternică a unei trăsături deoarece, cu o distribuție cu intervale egale, majoritatea unităților populației sunt

Tabelul 5.5

Distribuția a 100 de bănci rusești conform evaluării soldului activelor la 01.01.2000

Limitele intervalelor de distribuție egală sunt valorile reale ale activelor băncilor prima, a zecea, a unsprezecea, a douăzecea și așa mai departe.

Reprezentarea grafică a seriei de variații

O asistență semnificativă în analiza seriei variaționale și a proprietăților sale este oferită de o reprezentare grafică. Seria de intervale este reprezentată de un grafic cu bare, în care bazele barelor situate pe axa absciselor sunt intervalele valorilor atributului variabil, iar înălțimea barelor sunt frecvențele corespunzătoare scalei de-a lungul axa y. În fig. 5.1. O diagramă de acest fel este adesea numită histogramă (gr. histos - țesut).

Date din tabel. 5.6 și fig. 5.1 arată forma de distribuție caracteristică multor trăsături: valorile intervalelor medii ale trăsăturii sunt mai frecvente, mai rar valorile extreme, mici și mari ale trăsăturii. Forma acestei distribuții este apropiată de legea distribuției normale luată în considerare în cursul statisticii matematice. Marele matematician rus A. M. Lyapunov (1857-1918) a dovedit că normal

Tabelul 5.6 Distribuția fermelor din regiune după randamentul culturii de cereale

O distribuție mică se formează atunci când o variabilă este influențată de un număr mare de factori, niciunul dintre care nu are o influență predominantă. O combinație aleatorie a mai multor factori aproximativ egali care afectează variațiile de randament ale culturilor de cereale, atât naturale, cât și agrotehnice, economice, creează o distribuție a fermelor din regiune din punct de vedere al randamentului apropiată de legea normală de distribuție.

Orez. 5.2. Distribuția cumulativă și ogivă a fermelor după randament

O astfel de serie se numește cumulativ. Puteți construi o distribuție cumulată „nu mai puțin decât” sau puteți „mai mare decât”. În primul caz, graficul distribuției cumulative se numește cumulativ, în al doilea - ogivă (Fig. 5.2).

Densitatea de distribuție

Dacă aveți de-a face cu o serie variațională cu intervale inegale, atunci pentru comparabilitate trebuie să aduceți frecvența, sau frecvența, la unitatea intervalului. Raportul rezultat se numește densitate de distribuție:

Densitatea de distribuție este utilizată atât pentru calcularea indicatorilor generalizatori, cât și pentru reprezentarea grafică a seriilor de variații cu intervale inegale.

producția de cartofi clasată statistic

Pe baza indicatorilor din Tabelul 2, alcătuim rânduri clasate pentru producția de cartofi la 100 de hectare de teren arabil; asupra randamentului cartofilor; la cost. Relația dintre acești indicatori este reprezentată grafic.

Primul pas în studiul statistic al variației este construirea unei serii de variații - o distribuție ordonată a unităților populației în funcție de valorile crescătoare (mai des) sau descrescătoare (mai rar) ale unei trăsături.

Există trei forme ale unei serii de variații: o serie variată, o serie discretă, o serie de intervale. O serie variațională este adesea numită serie de distribuție.

O serie clasificată este o listă de unități individuale ale populației în ordine crescătoare (descrescătoare) a trăsăturii studiate

Clasificarea este o procedură de ordonare a obiectelor de studiu, care se realizează pe baza preferințelor. Gama de variație arată cât de mare este diferența dintre unitățile populației.

Rangul este numărul ordinal de valori ale atributelor aranjate în ordinea crescătoare sau descrescătoare a valorilor acestora. Dacă valoarea atributului are aceeași evaluare cantitativă, atunci rangul tuturor acestor valori este luat egal cu media aritmetică a numărului corespunzător de locuri care sunt determinate. Aceste ranguri se numesc conectate.

Graficele în statistică sunt o modalitate de vizualizare a indicatorilor statistici sub formă de forme geometrice și semne, desene sau hărți schematice. O imagine vizuală facilitează percepția informațiilor, vă permite să acoperiți un set de indicatori în interconectare, să identificați tendințele de dezvoltare și rapoartele tipice ale indicatorilor.

Pentru a afișa indicatorii de dinamică, este recomandabil să folosiți grafice cu linii sau diagrame cu bare. Graficul trebuie să fie vizual, ușor de înțeles, ușor de citit și, dacă este posibil, proiectat artistic, care să atragă atenția asupra acestuia.

La construirea diagramelor de dispersie, un set de puncte este folosit ca mostre grafice; la construirea liniilor liniare. Crearea graficelor este întotdeauna un proces creativ. Este nevoie de câteva căutări aici. Numai după compilarea și compararea mai multor versiuni de schiță, este posibil să se determine compoziția corectă a graficului, să se stabilească scara și locația semnelor pe câmpul grafic.

Din rândul clasat pentru producția de cartofi la 100 ha de teren arabil, se poate trage următoarea concluzie că cea mai scăzută producție se observă în raionul Balagansky, iar raionul Angarsk are cea mai mare productivitate de cartofi din 100 ha de teren arabil.

Cel mai mic randament a fost în districtul Kachugsky - 10 cenți / ha, iar cel mai mare în Usolsky - 195,5 cenți / ha.

În districtul Chunsky, cu producție mare de cartofi la 100 de hectare de teren arabil, cel mai mic cost de 1 c. Costul maxim este observat în regiunea Nijne-Ilimsk. Gama de variație a costului unui centr de cartofi este foarte mare și egală cu 1161,01 ruble.

Alte publicații

Analiza activitatii economice a intreprinderii
Tranziția la economia de piață necesită ca o întreprindere să crească eficiența producției, competitivitatea produselor și serviciilor prin introducerea unor forme eficiente de management economic și management al producției, realizările progresului științific și tehnologic și activarea...

Analiza activitatilor financiare si economice ale SA TransContainer
Analiza financiară este un proces bazat pe studiul datelor privind situația financiară a întreprinderii și rezultatele activităților sale din trecut pentru a evalua condițiile și performanța viitoare. Astfel, sarcina principală a analizei financiare este...

CATEGORII

ARTICOLE POPULARE

2023 "kingad.ru" - examinarea cu ultrasunete a organelor umane