Analiza serii de variații. Seria de variații

Serii de variații - o serie în care sunt comparate (în ordine crescătoare sau descrescătoare) Opțiuniși respectivul lor frecvente

Variantele sunt expresii cantitative separate ale unei trăsături. Desemnat cu o literă latină V . Înțelegerea clasică a termenului „variantă” presupune că fiecare valoare unică a unei caracteristici este numită variantă, indiferent de numărul de repetări.

De exemplu, într-o serie variațională de indicatori ai tensiunii arteriale sistolice măsurate la zece pacienți:

110, 120, 120, 130, 130, 130, 140, 140, 160, 170;

doar 6 valori sunt opțiuni:

110, 120, 130, 140, 160, 170.

Frecvența este un număr care indică de câte ori se repetă o opțiune. Notat printr-o literă latină P . Suma tuturor frecvențelor (care, desigur, este egală cu numărul tuturor celor studiate) se notează ca n.

    În exemplul nostru, frecvențele vor lua următoarele valori:
  • pentru varianta 110 frecvența P = 1 (valoarea 110 apare la un pacient),
  • pentru varianta 120 frecvența P = 2 (valoarea 120 apare la doi pacienți),
  • pentru varianta 130 frecvența P = 3 (valoarea 130 apare la trei pacienți),
  • pentru varianta 140 frecvența P = 2 (valoarea 140 apare la doi pacienți),
  • pentru varianta 160 frecvența P = 1 (valoarea 160 apare la un pacient),
  • pentru varianta 170 frecvența P = 1 (valoarea 170 apare la un pacient),

Tipuri de serie de variații:

  1. simplu- aceasta este o serie în care fiecare opțiune apare o singură dată (toate frecvențele sunt egale cu 1);
  2. suspendat- o serie în care una sau mai multe opțiuni apar în mod repetat.

Seria de variații este utilizată pentru a descrie matrice mari de numere; în această formă sunt prezentate inițial datele colectate ale majorității studiilor medicale. Pentru a caracteriza seria de variații se calculează indicatori speciali, inclusiv valori medii, indicatori de variabilitate (așa-numita dispersie), indicatori ai reprezentativității datelor eșantionului.

Indicatori de serie de variații

1) Media aritmetică este un indicator generalizator care caracterizează mărimea trăsăturii studiate. Media aritmetică se notează ca M , este cel mai comun tip de medie. Media aritmetică este calculată ca raportul dintre suma valorilor indicatorilor tuturor unităților de observare și numărul tuturor examinate. Metoda de calcul a mediei aritmetice diferă pentru o serie de variații simple și ponderate.

Formula de calcul medie aritmetică simplă:

Formula de calcul medie aritmetică ponderată:

M = Σ(V * P)/ n

​ 2) Mod - o altă valoare medie a seriei de variații, corespunzătoare variantei cel mai frecvent repetate. Sau, altfel spus, aceasta este opțiunea care corespunde frecvenței celei mai înalte. Desemnat ca lu . Modul este calculat numai pentru seriile ponderate, deoarece în seria simplă niciuna dintre opțiuni nu se repetă și toate frecvențele sunt egale cu una.

De exemplu, în seria de variații a valorilor ritmului cardiac:

80, 84, 84, 86, 86, 86, 90, 94;

valoarea modului este 86, deoarece această variantă apare de 3 ori, prin urmare frecvența sa este cea mai mare.

3) Mediană - valoarea opțiunii, împărțind seria de variații la jumătate: pe ambele părți ale acesteia există un număr egal de opțiuni. Mediana, precum și media aritmetică și modul, se referă la valori medii. Desemnat ca Pe mine

4) Abaterea standard (sinonime: abatere standard, abatere sigma, sigma) - o măsură a variabilității seriei de variații. Este un indicator integral care combină toate cazurile de abatere a unei variante de la medie. De fapt, răspunde la întrebarea: cât de departe și cât de des înseamnă opțiunile răspândite din media aritmetică. Notat printr-o literă greacă σ ("sigma").

Când dimensiunea populației este mai mare de 30 de unități, abaterea standard este calculată folosind următoarea formulă:

Pentru populații mici - 30 de unități de observare sau mai puțin - abaterea standard este calculată folosind o formulă diferită:

Să numim diferite valori ale eșantionului Opțiuni o serie de valori și notăm: X 1 , X 2,…. În primul rând, să facem variind opțiuni, adică aranjați-le în ordine crescătoare sau descrescătoare. Pentru fiecare opțiune este indicată propria sa greutate, adică un număr care caracterizează contribuţia acestei opţiuni la populaţia totală. Frecvențele sau frecvențele acționează ca greutăți.

Frecvență n i opțiune x i numit un număr care arată de câte ori apare această opțiune în populația eșantion considerată.

Frecvența sau frecvența relativă w i opțiune x i se numește un număr egal cu raportul dintre frecvența unei variante și suma frecvențelor tuturor variantelor. Frecvența arată ce parte din unitățile populației eșantionului are o variantă dată.

Secvența de opțiuni cu ponderile lor corespunzătoare (frecvențe sau frecvențe), scrise în ordine crescătoare (sau descrescătoare), se numește serie variațională.

Serii variaționale sunt discrete și interval.

Pentru o serie variațională discretă, valorile punctuale ale atributului sunt specificate, pentru seria de intervale, valorile atributului sunt specificate sub formă de intervale. Serii de variații pot arăta distribuția frecvențelor sau a frecvențelor relative (frecvențe), în funcție de ce valoare este indicată pentru fiecare opțiune - frecvență sau frecvență.

Serii de variații discrete ale distribuției de frecvență se pare ca:

Frecvențele se găsesc prin formula , i = 1, 2, …, m.

w 1 +w 2 + … + w m = 1.

Exemplu 4.1. Pentru un anumit set de numere

4, 6, 6, 3, 4, 9, 6, 4, 6, 6

construiți serii variaționale discrete de distribuții de frecvență și frecvență.

Soluţie . Volumul populaţiei este n= 10. Seria de distribuție a frecvenței discrete are forma

Seriile cu intervale au o formă similară de înregistrare.

Seria de variație a intervalului de distribuție a frecvenței se scrie ca:

Suma tuturor frecvențelor este egală cu numărul total de observații, adică volum total: n = n 1 +n 2 + … + n m .

Seria de variație a intervalului de distribuție a frecvențelor relative (frecvențe) se pare ca:

Frecvența se găsește prin formula , i = 1, 2, …, m.

Suma tuturor frecvențelor este egală cu unu: w 1 +w 2 + … + w m = 1.

Cel mai adesea, în practică, se folosesc serii de intervale. Dacă există o mulțime de date statistice de eșantion și valorile lor diferă unele de altele printr-o cantitate arbitrar de mică, atunci seria discretă pentru aceste date va fi destul de greoaie și incomodă pentru cercetări ulterioare. În acest caz, se utilizează gruparea datelor, adică intervalul care conține toate valorile atributului este împărțit în mai multe intervale parțiale și, după ce s-a calculat frecvența pentru fiecare interval, se obține o serie de intervale. Să scriem mai detaliat schema de construire a unei serii de intervale, presupunând că lungimile intervalelor parțiale vor fi aceleași.

2.2 Construirea unei serii de intervale

Pentru a construi o serie de intervale, aveți nevoie de:

Determinați numărul de intervale;

Determinați lungimea intervalelor;

Determinați locația intervalelor pe axă.

Pentru determinare numărul de intervale k Există o formulă Sturges, conform căreia

,

Unde n- volumul totalitatii.

De exemplu, dacă există 100 de valori caracteristice (variantă), atunci se recomandă să luați numărul de intervale egal cu intervalele pentru a construi o serie de intervale.

Cu toate acestea, de foarte multe ori în practică numărul de intervale este ales chiar de cercetător, având în vedere că acest număr nu trebuie să fie foarte mare, astfel încât seria să nu fie greoaie, dar nici foarte mică, pentru a nu pierde unele proprietăți ale distributie.

Lungimea intervalului h este determinată de următoarea formulă:

,

Unde X max si X min este cea mai mare și, respectiv, cea mai mică valoare a opțiunilor.

valoarea numit la scară mare rând.

Pentru a construi intervalele în sine, ele procedează în moduri diferite. Una dintre cele mai ușoare moduri este următoarea. Valoarea este luată drept începutul primului interval
. Apoi restul limitelor intervalelor se găsesc prin formula . Evident, sfârșitul ultimului interval A m+1 trebuie să îndeplinească condiția

După ce sunt găsite toate limitele intervalelor, se determină frecvențele (sau frecvențele) acestor intervale. Pentru a rezolva această problemă, ei analizează toate opțiunile și determină numărul de opțiuni care se încadrează într-un anumit interval. Vom lua în considerare construcția completă a unei serii de interval folosind un exemplu.

Exemplu 4.2. Pentru următoarele statistici, scrise în ordine crescătoare, construiți o serie de intervale cu numărul de intervale egal cu 5:

11, 12, 12, 14, 14, 15, 21, 21, 22, 23, 25, 38, 38, 39, 42, 42, 44, 45, 50, 50, 55, 56, 58, 60, 62, 63, 65, 68, 68, 68, 70, 75, 78, 78, 78, 78, 80, 80, 86, 88, 90, 91, 91, 91, 91, 91, 93, 93, 95, 96.

Soluţie. Total n=50 de valori ale variantei.

Numărul de intervale este specificat în starea problemei, adică. k=5.

Lungimea intervalelor este
.

Să definim limitele intervalelor:

A 1 = 11 − 8,5 = 2,5; A 2 = 2,5 + 17 = 19,5; A 3 = 19,5 + 17 = 36,5;

A 4 = 36,5 + 17 = 53,5; A 5 = 53,5 + 17 = 70,5; A 6 = 70,5 + 17 = 87,5;

A 7 = 87,5 +17 = 104,5.

Pentru a determina frecvența intervalelor, numărăm numărul de opțiuni care se încadrează în acest interval. De exemplu, opțiunile 11, 12, 12, 14, 14, 15 se încadrează în primul interval de la 2,5 la 19,5. Numărul lor este 6, prin urmare, frecvența primului interval este n 1=6. Frecvența primului interval este . Variantele 21, 21, 22, 23, 25, al căror număr este 5, se încadrează în al doilea interval de la 19,5 la 36,5. Prin urmare, frecvența celui de-al doilea interval este n 2 =5 și frecvența . După ce am găsit în mod similar frecvențele și frecvențele pentru toate intervalele, obținem următoarea serie de intervale.

Seria de intervale a distribuției de frecvență are forma:

Suma frecvențelor este 6+5+9+11+8+11=50.

Seria de intervale a distribuției de frecvență are forma:

Suma frecvențelor este 0,12+0,1+0,18+0,22+0,16+0,22=1. ■

La construirea serii de intervale, în funcție de condițiile specifice ale problemei luate în considerare, se pot aplica și alte reguli și anume

1. Serii de variații de intervale pot consta din intervale parțiale de lungimi diferite. Lungimile inegale ale intervalelor fac posibilă evidențierea proprietăților unei populații statistice cu o distribuție neuniformă a unei caracteristici. De exemplu, dacă limitele intervalelor determină numărul de locuitori din orașe, atunci este recomandabil în această problemă să se folosească intervale care sunt inegale ca lungime. Evident, pentru orașele mici este importantă și o mică diferență a numărului de locuitori, iar pentru orașele mari, o diferență de zeci și sute de locuitori nu este semnificativă. Serii de intervale cu lungimi inegale ale intervalelor parțiale sunt studiate în principal în teoria generală a statisticii și luarea în considerare a acestora depășește scopul acestui manual.

2. În statistica matematică, se iau în considerare uneori serii de intervale, pentru care se presupune că limita din stânga primului interval este –∞, iar limita dreaptă a ultimului interval este +∞. Acest lucru se face pentru a apropia distribuția statistică de cea teoretică.

3. La construirea serii de intervale, se poate dovedi că valoarea unei variante coincide exact cu limita intervalului. Cel mai bun lucru de făcut în acest caz este următorul. Dacă există o singură astfel de coincidență, atunci considerați că varianta luată în considerare cu frecvența sa a căzut în intervalul situat mai aproape de mijlocul seriei de intervale, dacă există mai multe astfel de variante, atunci fie toate sunt atribuite intervalelor la dreapta acestor variante, sau toate la stânga.

4. După determinarea numărului de intervale și a lungimii acestora, localizarea intervalelor se poate face în alt mod. Găsiți media aritmetică a tuturor valorilor considerate ale opțiunilor X cf. și construiți primul interval în așa fel încât această medie a eșantionului să fie în interiorul unui interval. Astfel, obținem intervalul de la X cf. – 0,5 h inainte de X medie + 0,5 h. Apoi la stânga și la dreapta, adăugând lungimea intervalului, construim intervalele rămase până la X min și X max nu se va încadra în primul și, respectiv, ultimul interval.

5. Serii de intervale cu un număr mare de intervale sunt scrise convenabil pe verticală, adică. înregistrați intervalele nu în prima linie, ci în prima coloană, iar frecvențele (sau frecvențele) în a doua coloană.

Datele eșantionului pot fi considerate ca valori ale unei variabile aleatorii X. O variabilă aleatorie are propria sa lege de distribuție. Din teoria probabilității se știe că legea de distribuție a unei variabile aleatoare discrete poate fi specificată ca o serie de distribuție, iar pentru una continuă, folosind funcția densității distribuției. Cu toate acestea, există o lege de distribuție universală care este valabilă atât pentru variabile aleatoare discrete, cât și pentru variabile aleatoare continue. Această lege de distribuție este dată ca funcție de distribuție F(X) = P(X<X). Pentru datele eșantionului, puteți specifica un analog al funcției de distribuție - funcția de distribuție empirică.


Informații similare.


Serii de distribuție statistică- aceasta este o distribuție ordonată a unităților de populație în grupuri în funcție de un anumit atribut variabil.
În funcție de trăsătura care stă la baza formării unei serii de distribuție, există serie de distribuție de atribute și variații.

Prezența unei trăsături comune stă la baza formării unei populații statistice, care este rezultatul unei descrieri sau măsurători a trăsăturilor comune ale obiectelor de studiu.

Subiectul de studiu în statistică sunt caracteristici în schimbare (variabile) sau caracteristici statistice.

Tipuri de caracteristici statistice.

Seriile de distribuție sunt numite serii de atribute. construit pe temeiuri de calitate. Atributiv- acesta este un semn care are un nume (de exemplu, o profesie: croitoreasă, profesor etc.).
Se obișnuiește să se aranjeze seria de distribuție sub formă de tabele. În tabel. 2.8 prezintă o serie de atribute de distribuție.
Tabelul 2.8 - Distribuția tipurilor de asistență juridică oferite de avocați cetățenilor uneia dintre regiunile Federației Ruse.

Seria de variații sunt valori caracteristice (sau intervale de valori) și frecvențele acestora.
Serii de variații sunt serii de distribuție construit pe o bază cantitativă. Orice serie variațională constă din două elemente: variante și frecvențe.
Variantele sunt valori individuale ale unei caracteristici pe care aceasta le ia într-o serie de variații.
Frecvențele sunt numerele de variante individuale sau fiecare grup al seriei de variații, adică. acestea sunt numere care arată cât de des apar anumite opțiuni într-o serie de distribuție. Suma tuturor frecvențelor determină dimensiunea întregii populații, volumul acesteia.
Frecvențele se numesc frecvențe, exprimate în fracții de unitate sau ca procent din total. În consecință, suma frecvențelor este egală cu 1 sau 100%. Seria variațională ne permite să evaluăm forma legii de distribuție pe baza datelor reale.

În funcție de natura variației trăsăturii, există serie de variații discrete și interval.
Un exemplu de serie variațională discretă este dat în tabel. 2.9.
Tabelul 2.9 - Distribuția familiilor după numărul de camere ocupate în apartamente individuale în 1989 în Federația Rusă.

Prima coloană a tabelului prezintă variante ale unei serii variaționale discrete, a doua coloană conține frecvențele seriei variaționale, iar a treia coloană conține indicatorii de frecvență.

Seria de variații

În populația generală, o anumită trăsătură cantitativă este investigată. Din el se extrage aleatoriu o mostră de volum n, adică numărul de elemente din eșantion este n. În prima etapă a procesării statistice, variind mostre, adică ordonarea numerelor x 1 , x 2 , …, x n Ascendent. Fiecare valoare observată x i numit opțiune. Frecvență m i este numărul de observații ale valorii x iîn probă. Frecvența relativă (frecvența) w i este raportul de frecvență m i la dimensiunea eșantionului n: .
Când se studiază o serie variațională, se folosesc și conceptele de frecvență cumulativă și frecvență cumulativă. Lăsa X oarecare număr. Apoi numărul de opțiuni , ale căror valori sunt mai mici X, se numește frecvență acumulată: pentru x i n se numeste frecventa acumulata w i max .
Un atribut se numește variabil discret dacă valorile sale individuale (variantele) diferă unele de altele printr-o cantitate finită (de obicei un număr întreg). O serie variațională a unei astfel de caracteristici se numește serie variațională discretă.

Tabelul 1. Vedere generală a seriei variaționale discrete de frecvențe

Valori caracteristicex i x 1 x2 x n
Frecvențelem i m 1 m2 m n

Un atribut se numește variabil continuu dacă valorile sale diferă unele de altele printr-o cantitate arbitrar mică, adică semnul poate lua orice valoare într-un anumit interval. O serie de variații continue pentru o astfel de trăsătură se numește serie de intervale.

Tabelul 2. Vedere generală a seriei de variație a intervalului de frecvențe

Tabelul 3. Imagini grafice ale seriei de variații

RândPoligon sau histogramăFuncția de distribuție empirică
Discret
interval
Privind rezultatele observațiilor, se determină câte valori ale variantelor au căzut în fiecare interval specific. Se presupune că fiecare interval aparține unuia dintre capetele sale: fie în toate cazurile stânga (mai des), fie în toate cazurile dreptului, iar frecvențele sau frecvențele arată numărul de opțiuni conținute în limitele indicate. Diferențele a i – a i +1 se numesc intervale parțiale. Pentru a simplifica calculele ulterioare, seria de variații de interval poate fi înlocuită cu una condițional discretă. În acest caz, valoarea medie i-al-lea interval este luat ca opțiune x i, și frecvența intervalului corespunzătoare m i- pentru frecventa acestui interval.
Pentru reprezentarea grafică a seriilor variaționale, cel mai des sunt utilizate poligonul, histograma, curba cumulativă și funcția de distribuție empirică.

În tabel. 2.3 (Gruparea populației Rusiei în funcție de mărimea venitului mediu pe cap de locuitor în aprilie 1994) este prezentată serie de variații de interval.
Este convenabil să se analizeze seria de distribuție folosind o reprezentare grafică, care face, de asemenea, posibilă aprecierea formei distribuției. O reprezentare vizuală a naturii modificării frecvențelor seriei variaționale este dată de poligon și histogramă.
Poligonul este utilizat la afișarea unor serii variaționale discrete.
Să descriem, de exemplu, grafic distribuția fondului de locuințe pe tipuri de apartamente (Tabelul 2.10).
Tabel 2.10 - Distribuția fondului de locuințe din mediul urban pe tip de apartamente (cifre condiționate).


Orez. Poligon de distribuție a locuințelor


Pe axa y, pot fi reprezentate nu numai valorile frecvențelor, ci și frecvențele seriei de variații.
Histograma este luată pentru a afișa seria variației intervalului. La construirea unei histograme, valorile intervalelor sunt reprezentate pe axa absciselor, iar frecvențele sunt reprezentate prin dreptunghiuri construite pe intervalele corespunzătoare. Înălțimea coloanelor în cazul intervalelor egale ar trebui să fie proporțională cu frecvențele. O histogramă este un grafic în care o serie este prezentată ca bare adiacente una cu cealaltă.
Să descriem grafic seria de distribuție a intervalelor prezentată în tabel. 2.11.
Tabel 2.11 - Distribuția familiilor după mărimea spațiului de locuit per persoană (cifre condiționate).
N p / p Grupuri de familii după mărimea spațiului de locuit per persoană Numărul de familii cu o anumită dimensiune a spațiului de locuit Numărul cumulat de familii
1 3 – 5 10 10
2 5 – 7 20 30
3 7 – 9 40 70
4 9 – 11 30 100
5 11 – 13 15 115
TOTAL 115 ----


Orez. 2.2. Histograma distribuției familiilor după mărimea spațiului de locuit per persoană


Folosind datele seriei acumulate (Tabelul 2.11), construim distribuţie cumulativă.


Orez. 2.3. Distribuția cumulativă a familiilor în funcție de dimensiunea spațiului de locuit per persoană


Reprezentarea unei serii variaționale sub formă de cumulat este eficientă în special pentru seriile variaționale ale căror frecvențe sunt exprimate ca fracții sau procente din suma frecvențelor seriei.
Dacă schimbăm axele în reprezentarea grafică a seriei variaționale sub formă de cumulat, atunci obținem ogivu. Pe fig. 2.4 prezintă o ogivă construită pe baza datelor din tabel. 2.11.
O histogramă poate fi convertită într-un poligon de distribuție prin găsirea punctelor medii ale laturilor dreptunghiurilor și apoi conectând aceste puncte cu linii drepte. Poligonul de distribuție rezultat este prezentat în fig. 2,2 linie punctată.
La construirea unei histograme a distribuției unei serii variaționale cu intervale inegale, de-a lungul axei ordonatelor, nu se aplică frecvențe, ci densitatea de distribuție a caracteristicii în intervalele corespunzătoare.
Densitatea de distribuție este frecvența calculată pe unitatea de lățime a intervalului, adică câte unități din fiecare grup sunt pe unitatea de valoare a intervalului. Un exemplu de calcul al densității de distribuție este prezentat în tabel. 2.12.
Tabel 2.12 - Distribuția întreprinderilor după numărul de angajați (cifrele sunt condiționate)
N p / p Grupuri de întreprinderi după numărul de angajați, pers. Numărul de întreprinderi Dimensiunea intervalului, pers. Densitatea de distribuție
DAR 1 2 3=1/2
1 până la 20 15 20 0,75
2 20 – 80 27 60 0,25
3 80 – 150 35 70 0,5
4 150 – 300 60 150 0,4
5 300 – 500 10 200 0,05
TOTAL 147 ---- ----

Pentru o reprezentare grafică a variației pot fi utilizate și serii curba cumulativă. Cu ajutorul cumulatului (curba sumelor) se afișează o serie de frecvențe acumulate. Frecvențele acumulate sunt determinate prin însumarea secvențială a frecvențelor pe grupuri și arată câte unități ale populației au valori caracteristice nu mai mari decât valoarea considerată.


Orez. 2.4. Ogiva repartizarea familiilor în funcție de mărimea spațiului de locuit per persoană

Când se construiește cumulul unei serii de variații de interval, variantele seriei sunt reprezentate de-a lungul axei absciselor, iar frecvențele acumulate de-a lungul axei ordonatelor.

Rândurile construite dupa cantitate, sunt numite variațională.

Seria de distribuție consta în Opțiuni(valori caracteristice) şi frecvente(numar de grupuri). Se numesc frecvențele exprimate ca valori relative (acțiuni, procente). frecvente. Suma tuturor frecvențelor se numește volumul seriei de distribuție.

După tip, seriile de distribuție sunt împărțite în discret(construit pe valori discontinue ale caracteristicii) și interval(construit pe valorile caracteristice continue).

Seria de variații reprezintă două coloane (sau rânduri); dintre care unul oferă valori individuale ale atributului variabil, numite variante și notate cu X; iar în celălalt - numere absolute care arată de câte ori (cât de des) apare fiecare opțiune. Indicatorii celei de-a doua coloane se numesc frecvențe și sunt notați în mod convențional cu f. Încă o dată, observăm că în a doua coloană pot fi utilizați și indicatori relativi care caracterizează ponderea frecvenței variantelor individuale în cantitatea totală de frecvențe. Acești indicatori relativi se numesc frecvențe și se notează convențional cu ω. Suma tuturor frecvențelor în acest caz este egală cu unu. Cu toate acestea, frecvențele pot fi exprimate și ca procent, iar apoi suma tuturor frecvențelor dă 100%.

Dacă variantele seriei variaționale sunt exprimate ca valori discrete, atunci se numește o astfel de serie variațională discret.

Pentru caracteristici continue, serii de variații sunt construite ca interval, adică valorile atributului din ele sunt exprimate „de la ... la ...”. În acest caz, valorile minime ale atributului într-un astfel de interval se numesc limita inferioară a intervalului, iar maxima - limita superioară.

Serii variaționale cu intervale sunt, de asemenea, construite pentru caracteristici discrete care variază într-o gamă largă. Seria de intervale poate fi egalși inegal intervale.

Luați în considerare modul în care este determinată valoarea intervalelor egale. Să introducem următoarea notație:

i– valoarea intervalului;

- valoarea maximă a atributului pentru unităţi ale populaţiei;

- valoarea minimă a atributului pentru unităţi ale populaţiei;

n- numărul de grupuri alocate.

dacă n este cunoscut.

Dacă numărul de grupuri alocate este dificil de determinat în prealabil, atunci formula propusă de Sturgess în 1926 poate fi recomandată pentru a calcula dimensiunea optimă a intervalului cu o dimensiune suficientă a populației:

n = 1+ 3,322 log N, unde N este numărul celor din populație.

Valoarea intervalelor inegale este determinată în fiecare caz individual, ținând cont de caracteristicile obiectului de studiu.

Distribuția statistică a eșantionului apelați lista de opțiuni și frecvențele corespunzătoare (sau frecvențele relative).

Distribuția statistică a eșantionului poate fi specificată sub forma unui tabel, în prima coloană a căruia există opțiuni, iar în a doua - frecvențele corespunzătoare acestor opțiuni. ni, sau frecvențe relative Pi .

Distribuția statistică a eșantionului

Serii de intervale se numesc serii de variații în care valorile caracteristicilor care stau la baza formării lor sunt exprimate în anumite limite (intervale). Frecvențele în acest caz nu se referă la valori individuale ale atributului, ci la întregul interval.

Seriile de distribuție pe intervale sunt construite în funcție de caracteristici cantitative continue, precum și în funcție de caracteristici discrete, variind într-un interval semnificativ.

Seria de intervale poate fi reprezentată prin distribuția statistică a eșantionului, indicând intervalele și frecvențele corespunzătoare acestora. În acest caz, suma frecvențelor variantei care a intrat în acest interval este luată ca frecvență a intervalului.

La gruparea după caracteristici cantitative continue, este important să se determine dimensiunea intervalului.

Pe lângă media eșantionului și varianța eșantionului, sunt utilizate și alte caracteristici ale seriei de variații.

Modă numiți varianta care are cea mai mare frecvență.

Serii de variații: definiție, tipuri, caracteristici principale. Metoda de calcul
modă, mediană, medie aritmetică în studii medicale și statistice
(Afișați un exemplu condiționat).

O serie variațională este o serie de valori numerice ale trăsăturii studiate, care diferă unele de altele prin mărimea lor și sunt aranjate într-o anumită succesiune (în ordine crescătoare sau descrescătoare). Fiecare valoare numerică a seriei se numește variantă (V), iar numerele care arată cât de des apare cutare sau cutare variantă în componența acestei serii se numesc frecvență (p).

Numărul total de cazuri de observații, din care constă seria de variații, se notează cu litera n. Diferența de semnificație a caracteristicilor studiate se numește variație. Dacă semnul variabil nu are o măsură cantitativă, variația se numește calitativă, iar seria de distribuție se numește atributivă (de exemplu, distribuția după rezultatul bolii, starea de sănătate etc.).

Dacă un semn variabil are o expresie cantitativă, o astfel de variație se numește cantitativă, iar seria de distribuție se numește variațională.

Serii variaționale se împart în discontinue și continue - după natura trăsăturii cantitative, simple și ponderate - în funcție de frecvența de apariție a variantei.

Într-o serie variațională simplă, fiecare variantă apare o singură dată (p=1), într-una ponderată, aceeași variantă apare de mai multe ori (p>1). Exemple de astfel de serii vor fi discutate mai târziu în text. Dacă atributul cantitativ este continuu, i.e. între valori întregi există valori fracționale intermediare, seria variațională se numește continuă.

De exemplu: 10.0 - 11.9

14,0 - 15,9 etc.

Dacă semnul cantitativ este discontinuu, i.e. valorile sale individuale (opțiunile) diferă între ele printr-un număr întreg și nu au valori fracționale intermediare, seria de variații se numește discontinuă sau discretă.

Folosind datele din exemplul anterior despre ritmul cardiac

pentru 21 de elevi, vom construi o serie de variații (Tabelul 1).

tabelul 1

Distribuția studenților la medicină în funcție de frecvența pulsului (bpm)

Astfel, a construi o serie variațională înseamnă a sistematiza, eficientiza valorile numerice existente (opțiuni), adică. aranjați într-o anumită succesiune (în ordine crescătoare sau descrescătoare) cu frecvențele corespunzătoare. În exemplul luat în considerare, opțiunile sunt aranjate în ordine crescătoare și sunt exprimate ca numere întregi discontinue (discrete), fiecare opțiune apare de mai multe ori, i.e. avem de-a face cu o serie variațională ponderată, discontinuă sau discretă.

De regulă, dacă numărul de observații din populația statistică pe care o studiem nu depășește 30, atunci este suficient să aranjam toate valorile trăsăturii studiate într-o serie variațională în ordine crescătoare, ca în tabel. 1, sau în ordine descrescătoare.

Cu un număr mare de observații (n>30), numărul de variante care apar poate fi foarte mare, în acest caz se alcătuiește un interval sau o serie variațională grupată, în care, pentru a simplifica prelucrarea ulterioară și a clarifica natura distribuției, variantele sunt combinate în grupuri.

De obicei, numărul de opțiuni de grup variază de la 8 la 15.

Trebuie să fie cel puțin 5, pentru că. în caz contrar, va fi o mărire prea aspră, excesivă, care distorsionează imaginea generală a variației și afectează foarte mult acuratețea valorilor medii. Când numărul de opțiuni de grup este mai mare de 20-25, acuratețea calculării valorilor medii crește, dar caracteristicile variației atributului sunt distorsionate semnificativ, iar procesarea matematică devine mai complicată.

La compilarea unei serii grupate, este necesar să se țină cont

− grupurile de variante trebuie plasate într-o anumită ordine (crescător sau descrescător);

- intervalele din grupele de variante sa fie aceleasi;

− valorile limitelor intervalelor nu trebuie să coincidă, deoarece nu va fi clar în ce grupuri să atribuie opțiuni individuale;

- este necesar să se țină cont de caracteristicile calitative ale materialului colectat la stabilirea limitelor intervalelor (de exemplu, la studierea greutății adulților, este acceptabil un interval de 3-4 kg, iar pentru copii în primele luni de viață nu trebuie să depășească 100 g.)

Să construim o serie grupată (interval) care caracterizează datele privind frecvența pulsului (numărul de bătăi pe minut) pentru 55 de studenți la medicină înainte de examen: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Pentru a construi o serie grupată, aveți nevoie de:

1. Determinați valoarea intervalului;

2. Determinați mijlocul, începutul și sfârșitul grupelor variantei seriei de variații.

● Valoarea intervalului (i) este determinată de numărul de grupuri așteptate (r), al căror număr este stabilit în funcție de numărul de observații (n) conform unui tabel special

Numărul de grupuri în funcție de numărul de observații:

În cazul nostru, pentru 55 de elevi, este posibil să se alcătuiască de la 8 până la 10 grupe.

Valoarea intervalului (i) este determinată de următoarea formulă -

i = Vmax-Vmin/r

În exemplul nostru, valoarea intervalului este 82-58/8= 3.

Dacă valoarea intervalului este un număr fracționar, rezultatul trebuie rotunjit la un număr întreg.

Există mai multe tipuri de medii:

● medie aritmetică,

● medie geometrică,

● medie armonică,

● rădăcină medie pătrată,

● mediu progresiv,

● mediană

În statistica medicală, mediile aritmetice sunt cel mai des folosite.

Media aritmetică (M) este o valoare generalizantă care determină valoarea tipică care este caracteristică întregii populații. Principalele metode de calcul a lui M sunt: ​​metoda mediei aritmetice și metoda momentelor (abaterile condiționate).

Metoda mediei aritmetice este utilizată pentru a calcula media aritmetică simplă și media aritmetică ponderată. Alegerea metodei de calcul a valorii medii aritmetice depinde de tipul seriei de variații. În cazul unei serii variaționale simple, în care fiecare variantă apare o singură dată, media aritmetică simplă este determinată de formula:

unde: М – valoarea medie aritmetică;

V este valoarea caracteristicii variabilei (opțiuni);

Σ - indică acţiunea - însumare;

n este numărul total de observații.

Un exemplu de calcul al mediei aritmetice este simplu. Frecvența respiratorie (numărul de respirații pe minut) la 9 bărbați cu vârsta de 35 de ani: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Pentru a determina nivelul mediu al frecvenței respiratorii la bărbații în vârstă de 35 de ani, este necesar:

1. Construiți o serie variațională, plasând toate opțiunile în ordine crescătoare sau descrescătoare. Am obținut o serie variațională simplă, deoarece valorile variantei apar o singură dată.

M = ∑V/n = 171/9 = 19 respirații pe minut

Concluzie. Frecvența respiratorie la bărbații în vârstă de 35 de ani este în medie de 19 respirații pe minut.

Dacă valorile individuale ale unei variante sunt repetate, nu este nevoie să scrieți fiecare variantă într-o linie; este suficient să enumerați dimensiunile variantei care apar (V) și apoi să indicați numărul repetărilor lor (p ). o astfel de serie variațională, în care opțiunile sunt, parcă, ponderate în funcție de numărul de frecvențe care le corespund, se numește serie variațională ponderată, iar valoarea medie calculată este media ponderată aritmetică.

Media ponderată aritmetică este determinată de formula: M= ∑Vp/n

unde n este numărul de observații egal cu suma frecvențelor - Σr.

Un exemplu de calcul a mediei ponderate aritmetice.

Durata invalidității (în zile) la 35 de pacienți cu afecțiuni respiratorii acute (IRA) tratați de un medic local în primul trimestru al anului curent a fost: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 zile .

Metodologia de determinare a duratei medii a invalidității la pacienții cu infecții respiratorii acute este următoarea:

1. Să construim o serie variațională ponderată, deoarece valorile variantelor individuale se repetă de mai multe ori. Pentru a face acest lucru, puteți aranja toate opțiunile în ordine crescătoare sau descrescătoare cu frecvențele corespunzătoare.

În cazul nostru, opțiunile sunt în ordine crescătoare.

2. Calculați media ponderată aritmetică folosind formula: M = ∑Vp/n = 233/35 = 6,7 zile

Distribuția pacienților cu infecții respiratorii acute în funcție de durata dizabilității:

Durata incapacității de muncă (V) Număr de pacienți (p) vp
∑p = n = 35 ∑Vp = 233

Concluzie. Durata dizabilității la pacienții cu boli respiratorii acute a fost în medie de 6,7 zile.

Modul (Mo) este cea mai comună variantă din seria de variații. Pentru distribuția prezentată în tabel, modul corespunde variantei egale cu 10, apare mai des decât altele - de 6 ori.

Distribuția pacienților după durata șederii într-un pat de spital (în zile)

V
p

Uneori este dificil să se determine valoarea exactă a modului, deoarece pot exista mai multe observații în datele studiate care apar „cel mai des”.

Mediana (Me) este un indicator neparametric care împarte seria de variații în două jumătăți egale: același număr de opțiuni este situat de ambele părți ale medianei.

De exemplu, pentru distribuția prezentată în tabel, mediana este 10 deoarece pe ambele părți ale acestei valori se află pe a 14-a opțiune, adică numărul 10 ocupă o poziție centrală în această serie și este mediana acestuia.

Având în vedere că numărul de observații din acest exemplu este par (n=34), mediana poate fi determinată după cum urmează:

Eu = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Aceasta înseamnă că mijlocul seriei cade pe a șaptesprezecea opțiune, care corespunde unei mediane de 10. Pentru distribuția prezentată în tabel, media aritmetică este:

M = ∑Vp/n = 334/34 = 10,1

Deci, pentru 34 de observații din tabel. 8, avem: Mo=10, Me=10, media aritmetică (M) este 10,1. În exemplul nostru, toți cei trei indicatori s-au dovedit a fi egali sau apropiați unul de celălalt, deși sunt complet diferiți.

Media aritmetică este suma rezultată a tuturor influențelor; la formarea ei iau parte toate variantele, fără excepție, inclusiv cele extreme, adesea atipice pentru un anumit fenomen sau mulțime.

Modul și mediana, spre deosebire de media aritmetică, nu depind de valoarea tuturor valorilor individuale ale atributului variabil (valorile variantelor extreme și gradul de împrăștiere al seriei). Media aritmetică caracterizează întreaga masă de observații, modul și mediana caracterizează volumul

CATEGORII

ARTICOLE POPULARE

2022 "kingad.ru" - examinarea cu ultrasunete a organelor umane