Alcătuiți o serie de variații de interval de distribuție. Rezumat statistic și grupare

Dacă variabila aleatoare studiată este continuă, atunci clasarea și gruparea valorilor observate nu ne permit adesea să evidențiem trăsăturile caracteristice ale variației valorilor sale. Acest lucru se explică prin faptul că valorile individuale ale unei variabile aleatorii pot diferi cât de puțin se dorește unele de altele și, prin urmare, în totalitatea datelor observate, pot apărea rar aceleași valori ale unei cantități, iar frecvențele de variante diferă puțin între ele.

De asemenea, nu este practic să construiești o serie discretă pentru o variabilă aleatorie discretă, al cărei număr de valori posibile este mare. În astfel de cazuri, ar trebui să construiți serie de variații de interval distributie.

Pentru a construi o astfel de serie, întregul interval de variație a valorilor observate ale unei variabile aleatoare este împărțit într-o serie intervale parțiale și numărarea frecvenței de apariție a valorilor de magnitudine în fiecare interval parțial.

Seria de variație de interval numit un set ordonat de intervale de variație a valorilor unei variabile aleatorii cu frecvențele corespunzătoare sau frecvențele relative ale hit-urilor în fiecare dintre valorile valorii.

Pentru a construi o serie de intervale, aveți nevoie de:

  1. defini valoare intervale parțiale;
  2. defini lăţime intervale;
  3. stabilit pentru fiecare interval acesta top Și limita inferioară ;
  4. grupează rezultatele observației.

1 . Problema alegerii numărului și lățimii intervalelor de grupare trebuie să fie decisă în fiecare caz specific pe baza obiective cercetare, volum prelevarea de probe și gradul de variație caracteristică din eșantion.

Număr aproximativ de intervale k poate fi estimată doar din dimensiunea eșantionului n într-unul din următoarele moduri:

  • conform formulei Sturges : k = 1 + 3,32 log n ;
  • folosind tabelul 1.

tabelul 1

2 . Se preferă, în general, intervale de aceeași lățime. Pentru a determina lățimea intervalelor h calculati:

  • intervalul de variație R - valorile eșantionului: R = x max - x min ,

Unde xmax Și xmin - opțiuni de eșantionare maxime și minime;

  • lăţimea fiecărui interval h determinată de următoarea formulă: h = R/k .

3 . Concluzie primul interval x h1 se alege astfel încât varianta eşantionului minim xmin a scăzut aproximativ la mijlocul acestui interval: x h1 = x min - 0,5 h .

Intervale obţinut prin adăugarea la sfârşitul intervalului anterior a lungimii intervalului parţial h :

xhi = xhi-1 +h.

Construcția scalei intervalelor pe baza calculului limitelor intervalelor continuă până la valoarea x salut satisface relatia:

x salut< x max + 0,5·h .

4 . În conformitate cu scara intervalelor, valorile atributului sunt grupate - pentru fiecare interval parțial, se calculează suma frecvențelor n i variantă prinsă i - al-lea interval. În acest caz, intervalul include valori ale unei variabile aleatoare mai mari sau egale cu limita inferioară și mai mici decât limita superioară a intervalului.

Poligon și histogramă

Pentru claritate, sunt construite diverse grafice ale distribuției statistice.

Pe baza datelor seriei variaționale discrete, construim poligon frecvențe sau frecvențe relative.

Poligon de frecvență x 1 ; n 1 ), (x2 ; n 2 ), ..., (x k ; nk ). Pentru a construi un poligon de frecvențe pe axa absciselor, opțiunile sunt lăsate deoparte x i , iar pe axa y - frecvențele corespunzătoare n i . Puncte ( x i ; n i ) sunt legate prin segmente de drepte și se obține un poligon de frecvență (fig. 1).

Poligon de frecvență relativă se numește polilinie ale cărei segmente leagă punctele ( x 1 ; W 1 ), (x2 ; W2 ), ..., (x k ; Sapt ). Pentru a construi un poligon de frecvențe relative pe abscisă, renunțați la opțiuni x i , iar pe axa y - frecvențele relative corespunzătoare acestora Wi . Puncte ( x i ; Wi ) sunt legate prin segmente de drepte și se obține un poligon de frecvențe relative.

Când caracteristică continuă este oportun să se construiască histogramă .

histogramă de frecvență numită figură în trepte formată din dreptunghiuri ale căror baze sunt intervale parțiale de lungime h , iar înălțimile sunt egale cu raportul NIH (densitatea de frecvență).

Pentru a construi o histogramă de frecvențe, intervalele parțiale sunt trasate pe axa absciselor, iar segmentele sunt trasate deasupra lor paralele cu axa absciselor la distanță. NIH .

Număr de grupuri (intervale) este determinată aproximativ de formula Sturgess:

m = 1 + 3,322 × log(n)

unde n este numărul total de unități de observație (numărul total de elemente din populație etc.), lg(n) este logaritmul zecimal al lui n.

primit conform formulei Sturgess, valoarea este de obicei rotunjită la un întreg mai mare numere, deoarece numărul de grupuri nu poate fi un număr fracționar.

Dacă o serie de serii de intervale cu un astfel de număr de grupuri nu este satisfăcută de anumite criterii, atunci o altă serie de intervale poate fi construită prin rotunjire m la un număr întreg mai mic și alegeți cel mai potrivit dintre cele două rânduri.

Numărul de grupuri nu trebuie să depășească 15.

De asemenea, puteți utiliza următorul tabel dacă nu este deloc posibil să se calculeze logaritmul zecimal.

    Determinarea lățimii intervalului

Lățimea intervalului pentru o serie de variații de interval cu intervale egale este determinată de formula:

unde X max este valoarea maximă a lui x i , X min este valoarea minimă a lui x i ; m - numărul de grupuri (intervale).

Valoarea intervalului (i ) sunt de obicei rotunjite la cel mai apropiat număr întreg, singurele excepții sunt cazurile în care sunt studiate cele mai mici fluctuații ale unei caracteristici (de exemplu, la gruparea pieselor în funcție de dimensiunea abaterilor de la valoarea nominală, măsurată în fracțiuni de milimetru).

Următoarea regulă se aplică adesea:

Numărul de zecimale

Un număr de simboluri după virgulă

Un exemplu de lățime a intervalului conform formulei

La ce semn ne rotunjim

Exemplu de lățime de spațiere rotunjită

    Definim limitele intervalelor

limita inferioară primul interval este luată egală cu valoarea minimă a atributului (cel mai adesea este rotunjit preliminar la un număr întreg mai mic cu aceeași cifră cu lățimea intervalului). De exemplu, x min = 15, i=130, x n din primul interval = 10.

x n1 ≈ x min

Limită superioară primul interval corespunde valorii (Xmin + i).

Limita inferioară a celui de-al doilea interval este întotdeauna egală cu limita superioară a primului interval. Pentru grupurile ulterioare, limitele sunt determinate în mod similar, adică valoarea intervalului este adăugată succesiv.

X V i = x n i + i

X n i = x V i-1

    Determinăm frecvențele intervalelor.

Luăm în considerare câte valori au căzut în fiecare interval. În același timp, amintiți-vă că, dacă o unitate are o valoare caracteristică egală cu valoarea limitei superioare a intervalului, atunci ar trebui să fie atribuită următorului interval.

    Construim o serie de intervale sub forma unui tabel.

    Determinați punctele de mijloc ale intervalelor.

Pentru o analiză suplimentară a seriei de intervale, va trebui să selectați o valoare caracteristică pentru fiecare interval. Această valoare caracteristică va fi comună tuturor unităților de observație care se încadrează în acest interval. Acestea. elementele individuale „își pierd” valorile caracteristice individuale și li se atribuie o valoare caracteristică comună. Această valoare comună este mijlocul intervalului, care este notat X" i .

Luați în considerare, folosind un exemplu cu creșterea copiilor, cum să construiți o serie de intervale cu intervale egale.

Există date inițiale.

90, 91, 92, 93, 94, 95, 96, 97, 98, 99 , 92, 93, 94, 95, 96, 98 , , 100, 101, 102, 103, 104, 105, 106, 107, 108, 109 , 100, 101, 102, 104 , 110, 112, 114, 116, 117, 120, 122, 123, 124, 129, 110, 111, 113, 115, 116, 117, 121, 125, 126, 127 , 110, 111, 112, 113, 114, 115, 116, 117, 118, 119, 120, 121, 122, 123, 124, 125, 126, 127, 128, 129 , 111, 113, 116, 127 , 123, 122, 130, 131, 132, 133, 134, 136, 137, 138, 139, 140, 141, 142, 143, 144, 145, 146, 147, 148, 149, 150 , 131, 133, 135, 136, 138, 139, 140, 141, 142, 143, 145, 146, 147, 148

În multe cazuri, dacă populația statistică include un număr mare sau, cu atât mai mult, infinit de opțiuni, care se întâlnește cel mai adesea cu variație continuă, este practic imposibil și nepractic să se formeze un grup de unități pentru fiecare opțiune. În astfel de cazuri, asocierea unităților statistice în grupuri este posibilă numai pe baza intervalului, adică. un astfel de grup care are anumite limite ale valorilor atributului variabil. Aceste limite sunt indicate prin două numere care indică limitele superioare și inferioare ale fiecărui grup. Utilizarea intervalelor conduce la formarea unei serii de distribuție a intervalelor.

interval rad este o serie variațională ale cărei variante sunt prezentate ca intervale.

Seria de intervale poate fi formată cu intervale egale și inegale, în timp ce alegerea principiului de construire a acestei serii depinde în principal de gradul de reprezentativitate și comoditate al populației statistice. Dacă mulțimea este suficient de mare (reprezentativă) în ceea ce privește numărul de unități și este destul de omogen ca compoziție, atunci este indicat să se bazeze formarea seriei de intervale pe intervale egale. De obicei, conform acestui principiu, se formează o serie de intervale pentru acele populații în care intervalul de variație este relativ mic, adică. variantele maxime și minime diferă de obicei una de alta de câteva ori. În acest caz, valoarea intervalelor egale este calculată prin raportul dintre intervalul variației trăsăturii și numărul dat de intervale formate. Pentru a determina egal Și interval, poate fi utilizată formula Sturgess (de obicei, cu o mică variație a caracteristicilor intervalului și un număr mare de unități în populația statistică):

unde x i - valoarea unui interval egal; X max, X min - optiuni maxime si minime in populatia statistica; n . - numarul de unitati din populatie.

Exemplu. Este recomandabil să se calculeze dimensiunea unui interval egal în funcție de densitatea contaminării radioactive cu cesiu - 137 în 100 de așezări din districtul Krasnopolsky din regiunea Mogilev, dacă se știe că varianta inițială (minimă) este egală cu I km. / km 2, finala ( maxim) - 65 ki/km 2. Folosind formula 5.1. primim:

Prin urmare, pentru a forma o serie de intervale cu intervale egale pentru densitatea poluării cu cesiu - 137 de așezări din districtul Krasnopolsky, dimensiunea unui interval egal poate fi de 8 ki/km 2 .

În condiții de distribuție neuniformă, de ex. când opțiunile maxime și minime sunt de sute de ori, la formarea seriei de intervale, puteți aplica principiul inegal intervale. Intervalele inegale cresc de obicei pe măsură ce treceți la valori mai mari ale caracteristicii.

Forma intervalelor poate fi închisă și deschisă. Închis Se obișnuiește să se numească intervale pentru care sunt indicate atât limitele inferioare, cât și cele superioare. deschis intervalele au o singură limită: în primul interval - cel superior, în ultimul - limita inferioară.

Este indicat să se evalueze seriile de intervale, în special cele cu intervale inegale, ținând cont densitatea distributiei, cel mai simplu mod de a calcula care este raportul dintre frecvența (sau frecvența) locală și dimensiunea intervalului.

Pentru formarea practică a seriei de intervale, puteți utiliza aspectul tabelului. 5.3.

T a b l e 5.3. Procedura de formare a unei serii interval de așezări în districtul Krasnopolsky în funcție de densitatea contaminării radioactive cu cesiu -137

Principalul avantaj al seriei de intervale este limita sa compactitatea. totodată, în seria de intervale a distribuției, variantele individuale ale trăsăturii sunt ascunse în intervalele corespunzătoare.

Când o reprezentare grafică a unei serii de intervale într-un sistem de coordonate dreptunghiulare, limitele superioare ale intervalelor sunt trasate pe axa absciselor, iar frecvențele locale ale seriei sunt pe axa ordonatelor. Construcția grafică a unei serii de intervale diferă de construcția unui poligon de distribuție prin aceea că fiecare interval are o limită inferioară și una superioară, iar două abscise corespund oricărei valori a ordonatei. Prin urmare, pe graficul seriei de intervale, nu este marcat un punct, ca într-un poligon, ci o linie care leagă două puncte. Aceste linii orizontale sunt conectate între ele prin linii verticale și se obține o figură a unui poligon în trepte, care se numește în mod obișnuit histogramă distribuțiile (Figura 5.3).

În construcția grafică a unei serii de intervale pentru o populație statistică suficient de mare, se apropie histograma simetric forma de distributie. În acele cazuri în care populația statistică este mică, de regulă, se formează asimetric diagramă cu bare.

În unele cazuri, există oportunitatea în formarea unui număr de frecvențe acumulate, adică cumulativ rând. O serie cumulativă poate fi formată pe baza unei serii de distribuție discretă sau pe intervale. Când o serie cumulativă este afișată grafic într-un sistem de coordonate dreptunghiulare, opțiunile sunt reprezentate pe axa absciselor, iar frecvențele (frecvențele) acumulate sunt reprezentate pe axa ordonatelor. Linia curbă rezultată se numește cumulativ distribuțiile (Figura 5.4).

Formarea și reprezentarea grafică a diferitelor tipuri de serii variaționale contribuie la un calcul simplificat al principalelor caracteristici statistice, care sunt discutate în detaliu în subiectul 6, ajută la înțelegerea mai bună a esenței legilor de distribuție a unei populații statistice. Analiza seriei de variații are o importanță deosebită în cazurile în care este necesară identificarea și urmărirea relației dintre variante și frecvențe (frecvențe). Această dependență se manifestă prin faptul că numărul de cazuri pentru fiecare variantă este într-un anumit fel legat de valoarea acestei variante, adică. cu o creștere a valorilor semnului variabil al frecvenței (frecvenței) acestor valori, ele experimentează anumite schimbări sistematice. Aceasta înseamnă că numerele din coloana de frecvențe (frecvențe) nu sunt supuse fluctuațiilor haotice, ci se schimbă într-o anumită direcție, într-o anumită ordine și succesiune.

Dacă frecvențele în modificările lor arată o anumită sistematicitate, atunci aceasta înseamnă că suntem pe cale de a identifica tipare. Sistemul, ordinea, succesiunea în frecvențe în schimbare este o reflectare a cauzelor comune, a condițiilor generale care sunt caracteristice întregii populații.

Nu trebuie să presupunem că modelul de distribuție este întotdeauna dat gata făcut. Există destul de multe serii variaționale în care frecvențele sar în mod bizar, fie crescând, fie descrescând. În astfel de cazuri, este recomandabil să aflați cu ce fel de distribuție are de-a face cercetătorul: fie această distribuție nu este deloc inerentă tiparelor, fie natura ei nu a fost încă identificată: primul caz este rar, în timp ce al doilea, al doilea caz este un fenomen destul de frecvent și foarte frecvent.

Deci, atunci când se formează o serie de intervale, numărul total de unități statistice poate fi mic, iar un număr mic de opțiuni se încadrează în fiecare interval (de exemplu, 1-3 unități). În astfel de cazuri, nu este necesar să se bazeze pe manifestarea vreunei regularități. Pentru a se obține un rezultat regulat pe baza unor observații aleatorii, trebuie să intre în vigoare legea numerelor mari, adică. astfel încât pentru fiecare interval ar fi nu mai multe, ci zeci și sute de unități statistice. În acest scop, trebuie să încercăm să creștem cât mai mult numărul de observații. Acesta este cel mai sigur mod de a detecta tipare în procesele de masă. Dacă nu există o oportunitate reală de a crește numărul de observații, atunci identificarea tiparelor poate fi realizată prin reducerea numărului de intervale din seria de distribuție. Reducerea numărului de intervale din seria de variații, crescând astfel numărul de frecvențe în fiecare interval. Aceasta înseamnă că fluctuațiile aleatoare ale fiecărei unități statistice sunt suprapuse una peste alta, „netezite”, transformându-se într-un model.

Formarea și construirea seriilor variaționale vă permite să obțineți doar o imagine generală, aproximativă, a distribuției populației statistice. De exemplu, o histogramă exprimă doar aproximativ relația dintre valorile unei caracteristici și frecvențele (frecvențele) sale. Prin urmare, seriile variaționale sunt în esență doar baza pentru un studiu suplimentar și aprofundat al modelelor interne de distribuție statică.

TEMA 5 ÎNTREBĂRI

1. Ce este variația? Ce cauzează variația unei trăsături într-o populație statistică?

2. Ce tipuri de semne variabile pot avea loc în statistică?

3. Ce este o serie de variații? Care sunt tipurile de serie de variații?

4. Ce este o serie clasificată? Care sunt avantajele și dezavantajele sale?

5. Ce este o serie discretă și care sunt avantajele și dezavantajele ei?

6. Care este ordinea de formare a seriei de intervale, care sunt avantajele și dezavantajele acesteia?

7. Ce este o reprezentare grafică a unei serii de distribuție pe intervale ordonate, discrete?

8. Ce este cumul de distribuție și ce caracterizează acesta?

Statistici matematice- o secțiune de matematică dedicată metodelor matematice de prelucrare, sistematizare și utilizare a datelor statistice pentru concluzii științifice și practice.

3.1. CONCEPTE DE BAZĂ ALE STATISTICII MATEMATICE

În problemele biomedicale, este adesea necesar să se investigheze distribuția uneia sau alteia trăsături pentru un număr foarte mare de indivizi. Pentru diferiți indivizi, această caracteristică are o semnificație diferită, deci este o variabilă aleatorie. De exemplu, orice medicament terapeutic are o eficacitate diferită atunci când este aplicat la diferiți pacienți. Cu toate acestea, pentru a vă face o idee despre eficacitatea acestui medicament, nu este necesar să îl aplicați toata lumea bolnav. Este posibil să se urmărească rezultatele utilizării medicamentului la un grup relativ mic de pacienți și, pe baza datelor obținute, să se identifice caracteristicile esențiale (eficacitate, contraindicații) procesului de tratament.

Populația- un ansamblu de elemente omogene de studiat, caracterizate printr-o trăsătură. Acest semn este continuu variabilă aleatoare cu densitatea distribuției f(x).

De exemplu, dacă suntem interesați de prevalența unei boli într-o anumită regiune, atunci populația generală este întreaga populație a regiunii. Dacă dorim să aflăm separat susceptibilitatea la această boală a bărbaților și femeilor, atunci ar trebui luate în considerare două populații generale.

Pentru a studia proprietățile populației generale, este selectată o anumită parte a elementelor acesteia.

Probă- o parte din populația generală selectată pentru examinare (tratament).

Dacă acest lucru nu provoacă confuzie, atunci eșantionul se numește ca colecție de obiecte selectat pentru examinare și totalitate

valorile a trăsăturii studiate, obţinută în timpul examinării. Aceste valori pot fi reprezentate în mai multe moduri.

Serii statistice simple - valorile trăsăturii studiate, înregistrate în ordinea în care au fost obținute.

Un exemplu de serie statistică simplă obținută prin măsurarea vitezei undelor de suprafață (m/s) în pielea frunții a 20 de pacienți este prezentat în tabel. 3.1.

Tabelul 3.1.Serii statistice simple

O serie statistică simplă este modalitatea principală și cea mai completă de înregistrare a rezultatelor sondajului. Poate conține sute de elemente. Este foarte dificil să arunci o privire asupra unui astfel de agregat dintr-o privire. Prin urmare, eșantioanele mari sunt de obicei subîmpărțite în grupuri. Pentru a face acest lucru, zona de modificare a atributului este împărțită în mai multe (N) intervale de lățime egală și calculați frecvențele relative (n/n) ale caracteristicii care se încadrează în aceste intervale. Lățimea fiecărui interval este:

Limitele intervalelor au următoarele semnificații:

Dacă orice element al eșantionului este granița dintre două intervale adiacente, atunci se numește stânga interval. Datele grupate în acest fel sunt numite serii statistice de interval.

- acesta este un tabel care arată intervalele valorilor trăsăturii și frecvențele relative ale trăsăturii care se încadrează în aceste intervale.

În cazul nostru, putem forma, de exemplu, o astfel de serie statistică de interval (N = 5, d= 4), tab. 3.2.

Tabelul 3.2.Serii statistice de intervale

Aici, două valori egale cu 28 sunt atribuite intervalului 28-32 (Tabelul 3.1), iar valorile 32, 33, 34 și 35 sunt atribuite intervalului 32-36.

O serie statistică de interval poate fi reprezentată grafic. Pentru a face acest lucru, intervalele de valori caracteristice sunt trasate de-a lungul axei absciselor și pe fiecare dintre ele, ca pe bază, este construit un dreptunghi cu o înălțime egală cu frecvența relativă. Diagrama cu bare rezultată este numită histogramă.

Orez. 3.1. diagramă cu bare

Pe histogramă, modelele statistice ale distribuției caracteristicii sunt văzute destul de clar.

Cu o dimensiune mare a eșantionului (câteva mii) și o lățime mică a coloanelor, forma histogramei este apropiată de forma graficului densitatea distributiei semn.

Numărul de coloane ale histogramei poate fi selectat folosind următoarea formulă:

Construirea manuală a unei histograme este un proces lung. Prin urmare, au fost dezvoltate programe de calculator pentru construcția lor automată.

3.2. CARACTERISTICI NUMERICE ALE SERIELOR STATISTICE

Multe proceduri statistice folosesc estimări ale eșantionului pentru media și varianța (sau abaterea standard) a populației.

eșantion mediu(X) este media aritmetică a tuturor elementelor unei serii statistice simple:

Pentru exemplul nostru X= 37,05 (m/s).

Media eșantionului estecel mai bunestimarea mediei generaleM.

Varianta eșantionului s 2 este egală cu suma abaterilor pătrate ale elementelor de la media eșantionului, împărțită la n- 1:

În exemplul nostru, s 2 \u003d 25,2 (m / s) 2.

Vă rugăm să rețineți că atunci când se calculează varianța eșantionului, numitorul formulei nu este dimensiunea eșantionului n, ci n-1. Acest lucru se datorează faptului că atunci când se calculează abaterile în formula (3.3), în loc de o așteptare matematică necunoscută, se utilizează estimarea acesteia - eșantion mediu.

Varianta eșantionului este cel mai bun estimarea varianței generale (σ 2).

Deviația standard a eșantionului(s) este rădăcina pătrată a varianței eșantionului:

Pentru exemplul nostru s= 5,02 (m/s).

selectiv rms abaterea este cea mai bună estimare a RMSE generală (σ).

Cu o creștere nelimitată a dimensiunii eșantionului, toate caracteristicile eșantionului tind spre caracteristicile corespunzătoare ale populației generale.

Pentru a calcula caracteristicile eșantionului, se folosesc formule computerizate. În Excel, aceste calcule realizează funcțiile statistice MEDIE, VARR. STDEV.

3.3. ESTIMARE INTERVAL

Toate caracteristicile eșantionului sunt variabile aleatoare. Aceasta înseamnă că pentru un alt eșantion de aceeași dimensiune, valorile caracteristicilor eșantionului vor fi diferite. Astfel, selectiv

caracteristicile sunt numai estimări caracteristicile relevante ale populației generale.

Compensează neajunsurile evaluării selective estimarea intervalului, reprezentând interval de numere,în interiorul căruia cu o probabilitate dată R d se găseşte valoarea adevărată a parametrului estimat.

Lăsa U r - un parametru al populației generale (media generală, varianța generală etc.).

estimarea intervalului parametrul U r se numește interval (U 1 , U 2), satisfacerea conditiei:

P(U < Ur < U2) = Рд. (3.5)

Probabilitate R d numit probabilitatea de încredere.

Probabilitatea de încredere Pd - probabilitatea ca adevărata valoare a cantității estimate să fie interior intervalul specificat.

În același timp, intervalul (U 1 , U 2) numit interval de încredere pentru parametrul estimat.

Adesea, în locul probabilității de încredere, valoarea asociată α = 1 - R d, care se numește nivelul de semnificație.

Nivel de semnificație este probabilitatea ca valoarea reală a parametrului estimat să fie in afara interval de încredere.

Uneori α și Rd sunt exprimate ca procent, de exemplu, 5% în loc de 0,05 și 95% în loc de 0,95.

În estimarea intervalului, alegeți mai întâi cea potrivită nivel de încredere(de obicei 0,95 sau 0,99), apoi găsiți intervalul corespunzător de valori ale parametrului estimat.

Remarcăm câteva proprietăți generale ale estimărilor de interval.

1. Cu cât nivelul de semnificație este mai scăzut (cu atât mai mult R d), cu cât estimarea intervalului este mai largă. Deci, dacă la un nivel de semnificație de 0,05, intervalul estimat al mediei generale este 34,7< M< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < M< 40,25.

2. Cu cât dimensiunea eșantionului este mai mare n, cu atât estimarea intervalului este mai restrânsă cu nivelul de semnificație selectat. Fie, de exemplu, 5 estimarea procentuală a mediei generale (β=0,05) obținută dintr-un eșantion de 20 de itemi, apoi 34,7< M< 39,4.

Prin creșterea dimensiunii eșantionului la 80, vom obține o estimare mai precisă la același nivel de semnificație: 35,5< M< 38,6.

În cazul general, construirea estimărilor de încredere de încredere necesită cunoașterea legii conform căreia caracteristica aleatorie estimată este distribuită în populația generală. Luați în considerare modul în care este construită estimarea intervalului media generală trasatura, care este distribuita in populatia generala in functie de normal lege.

3.4. ESTIMARE INTERVALĂ A MEDIEI GENERALE PENTRU LEGEA DE DISTRIBUȚIE NORMALĂ

Construirea unei estimări de interval a mediei generale M pentru o populație generală cu o lege de distribuție normală se bazează pe următoarea proprietate. Pentru prelevarea volumului n atitudine

respectă distribuția Student cu numărul de grade de libertate ν = n- 1.

Aici X este media eșantionului și s- abaterea standard selectivă.

Folosind tabelele de distribuție ale lui Student sau analogul lor de calculator, se poate găsi o astfel de valoare limită încât cu o probabilitate de încredere dată să fie satisfăcută următoarea inegalitate:

Această inegalitate corespunde inegalității pentru M:

Unde ε este jumătatea lățimii intervalului de încredere.

Astfel, construirea unui interval de încredere pentru M se realizează în următoarea secvență.

1. Alegeți probabilitatea de încredere P d (de obicei 0,95 sau 0,99) și pentru aceasta, conform tabelului de distribuție a lui Student, se găsește parametrul t

2. Calculați jumătatea lățimii intervalului de încredere ε:

3. Se obține o estimare pe intervale a mediei generale cu probabilitatea de încredere selectată:

Pe scurt este scris astfel:

Au fost dezvoltate proceduri computerizate pentru a găsi estimări de interval.

Să explicăm cum să folosiți tabelul de distribuție al Studentului. Acest tabel are două „intrări”: coloana din stânga, numită numărul de grade de libertate ν = n- 1, iar rândul de sus este nivelul de semnificație α. La intersecția rândului și coloanei corespunzătoare se găsește coeficientul Student t.

Să aplicăm această metodă eșantionului nostru. Un fragment din tabelul de distribuție a Studentului este prezentat mai jos.

Tabelul 3.3. Fragment din tabelul de distribuție al Studentului

O serie statistică simplă pentru un eșantion de 20 de persoane (n= 20, ν =19) este prezentată în tabel. 3.1. Pentru această serie, calculele folosind formulele (3.1-3.3) dau: X= 37,05; s= 5,02.

Să alegem α = 0,05 (P d = 0,95). La intersecția rândului „19” și coloanei „0,05” găsim t= 2,09.

Să calculăm precizia estimării prin formula (3.6): ε = 2,09?5,02/λ /20 = 2,34.

Să construim o estimare de interval: cu o probabilitate de 95%, media generală necunoscută satisface inegalitatea:

37,05 - 2,34 < M< 37,05 + 2,34, или M= 37,05 ± 2,34 (m/s), Р d = 0,95.

3.5. METODE DE VERIFICARE A IPOTEZELOR STATISTICE

Ipoteze statistice

Înainte de a formula ce este o ipoteză statistică, luați în considerare următorul exemplu.

Pentru a compara două metode de tratare a unei anumite boli, au fost selectate două grupuri de pacienți a câte 20 de persoane fiecare, al căror tratament a fost efectuat conform acestor metode. Pentru fiecare pacient, a numărul de proceduri urmată de un efect pozitiv. Conform acestor date, pentru fiecare grup, am găsit mediile eșantionului (X), variațiile eșantionului (s 2)și eșantion RMS (s).

Rezultatele sunt prezentate în tabel. 3.4.

Tabelul 3.4

Numărul de proceduri necesare pentru a obține un efect pozitiv este o variabilă aleatorie, toate informațiile despre care sunt conținute în prezent în eșantionul de mai sus.

Din Tabel. 3.4 arată că media eșantionului în primul grup este mai mică decât în ​​al doilea. Înseamnă aceasta că același raport este valabil și pentru mediile generale: M 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает testarea statistică a ipotezelor.

Ipoteza statistica- este o presupunere despre proprietăţile populaţiilor.

Vom lua în considerare ipoteze despre proprietăți Două populatiile generale.

Dacă populaţiile au cunoscut, la fel distribuția valorii care se estimează, iar ipotezele se referă la cantități vreun parametru această distribuție, atunci se numesc ipotezele parametrice. De exemplu, eșantioanele sunt extrase din populații cu legea normală distribuție și varianță egală. Este necesar să se afle sunt la fel mediile generale ale acestor populaţii.

Dacă nu se știe nimic despre legile de distribuție a populațiilor generale, atunci se numesc ipoteze despre proprietățile lor neparametric. De exemplu, sunt la fel legile de distribuţie a populaţiilor din care se prelevează probele.

Ipoteze nule și alternative.

Sarcina de a testa ipoteze. Nivel de semnificație

Să ne familiarizăm cu terminologia folosită în testarea ipotezelor.

H 0 - ipoteza nula (ipoteza sceptica) - aceasta este o ipoteza despre nici o diferențăîntre probele comparate. Scepticul consideră că diferențele dintre estimările eșantionului obținute din rezultatele cercetării sunt aleatorii;

H 1- o ipoteză alternativă (ipoteza optimistului) este o ipoteză despre prezența diferențelor între eșantioanele comparate. Optimistul consideră că diferențele dintre estimările eșantionului sunt cauzate de motive obiective și corespund diferențelor din populațiile generale.

Testarea ipotezelor statistice este fezabilă numai atunci când elementele eșantioanelor comparate pot fi utilizate pentru a compune unele valoare(criteriu), a cărui lege de distribuție în cazul echității H 0 celebru. Apoi, pentru această cantitate, se poate specifica interval de încredere,în care cu o probabilitate dată R dîși capătă valoarea. Acest interval se numește zona critica. Dacă valoarea criteriului se încadrează în regiunea critică, atunci ipoteza este acceptată H0.În caz contrar, se acceptă ipoteza H 1.

În cercetarea medicală, se utilizează P d = 0,95 sau P d = 0,99. Aceste valori corespund niveluri de semnificațieα = 0,05 sau α = 0,01.

La testarea ipotezelor statisticenivelul de semnificație(α) este probabilitatea de a respinge ipoteza nulă atunci când aceasta este adevărată.

Rețineți că, în esență, este vizată procedura de testare a ipotezelor detectarea diferențelor, să nu le confirme absenţa. Când valoarea criteriului depășește zona critică, putem spune „sceptici” cu o inimă curată - ei bine, ce mai doriți?! Dacă nu ar exista diferențe, atunci cu o probabilitate de 95% (sau 99%) valoarea calculată ar fi în limitele specificate. Deci nu!..

Ei bine, dacă valoarea criteriului se încadrează în regiunea critică, atunci nu există niciun motiv să credem că ipoteza H 0 este corectă. Acest lucru indică cel mai probabil una dintre cele două cauze posibile.

1. Dimensiunile eșantionului nu sunt suficient de mari pentru a detecta diferențele. Este probabil ca experimentarea continuă să aducă succes.

2. Există diferențe. Dar sunt atât de mici încât nu au nicio importanță practică. În acest caz, continuarea experimentelor nu are sens.

Să trecem la considerarea unora dintre ipotezele statistice folosite în cercetarea medicală.

3.6. TESTARE A IPOTEZELOR PRIVIND EGALITATEA VARIANȚLOR, CRITERIU F FISHER

În unele studii clinice, un efect pozitiv este evidențiat nu atât de magnitudinea parametru studiat, cât stabilizare, reducându-şi fluctuaţiile. În acest caz, se pune întrebarea de a compara două variații generale pe baza rezultatelor unui sondaj prin sondaj. Această sarcină poate fi rezolvată folosind criteriul lui Fisher.

Formularea problemei

legea normală distributie. Dimensiuni mostre -

n 1Și n2, A variațiile de eșantion egal s 1 și s 2 2 variaţii generale.

Ipoteze testate:

H 0- variatii generale sunt la fel;

H 1- variatii generale diferit.

Se arată dacă probele sunt prelevate din populații cu legea normală distribuție, atunci dacă ipoteza este adevărată H 0 raportul dintre variațiile eșantionului se supune distribuției Fisher. Prin urmare, ca criteriu de testare a validității H 0 se ia valoarea F, calculat prin formula:

Unde s 1 și s 2 - variațiile eșantionului.

Acest raport se supune distribuției Fisher cu numărul de grade de libertate al numărătorului ν 1 = n 1- 1 și numărul de grade de libertate ale numitorului ν 2 = n 2 - 1. Limitele regiunii critice se găsesc conform tabelelor de distribuție Fisher sau folosind funcția de calculator BRASPOBR.

Pentru exemplul prezentat în tabel. 3.4, obținem: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19; F= 2,16/4,05 = 0,53. La α = 0,05, limitele regiunii critice sunt egale, respectiv: = 0,40, = 2,53.

Valoarea criteriului a căzut în regiunea critică, deci ipoteza este acceptată H 0: variațiile generale ale eșantionului sunt la fel.

3.7. TESTARE DE IPOTEZE PRIVIND EGALITATEA MEDIILOR, TESTUL STUDENTULUI

Problema de comparatie mediu două populaţii generale apare atunci când este magnitudinea trăsătura studiată. De exemplu, când se compară durata tratamentului cu două metode diferite sau numărul de complicații care decurg din utilizarea lor. În acest caz, poate fi folosit testul t al lui Student.

Formularea problemei

Au fost obținute două probe (Х 1 ) și (Х 2 ), extrase din populațiile generale cu legea normală distribuţie şi aceeași dispersie. Dimensiunile eșantionului - n 1 și n 2 , eșantion înseamnă sunt egale cu X 1 și X 2 și variațiile de eșantion- s 1 2 și s 2 2 respectiv. Trebuie comparat medii generale.

Ipoteze testate:

H 0- medii generale sunt la fel;

H 1- medii generale diferit.

Se arată că dacă ipoteza este adevărată H 0 valoarea lui t, calculată prin formula:

distribuite conform legii lui Student cu numărul de grade de libertate ν = ν 1 + + ν2 - 2.

Aici unde ν 1 = n 1 - 1 - numărul de grade de libertate pentru prima probă; v2 = n 2 - 1 - numărul de grade de libertate pentru al doilea eșantion.

Limitele regiunii critice sunt găsite din tabele de distribuție t sau folosind funcția de calculator STUDRASP. Distribuția lui Student este simetrică față de zero, astfel încât limitele stânga și dreapta ale regiunii critice sunt aceleași în valoare absolută și opuse în semn: -și

Pentru exemplul prezentat în tabel. 3.4, obținem:

v 1 \u003d v 2 \u003d 20 - 1 \u003d 19; v = 38, t= -2,51. Cu α = 0,05 = 2,02.

Valoarea criteriului depășește granița din stânga a regiunii critice, așa că acceptăm ipoteza H 1: medii generale diferit.În același timp, media populației generale prima mostră MAI PUȚIN.

Aplicabilitatea testului t Student

Testul t al studentului se aplică numai probelor din normal se agrega cu aceleași variații generale. Dacă cel puțin una dintre condiții este încălcată, atunci aplicabilitatea criteriului este îndoielnică. Cerința de normalitate a populației generale este de obicei ignorată, referindu-se la teorema limitei centrale.Într-adevăr, diferența dintre mediile eșantionului, care se află în numărătorul (3.10), poate fi considerată distribuită normal pentru ν > 30. Dar problema egalității varianțelor nu este supusă verificării și trimiterile la faptul că Fisher testul nu a detectat diferențe nu pot fi luate în considerare. Cu toate acestea, testul t este utilizat pe scară largă pentru a detecta diferențele în mediile populației, deși fără dovezi suficiente.

Mai jos este luat în considerare criteriu neparametric, care este folosit cu succes în aceleași scopuri și care nu necesită niciunul normalitate, nici egalitatea varianţelor.

3.8. COMPARAȚIA NEPARAMETRICĂ A DOUĂ EȘANTIE: TESTUL MANN-WHITNEY

Criteriile neparametrice sunt concepute pentru a detecta diferențele în legile de distribuție a două populații generale. Criterii care sunt sensibile la diferențe în general mediu, numite criterii schimb. Criterii care sunt sensibile la diferențe în general dispersie, numite criterii scară. Testul Mann-Whitney se referă la criterii forfecareși este utilizat pentru a detecta diferențe în mediile a două populații, eșantioane din care sunt prezentate în scala de clasare. Semnele măsurate sunt situate pe această scară în ordine crescătoare și apoi numerotate cu numere întregi 1, 2 ... Aceste numere se numesc ranguri. Valorilor egale li se atribuie aceleași ranguri. Nu valoarea atributului în sine contează, ci numai loc ordinal, pe care o ocupă printre alte valori.

În tabel. 3.5. primul grup din tabelul 3.4 este prezentat în formă extinsă (rândul 1), supus clasării (rândul 2), iar apoi rândurile acelorași valori sunt înlocuite cu valori medii aritmetice. De exemplu, elementele 4 și 4 din primul rând au primit rangurile 2 și 3, care au fost apoi înlocuite cu aceleași valori de 2,5.

Tabelul 3.5

Formularea problemei

Mostre independente (X 1)Și (X 2) extrase din populații cu legi de distribuție necunoscute. Dimensiunile mostrelor n 1Și n 2 respectiv. Valorile elementelor probelor sunt prezentate în scala de clasare. Este necesar să se verifice dacă aceste populații generale diferă unele de altele?

Ipoteze testate:

H 0- eșantioanele aparțin aceleiași populații generale; H 1- eşantioanele aparţin unor populaţii generale diferite.

Pentru a testa astfel de ipoteze, se folosește testul (/-Mann-Whitney.

În primul rând, un eșantion combinat (X) este format din două eșantioane, ale căror elemente sunt clasificate. Apoi se găsește suma rangurilor corespunzătoare elementelor primului eșantion. Această sumă este criteriul de testare a ipotezelor.

U= Suma rangurilor primului eșantion. (3,11)

Pentru mostre independente mai mari de 20, valoarea U respectă o distribuție normală, a cărei așteptare matematică și abatere standard sunt egale cu:

Prin urmare, limitele regiunii critice se găsesc conform tabelelor de distribuție normale.

Pentru exemplul prezentat în tabel. 3.4, obținem: ν 1 \u003d ν 2 \u003d 20 - 1 \u003d 19, U= 339, μ = 410, σ = 37. Pentru α = 0,05 obținem: atât stânga = 338 cât și dreapta = 482.

Valoarea criteriului depășește granița stângă a regiunii critice, deci se acceptă ipoteza H 1: populațiile generale au legi de distribuție diferite. În același timp, media populației generale prima mostră MAI PUȚIN.

La construirea unei serii de distribuție pe intervale, sunt rezolvate trei întrebări:

  • 1. Câte intervale ar trebui să iau?
  • 2. Care este lungimea intervalelor?
  • 3. Care este procedura de includere a unităților de populație în limitele intervalelor?
  • 1. Numărul de intervale poate fi determinat de Formula Sturgess:

2. Lungimea intervalului sau pas de interval, este de obicei determinată de formulă

Unde R- gama de variatie.

3. Ordinea de includere a unităților de populație în limitele intervalului

poate fi diferit, dar atunci când se construiește o serie de intervale, distribuția este în mod necesar strict definită.

De exemplu, acesta: [), în care unitățile populației sunt incluse în limitele inferioare și nu sunt incluse în limitele superioare, dar sunt transferate la intervalul următor. Excepția de la această regulă este ultimul interval, a cărui limită superioară include ultimul număr al seriei clasate.

Limitele intervalelor sunt:

  • închis - cu două valori extreme ale atributului;
  • deschis - cu o valoare extremă a caracteristicii (inainte de vreun număr sau peste un astfel de număr).

Pentru a asimila materialul teoretic, introducem informații generale pentru solutii prin sarcini.

Există date condiționate privind numărul mediu de manageri de vânzări, numărul de bunuri de calitate unică vândute de aceștia, prețul individual de piață pentru acest produs, precum și volumul vânzărilor a 30 de firme într-una dintre regiunile Federației Ruse în primul trimestru al anului de raportare (Tabelul 2.1).

Tabelul 2.1

Informații inițiale pentru o sarcină transversală

populatia

managerii

Preț, mii de ruble

Volumul vânzărilor, milioane de ruble

populatia

managerii

Cantitatea mărfurilor vândute, buc.

Preț, mii de ruble

Volumul vânzărilor, milioane de ruble

Pe baza informațiilor inițiale, precum și a informațiilor suplimentare, vom stabili sarcini individuale. Apoi vă prezentăm metodologia de rezolvare a acestora și soluțiile în sine.

Sarcină transversală. Sarcina 2.1

Folosind tabelul de date original. 2.1 necesar construiți o serie discretă de distribuție a firmelor după numărul de bunuri vândute (Tabelul 2.2).

Soluţie:

Tabelul 2.2

Serii discrete de distribuție a firmelor în funcție de numărul de bunuri vândute într-una dintre regiunile Federației Ruse în primul trimestru al anului de raportare

Sarcină transversală. Sarcina 2.2

necesar construiți o serie clasată de 30 de firme după numărul mediu de manageri.

Soluţie:

15; 17; 18; 20; 20; 20; 22; 22; 24; 25; 25; 25; 27; 27; 27; 28; 29; 30; 32; 32; 33; 33; 33; 34; 35; 35; 38; 39; 39; 45.

Sarcină transversală. Sarcina 2.3

Folosind tabelul de date original. 2.1, necesar:

  • 1. Construiți o serie de intervale pentru distribuția firmelor după numărul de manageri.
  • 2. Calculați frecvențele seriei de distribuție a firmelor.
  • 3. Trageți concluzii.

Soluţie:

Calculați folosind formula Sturgess (2.5) numărul de intervale:

Astfel, luăm 6 intervale (grupe).

Lungimea intervalului, sau pas de interval, se calculează după formula

Notă. Ordinea de includere a unităților populației în limitele intervalului este următoarea: I), în care unitățile populației sunt incluse în limitele inferioare, și nu sunt incluse în limitele superioare, ci se transferă la următoarele. interval. Excepție de la această regulă este ultimul interval I ], a cărui limită superioară include ultimul număr al seriei clasate.

Construim o serie de intervale (Tabelul 2.3).

Seria de intervale de distribuție a firmelor, dar numărul mediu de manageri într-una dintre regiunile Federației Ruse în primul trimestru al anului de raportare

Concluzie. Cel mai numeros grup de firme este grupul cu un număr mediu de manageri de 25-30 de persoane, care cuprinde 8 firme (27%); cel mai mic grup cu un număr mediu de manageri de 40-45 de persoane include o singură firmă (3%).

Folosind tabelul de date original. 2.1, precum și seria intervalului de distribuție a firmelor după numărul de manageri (Tabelul 2.3), necesar construiți o grupare analitică a relației dintre numărul de manageri și volumul vânzărilor firmelor și, pe baza acesteia, trageți o concluzie despre prezența (sau absența) unei relații între semnele indicate.

Soluţie:

Gruparea analitică este construită pe o bază de factori. În problema noastră, semnul factor (x) este numărul de manageri, iar semnul rezultat (y) este volumul vânzărilor (Tabelul 2.4).

Să construim acum grupare analitică(Tabelul 2.5).

Concluzie. Pe baza datelor grupării analitice construite, se poate spune că odată cu creșterea numărului de directori de vânzări crește și volumul mediu de vânzări al companiei din grup, ceea ce indică prezența unei relații directe între aceste caracteristici.

Tabelul 2.4

Tabel auxiliar pentru construirea unei grupări analitice

Numărul de manageri, persoane,

Numarul companiei

Volumul vânzărilor, milioane de ruble, y

» = 59 f = 9,97

I-™ 4 - Yu.22

74 '25 1PY1

U4 = 7 = 10,61

la = ’ =10,31 30

Tabelul 2.5

Dependența volumelor vânzărilor de numărul de manageri de companie într-una dintre regiunile Federației Ruse în primul trimestru al anului de raportare

ÎNTREBĂRI DE CONTROL
  • 1. Care este esența observației statistice?
  • 2. Numiți etapele observației statistice.
  • 3. Care sunt formele organizatorice ale observaţiei statistice?
  • 4. Numiți tipurile de observație statistică.
  • 5. Ce este un rezumat statistic?
  • 6. Numiți tipurile de rapoarte statistice.
  • 7. Ce este o grupare statistică?
  • 8. Numiți tipurile de grupări statistice.
  • 9. Ce este o serie de distribuție?
  • 10. Numiți elementele structurale ale seriei de distribuție.
  • 11. Care este procedura de construire a unei serii de distribuție?
CATEGORII

ARTICOLE POPULARE

2023 "kingad.ru" - examinarea cu ultrasunete a organelor umane