Testul de corelație Pearson este o metodă de statistică parametrică care vă permite să determinați prezența sau absența unei relații liniare între doi indicatori cantitativi, precum și să evaluați apropierea și semnificația statistică a acesteia. Cu alte cuvinte, testul de corelație Pearson vă permite să determinați dacă există o relație liniară între modificările valorilor a două variabile. În calculele statistice și inferențe, coeficientul de corelație este de obicei notat ca r xy sau Rxy.

1. Istoricul dezvoltării criteriului de corelare

Testul de corelație Pearson a fost dezvoltat de o echipă de oameni de știință britanici condusă de Karl Pearson(1857-1936) în anii 90 ai secolului al XIX-lea, pentru a simplifica analiza covarianței a două variabile aleatoare. Pe lângă Karl Pearson, oamenii au lucrat și la criteriul de corelație Pearson Francis EdgeworthȘi Raphael Weldon.

2. Pentru ce este folosit testul de corelație Pearson?

Testul de corelație Pearson vă permite să determinați apropierea (sau puterea) corelației dintre doi indicatori măsurați pe o scară cantitativă. Folosind calcule suplimentare, puteți determina, de asemenea, cât de semnificativă este statistic relația identificată.

De exemplu, folosind criteriul de corelare Pearson, puteți răspunde la întrebarea dacă există o legătură între temperatura corpului și conținutul de leucocite din sânge în timpul infecțiilor respiratorii acute, între înălțimea și greutatea pacientului, între conținutul de fluor din apa potabilă și incidența cariilor dentare în populație.

3. Condiții și limitări pentru aplicarea testului chi-pătrat Pearson

  1. Indicatorii comparabili trebuie măsurați în scară cantitativă(de exemplu, ritmul cardiac, temperatura corpului, numărul de globule albe la 1 ml de sânge, tensiunea arterială sistolica).
  2. Folosind testul de corelație Pearson, putem doar determina prezența și puterea relației liniareîntre cantităţi. Alte caracteristici ale relației, inclusiv direcția (directă sau inversă), natura modificărilor (rectilinii sau curbilinii), precum și prezența dependenței unei variabile de alta, sunt determinate cu ajutorul analizei de regresie.
  3. Numărul de cantități comparate trebuie să fie egal cu două. În cazul analizei relației dintre trei sau mai mulți parametri, ar trebui să utilizați metoda analiza factorilor.
  4. Testul de corelație Pearson este parametrice, și de aceea condiția pentru utilizarea sa este distributie normala variabile comparate. Dacă este necesar să se efectueze o analiză de corelație a indicatorilor a căror distribuție diferă de cea normală, inclusiv a celor măsurați pe o scară ordinală, trebuie utilizat coeficientul de corelație a rangului lui Spearman.
  5. Conceptele de dependență și corelație ar trebui să fie clar distinse. Dependența cantităților determină prezența unei corelații între ele, dar nu invers.

De exemplu, înălțimea unui copil depinde de vârsta lui, adică cu cât copilul este mai mare, cu atât este mai înalt. Dacă luăm doi copii de vârste diferite, atunci cu un grad mare de probabilitate creșterea copilului mai mare va fi mai mare decât cea a celui mai mic. Acest fenomen se numește dependenta, implicând o relație cauză-efect între indicatori. Desigur, între ei există și conexiunea de corelare, ceea ce înseamnă că modificările unui indicator sunt însoțite de modificări ale altui indicator.

Într-o altă situație, luați în considerare relația dintre înălțimea unui copil și ritmul cardiac (HR). După cum se știe, ambele valori depind direct de vârstă, astfel încât, în majoritatea cazurilor, copiii de înălțime mai mare (și, prin urmare, de vârstă mai înaintată) vor avea valori mai mici ale ritmului cardiac. Acesta este, conexiunea de corelare vor fi observate și pot avea aglomerație destul de mare. Totuși, dacă luăm copiii aceasi varsta, Dar diferite înălțimi, atunci, cel mai probabil, pulsul lor va diferi nesemnificativ și, prin urmare, putem concluziona că independenţă Ritmul cardiac de la înălțime.

Exemplul de mai sus arată cât de important este să se facă distincția între conceptele fundamentale în statistică. comunicatiiȘi dependențe indicatori pentru tragerea unor concluzii corecte.

4. Cum se calculează coeficientul de corelație Pearson?

Coeficientul de corelație Pearson se calculează folosind următoarea formulă:

5. Cum se interpretează valoarea coeficientului de corelație Pearson?

Valorile coeficientului de corelație Pearson sunt interpretate pe baza valorilor lor absolute. Valorile posibile ale coeficientului de corelație variază de la 0 la ±1. Cu cât valoarea absolută a lui r xy este mai mare, cu atât este mai mare apropierea relației dintre cele două mărimi. r xy = 0 indică o lipsă completă de comunicare. r xy = 1 – indică prezența unei conexiuni absolute (funcționale). Dacă valoarea criteriului de corelație Pearson se dovedește a fi mai mare de 1 sau mai mică de -1, a fost făcută o eroare în calcule.

Pentru a evalua etanșeitatea sau rezistența unei corelații, se folosesc de obicei criterii general acceptate, conform cărora valorile absolute ale r xy< 0.3 свидетельствуют о slab conexiune, valorile r xy de la 0,3 la 0,7 - despre conexiune in medie etanșeitate, valori ale r xy > 0,7 - o puternic comunicatii.

O estimare mai precisă a puterii corelației poate fi obținută dacă utilizați Masa Chaddock:

Nota semnificație statistică Coeficientul de corelație r xy se realizează folosind testul t, calculat folosind următoarea formulă:

Valoarea t r obţinută se compară cu valoarea critică la un anumit nivel de semnificaţie şi cu numărul de grade de libertate n-2. Dacă t r depășește t crit, atunci se trage o concluzie despre semnificația statistică a corelației identificate.

6. Exemplu de calcul al coeficientului de corelație Pearson

Scopul studiului a fost de a identifica, determina apropierea și semnificația statistică a corelației dintre doi indicatori cantitativi: nivelul de testosteron din sânge (X) și procentul de masă musculară din organism (Y). Datele inițiale pentru un eșantion format din 5 subiecți (n = 5) sunt rezumate în tabel.

În cercetarea științifică, este adesea nevoie să se găsească o legătură între rezultat și variabilele factori (randamentul unei culturi și cantitatea de precipitații, înălțimea și greutatea unei persoane în grupuri omogene în funcție de sex și vârstă, ritmul cardiac și temperatura corpului). , etc.).

Al doilea sunt semne care contribuie la modificări ale celor asociate acestora (primul).

Conceptul de analiză a corelației

Sunt multe Pe baza celor de mai sus, putem spune că analiza corelației este o metodă folosită pentru a testa ipoteza despre semnificația statistică a două sau mai multe variabile dacă cercetătorul le poate măsura, dar nu le poate modifica.

Există și alte definiții ale conceptului în cauză. Analiza corelației este o metodă de procesare care presupune studierea coeficienților de corelație între variabile. În acest caz, se compară coeficienții de corelație între o pereche sau mai multe perechi de caracteristici pentru a stabili relații statistice între ele. Analiza corelației este o metodă de studiere a dependenței statistice dintre variabile aleatoare cu prezența opțională de natură funcțională strictă, în care dinamica unei variabile aleatoare conduce la dinamica așteptării matematice a alteia.

Conceptul de corelație falsă

La efectuarea analizei de corelație, este necesar să se țină cont de faptul că aceasta poate fi efectuată în raport cu orice set de caracteristici, adesea absurde unele în raport cu altele. Uneori nu au nicio legătură cauzală unul cu celălalt.

În acest caz, se vorbește despre o corelație falsă.

Probleme de analiză a corelației

Pe baza definițiilor de mai sus, putem formula următoarele sarcini ale metodei descrise: obținerea de informații despre una dintre variabilele căutate folosind alta; determina proximitatea relatiei dintre variabilele studiate.

Analiza corelației presupune determinarea relației dintre caracteristicile studiate și, prin urmare, sarcinile de analiză a corelației pot fi completate cu următoarele:

  • identificarea factorilor care au cel mai mare impact asupra caracteristicii rezultate;
  • identificarea cauzelor neexplorate anterior ale conexiunilor;
  • construirea unui model de corelare cu analiza parametrică a acestuia;
  • studiul semnificației parametrilor de comunicare și evaluarea intervalului acestora.

Relația dintre analiza corelației și regresie

Metoda de analiză a corelației nu se limitează adesea la găsirea strângerii relației dintre cantitățile studiate. Uneori este completată de compilarea ecuațiilor de regresie, care sunt obținute cu ajutorul analizei cu același nume și care reprezintă o descriere a dependenței de corelație dintre caracteristica (trăsăturile) rezultată și factorul (factor). Această metodă, împreună cu analiza luată în considerare, constituie metoda

Condiții de utilizare a metodei

Factorii eficienți depind de unul sau mai mulți factori. Metoda analizei corelației poate fi utilizată dacă există un număr mare de observații despre valoarea indicatorilor efectivi și factorilor (factori), în timp ce factorii aflați în studiu trebuie să fie cantitativi și reflectați în surse specifice. Prima poate fi determinată de legea normală - în acest caz, rezultatul analizei de corelație este coeficienții de corelație Pearson, sau, dacă caracteristicile nu respectă această lege, se folosește coeficientul de corelație a rangului Spearman.

Reguli de selectare a factorilor de analiză a corelației

La aplicarea acestei metode, este necesar să se determine factorii care influențează indicatorii de performanță. Ele sunt selectate ținând cont de faptul că trebuie să existe relații cauză-efect între indicatori. În cazul creării unui model de corelație multifactorială, sunt selectați cei care au un impact semnificativ asupra indicatorului rezultat, în timp ce este de preferat să nu se includă în modelul de corelație factori interdependenți cu un coeficient de corelație de pereche mai mare de 0,85, precum și cei pentru care relaţia cu parametrul rezultat nu este liniară sau de caracter funcţional.

Afișarea rezultatelor

Rezultatele analizei corelațiilor pot fi prezentate sub formă de text și grafic. În primul caz ele sunt prezentate ca un coeficient de corelație, în al doilea - sub forma unei diagrame de împrăștiere.

În absența corelării între parametri, punctele de pe diagramă sunt situate haotic, gradul mediu de conectare se caracterizează printr-un grad mai mare de ordine și se caracterizează printr-o distanță mai mult sau mai puțin uniformă a marcajelor marcate față de mediană. O conexiune puternică tinde să fie dreaptă și la r=1 graficul de puncte este o linie plată. Corelația inversă diferă în direcția graficului din stânga sus la dreapta jos, corelația directă - din stânga jos în colțul din dreapta sus.

Reprezentarea 3D a unui grafic de dispersie

În plus față de afișarea tradițională a graficului de dispersie 2D, acum este utilizată o reprezentare grafică 3D a analizei corelației.

Este, de asemenea, utilizată o matrice de dispersie, care afișează toate diagramele pereche într-o singură cifră într-un format de matrice. Pentru n variabile, matricea conține n rânduri și n coloane. Graficul situat la intersecția rândului i și coloanei j este un grafic al variabilelor Xi față de Xj. Astfel, fiecare rând și coloană este o dimensiune, o singură celulă afișează un grafic de dispersie de două dimensiuni.

Evaluarea etanșeității conexiunii

Apropierea conexiunii de corelare este determinată de coeficientul de corelație (r): puternic - r = ±0,7 la ±1, mediu - r = ±0,3 la ±0,699, slab - r = 0 la ±0,299. Această clasificare nu este strictă. Figura prezintă o diagramă ușor diferită.

Un exemplu de utilizare a metodei de analiză a corelației

Un studiu interesant a fost întreprins în Marea Britanie. Este dedicat legăturii dintre fumat și cancerul pulmonar și a fost realizat prin analiză de corelație. Această observație este prezentată mai jos.

Testul de corelație Pearson. Semnificația statistică a parametrilor de regresie și corelație

Introducere. 2

1. Evaluarea semnificației coeficienților de regresie și corelație folosind testul f Student. 3

2. Calculul semnificației coeficienților de regresie și corelație folosind testul f Student. 6

Concluzie. 15

După construirea ecuației de regresie, este necesar să se verifice semnificația acesteia: folosind criterii speciale, se stabilește dacă dependența rezultată, exprimată prin ecuația de regresie, este aleatorie, adică. poate fi folosit în scopuri de prognoză și pentru analiza factorială. În statistică, au fost dezvoltate metode pentru testarea strictă a semnificației coeficienților de regresie utilizând analiza varianței și calculând criterii speciale (de exemplu, testul F). Un test liber poate fi efectuat prin calcularea abaterii liniare relative medii (e), numită eroare medie de aproximare:

Să trecem acum la evaluarea semnificației coeficienților de regresie bj și la construirea unui interval de încredere pentru parametrii modelului de regresie Ru (J=l,2,...,p).

Blocul 5 - evaluarea semnificației coeficienților de regresie pe baza valorii testului ^ Student. Valorile calculate ale lui ta sunt comparate cu valoarea admisibilă

Blocul 5 - evaluarea semnificației coeficienților de regresie pe baza valorii criteriului ^. Valorile calculate ale lui t0n sunt comparate cu valoarea admisibilă 4,/, care este determinată din tabelele de distribuție t pentru o probabilitate de eroare dată (a) și numărul de grade de libertate (/).

Pe lângă verificarea semnificației întregului model, este necesar să se testeze semnificația coeficienților de regresie folosind testul Student /. Valoarea minimă a coeficientului de regresie br trebuie să corespundă condiției bifob- ^t, unde bi este valoarea coeficientului ecuației de regresie la scară naturală pentru caracteristica factorului i-a; Ah. - eroarea pătratică medie a fiecărui coeficient. incomparabilitatea coeficienților D în semnificația lor;

Analiza statistică ulterioară se referă la testarea semnificației coeficienților de regresie. Pentru a face acest lucru, găsim valoarea criteriului ^ pentru coeficienții de regresie. În urma comparării lor, se determină cel mai mic criteriu ^. Factorul al cărui coeficient corespunde celui mai mic criteriu ^ este exclus din analiza ulterioară.

Pentru a evalua semnificația statistică a coeficienților de regresie și corelație, se calculează testul t Student și intervalele de încredere pentru fiecare indicator. Se emite o ipoteză despre natura aleatorie a indicatorilor, adică despre diferența lor nesemnificativă față de zero. Evaluarea semnificației coeficienților de regresie și corelație folosind testul f Student se realizează prin compararea valorilor acestora cu magnitudinea erorii aleatoare:

Evaluarea semnificației coeficienților de regresie pură folosind testul /-Student se reduce la calcularea valorii

Calitatea muncii este o caracteristică a muncii specifice, reflectând gradul de complexitate, intensitate (intensitate), condiții și semnificație pentru dezvoltarea economică. K.t. măsurată printr-un sistem tarifar care permite diferențierea salariilor în funcție de nivelul de calificare (complexitatea muncii), de condiții, de severitatea muncii și de intensitatea acesteia, precum și de importanța industriilor și producțiilor individuale, a regiunilor, a teritoriilor pentru dezvoltarea economia tarii. K.t. își găsește expresie în salariile muncitorilor, care se dezvoltă pe piața muncii sub influența cererii și ofertei de muncă (tipuri specifice de muncă). K.t. - complex în structură

Scorurile obținute cu privire la importanța relativă a consecințelor economice, sociale și de mediu individuale ale proiectului oferă în continuare o bază pentru compararea proiectelor alternative și a opțiunilor acestora folosind „criteriul de punctare complex fără dimensiuni al eficienței sociale și de mediu-economice” al proiectului Ek, calculat (în scoruri de semnificație medie) folosind formula

Reglementarea intra-industrială asigură diferențe de salariu pentru lucrătorii dintr-o anumită industrie, în funcție de importanța tipurilor individuale de producție într-o anumită industrie, de complexitatea și condițiile de muncă, precum și de formele de remunerare utilizate.

Evaluarea rezultată a ratingului întreprinderii analizate în raport cu întreprinderea standard fără a ține cont de semnificația indicatorilor individuali este comparativă. La compararea evaluărilor mai multor întreprinderi, cel mai mare rating este acordat întreprinderii cu valoarea minimă a evaluării comparative obținute.

Înțelegerea calității unui produs ca măsură a utilității acestuia ridică o întrebare practic importantă cu privire la măsurarea acestuia. Soluția sa este obținută prin studierea semnificației proprietăților individuale în satisfacerea unei nevoi specifice. Semnificația chiar și a aceleiași proprietăți poate fi diferită în funcție de condițiile de consum ale produsului. În consecință, utilitatea unui produs în diferite circumstanțe de utilizare este diferită.

A doua etapă de lucru este studierea datelor statistice și identificarea relației și interacțiunii indicatorilor, determinarea semnificației factorilor individuali și a motivelor modificărilor indicatorilor generali.

Toți indicatorii considerați sunt combinați într-unul singur, astfel încât rezultatul să fie o evaluare cuprinzătoare a tuturor aspectelor analizate ale activității întreprinderii, ținând cont de condițiile activității acesteia, luând în considerare gradul de semnificație al indicatorilor individuali pentru diferite tipuri de investitori:

Coeficienții de regresie arată intensitatea influenței factorilor asupra indicatorului de performanță. Dacă se realizează standardizarea preliminară a indicatorilor factorilor, atunci b0 este egal cu valoarea medie a indicatorului efectiv în agregat. Coeficienții b, b2 ..... bl arată câte unități se abate nivelul indicatorului efectiv de la valoarea sa medie dacă valorile indicatorului factor deviază de la media zero cu o abatere standard. Astfel, coeficienții de regresie caracterizează gradul de semnificație al factorilor individuali pentru creșterea nivelului indicatorului de performanță. Valorile specifice ale coeficienților de regresie sunt determinate din datele empirice conform metodei celor mai mici pătrate (ca rezultat al rezolvării sistemelor de ecuații normale).

2. Calculul semnificației coeficienților de regresie și corelație folosind testul f Student

Să considerăm forma liniară a relațiilor multifactoriale nu numai ca fiind cea mai simplă, ci și ca forma oferită de pachetele de aplicații software pentru computere. Dacă legătura dintre un factor individual și atributul rezultat nu este liniară, atunci ecuația este liniarizată prin înlocuirea sau transformarea valorii atributului factorului.

Forma generală a ecuației de regresie multivariată este:


unde k este numărul de caracteristici ale factorilor.

Pentru a simplifica sistemul de ecuații cu cele mai mici pătrate necesare pentru calcularea parametrilor ecuației (8.32), de obicei sunt introduse abaterile valorilor individuale ale tuturor caracteristicilor de la valorile medii ale acestor caracteristici.

Obținem un sistem de k ecuații ale celor mai mici pătrate:

Rezolvând acest sistem, obținem valorile coeficienților de regresie pur condițional b. Termenul liber al ecuației se calculează prin formula


Termenul „coeficient de regresie condiționat pur” înseamnă că fiecare dintre valorile bj măsoară abaterea medie agregată a caracteristicii rezultate de la valoarea sa medie atunci când un anumit factor xj se abate de la valoarea sa medie cu o unitate de măsură și cu condiția ca toate alți factori incluși în ecuația de regresie, fixați la valori medii, nu se modifică, nu variază.

Astfel, spre deosebire de coeficientul de regresie pereche, coeficientul de regresie pur condiționat măsoară influența unui factor, făcând abstracție din relația dintre variația acestui factor cu variația altor factori. Dacă ar fi posibil să se includă în ecuația de regresie toți factorii care influențează variația caracteristicii rezultate, atunci valorile lui bj. ar putea fi considerate măsuri ale influenţei pure a factorilor. Dar din moment ce este cu adevărat imposibil să includeți toți factorii în ecuație, atunci coeficienții bj. nu este lipsit de amestecul de influență a factorilor neincluși în ecuație.

Este imposibil să includeți toți factorii în ecuația de regresie din unul dintre cele trei motive sau pe toți simultan, deoarece:

1) unii factori pot fi necunoscuți științei moderne, cunoașterea oricărui proces este întotdeauna incompletă;

2) nu există informații despre unii dintre factorii teoretici cunoscuți sau nu este de încredere;

3) dimensiunea populației studiate (eșantion) este limitată, ceea ce face posibilă includerea unui număr limitat de factori în ecuația de regresie.

Coeficienți condiționali de regresie pură bj. sunt numere numite exprimate în diferite unități de măsură și, prin urmare, sunt incomparabile între ele. Pentru a le converti în indicatori relativi comparabili, se folosește aceeași transformare ca și pentru obținerea coeficientului de corelație pe perechi. Valoarea rezultată se numește coeficient de regresie standardizat sau coeficient?.


Coeficientul factorului xj determină măsura influenței variației factorului xj asupra variației caracteristicii rezultate y, făcând abstracție de variația concomitentă a altor factori incluși în ecuația de regresie.

Este util să se exprime coeficienții de regresie condiționat pură sub forma unor indicatori relativ comparabili de conexiune, coeficienți de elasticitate:

Coeficientul de elasticitate al factorului xj spune că atunci când valoarea unui factor dat se abate de la valoarea sa medie cu 1% și făcând abstracție de la abaterea concomitentă a altor factori incluși în ecuație, caracteristica rezultată se va abate de la valoarea sa medie cu ej procente. de la y. Mai des, coeficienții de elasticitate sunt interpretați și aplicați în termeni de dinamică: cu o creștere a factorului x cu 1% din valoarea sa medie, caracteristica rezultată va crește cu e. la sută din valoarea sa medie.

Să luăm în considerare calculul și interpretarea ecuației de regresie multifactorială folosind aceleași 16 ferme ca exemplu (Tabelul 8.1). Semnul efectiv este nivelul venitului brut și trei factori care îl influențează, sunt prezentați în tabel. 8.7.

Să reamintim încă o dată că pentru a obține indicatori de corelație fiabili și suficient de precisi este nevoie de o populație mai mare.


Tabelul 8.7

Nivelul venitului brut și factorii săi

Numerele fermelor

Venit brut, rub./ra

Costuri cu forța de muncă, om-zile/ha x1

Ponderea terenului arabil,

Producția de lapte la 1 vacă,

Tabelul 8.8 Indicatorii ecuației de regresie

Variabila dependenta: y

Coeficientul de regresie

Constant-240.112905

Std. eroare de est. = 79,243276


Soluția a fost realizată folosind programul „Microstat” pentru computer. Iată tabelele din tipărire: tabel. 8.7 oferă valorile medii și abaterile standard ale tuturor caracteristicilor. Masa 8.8 conține coeficienți de regresie și evaluarea probabilistică a acestora:

prima coloană „var” - variabile, adică factori; a doua coloană „coeficient de regresie” - coeficienți de regresie pur condiționat bj; a treia coloană „std. errr" - erori medii în estimările coeficientului de regresie; a patra coloană - valorile testului t Student cu 12 grade de libertate de variație; a cincea coloană „prob” - probabilitatea ipotezei nule în raport cu coeficienții de regresie;

a șasea coloană „parțial r2” - coeficienți parțiali de determinare. Conținutul și metodologia de calcul a indicatorilor din coloanele 3-6 sunt discutate în continuare în Capitolul 8. „Constant” este termenul liber al ecuației de regresie a; „Std. eroare de est.” - eroarea pătratică medie a estimării caracteristicii efective folosind ecuația de regresie. S-a obținut ecuația de regresie multiplă:

y = 2,26x1 - 4,31x2 + 0,166x3 - 240.

Aceasta înseamnă că valoarea venitului brut pe 1 hectar de teren agricol a crescut în medie cu 2,26 ruble. cu o creștere a costurilor cu forța de muncă cu 1 oră/ha; a scăzut cu o medie de 4,31 ruble. cu o creștere a ponderii terenurilor arabile din terenurile agricole cu 1% și a crescut cu 0,166 ruble. cu o creștere a producției de lapte per vaca cu 1 kg. Valoarea negativă a termenului liber este destul de naturală și, așa cum sa menționat deja în paragraful 8.2, semnul efectiv este că venitul brut devine zero cu mult înainte ca factorii să atingă valori zero, ceea ce este imposibil în producție.

O valoare negativă a coeficientului pentru x^ este un semnal de probleme semnificative în economia fermelor studiate, unde agricultura este neprofitabilă, iar numai creșterea animalelor este profitabilă. Cu metode raționale de agricultură și prețuri normale (de echilibru sau apropiate de acestea) pentru produsele din toate sectoarele, veniturile nu ar trebui să scadă, ci să crească odată cu creșterea ponderii celei mai fertile a terenurilor agricole - teren arabil.

Pe baza datelor din penultimele două rânduri ale tabelului. 8.7 și tabelul. 8.8 calculăm coeficienții p și coeficienții de elasticitate după formulele (8.34) și (8.35).

Atât variația nivelului veniturilor, cât și posibila schimbare a acestuia în dinamică sunt influențate cel mai puternic de factorul x3 - productivitatea vacilor, iar cel mai slab de x2 - ponderea terenului arabil. Valorile P2/ vor fi utilizate în continuare (Tabelul 8.9);

Tabelul 8.9 Influența comparativă a factorilor asupra nivelului venitului

Factorii xj


Deci, am obținut că coeficientul ? al factorului xj se referă la coeficientul de elasticitate al acestui factor, așa cum coeficientul de variație al factorului se raportează la coeficientul de variație al caracteristicii rezultate. Din moment ce, după cum se vede din ultima linie a tabelului. 8.7, coeficienții de variație ai tuturor factorilor sunt mai mici decât coeficientul de variație al caracteristicii rezultate; toți coeficienții? sunt mai mici decât coeficienții de elasticitate.

Să luăm în considerare relația dintre coeficientul de regresie pereche și condițional pur folosind factorul -с, ca exemplu. Ecuația liniară pereche pentru legătura dintre y și x are forma:

y = 3,886x1 – 243,2

Coeficientul de regresie condiționat pur la x1 este doar 58% din cel pereche. Restul de 42% se datorează faptului că variația x1 este însoțită de variația factorilor x2 x3, care, la rândul său, afectează trăsătura rezultată. Conexiunile tuturor caracteristicilor și coeficienții lor de regresie pe perechi sunt prezentate în graficul conexiunilor (Fig. 8.2).


Dacă adunăm estimările influenței directe și indirecte a variației x1 asupra y, adică produsul coeficienților de regresie perechi de-a lungul tuturor „căilor” (Fig. 8.2), obținem: 2,26 + 12,55 0,166 + (-0,00128) (- 4,31) + (-0,00128) 17,00 0,166 = 4,344.

Această valoare este chiar mai mare decât coeficientul de cuplare x1 cu y. În consecință, influența indirectă a variației x1 prin factori neincluși în ecuație este inversă, dând în total:

1 Ayvazyan S.A., Mkhitaryan V.S. Statistica aplicată și fundamentele econometriei. Manual pentru universități. - M.: UNITATEA, 2008, – 311 p.

2 Johnston J. Metode econometrice. - M.: Statistică, 1980. – 282s.

3 Dougherty K. Introducere în econometrie. - M.: INFRA-M, 2004, – 354 p.

4 Dreyer N., Smith G., Analiza de regresie aplicată. - M.: Finanțe și Statistică, 2006, – 191 p.

5 Magnus Y.R., Kartyshev P.K., Peresetsky A.A. Econometrie. Curs inițial.-M.: Delo, 2006, – 259 p.

6 Atelier de Econometrie/Ed. I.I.Eliseeva.- M.: Finanțe și Statistică, 2004, – 248 p.

7 Econometrie/Ed. I. I. Eliseeva.- M.: Finanțe și Statistică, 2004, – 541 p.

8 Kremer N., Putko B. Econometrie.- M.: UNITY-DANA, 200, – 281 p.


Ayvazyan S.A., Mkhitaryan V.S. Statistica aplicată și fundamentele econometriei. Manual pentru universități. - M.: UNITATEA, 2008, – p. 23.

Kremer N., Putko B. Econometrie.- M.: UNITY-DANA, 200, – p.64

Dreyer N., Smith G., Analiza de regresie aplicată. - M.: Finanțe și Statistică, 2006, – p57.

Atelier de econometrie/Ed. I.I. Eliseeva.- M.: Finanțe și Statistică, 2004, – p. 172.

Date inițiale pentru analiza corelației

Grup profesional

mortalitate

Fermierii, pădurari și pescari

Mineri și muncitori la carieră

Producători de gaze, cocs și produse chimice

Producatori de sticla si ceramica

Muncitori ai cuptoarelor, forjelor, turnatorii si laminoarelor

Lucrători în electricitate și electronică

Inginerie și profesii conexe

Industrii de prelucrare a lemnului

Lucrătorii din piele

Muncitori din textile

Producatori de haine de lucru

Lucrători din industria alimentară, a băuturilor și a tutunului

Producători de hârtie și imprimare

Producatori de alte produse

Constructorii

Pictori și decoratori

Șoferi de motoare staționare, macarale etc.

Lucrători necuprinși în altă parte

Lucrători în transport și comunicații

Muncitori din depozit, depozitari, ambalatori și muncitori la mașini de umplere

Muncitori la birou

Vânzători

Lucrători în sport și recreere

Administratori și manageri

Profesioniști, tehnicieni și artiști

Începem analiza corelației. Pentru claritate, este mai bine să începeți soluția cu o metodă grafică, pentru care vom construi o diagramă de împrăștiere.

Demonstrează o legătură directă. Cu toate acestea, este dificil să trageți o concluzie fără ambiguitate bazată numai pe metoda grafică. Prin urmare, vom continua să efectuăm analize de corelație. Un exemplu de calcul al coeficientului de corelație este prezentat mai jos.

Folosind software (MS Excel va fi descris mai jos ca exemplu), determinăm coeficientul de corelație, care este 0,716, ceea ce înseamnă o legătură puternică între parametrii studiați. Să determinăm fiabilitatea statistică a valorii obținute folosind tabelul corespunzător, pentru care trebuie să scădem 2 din 25 de perechi de valori, ca rezultat obținem 23 și folosind această linie din tabel găsim r critic pentru p = 0,01 (deoarece acestea sunt date medicale, o dependență mai strictă, în alte cazuri p=0,05 este suficient), care este 0,51 pentru această analiză de corelație. Exemplul a demonstrat că r calculat este mai mare decât r critic, iar valoarea coeficientului de corelație este considerată fiabilă din punct de vedere statistic.

Utilizarea software-ului la efectuarea analizei de corelație

Tipul descris de prelucrare a datelor statistice poate fi realizat folosind software, în special MS Excel. Corelația implică calcularea următorilor parametri folosind funcții:

1. Coeficientul de corelație se determină folosind funcția CORREL (array1; array2). Array1,2 - celula intervalului de valori ale variabilelor rezultante și factor.

Coeficientul de corelație liniară se mai numește și coeficientul de corelație Pearson și, prin urmare, începând cu Excel 2007, puteți utiliza funcția cu aceleași matrice.

Afișarea grafică a analizei de corelație în Excel se face folosind panoul „Diagrame” cu selecția „Grafic de dispersie”.

După specificarea datelor inițiale, obținem un grafic.

2. Evaluarea semnificației coeficientului de corelație perechi folosind testul t Student. Valoarea calculată a criteriului t este comparată cu valoarea tabelată (critică) a acestui indicator din tabelul corespunzător de valori ale parametrului luat în considerare, ținând cont de nivelul de semnificație specificat și de numărul de grade de libertate. Această estimare se realizează folosind funcția STUDISCOVER(probabilitate; grade_de_libertate).

3. Matricea coeficienților de corelație perechi. Analiza se realizează folosind instrumentul de analiză a datelor, în care este selectată corelația. Evaluarea statistică a coeficienților de corelație a perechilor se realizează prin compararea valorii absolute a acesteia cu valoarea tabelată (critică). Când coeficientul de corelație perechi calculat îl depășește pe cel critic, putem spune, ținând cont de gradul de probabilitate dat, că ipoteza nulă despre semnificația relației liniare nu este respinsă.

In cele din urma

Utilizarea metodei de analiză a corelației în cercetarea științifică ne permite să stabilim relația dintre diverși factori și indicatori de performanță. Este necesar să se țină seama de faptul că se poate obține un coeficient de corelație ridicat dintr-o pereche sau un set absurd de date și, prin urmare, acest tip de analiză trebuie efectuat pe o gamă suficient de mare de date.

După obținerea valorii calculate a lui r, este indicat să o comparați cu r critic pentru a confirma fiabilitatea statistică a unei anumite valori. Analiza corelației poate fi efectuată manual folosind formule sau folosind software, în special MS Excel. Aici puteți construi și o diagramă de împrăștiere în scopul reprezentării vizuale a relației dintre factorii studiați de analiză a corelației și caracteristica rezultată.

După cum s-a remarcat în repetate rânduri, pentru a face o concluzie statistică despre prezența sau absența unei corelații între variabilele studiate, este necesar să se verifice semnificația coeficientului de corelație al eșantionului. Datorită faptului că fiabilitatea caracteristicilor statistice, inclusiv a coeficientului de corelație, depinde de mărimea eșantionului, poate apărea o situație când valoarea coeficientului de corelație este determinată în întregime de fluctuații aleatorii ale eșantionului pe baza cărora este calculat. . Dacă există o relație semnificativă între variabile, coeficientul de corelație ar trebui să fie semnificativ diferit de zero. Dacă nu există o corelație între variabilele studiate, atunci coeficientul de corelație al populației ρ este egal cu zero. În cercetarea practică, de regulă, acestea se bazează pe eșantion de observații. Ca orice caracteristică statistică, coeficientul de corelație al eșantionului este o variabilă aleatorie, adică valorile sale sunt împrăștiate aleatoriu în jurul parametrului populației cu același nume (valoarea adevărată a coeficientului de corelație). În absenţa corelaţiei între variabile y și x coeficientul de corelație în populație este zero. Dar, datorită naturii aleatorii a împrăștierii, sunt posibile în mod fundamental situații când unii coeficienți de corelație calculați din eșantioane din această populație vor fi diferiți de zero.

Diferențele observate pot fi atribuite fluctuațiilor aleatorii ale eșantionului sau reflectă o schimbare semnificativă a condițiilor în care s-au format relațiile dintre variabile? Dacă valorile coeficientului de corelație al eșantionului se încadrează în zona de împrăștiere din cauza naturii aleatorii a indicatorului în sine, atunci aceasta nu este o dovadă a absenței unei relații. Cel mai mult care se poate spune este că datele observaționale nu neagă absența unei relații între variabile. Dar dacă valoarea coeficientului de corelație al eșantionului se află în afara zonei de împrăștiere menționate, atunci ei concluzionează că este semnificativ diferit de zero și putem presupune că între variabile y și x există o relație semnificativă statistic. Criteriul folosit pentru rezolvarea acestei probleme, bazat pe distribuția diverselor statistici, se numește criteriu de semnificație.

Procedura de testare a semnificației începe cu formularea ipotezei nule H0 . În termeni generali, este că nu există diferențe semnificative între parametrul eșantionului și parametrul populației. Ipoteză alternativă H1 este că există diferențe semnificative între acești parametri. De exemplu, atunci când se testează corelația într-o populație, ipoteza nulă este că adevăratul coeficient de corelație este zero ( H0: ρ = 0). Dacă, în urma testului, se dovedește că ipoteza nulă nu este acceptabilă, atunci coeficientul de corelație al eșantionului rWow semnificativ diferit de zero (ipoteza nulă este respinsă și alternativa este acceptată H1). Cu alte cuvinte, presupunerea că variabilele aleatoare din populație sunt necorelate ar trebui considerată nefondată. În schimb, dacă pe baza testului de semnificație se acceptă ipoteza nulă, i.e. rWow se află în zona permisă de împrăștiere aleatorie, atunci nu există niciun motiv să se considere îndoielnică ipoteza variabilelor necorelate din populație.

Într-un test de semnificație, cercetătorul stabilește un nivel de semnificație α care oferă o anumită încredere practică că se vor trage concluzii eronate numai în cazuri foarte rare. Nivelul de semnificație exprimă probabilitatea ca ipoteza nulă H0 respins atunci când este de fapt adevărat. În mod clar, are sens să alegeți această probabilitate cât mai mică posibil.

Fie cunoscută distribuția caracteristicii eșantionului, care este o estimare imparțială a parametrului populației. Nivelul de semnificație selectat α corespunde zonelor umbrite de sub curba acestei distribuții (vezi Fig. 24). Zona neumbrită de sub curba de distribuție determină probabilitatea P = 1 - α . Limitele segmentelor de pe axa x sub zonele umbrite se numesc valori critice, iar segmentele înseși formează regiunea critică sau zona de respingere a ipotezei.

În procedura de testare a ipotezelor, caracteristica eșantionului calculată din rezultatele observațiilor este comparată cu valoarea critică corespunzătoare. În acest caz, ar trebui să se facă distincția între zonele critice unilaterale și cele două părți. Forma de precizare a regiunii critice depinde de formularea problemei în cercetarea statistică. O regiune critică cu două fețe este necesară atunci când, atunci când se compară un parametru de eșantion și un parametru de populație, este necesar să se estimeze valoarea absolută a discrepanței dintre ele, adică atât diferențele pozitive, cât și negative între valorile studiate sunt de interes. Când este necesar să ne asigurăm că o valoare în medie este strict mai mare sau mai mică decât alta, se utilizează o regiune critică unilaterală (pe partea dreaptă sau stângă). Este destul de evident că pentru aceeași valoare critică nivelul de semnificație atunci când se folosește o regiune critică unilaterală este mai mic decât atunci când se folosește una cu două fețe. Dacă distribuția caracteristicii eșantionului este simetrică,

Orez. 24. Testarea ipotezei nule H0

atunci nivelul de semnificație al regiunii critice cu două laturi este egal cu α, iar cel unilateral - (vezi Fig. 24). Să ne limităm la formularea generală a problemei. Informații mai detaliate despre baza teoretică pentru testarea ipotezelor statistice pot fi găsite în literatura de specialitate. Mai jos vom indica doar criteriile de semnificație pentru diferite procedee, fără a ne opri asupra construcției lor.

Prin verificarea semnificației coeficientului de corelație de pereche se stabilește prezența sau absența unei corelații între fenomenele studiate. În absența unei conexiuni, coeficientul de corelație al populației este zero (ρ = 0). Procedura de testare începe cu formularea ipotezelor nule și alternative:

H0: diferența dintre coeficientul de corelație al eșantionului r și ρ = ​​0 este nesemnificativ,

H1: diferență între r iar ρ = 0 este semnificativ și, prin urmare, între variabile laȘi X există o legătură semnificativă. Ipoteza alternativă implică faptul că trebuie să folosim o regiune critică cu două fețe.

Sa menționat deja în Secțiunea 8.1 că coeficientul de corelație al eșantionului, în anumite ipoteze, este asociat cu o variabilă aleatorie t, respectând distribuția Student cu f = n- 2 grade de libertate. Statistici calculate din rezultatele eșantionului

se compară cu valoarea critică determinată din tabelul de distribuție Student la un nivel de semnificație dat α Șif = n- 2 grade de libertate. Regula de aplicare a criteriului este următoarea: dacă | t| >tf,A, apoi ipoteza nulă la nivelul de semnificație α respins, adică relația dintre variabile este semnificativă; dacă | t| ≤tf,A, atunci ipoteza nulă la nivelul de semnificație α este acceptată. Abaterea valorii r de la ρ = 0 poate fi atribuită variației aleatoare. Datele eșantionului caracterizează ipoteza luată în considerare ca fiind foarte posibilă și plauzibilă, adică ipoteza absenței unei conexiuni nu ridică obiecții.

Procedura de testare a unei ipoteze este mult simplificată dacă, în loc de statistici t utilizați valorile critice ale coeficientului de corelație, care pot fi determinate prin cuantilele distribuției Student prin substituirea în (8.38) t= tf, a si r= ρ f, A:

(8.39)

Există tabele detaliate ale valorilor critice, un extras din care este dat în anexa la această carte (vezi Tabelul 6). Regula de testare a ipotezei în acest caz se rezumă la următoarele: dacă r> ρ f, și atunci putem pretinde că relația dintre variabile este semnificativă. Dacă rrf,A, atunci considerăm rezultatele observației ca fiind în concordanță cu ipoteza absenței unei conexiuni.

; ; .

Acum să calculăm valorile abaterilor standard ale eșantionului:

https://pandia.ru/text/78/148/images/image443_0.gif" width="413" height="60 src=">.

Corelația dintre nivelul https://pandia.ru/text/78/148/images/image434_0.gif" width="25" height="24"> în rândul elevilor de clasa a zecea, cu atât nivelul mediu de performanță la matematică este mai mare, si invers.

2. Verificarea semnificaţiei coeficientului de corelaţie

Deoarece coeficientul eșantionului este calculat din datele eșantionului, acesta este o variabilă aleatorie . Dacă , atunci se pune întrebarea: aceasta se explică printr-o relație liniară cu adevărat existentă între și https://pandia.ru/text/78/148/images/image301_1.gif" width="29" height="25 src=" >.gif" width="27" height="25">: (daca semnul de corelare nu este cunoscut); sau pe o singură față https://pandia.ru/text/78/148/images/image448_0.gif" width="43" height="23 src=">.gif" width="43" height="23 src =" > (dacă semnul corelației poate fi determinat în prealabil).

Metoda 1. Pentru a testa ipoteza se folosește https://pandia.ru/text/78/148/images/image150_1.gif" width="11" height="17 src=">-Testul studentului conform formulei

https://pandia.ru/text/78/148/images/image406_0.gif" width="13" height="15">.gif" width="36 height=25" height="25">.gif " width="17" height="16"> și numărul de grade de libertate pentru criteriul cu două fețe.

Regiunea critică este dată de inegalitate .

Dacă https://pandia.ru/text/78/148/images/image455_0.gif" width="99" height="29 src=">, atunci ipoteza nulă este respinsă. Tragem concluzii:

§ pentru o ipoteză alternativă bifață – coeficientul de corelație este semnificativ diferit de zero;

§ pentru o ipoteză unilaterală – există o corelație pozitivă (sau negativă) semnificativă statistic.

Metoda 2. De asemenea, puteți utiliza tabelul valorilor critice ale coeficientului de corelație, din care aflăm valoarea valorii critice a coeficientului de corelație cu numărul de grade de libertate https://pandia.ru/text/78/148/images/image367_1.gif" width="17 height=16" înălțime="16">.

Dacă https://pandia.ru/text/78/148/images/image459_0.gif" width="101" height="29 src=">, atunci se ajunge la concluzia că coeficientul de corelație este semnificativ diferit de 0 și există o corelație semnificativă statistic.

Astfel, unele fenomene pot apărea sau modifica simultan, dar independent unele de altele (evenimente comune) ( fals regresie). Alții - a fi într-o relație cauzală nu unul cu celălalt, ci în conformitate cu o relație cauză-efect mai complexă ( indirect regresie). Astfel, cu un coeficient de corelație semnificativ, concluzia finală despre prezența unei relații cauză-efect nu poate fi făcută decât ținând cont de specificul problemei studiate.

Exemplul 2. Determinați semnificația coeficientului de corelație al eșantionului calculat în exemplul 1.

Soluţie.

Să punem o ipoteză: că nu există o corelație în populația generală. Deoarece semnul corelației ca rezultat al rezolvării exemplului 1 este determinat - corelația este pozitivă, ipoteza alternativă este unilaterală de forma https://pandia.ru/text/78/148/images/image448_0.gif " width="43" height="23 src =>>.

Să găsim valoarea empirică a criteriului:

https://pandia.ru/text/78/148/images/image461_0.gif" width="167 height=20" height="20">, selectați nivelul de semnificație egal cu . Conform tabelului „Valori critice ​​testul Studentului pentru diferite niveluri de semnificație” găsim valoarea critică.

Din moment ce https://pandia.ru/text/78/148/images/image434_0.gif" width="25 height=24" height="24"> și nivelul mediu de performanță la matematică, există o corelație semnificativă statistic .

Sarcini de testare

1. Vă rugăm să marcați cel puțin două răspunsuri corecte. Testarea semnificației unui coeficient de corelație al eșantionului se bazează pe un test statistic al ipotezei că...

1) nu există corelație în populația generală

2) diferența de la zero a coeficientului de corelație al eșantionului se explică doar prin aleatorietatea eșantionului

3) coeficientul de corelație este semnificativ diferit de 0

4) diferența de la zero a coeficientului de corelație al eșantionului nu este întâmplătoare

2. Dacă coeficientul de corelație liniară al eșantionului este , atunci o valoare mai mare a unei caracteristici corespunde... unei valori mai mari a unei alte caracteristici.

1) în medie

3) în majoritatea observațiilor

4) ocazional

3. Coeficientul de corelație al eșantionului https://pandia.ru/text/78/148/images/image465_0.gif" width="64" height="23 src="> (pentru dimensiunea eșantionului și nivelul de semnificație de 0,05). Este posibil a spune că există o corelație pozitivă semnificativă statistic între trăsăturile psihologice?

5. Să se găsească coeficientul de corelație al eșantionului în sarcina de a identifica puterea unei relații liniare între caracteristicile psihologice https://pandia.ru/text/78/148/images/image466_0.gif" width="52 height=20 " height="20"> și un nivel de semnificație de 0,05).Putem spune că diferența de la zero a coeficientului de corelație al eșantionului se explică doar prin aleatorietatea eșantionului?

Tema 3. coeficienții de corelație de rang și asocieri

1. Coeficientul de corelare a rangului https://pandia.ru/text/78/148/images/image130_3.gif" width="21 height=19" height="19"> și. Numărul de valori ale caracteristicilor (indicatori, subiecte, calități , trăsături) pot fi oricare, dar numărul lor ar trebui să fie același.

Subiecte

Trăsături ranguri

Trăsături ranguri

Să notăm diferența dintre rangurile pentru două variabile pentru fiecare subiect folosind https://pandia.ru/text/78/148/images/image470_0.gif" width="319" height="66">,

unde este numărul de valori ale caracteristicilor și indicatorilor clasați.

Coeficientul de corelare a rangului ia valori cuprinse între –1 și +1și este văzută ca un mijloc de estimare rapidă a coeficientului de corelație Pearson.

Pentru testarea semnificației coeficientului de corelație a rangului Spearman (dacă numărul de valori https://pandia.ru/text/78/148/images/image472_0.gif" width="55" height="29"> depinde de numărul și nivelul de semnificație. Dacă valoarea empirică este mai mare, atunci la nivel de semnificație se poate susține că semnele sunt legate prin corelație.

Exemplul 1. Psihologul află cum sunt legate rezultatele performanței elevilor la matematică și fizică, ale căror rezultate sunt prezentate sub forma unei serii clasificate după nume.

Student

Sumă

Performanta academica

matematică

Performanta academica

în fizică

Diferența pătrată între rânduri

Să calculăm suma, apoi coeficientul de corelare a rangului Spearman este egal cu:

Sa verificam semnificația coeficientului de corelație a rangului găsit. Să găsim valorile critice ale coeficientului de corelare a rangului Spearman folosind tabelul (vezi Anexe) pentru:

https://pandia.ru/text/78/148/images/image480_0.gif" width="72" height="25"> este mai mare decât valoarea = 0,64 și valoarea 0,79. Aceasta indică faptul că valoarea s-a încadrat în zona de semnificație a coeficientului de corelație. Prin urmare, se poate argumenta că coeficientul de corelare a rangului Spearman este semnificativ diferit de 0, ceea ce înseamnă că rezultatele performanței elevilor la matematică și fizică sunt legate printr-o corelație pozitivă . Există o corelație pozitivă semnificativă între performanța la matematică și performanța la fizică: cu cât performanța la matematică este mai bună, cu atât rezultatele la fizică sunt în medie mai bune și invers.

Comparând coeficienții de corelație Pearson și Spearman, observăm că coeficientul de corelație Pearson corelează valorile cantități, iar coeficientul de corelație Spearman este valorile ranguri aceste cantități, prin urmare, valorile coeficienților Pearson și Spearman adesea nu coincid.

Pentru o înțelegere mai completă a materialului experimental obținut în cercetarea psihologică, este indicat să se calculeze coeficienți atât în ​​funcție de Pearson, cât și de Spearman.

cometariu. În prezența ranguri egaleîn seria de ranguri și în numărătorul formulei de calcul al coeficientului de corelare a rangului se adaugă termeni - „corecții pentru ranguri”: ; ,

unde https://pandia.ru/text/78/148/images/image130_3.gif" width="21" height="19">;

https://pandia.ru/text/78/148/images/image165_1.gif" width="16" height="19">.

În acest caz, formula de calcul al coeficientului de corelare a rangului ia forma https://pandia.ru/text/78/148/images/image485_0.gif" width="16" height="19">.

Conditii de aplicare a coeficientului de asociere.

1. Caracteristicile comparate sunt măsurate pe o scară dihotomică.

2..gif" width="21" height="19">, indicate prin simbolurile 0 și 1, sunt prezentate în tabel.

Numărul de observație

CATEGORII

ARTICOLE POPULARE

2023 „kingad.ru” - examinarea cu ultrasunete a organelor umane