Testul de corelație al lui Pearson este o metodă statistică parametrică care vă permite să determinați prezența sau absența unei relații liniare între doi indicatori cantitativi, precum și să evaluați apropierea și semnificația statistică a acesteia. Cu alte cuvinte, testul de corelație Pearson vă permite să determinați dacă există o relație liniară între modificările valorilor a două variabile. În calculele statistice și inferențe, coeficientul de corelație este de obicei notat ca rxy sau Rxy.

1. Istoricul dezvoltării criteriului de corelare

Testul de corelație Pearson a fost dezvoltat de o echipă de oameni de știință britanici condusă de Karl Pearson(1857-1936) în anii 90 ai secolului al XIX-lea, pentru a simplifica analiza covarianței a două variabile aleatoare. Pe lângă Karl Pearson, s-a lucrat și testul de corelație al lui Pearson Francis Edgeworthși Raphael Weldon.

2. Pentru ce este folosit testul de corelație Pearson?

Criteriul de corelare Pearson vă permite să determinați care este apropierea (sau puterea) corelației dintre doi indicatori măsurați pe o scară cantitativă. Cu ajutorul unor calcule suplimentare, puteți determina și cât de semnificativă este statistic relația identificată.

De exemplu, folosind criteriul de corelare Pearson, se poate răspunde la întrebarea dacă există o relație între temperatura corpului și conținutul de leucocite din sânge în infecțiile respiratorii acute, între înălțimea și greutatea pacientului, între conținutul de fluor. în apa potabilă şi incidenţa cariilor în populaţie.

3. Condiții și restricții privind utilizarea testului chi-pătrat al lui Pearson

  1. Indicatorii comparabili ar trebui măsurați în scară cantitativă(de exemplu, ritmul cardiac, temperatura corpului, numărul de leucocite la 1 ml de sânge, tensiunea arterială sistolica).
  2. Prin intermediul criteriului de corelație Pearson este posibil să se determine numai prezența și puterea unei relații liniareîntre cantităţi. Alte caracteristici ale conexiunii, inclusiv direcția (directă sau inversă), natura modificărilor (rectilinii sau curbilinii), precum și dependența unei variabile de alta, sunt determinate cu ajutorul analizei de regresie.
  3. Numărul de valori care trebuie comparate trebuie să fie egal cu două. În cazul analizei relației dintre trei sau mai mulți parametri, ar trebui să utilizați metoda analiza factorilor.
  4. Criteriul de corelare al lui Pearson este parametrice, în legătură cu care se află condiția aplicării acesteia distributie normala variabile potrivite. Dacă este necesar să se efectueze o analiză de corelație a indicatorilor a căror distribuție diferă de cea normală, inclusiv a celor măsurați pe o scară ordinală, trebuie utilizat coeficientul de corelare a rangului lui Spearman.
  5. Este necesar să se facă distincția clară între conceptele de dependență și corelație. Dependența valorilor determină prezența unei corelații între ele, dar nu invers.

De exemplu, creșterea unui copil depinde de vârsta lui, adică cu cât copilul este mai mare, cu atât este mai înalt. Dacă luăm doi copii de vârste diferite, atunci cu un grad mare de probabilitate creșterea copilului mai mare va fi mai mare decât cea a celui mai mic. Acest fenomen se numește dependenta, implicând o relație cauzală între indicatori. Desigur, există și corelație, ceea ce înseamnă că modificările unui indicator sunt însoțite de modificări ale altui indicator.

Într-o altă situație, luați în considerare relația dintre creșterea copilului și ritmul cardiac (HR). După cum știți, ambele aceste valori depind direct de vârstă, prin urmare, în cele mai multe cazuri, copiii de statură mai mare (și, prin urmare, cei mai în vârstă) vor avea valori mai scăzute ale ritmului cardiac. Acesta este, corelație vor fi respectate și pot avea o etanșeitate suficient de mare. Totuși, dacă luăm copii aceasi varsta, dar înălțime diferită, atunci, cel mai probabil, ritmul cardiac va diferi nesemnificativ, în legătură cu care putem concluziona că independenţă Ritmul cardiac de la creștere.

Exemplul de mai sus arată cât de important este să se facă distincția între conceptele fundamentale în statistică conexiuniși dependențe indicatori pentru a trage concluzii corecte.

4. Cum se calculează coeficientul de corelație Pearson?

Coeficientul de corelație al lui Pearson se calculează folosind următoarea formulă:

5. Cum se interpretează valoarea coeficientului de corelație Pearson?

Valorile coeficientului de corelație Pearson sunt interpretate pe baza valorilor sale absolute. Valorile posibile ale coeficientului de corelație variază de la 0 la ±1. Cu cât valoarea absolută a lui r xy este mai mare, cu atât este mai mare apropierea relației dintre cele două mărimi. r xy = 0 indică o lipsă completă de conexiune. r xy = 1 - indică prezența unei conexiuni absolute (funcționale). Dacă valoarea criteriului de corelație Pearson s-a dovedit a fi mai mare de 1 sau mai mică de -1, a fost făcută o eroare în calcule.

Pentru a evalua apropierea sau puterea corelației, se folosesc criterii general acceptate, conform cărora valorile absolute ale rxy< 0.3 свидетельствуют о slab conexiune, valorile r xy de la 0,3 la 0,7 - despre conexiune mijloc etanșeitate, valori r xy > 0,7 - o puternic conexiuni.

O estimare mai precisă a puterii corelației poate fi obținută prin utilizarea Masa Chaddock:

Nota semnificație statistică coeficientul de corelație r xy se realizează folosind testul t, calculat prin următoarea formulă:

Se compară valoarea t r obţinută cu valoarea critică la un anumit nivel de semnificaţie şi cu numărul de grade de libertate n-2. Dacă t r depășește t crit, atunci se face o concluzie despre semnificația statistică a corelației identificate.

6. Un exemplu de calcul al coeficientului de corelație Pearson

Scopul studiului a fost de a identifica, determina etanșeitatea și semnificația statistică a corelației dintre doi indicatori cantitativi: nivelul de testosteron din sânge (X) și procentul de masă musculară din organism (Y). Datele inițiale pentru un eșantion de 5 subiecți (n = 5) sunt rezumate în tabel.

În cercetarea științifică, adesea devine necesar să se găsească o relație între variabilele rezultante și factori (randamentul unei culturi și cantitatea de precipitații, înălțimea și greutatea unei persoane în grupuri omogene în funcție de sex și vârstă, pulsul și temperatura corpului). , etc.).

Al doilea sunt semne care contribuie la schimbarea celor asociate acestora (primul).

Conceptul de analiză a corelației

Există un set Pe baza celor de mai sus, putem spune că analiza corelației este o metodă folosită pentru a testa ipoteza semnificației statistice a două sau mai multe variabile, dacă cercetătorul le poate măsura, dar nu le poate modifica.

Există și alte definiții ale conceptului luat în considerare. Analiza corelației este o metodă de procesare care examinează coeficienții de corelație dintre variabile. În acest caz, coeficienții de corelație dintre o pereche sau mai multe perechi de caracteristici sunt comparați pentru a stabili relații statistice între ele. Analiza corelației este o metodă de studiere a dependenței statistice dintre variabile aleatoare cu prezența opțională de natură funcțională strictă, în care dinamica unei variabile aleatoare conduce la dinamica așteptării matematice a alteia.

Conceptul de corelație falsă

Atunci când se efectuează o analiză de corelație, trebuie să se țină cont de faptul că aceasta poate fi realizată în raport cu orice set de caracteristici, adesea absurde unele în raport cu altele. Uneori nu au nicio legătură cauzală unul cu celălalt.

În acest caz, se vorbește despre o corelație falsă.

Probleme de analiză a corelației

Pe baza definițiilor de mai sus, putem formula următoarele sarcini ale metodei descrise: obținerea de informații despre una dintre variabilele dorite folosind cealaltă; determina apropierea relaţiei dintre variabilele studiate.

Analiza corelației presupune determinarea relației dintre caracteristicile studiate și, prin urmare, sarcinile de analiză a corelației pot fi completate cu următoarele:

  • identificarea factorilor care au cel mai mare impact asupra semnului rezultat;
  • identificarea cauzelor neexplorate anterior ale relațiilor;
  • construirea unui model de corelare cu analiza lui parametrică;
  • studiul semnificației parametrilor de comunicare și estimarea intervalului acestora.

Legătura dintre analiza corelației cu regresia

Metoda de analiză a corelației nu se limitează adesea la găsirea strângerii relației dintre cantitățile studiate. Uneori, acesta este completat de compilarea ecuațiilor de regresie, care sunt obținute folosind analiza cu același nume și care sunt o descriere a corelației dintre trăsăturile (factoriale) rezultante și factoriale (factoriale). Această metodă, împreună cu analiza luată în considerare, constituie metoda

Condiții de utilizare a metodei

Factorii de rezultat depind de unul sau mai mulți factori. Metoda analizei corelației poate fi utilizată dacă există un număr mare de observații asupra valorii indicatorilor (factorilor) efectivi și factorilor, în timp ce factorii studiați ar trebui să fie cantitativi și reflectați în surse specifice. Prima poate fi determinată de legea normală - în acest caz, coeficienții de corelație Pearson sunt rezultatul analizei de corelație, sau, dacă semnele nu respectă această lege, se folosește coeficientul de corelație a rangului Spearman.

Reguli de selectare a factorilor de analiză a corelației

La aplicarea acestei metode este necesar să se determine factorii care influențează indicatorii de performanță. Acestea sunt selectate ținând cont de faptul că trebuie să existe relații cauzale între indicatori. În cazul creării unui model de corelație multifactorială se selectează cei care au un impact semnificativ asupra indicatorului rezultat, în timp ce este de preferat să nu se includă în modelul de corelație factori interdependenți cu un coeficient de corelație de pereche mai mare de 0,85, precum și cei pentru care relaţia cu parametrul rezultat este indirectă.sau funcţională.

Afișează rezultatele

Rezultatele analizei corelațiilor pot fi prezentate sub formă de text și grafic. În primul caz, ele sunt prezentate ca un coeficient de corelație, în al doilea, ca un grafic de dispersie.

Dacă nu există o corelație între parametri, punctele de pe diagramă sunt situate aleatoriu, gradul mediu de conectare se caracterizează printr-un grad mai mare de ordine și se caracterizează printr-o distanță mai mult sau mai puțin uniformă a marcajelor marcate față de mediană. O conexiune puternică tinde spre o linie dreaptă și la r=1 diagrama de dispersie este o linie plată. O corelație inversă este caracterizată de direcția graficului din stânga sus la dreapta jos, una directă - din stânga jos în colțul din dreapta sus.

Reprezentarea 3D a unui grafic de dispersie (difuzare)

În plus față de prezentarea tradițională a graficului de dispersie 2D, în prezent este utilizată o reprezentare grafică 3D a analizei de corelație.

Este, de asemenea, utilizată o matrice de dispersie, care afișează toate diagramele pereche într-o singură cifră într-un format de matrice. Pentru n variabile, matricea conține n rânduri și n coloane. Diagrama situată la intersecția rândului i și coloanei j este un grafic al variabilelor Xi față de Xj. Astfel, fiecare rând și coloană este o dimensiune, o singură celulă afișează un grafic de dispersie a celor două dimensiuni.

Estimarea etanșeității conexiunii

Etanșeitatea corelației este determinată de coeficientul de corelație (r): puternic - r = ±0,7 la ±1, mediu - r = ±0,3 la ±0,699, slab - r = 0 la ±0,299. Această clasificare nu este strictă. Figura arată o schemă ușor diferită.

Un exemplu de aplicare a metodei de analiză a corelației

Un studiu interesant a fost întreprins în Marea Britanie. Este dedicat relației fumatului cu cancerul pulmonar și a fost realizat prin analiză de corelație. Această observație este prezentată mai jos.

Testul de corelație al lui Pearson. Semnificația statistică a parametrilor de regresie și corelație

Introducere. 2

1. Evaluarea semnificației coeficienților de regresie și corelație folosind testul f Student. 3

2. Calculul semnificației coeficienților de regresie și corelație folosind testul f Student. 6

Concluzie. cincisprezece

După construirea ecuației de regresie, este necesar să se verifice semnificația acesteia: folosind criterii speciale, se stabilește dacă dependența rezultată, exprimată prin ecuația de regresie, este aleatorie, adică. dacă poate fi utilizat în scopuri predictive și pentru analiza factorială. În statistică, au fost dezvoltate metode pentru testarea riguroasă a semnificației coeficienților de regresie folosind analiza varianței și calculul unor criterii speciale (de exemplu, criteriul F). O verificare nestrictă poate fi efectuată prin calcularea abaterii liniare relative medii (e), numită eroare medie de aproximare:

Acum să trecem la evaluarea semnificației coeficienților de regresie bj și la construirea unui interval de încredere pentru parametrii modelului de regresie Py (J=l,2,...,p).

Blocul 5 - evaluarea semnificației coeficienților de regresie prin valoarea testului t Student. Valorile calculate ale lui ta sunt comparate cu valoarea admisibilă

Blocul 5 - evaluarea semnificației coeficienților de regresie prin valoarea criteriului ^. Valorile calculate ale lui t0n sunt comparate cu valoarea admisibilă 4,/, care este determinată din tabelele de distribuții t pentru o anumită probabilitate de eroare (a) și numărul de grade de libertate (/).

Pe lângă verificarea semnificației întregului model, este necesar să se testeze semnificația coeficienților de regresie folosind testul /-Student. Valoarea minimă a coeficientului de regresie bg trebuie să corespundă condiției bifob- ^t, unde bi este valoarea coeficientului ecuației de regresie la scară naturală cu semnul factorului i; ab. - eroarea pătratică medie a fiecărui coeficient. incompatibilitatea între ele în ceea ce privește semnificația coeficienților D;

Analiza statistică ulterioară se referă la testarea semnificației coeficienților de regresie. Pentru a face acest lucru, găsim valoarea criteriului ^ pentru coeficienții de regresie. Ca rezultat al comparației lor, se determină cel mai mic criteriu t. Factorul al cărui coeficient corespunde celui mai mic criteriu ^ este exclus din analiza ulterioară.

Pentru a evalua semnificația statistică a coeficienților de regresie și corelație, se calculează testul t Student și intervalele de încredere pentru fiecare dintre indicatori. Ipoteza Dar despre natura aleatorie a indicatorilor este prezentată, i.e. despre diferența lor nesemnificativă față de zero. Evaluarea semnificației coeficienților de regresie și corelație folosind testul f Student se realizează prin compararea valorilor acestora cu mărimea erorii aleatoare:

Estimarea semnificației coeficienților de regresie pură folosind criteriul /-Student se reduce la calculul valorii

Calitatea muncii este o caracteristică a unei anumite forțe de muncă, reflectând gradul de complexitate, tensiune (intensitate), condiții și semnificație pentru dezvoltarea economiei. K.t. se măsoară prin intermediul unui sistem tarifar care face posibilă diferențierea salariilor în funcție de nivelul de calificare (complexitatea muncii), condiții, severitatea muncii și intensitatea acesteia, precum și importanța industriilor și industriilor individuale, regiuni, teritorii pentru dezvoltarea economiei ţării. K.t. își găsește expresie în salariile muncitorilor, care se formează pe piața muncii sub influența cererii și ofertei de muncă (tipuri specifice de muncă). K.t. - structura complexa

Scorurile obținute pentru semnificația relativă a consecințelor economice, sociale și de mediu individuale ale proiectului oferă în continuare o bază pentru compararea proiectelor alternative și a opțiunilor acestora folosind „criteriul de punctaj complex adimensional al eficienței sociale și de mediu-economice” al proiectului Ec, calculat (în scoruri de semnificație medie) conform formulei

Reglementarea intra-industrială prevede diferențe de salariu pentru lucrătorii dintr-o anumită ramură de industrie, în funcție de importanța tipurilor individuale de producție în această industrie, de complexitatea și condițiile de muncă, precum și de formele de salarizare utilizate.

Scorul de rating obținut al întreprinderii analizate în raport cu întreprinderea de referință, fără a ține cont de semnificația indicatorilor individuali, este comparativ. La compararea evaluărilor mai multor întreprinderi, cel mai mare rating îi aparține întreprinderii cu valoarea minimă a evaluării comparative obținute.

Înțelegerea calității unui produs ca măsură a utilității acestuia ridică o întrebare practic importantă cu privire la măsurarea acestuia. Soluția sa este obținută prin studierea semnificației proprietăților individuale în satisfacerea unei nevoi specifice. Semnificația chiar și a aceleiași proprietăți poate varia în funcție de condițiile de consum ale produsului. În consecință, utilitatea bunurilor în diferite împrejurări ale utilizării sale este diferită.

A doua etapă de lucru este studiul datelor statistice și identificarea relației și interacțiunii indicatorilor, determinarea semnificației factorilor individuali și a motivelor schimbării indicatorilor generali.

Toți indicatorii luați în considerare sunt reuniți astfel încât rezultatul să fie o evaluare cuprinzătoare a tuturor aspectelor analizate ale activităților întreprinderii, ținând cont de condițiile activității acesteia, luând în considerare gradul de semnificație al indicatorilor individuali pentru diverse tipuri de investitori:

Coeficienții de regresie arată intensitatea influenței factorilor asupra indicatorului de performanță. Dacă a fost efectuată o standardizare preliminară a indicatorilor factorilor, atunci b0 este egal cu valoarea medie a indicatorului efectiv în agregat. Coeficienții b, b2 ..... bl arată câte unități se abate nivelul indicatorului efectiv de la valoarea sa medie dacă valorile indicatorului factor se abat de la media egală cu zero cu o abatere standard. Astfel, coeficienții de regresie caracterizează gradul de semnificație al factorilor individuali pentru creșterea nivelului indicatorului efectiv. Valorile specifice ale coeficienților de regresie sunt determinate din datele empirice conform metodei celor mai mici pătrate (ca rezultat al rezolvării sistemelor de ecuații normale).

2. Calculul semnificației coeficienților de regresie și corelație folosind testul f Student

Să considerăm forma liniară a relațiilor multifactoriale nu numai ca fiind cea mai simplă, ci și ca o formă oferită de pachetele de aplicații software pentru PC-uri. Dacă legătura unui factor individual cu un atribut rezultat nu este liniară, atunci ecuația este liniarizată prin înlocuirea sau transformarea valorii atributului factorului.

Forma generală a ecuației de regresie multifactorială este:


unde k este numărul de caracteristici factori.

Pentru a simplifica sistemul de ecuații ale celor mai mici pătrate necesare pentru a calcula parametrii ecuației (8.32), sunt introduse de obicei abaterile valorilor individuale ale tuturor caracteristicilor de la valorile medii ale acestor caracteristici.

Obținem un sistem de k ecuații cele mai mici pătrate:

Rezolvând acest sistem, obținem valorile coeficienților de regresie pur condițional b. Termenul liber al ecuației se calculează prin formula


Termenul „coeficient de regresie condiționat-pur” înseamnă că fiecare dintre valorile bj măsoară abaterea medie a populației a atributului rezultat de la valoarea sa medie atunci când factorul dat xj se abate de la valoarea medie pe unitatea sa de măsură și cu condiția ca toate alți factori incluși în ecuația de regresie, fixați pe valori medii, nu se modifică, nu variază.

Astfel, spre deosebire de coeficientul de regresie perechi, coeficientul de regresie condițional-pură măsoară influența unui factor, făcând abstracție din relația dintre variația acestui factor și variația altor factori. Dacă ar fi posibil să se includă în ecuația de regresie toți factorii care influențează variația atributului rezultat, atunci valorile bj. ar putea fi considerate măsuri ale influenţei pure a factorilor. Dar din moment ce este cu adevărat imposibil să includeți toți factorii în ecuație, coeficienții bj. nu este liber de amestecul de influență a factorilor neincluși în ecuație.

Este imposibil să includeți toți factorii în ecuația de regresie din unul dintre cele trei motive sau pentru toți deodată, deoarece:

1) unii dintre factori pot fi necunoscuți științei moderne, cunoașterea oricărui proces este întotdeauna incompletă;

2) nu există informații despre factorii teoretici cunoscuți sau nu sunt de încredere;

3) dimensiunea populației studiate (eșantionul) este limitată, ceea ce vă permite să includeți un număr limitat de factori în ecuația de regresie.

Coeficienți de regresie condiționat pură bj. sunt numere numite, exprimate în diferite unități de măsură și, prin urmare, sunt incomparabile între ele. Pentru a le converti în indicatori relativi comparabili, se aplică aceeași transformare ca și pentru obținerea coeficientului de corelație de pereche. Valoarea rezultată se numește coeficient de regresie standardizat sau coeficient?.


Coeficientul la factorul xj determină gradul de influență a variației factorului xj asupra variației caracteristicii efective y atunci când alți factori incluși în ecuația de regresie sunt îndepărtați din variația concomitentă.

Este util să se exprime coeficienții de regresie condiționat pură sub forma unor indicatori de comunicare relativ comparabili, coeficienți de elasticitate:

Coeficientul de elasticitate al factorului xj indică faptul că dacă valoarea acestui factor se abate de la valoarea sa medie cu 1% și dacă se iau în considerare alți factori incluși în ecuație, atributul rezultat se va abate de la valoarea sa medie cu ej procente de la y. Mai des, coeficienții de elasticitate sunt interpretați și aplicați în termeni de dinamică: cu o creștere a factorului x cu 1% din valoarea sa medie, atributul rezultat va crește cu e. la sută din valoarea sa medie.

Luați în considerare calculul și interpretarea ecuației de regresie multivariată pe exemplul acelorași 16 ferme (Tabelul 8.1). Caracteristica efectivă este nivelul venitului brut și trei factori care îl influențează sunt prezentați în tabel. 8.7.

Reamintim încă o dată că pentru a obține indicatori de corelație fiabili și suficient de precisi, este nevoie de o populație mai mare.


Tabelul 8.7

Nivelul venitului brut și factorii săi

Numerele fermelor

Venit brut, rub./ra

Costuri cu forța de muncă, om-zile/ha x1

Ponderea terenului arabil

randamentul de lapte per vacă,

Tabelul 8.8 Indicatori ai ecuației de regresie

Variabila dependenta: y

coeficient de regresie

Constant-240,112905

Std. eroare de est. = 79,243276


Soluția a fost realizată folosind programul „Microstat” pentru PC. Iată tabelele din tipărire: tab. 8.7 oferă valorile medii și abaterile standard ale tuturor caracteristicilor. Tab. 8.8 conține coeficienții de regresie și estimarea probabilistică a acestora:

prima coloană „var” - variabile, adică factori; a doua coloană „coeficient de regresie” - coeficienți de regresie condiționat pură bj; a treia coloană „std. eroare" - erorile medii ale estimărilor coeficienților de regresie; a patra coloană - valorile testului t Student la 12 grade de libertate de variație; coloana a cincea „prob” - probabilitatea ipotezei nule privind coeficienții de regresie;

a șasea coloană „parțial r2” - coeficienți parțiali de determinare. Conținutul și metodologia de calcul a indicatorilor din coloanele 3-6 sunt discutate în continuare în Capitolul 8. „Constant” - un termen liber al ecuației de regresie a; "std. eroare de est." - eroarea pătratică medie a evaluării caracteristicii efective conform ecuaţiei de regresie. S-a obținut ecuația de regresie multiplă:

y \u003d 2,26x1 - 4,31x2 + 0,166x3 - 240.

Aceasta înseamnă că valoarea venitului brut pe 1 hectar de teren agricol a crescut în medie cu 2,26 ruble. cu o creștere a costurilor cu forța de muncă cu 1 h/ha; a scăzut cu o medie de 4,31 ruble. cu o creștere a ponderii terenurilor arabile din terenurile agricole cu 1% și a crescut cu 0,166 ruble. cu o creștere a producției de lapte per vaca cu 1 kg. Valoarea negativă a termenului liber este destul de naturală și, așa cum sa menționat deja în paragraful 8.2, caracteristica efectivă - venitul brut devine zero cu mult înainte de a ajunge la valori zero ale factorilor, ceea ce este imposibil în producție.

Valoarea negativă a coeficientului la x^ este un semnal de probleme semnificative în economia fermelor studiate, unde producția de cultură este nerentabilă, iar numai creșterea animalelor este profitabilă. Cu metode raționale de agricultură și prețuri normale (de echilibru sau apropiate de acestea) pentru produsele din toate industriile, veniturile nu ar trebui să scadă, ci să crească odată cu creșterea cotei celei mai fertile din terenurile agricole - teren arabil.

Pe baza datelor penultimelor două rânduri ale tabelului. 8.7 și tab. 8.8 se calculează coeficienții p și coeficienții de elasticitate conform formulelor (8.34) și (8.35).

Atât variația nivelului venitului, cât și posibila modificare a dinamicii acestuia sunt influențate cel mai puternic de factorul x3 - productivitatea vacilor, iar cel mai slab - x2 - ponderea terenului arabil. Valorile lui Р2/ vor fi utilizate în viitor (Tabelul 8.9);

Tabelul 8.9 Influența comparativă a factorilor asupra nivelului venitului

Factorii xj


Deci, am obținut că coeficientul ? al factorului xj se referă la coeficientul de elasticitate al acestui factor, ca și coeficientul de variație al factorului la coeficientul de variație al caracteristicii efective. Din moment ce, după cum se poate vedea din ultima linie a tabelului. 8.7, coeficienții de variație ai tuturor factorilor sunt mai mici decât coeficientul de variație al atributului rezultat; toți coeficienții ? sunt mai mici decât coeficienții de elasticitate.

Luați în considerare relația dintre coeficientul de regresie pereche și pur condițional folosind exemplul factorului -c. Ecuația liniară pereche a conexiunii dintre y și x are forma:

y = 3,886x1 - 243,2

Coeficientul de regresie condiționat pur la x1 este doar 58% din cel pereche. Restul de 42% se datorează faptului că variația x1 este însoțită de variația factorului x2 x3, care, la rândul său, afectează trăsătura rezultată. Relațiile tuturor caracteristicilor și coeficienții lor de regresie pe perechi sunt prezentate pe graficul relațiilor (Fig. 8.2).


Dacă adunăm estimările influenței directe și indirecte a variației x1 asupra y, adică produsul coeficienților de regresie perechi pentru toate „căile” (Fig. 8.2), obținem: 2,26 + 12,55 0,166 + (-0,00128) ) (-4,31) + (-0,00128) 17,00 0,166 = 4,344.

Această valoare este chiar mai mare decât coeficientul de cuplare perechi x1 cu y. Prin urmare, influența indirectă a variației x1 prin semnele-factori neincluși în ecuație este inversă, dând în total:

1 Ayvazyan S.A., Mkhitaryan V.S. Statistica aplicată și fundamentele econometriei. Manual pentru licee. - M.: UNITI, 2008, - 311s.

2 Johnston J. Metode econometrice. - M.: Statistică, 1980,. - 282s.

3 Dougherty K. Introducere în econometrie. - M.: INFRA-M, 2004, - 354 p.

4 Dreyer N., Smith G., Analiza de regresie aplicată. - M.: Finanţe şi statistică, 2006, - 191s.

5 Magnus Ya.R., Kartyshev P.K., Peresetsky A.A. Econometrie. Curs iniţial.-M.: Delo, 2006, - 259p.

6 Atelier de econometrie / Ed. I.I.Eliseeva.- M.: Finanțe și statistică, 2004, - 248p.

7 Econometrie / Ed. I.I.Eliseeva.- M.: Finanțe și statistică, 2004, - 541p.

8 Kremer N., Putko B. Econometrie.- M.: UNITY-DANA, 200, - 281p.


Ayvazyan S.A., Mkhitaryan V.S. Statistica aplicată și fundamentele econometriei. Manual pentru licee. - M.: UNITI, 2008,–p. 23.

Kremer N., Putko B. Econometrie.- M.: UNITY-DANA, 200, -p.64

Dreyer N., Smith G., Analiza de regresie aplicată. - M.: Finanţe şi statistică, 2006, - p57.

Atelier de econometrie / Ed. I.I. Eliseeva.- M .: Finanțe și statistică, 2004, -p. 172.

Date inițiale pentru analiza corelației

Grup profesional

mortalitate

Fermierii, pădurari și pescari

Mineri și muncitori la carieră

Producători de gaze, cocs și produse chimice

Producatori de sticla si ceramica

Muncitori în cuptoare, forje, turnătorii și laminoare

Lucrători în electricitate și electronică

Inginerie și profesii conexe

Productie prelucrarea lemnului

Tanatorii

Muncitori din textile

Producători de îmbrăcăminte de lucru

Lucrători din industria alimentară, a băuturilor și a tutunului

Producători de hârtie și imprimare

Producători de alte produse

Constructorii

Artiști și decoratori

Șoferi de motoare staționare, macarale etc.

Lucrători necuprinși în altă parte

Lucrători în transport și comunicații

Muncitori din depozit, depozitari, ambalatori și muncitori la mașini de umplere

muncitori la birou

Vânzători

Lucrători în servicii de sport și recreere

Administratori și manageri

Profesioniști, tehnicieni și artiști

Începem analiza corelației. Este mai bine să începem soluția pentru claritate cu o metodă grafică, pentru care vom construi o diagramă de împrăștiere.

Ea arată o legătură directă. Cu toate acestea, este dificil să trageți o concluzie fără ambiguitate bazată numai pe metoda grafică. Prin urmare, vom continua să efectuăm analize de corelație. Un exemplu de calcul al coeficientului de corelație este prezentat mai jos.

Folosind instrumente software (pe exemplul MS Excel, va fi descris mai jos), determinăm coeficientul de corelație, care este 0,716, ceea ce înseamnă o relație puternică între parametrii studiați. Să determinăm semnificația statistică a valorii obținute conform tabelului corespunzător, pentru care trebuie să scădem 2 din 25 de perechi de valori, ca rezultat obținem 23 și pentru această linie din tabel găsim r critic pentru p = 0,01 (deoarece acestea sunt date medicale este suficientă o dependență mai strictă, în alte cazuri p=0,05), care este 0,51 pentru această analiză de corelație. Exemplul a demonstrat că r calculat este mai mare decât r critic, valoarea coeficientului de corelație este considerată semnificativă statistic.

Utilizarea software-ului în analiza corelației

Tipul descris de prelucrare a datelor statistice poate fi realizat folosind software, în special, MS Excel. Corelația presupune calcularea următorilor parametri folosind funcții:

1. Coeficientul de corelație se determină folosind funcția CORREL (array1; array2). Array1,2 este o celulă a intervalului de valori ale variabilelor rezultate și factor.

Coeficientul de corelație liniară se mai numește și coeficientul de corelație Pearson și, prin urmare, începând cu Excel 2007, puteți utiliza funcția cu aceleași matrice.

Afișarea grafică a analizei de corelație în Excel se face folosind panoul „Diagrame” cu selecția „Grafic de dispersie”.

După specificarea datelor inițiale, obținem un grafic.

2. Evaluarea semnificației coeficientului de corelație cu ajutorul testului t Student. Valoarea calculată a criteriului t este comparată cu valoarea tabelară (critică) a acestui indicator din tabelul corespunzător de valori ale parametrului luat în considerare, ținând cont de nivelul de semnificație dat și de numărul de grade de libertate. Această estimare se face folosind funcția STUDIV(probabilitate; grade_de_libertate).

3. Matricea coeficienților de corelație perechi. Analiza se realizează cu ajutorul instrumentului „Analiza datelor”, în care este selectată „Corelație”. Evaluarea statistică a coeficienților de corelație de pereche se realizează prin compararea valorii absolute a acesteia cu valoarea tabelară (critică). Când coeficientul de corelație al perechii calculat îl depășește pe cel critic, putem spune, ținând cont de gradul de probabilitate dat, că ipoteza nulă despre semnificația relației liniare nu este respinsă.

In cele din urma

Utilizarea metodei de analiză a corelației în cercetarea științifică face posibilă determinarea relației dintre diverși factori și indicatori de performanță. În același timp, trebuie luat în considerare faptul că un coeficient de corelație ridicat poate fi obținut și dintr-o pereche sau un set absurd de date și, prin urmare, acest tip de analiză trebuie efectuat pe o matrice de date suficient de mare.

După obținerea valorii calculate a lui r, este de dorit să o comparăm cu r critic pentru a confirma semnificația statistică a unei anumite valori. Analiza corelației poate fi efectuată manual folosind formule sau folosind instrumente software, în special MS Excel. Aici puteți construi și o diagramă de împrăștiere (împrăștiere) în scopul unei reprezentări vizuale a relației dintre factorii studiați ai analizei de corelație și caracteristica rezultată.

După cum s-a remarcat în repetate rânduri, pentru o concluzie statistică despre prezența sau absența unei corelații între variabilele studiate, este necesar să se verifice semnificația coeficientului de corelație al eșantionului. Datorită faptului că fiabilitatea caracteristicilor statistice, inclusiv a coeficientului de corelație, depinde de mărimea eșantionului, poate apărea o situație când valoarea coeficientului de corelație se va datora în întregime fluctuațiilor aleatorii ale eșantionului pe baza cărora este calculat. Cu o relație semnificativă între variabile, coeficientul de corelație ar trebui să fie semnificativ diferit de zero. Dacă nu există o corelație între variabilele studiate, atunci coeficientul de corelație al populației generale ρ este egal cu zero. În studiile practice, de regulă, acestea se bazează pe observații selective. Ca orice caracteristică statistică, coeficientul de corelație al eșantionului este o variabilă aleatorie, adică valorile sale se împrăștie aleatoriu în jurul parametrului populației generale cu același nume (valoarea adevărată a coeficientului de corelație). În absenţa unei corelaţii între variabile y și x coeficientul de corelație în populația generală este zero. Dar, datorită naturii aleatorii a împrăștierii, sunt în mod fundamental posibile situații când unii coeficienți de corelație calculați din eșantioane din această populație vor fi diferiți de zero.

Diferențele observate pot fi atribuite fluctuațiilor aleatorii ale eșantionului sau reflectă o schimbare semnificativă a condițiilor de formare a relațiilor dintre variabile? Dacă valorile coeficientului de corelație al eșantionului se încadrează în zona de împrăștiere din cauza naturii aleatorii a indicatorului în sine, atunci aceasta nu este o dovadă a absenței unei conexiuni. Cel mai mult care se poate spune în acest caz este că datele observaționale nu neagă absența unei relații între variabile. Dar dacă valoarea coeficientului de corelație al eșantionului se află în afara zonei de împrăștiere menționate, atunci se ajunge la concluzia că este semnificativ diferit de zero și putem presupune că între variabile y și x există o relație semnificativă statistic. Criteriul folosit pentru rezolvarea acestei probleme, bazat pe distribuția diverselor statistici, se numește criteriu de semnificație.

Procedura de testare a semnificației începe cu formularea ipotezei nule H0 . În termeni generali, constă în faptul că nu există diferențe semnificative între parametrul eșantionului și parametrul populației. Ipoteză alternativă H1 este că există diferențe semnificative între acești parametri. De exemplu, atunci când se testează corelația în populație, ipoteza nulă este că adevăratul coeficient de corelație este zero ( H0: ρ = 0). Dacă, în urma testului, se dovedește că ipoteza nulă nu este acceptabilă, atunci coeficientul de corelație al eșantionului rWow semnificativ diferit de zero (ipoteza nulă este respinsă și alternativa este acceptată) H1). Cu alte cuvinte, presupunerea unor variabile aleatoare necorelate în populația generală ar trebui să fie recunoscută ca nerezonabilă. În schimb, dacă se bazează pe testul de semnificație, se acceptă ipoteza nulă, i.e. rWow se află în zona admisibilă de dispersie aleatorie, atunci nu există niciun motiv să se considere îndoielnică ipoteza variabilelor necorelate în populația generală.

Într-un test de semnificație, cercetătorul stabilește un nivel de semnificație α care oferă o oarecare încredere practică că se vor trage concluzii eronate doar în cazuri foarte rare. Nivelul de semnificație exprimă probabilitatea ca ipoteza nulă H0 respins în momentul în care este de fapt adevărat. Este clar că are sens să alegeți această probabilitate cât mai mică posibil.

Fie cunoscută distribuția caracteristicii eșantionului, care este o estimare imparțială a parametrului populației. Nivelul de semnificație selectat α corespunde zonelor umbrite de sub curba acestei distribuții (vezi Fig. 24). Zona neumbrită de sub curba de distribuție definește probabilitatea P = 1-α . Limitele segmentelor de pe axa absciselor sub zonele umbrite se numesc valori critice, iar segmentele însele formează regiunea critică sau regiunea de respingere a ipotezelor.

În procedura de testare a ipotezelor, caracteristica eșantionului calculată din rezultatele observațiilor este comparată cu valoarea critică corespunzătoare. În acest caz, ar trebui să se facă distincția între regiunile critice unilaterale și cele două părți. Forma de precizare a regiunii critice depinde de formularea problemei într-un studiu statistic. O regiune critică cu două fețe este necesară atunci când, atunci când se compară parametrul eșantionului și parametrul populației, este necesară estimarea valorii absolute a discrepanței dintre ele, adică atât diferențele pozitive, cât și negative între valorile studiate sunt de interes. . Când este necesar să ne asigurăm că o valoare este în medie strict mai mare sau mai mică decât alta, se folosește o regiune critică unilaterală (pe dreapta sau pe stânga). Este destul de evident că pentru aceeași valoare critică nivelul de semnificație atunci când se folosește o regiune critică unilaterală este mai mic decât atunci când se folosește una cu două fețe. Dacă distribuția caracteristicii eșantionului este simetrică,

Orez. 24. Testarea ipotezei nule H0

atunci nivelul de semnificație al regiunii critice cu două laturi este egal cu α, iar nivelul de semnificație al celei unilaterale este (vezi Fig. 24). Ne limităm la o formulare generală a problemei. Mai multe detalii despre justificarea teoretică a testării ipotezelor statistice pot fi găsite în literatura de specialitate. În continuare, vom indica doar criteriile de semnificație pentru diferite proceduri, fără a ne opri asupra construcției lor.

Prin verificarea semnificației coeficientului de corelație de pereche se stabilește prezența sau absența unei corelații între fenomenele studiate. În absența unei conexiuni, coeficientul de corelație al populației generale este egal cu zero (ρ = 0). Procedura de verificare începe cu formularea ipotezelor nule și alternative:

H0: diferența dintre coeficientul de corelație al eșantionului r și ρ = ​​0 este nesemnificativ,

H1: diferență între r iar ρ = 0 este semnificativ și, prin urmare, între variabile lași X există o legătură semnificativă. Din ipoteza alternativă rezultă că ar trebui să folosim o regiune critică cu două fețe.

În secțiunea 8.1 s-a menționat deja că coeficientul de corelație al eșantionului, în anumite ipoteze, este asociat cu o variabilă aleatorie t, supunând distribuţiei Studentului cu f = n- 2 grade de libertate. Statistici calculate din rezultatele eșantionului

comparativ cu valoarea critică determinată din tabelul de distribuție Student la un nivel de semnificație dat α șif = n- 2 grade de libertate. Regula de aplicare a criteriului este următoarea: dacă | t| >tf,A, apoi ipoteza nulă la nivelul de semnificație α respins, adică relația dintre variabile este semnificativă; dacă | t| ≤tf,A, atunci se acceptă ipoteza nulă la nivelul de semnificație α. Abaterea valorii r de la ρ = 0 poate fi atribuită variației aleatoare. Aceste mostre caracterizează ipoteza luată în considerare ca fiind foarte posibilă și plauzibilă, adică ipoteza absenței unei conexiuni nu este inacceptabilă.

Procedura de testare a unei ipoteze este mult simplificată în loc de statistici t utilizați valorile critice ale coeficientului de corelație, care pot fi determinate în termenii cuantilelor distribuției Studentului prin substituirea în (8.38) t= tf, a si r= ρ f, A:

(8.39)

Există tabele detaliate ale valorilor critice, un extras din care este dat în Anexa la această carte (vezi Tabelul 6). Regula de testare a ipotezei în acest caz este următoarea: dacă r> ρ f, a, atunci putem afirma că relația dintre variabile este semnificativă. În cazul în care un rrf,A, atunci rezultatele observațiilor sunt considerate conforme cu ipoteza absenței unei conexiuni.

; ; .

Acum să calculăm valorile abaterilor standard ale eșantionului:

https://pandia.ru/text/78/148/images/image443_0.gif" width="413" height="60 src=">.

Corelația dintre nivelul elevilor de clasa a zecea, cu atât este mai mare nivelul mediu de realizare la matematică și invers.

2. Verificarea semnificaţiei coeficientului de corelaţie

Deoarece coeficientul eșantionului este calculat din datele eșantionului, acesta este o variabilă aleatorie . Dacă , atunci se pune întrebarea: este aceasta din cauza unei relații liniare cu adevărat existente între și width="27" height="25">: (dacă semnul de corelație nu este cunoscut); sau pe o singură față https://pandia.ru/text/78/148/images/image448_0.gif" width="43" height="23 src=">.gif" width="43" height="23 src =" > (dacă semnul corelației poate fi predeterminat).

Metoda 1. Pentru a testa ipoteza, folosim https://pandia.ru/text/78/148/images/image150_1.gif" width="11" height="17 src=">-Testul elevului conform formulei

https://pandia.ru/text/78/148/images/image406_0.gif" width="13" height="15">.gif" width="36 height=25" height="25">.gif " width="17" height="16"> și numărul de grade de libertate pentru un test cu două fețe.

Regiunea critică este dată de inegalitate .

Dacă https://pandia.ru/text/78/148/images/image455_0.gif" width="99" height="29 src=">, atunci ipoteza nulă este respinsă. Concluzionăm:

§ pentru o ipoteză alternativă bifață - coeficientul de corelație este semnificativ diferit de zero;

§ Pentru o ipoteză unilaterală, există o corelație pozitivă (sau negativă) semnificativă statistic.

Metoda 2. De asemenea, puteți utiliza tabelul valorilor critice ale coeficientului de corelație, din care aflăm valoarea valorii critice a coeficientului de corelație cu numărul de grade de libertate https://pandia.ru/text/78/148/images/image367_1.gif" width="17 height=16" înălțime="16">.

Dacă https://pandia.ru/text/78/148/images/image459_0.gif" width="101" height="29 src=">, atunci se ajunge la concluzia că coeficientul de corelație este semnificativ diferit de 0 și există o corelație semnificativă statistic.

Deci, unele fenomene pot apărea sau modifica simultan, dar independent unul de celălalt (evenimente comune) ( fals regresie). Alții - a fi într-o relație cauzală nu unul cu celălalt, ci în conformitate cu o relație cauzală mai complexă ( indirect regresie). Astfel, cu un coeficient de corelație semnificativ, concluzia finală despre prezența unei relații cauzale nu poate fi făcută decât ținând cont de specificul problemei studiate.

Exemplul 2 Determinați semnificația coeficientului de corelație al eșantionului calculat în exemplul 1.

Soluţie.

Să punem o ipoteză: că nu există o corelație în populația generală. Deoarece semnul corelației ca rezultat al soluției exemplului 1 este determinat - corelația este pozitivă, atunci ipoteza alternativă este unilaterală de forma https://pandia.ru/text/78/148/images/ image448_0.gif" width="43" height="23 src =">.

Găsiți valoarea empirică a criteriului -:

https://pandia.ru/text/78/148/images/image461_0.gif" width="167 height=20" height="20">, alegem nivelul de semnificație egal cu . Conform tabelului „Valori critice - Testul elevului pentru diferite niveluri de semnificație” găsim valoarea critică.

Din moment ce https://pandia.ru/text/78/148/images/image434_0.gif" width="25 height=24" height="24"> și nivelul mediu de performanță la matematică, există o corelație semnificativă statistic .

Sarcini de testare

1. Notează cel puțin două răspunsuri corecte. Testarea semnificației coeficientului de corelație al eșantionului se bazează pe un test statistic al ipotezei că...

1) nu există corelație în populația generală

2) diferența de la zero a coeficientului de corelație al eșantionului se explică doar prin aleatorietatea eșantionului

3) coeficientul de corelație este semnificativ diferit de 0

4) diferența de la zero a coeficientului de corelație al eșantionului nu este întâmplătoare

2. Dacă coeficientul eșantionului de corelație liniară , atunci valoarea mai mare a unui atribut corespunde cu ... valoarea mai mare a celuilalt atribut.

1) medie

3) în majoritatea observațiilor

4) ocazional

3. Coeficientul de corelație al eșantionului https://pandia.ru/text/78/148/images/image465_0.gif" width="64" height="23 src="> (pentru dimensiunea eșantionului și nivelul de semnificație de 0,05). Este posibil a spune că există o corelație pozitivă semnificativă statistic între trăsăturile psihologice?

5. Să se găsească coeficientul de corelație al eșantionului în sarcina de a identifica puterea unei relații liniare între trăsăturile psihologice https://pandia.ru/text/78/148/images/image466_0.gif și un nivel de semnificație de 0,05.) Se poate spune că diferența față de zero a coeficientului de corelație al eșantionului se explică doar prin aleatorietatea eșantionului?

Tema 3. Coeficienții de corelație de rang și asocieri

1. Coeficientul de corelare a rangului https://pandia.ru/text/78/148/images/image130_3.gif" width="21 height=19" height="19"> și. Numărul de valori ale caracteristicilor (indicatori, subiecte, calități, trăsături) pot fi oricare, dar numărul lor trebuie să fie același.

Subiecte

Rangurile caracteristicilor

Rangurile caracteristicilor

Să notăm diferența dintre rangurile în două variabile pentru fiecare subiect prin https://pandia.ru/text/78/148/images/image470_0.gif" width="319" height="66">,

unde este numărul de valori ale caracteristicilor clasate, indicatori.

Coeficientul de corelare a rangului ia valori cuprinse între -1 și +1și este privit ca un mijloc de estimare rapidă a coeficientului de corelație Pearson.

Pentru testarea semnificației coeficientului de corelație al rangurilor Spearman (dacă numărul de valori https://pandia.ru/text/78/148/images/image472_0.gif" width="55" height="29"> depinde de numărul și nivelul de semnificație. Dacă empiric valoarea este mai mare, atunci la nivel de semnificație se poate susține că trăsăturile sunt corelate.

Exemplul 1 Psihologul află cum sunt legate rezultatele progreselor elevilor la matematică și fizică, ale căror rezultate sunt prezentate sub forma unei serii ordonate pe nume de familie.

Student

Sumă

Performanta academica

matematică

Performanta academica

în fizică

Pătratul diferenței dintre rânduri

Calculați suma, apoi coeficientul de corelație al rangurilor lui Spearman este egal cu:

Sa verificam semnificația coeficientului de corelație a rangului găsit. Să găsim valorile critice ale coeficientului de corelare a rangului lui Spearman din tabel (vezi Anexe) pentru:

https://pandia.ru/text/78/148/images/image480_0.gif" width="72" height="25"> este mai mare decât valoarea = 0,64 și valoarea 0,79. Aceasta indică faptul că valoarea a căzut în zona de semnificație a coeficientului de corelare. Prin urmare, se poate argumenta că coeficientul de corelație al rangurilor Spearman este semnificativ diferit de 0. Aceasta înseamnă că rezultatele progresului elevilor în matematică și fizică sunt corelate pozitiv . Există o corelație pozitivă semnificativă între performanța la matematică și performanța la fizică: cu cât performanța la matematică este mai bună, cu atât performanța medie la fizică este mai bună și invers.

Comparând coeficienții de corelație Pearson și Spearman, observăm că coeficientul de corelație Pearson corelează valorile cantități, iar coeficientul de corelație Spearman este valorile ranguri aceste valori, astfel încât valorile coeficienților Pearson și Spearman nu sunt adesea aceleași.

Pentru o înțelegere mai completă a materialului experimental obținut în cercetarea psihologică, este indicat să se calculeze coeficienții atât după Pearson, cât și pe Spearman.

cometariu. În prezența aceleasi ranguriîn seria de ranguri și în numărătorul formulei de calcul al coeficientului de corelare a rangurilor se adaugă termeni - „corecții pentru ranguri”: ; ,

unde https://pandia.ru/text/78/148/images/image130_3.gif" width="21" height="19">;

https://pandia.ru/text/78/148/images/image165_1.gif" width="16" height="19">.

În acest caz, formula de calcul al coeficientului de corelare a rangului ia forma https://pandia.ru/text/78/148/images/image485_0.gif" width="16" height="19">.

Conditii de aplicare a coeficientului de asociere.

1. Trăsăturile comparate au fost măsurate pe o scară dihotomică.

2..gif" width="21" height="19">, , marcate cu simbolurile 0 și 1, sunt prezentate în tabel.

Numărul de observație

CATEGORII

ARTICOLE POPULARE

2022 "kingad.ru" - examinarea cu ultrasunete a organelor umane