Analiza corelaţiei stabileşte. Analiza corelației Spearman

Explorând natura, societatea, economia, este necesar să se țină cont de relația dintre procesele și fenomenele observate. În același timp, completitudinea descrierii este oarecum determinată de caracteristicile cantitative ale relațiilor cauză-efect dintre ele. Evaluarea celor mai semnificative dintre ele, precum și impactul unor factori asupra altora, este una dintre sarcinile principale ale statisticii.

Formele de manifestare a interrelațiilor sunt foarte diverse. Ca cele două tipuri cele mai comune alocă funcțional(complet) și corelație conexiune (incompletă). În primul caz, valoarea atributului factorului corespunde strict uneia sau mai multor valori ale funcției. Destul de des, conexiunea funcțională se manifestă în fizică, chimie. În economie, un exemplu este relația direct proporțională dintre productivitatea muncii și creșterea producției.

Corelația (care se mai numește și incompletă, sau statistică) apare în medie, pentru observațiile de masă, atunci când valorile date ale variabilei dependente corespund unui anumit număr de valori probabile ale variabilei independente. Explicația pentru aceasta este complexitatea relațiilor dintre factorii analizați, a căror interacțiune este influențată de variabile aleatoare neevaluate. Prin urmare, relația dintre semne se manifestă doar în medie, în masa cazurilor. Cu o corelație, fiecare valoare a argumentului corespunde unor valori distribuite aleatoriu ale funcției într-un anumit interval.

De exemplu, o anumită creștere a argumentului va presupune doar o creștere sau o scădere medie (în funcție de direcția) funcției, în timp ce valorile specifice pentru unitățile individuale de observație vor diferi de medie. Aceste dependențe sunt omniprezente. De exemplu, în agricultură, aceasta poate fi relația dintre randament și cantitatea de îngrășământ aplicată. Evident, acestea din urmă sunt implicate în formarea culturii. Însă pentru fiecare câmp specific, parcelă, aceeași cantitate de îngrășăminte aplicate va determina o creștere diferită a randamentului, deoarece există o serie de alți factori (vtememea, condițiile solului etc.) în interacțiune care formează rezultatul final. Cu toate acestea, în medie, se observă o astfel de relație - o creștere a masei îngrășămintelor aplicate duce la o creștere a randamentului.

În direcția comunicării, există Drept, când variabila dependentă crește odată cu creșterea trăsăturii factorului și verso, la care creşterea acestuia din urmă este însoţită de o scădere a funcţiei. Astfel de relații pot fi numite și pozitive și, respectiv, negative.

În ceea ce privește forma lor analitică de comunicare, există liniarși neliniară.În primul caz, în medie, apar relații liniare între semne. O relație neliniară este exprimată printr-o funcție neliniară, iar variabilele sunt interconectate în medie neliniar.

Mai există o caracteristică destul de importantă a conexiunilor din punctul de vedere al factorilor de interacțiune. Dacă se caracterizează o relație între două caracteristici, atunci se numește baie de aburi. Dacă sunt studiate mai mult de două variabile − multiplu.

Caracteristicile de clasificare de mai sus se găsesc cel mai adesea în analiza statistică. Dar pe lângă cele de mai sus, există și direct indirectși fals conexiuni. De fapt, esența fiecăruia dintre ele este evidentă din nume. În primul caz, factorii interacționează direct între ei. O relație indirectă se caracterizează prin participarea unei a treia variabile, care mediază relația dintre trăsăturile studiate. O conexiune falsă este o legătură stabilită formal și, de regulă, confirmată doar de estimări cantitative. Nu are o bază calitativă sau este lipsită de sens.

Ele diferă ca putere slabși puternic conexiuni. Această caracteristică formală este exprimată prin valori specifice și este interpretată în conformitate cu criteriile general acceptate pentru puterea conexiunii pentru indicatori specifici.

În cea mai generală formă, sarcina statisticii în domeniul studierii relațiilor este de a cuantifica prezența și direcția acestora, precum și de a caracteriza puterea și forma influenței unor factori asupra altora. Pentru a o rezolva, se folosesc două grupe de metode, dintre care una include metodele de analiză a corelației, iar cealaltă - analiza de regresie. În același timp, o serie de cercetători combină aceste metode într-o analiză de corelație-regresie, care are unele temeiuri: prezența unui număr de proceduri computaționale comune, complementaritatea în interpretarea rezultatelor etc.

Prin urmare, în acest context, putem vorbi despre analiza corelației în sens larg - atunci când relația este caracterizată cuprinzător. În același timp, există analize de corelație în sens restrâns - când se studiază forța conexiunii - și analize de regresie, în cadrul cărora se evaluează forma acesteia și impactul unor factori asupra altora.

Sarcini adecvate analiza corelației se reduc la măsurarea apropierii relației dintre diferite trăsături, identificarea relațiilor cauzale necunoscute și evaluarea factorilor care au cel mai mare impact asupra trăsăturii rezultate.

Sarcini analiza regresiei se află în domeniul stabilirii formei de dependență, determinarea funcției de regresie, folosind o ecuație pentru a estima valori necunoscute ale variabilei dependente.

Rezolvarea acestor probleme se bazează pe tehnici, algoritmi, indicatori corespunzători, a căror utilizare dă motiv să vorbim despre studiul statistic al relațiilor.

Trebuie remarcat faptul că metodele tradiționale de corelare și regresie sunt larg reprezentate în diverse pachete software statistice pentru calculatoare. Cercetatorului ii ramane singurul lucru sa pregateasca corect informatia, sa aleaga un pachet software care sa satisfaca cerintele analizei si sa fie pregatit sa interpreteze rezultatele obtinute. Există mulți algoritmi pentru calcularea parametrilor de comunicare, iar în prezent nu este recomandabil să efectuați manual un tip de analiză atât de complex. Procedurile de calcul sunt de interes independent, dar cunoașterea principiilor studierii relațiilor, posibilităților și limitărilor anumitor metode de interpretare a rezultatelor este o condiție prealabilă pentru cercetare.

Metodele de evaluare a etanșeității conexiunii sunt împărțite în corelație (parametrică) și neparametrică. Metodele parametrice se bazează pe utilizarea, de regulă, a estimărilor de distribuție normală și sunt utilizate în cazurile în care populația studiată este formată din cantități care respectă legea distribuției normale. În practică, această poziție este luată cel mai adesea a priori. De fapt, aceste metode sunt parametrice și sunt denumite în mod obișnuit metode de corelare.

Metodele neparametrice nu impun restricții asupra legii de distribuție a cantităților studiate. Avantajul lor este și simplitatea calculelor.

Utilizarea metodelor statistice în prelucrarea materialelor de cercetare psihologică oferă o mare oportunitate de a extrage informații utile din datele experimentale. Una dintre cele mai comune metode statistice este analiza corelației.

Termenul de „corelare” a fost folosit pentru prima dată de paleontologul francez J. Cuvier, care a dedus „legea corelării părților și organelor animalelor” (această lege vă permite să restabiliți aspectul întregului animal din părțile găsite ale corpului. ). Acest termen a fost introdus în statistică de biologul și statisticianul englez F. Galton (nu doar „conexiune” - relațieși „ca și cum ar fi o conexiune” - corelatie).

Analiza corelației este un test de ipoteze despre relațiile dintre variabile folosind coeficienți de corelație, statistici descriptive bidimensionale, o măsură cantitativă a relației (variabilitatea comună) a două variabile. Astfel, acesta este un set de metode pentru detectarea corelațiilor dintre variabile sau caracteristici aleatoare.

Analiza corelației pentru două variabile aleatoare include:

  • construirea unui câmp de corelare și compilarea unui tabel de corelare;
  • calcularea coeficienților de corelație ale eșantionului și a rapoartelor de corelație;
  • testarea ipotezei statistice a semnificaţiei relaţiei.

Scopul principal al analizei de corelație este de a identifica relația dintre două sau mai multe variabile studiate, care este considerată ca o schimbare coordonată în comun a celor două caracteristici studiate. Această variabilitate are trei caracteristici principale: formă, direcție și rezistență.

Forma corelației poate fi liniară sau neliniară. O formă liniară este mai convenabilă pentru identificarea și interpretarea unei corelații. Pentru o corelație liniară, se pot distinge două direcții principale: pozitivă („conexiune înainte”) și negativă („feedback”).

Puterea conexiunii indică în mod direct cât de pronunțată este variabilitatea comună a variabilelor studiate. În psihologie, interconectarea funcțională a fenomenelor poate fi relevată empiric doar ca o conexiune probabilistică a trăsăturilor corespunzătoare. O reprezentare vizuală a naturii relației probabilistice este dată de o diagramă de împrăștiere - un grafic ale cărui axe corespund valorilor a două variabile, iar fiecare subiect este un punct.

Coeficienții de corelație sunt utilizați ca o caracteristică numerică a unei relații probabilistice, ale cărei valori variază în intervalul de la -1 la +1. După calcule, cercetătorul, de regulă, selectează doar cele mai puternice corelații, care sunt interpretate în continuare (Tabelul 1).

Criteriul de selectare a corelațiilor „suficient de puternice” poate fi fie valoarea absolută a coeficientului de corelație propriu-zis (de la 0,7 la 1), fie valoarea relativă a acestui coeficient, determinată de nivelul de semnificație statistică (de la 0,01 la 0,1), în funcție de marime de mostra. În eșantioane mici, pentru interpretare ulterioară, este mai corect să se selecteze corelații puternice pe baza nivelului de semnificație statistică. Pentru studiile care sunt efectuate pe eșantioane mari, este mai bine să folosiți valorile absolute ale coeficienților de corelație.

Astfel, sarcina analizei corelației se reduce la stabilirea direcției (pozitive sau negative) și a formei (liniare, neliniare) a relației dintre diferitele trăsături, măsurarea etanșeității acesteia și, în final, verificarea nivelului de semnificație a rezultatului obținut. coeficienți de corelare.

În prezent, au fost dezvoltați mulți coeficienți de corelație diferiți. Cele mai folosite sunt r-Pearson, r-Spearman și τ - Kendall. Programele moderne de statistică pe calculator din meniul „Corelații” oferă exact acești trei coeficienți, iar pentru rezolvarea altor probleme de cercetare sunt oferite metode de comparare a grupurilor.

Alegerea metodei de calcul al coeficientului de corelație depinde de tipul de scară căreia îi aparțin variabilele (Tabelul 2).

Pentru variabilele cu un interval și cu o scară nominală se utilizează coeficientul de corelație Pearson (corelația momentelor produsului). Dacă cel puțin una dintre cele două variabile are o scară ordinală sau nu este distribuită în mod normal, se utilizează corelația de rang a lui Spearman sau

t-Kendall. Dacă una dintre cele două variabile este dihotomică, poate fi utilizată corelația punctului cu două serii (această opțiune nu este disponibilă în programul de calculator statistic SPSS și poate fi utilizat în schimb calculul corelației de rang). În cazul în care ambele variabile sunt dihotomice, se utilizează o corelație cu patru câmpuri (acest tip de corelație este calculată de SPSS pe baza definiției măsurilor de distanță și a măsurilor de similaritate). Calculul coeficientului de corelație între două variabile nedihotomice este posibil numai dacă relația dintre ele este liniară (unidirecțională). Dacă conexiunea, de exemplu, U-format (ambigu), coeficientul de corelație nu este potrivit pentru a fi utilizat ca măsură a forței relației: valoarea acestuia tinde spre zero.

Astfel, condițiile de aplicare a coeficienților de corelație vor fi următoarele:

  • variabile măsurate într-o scară cantitativă (rang, metric) pe același eșantion de obiecte;
  • relaţia dintre variabile este monotonă.

Ipoteza statistică principală, care este testată prin analiza corelației, este nedirecțională și conține afirmația că corelația este egală cu zero în populația generală. H0: rxy= 0. Dacă este respinsă, se acceptă ipoteza alternativă H1: rxy≠ 0 despre prezența unei corelații pozitive sau negative – în funcție de semnul coeficientului de corelație calculat.

Pe baza acceptării sau respingerii ipotezelor se trag concluzii semnificative. Dacă, conform rezultatelor testării statistice H0: rxy= 0 nu se abate la nivelul a, atunci concluzia semnificativă va fi următoarea: relația dintre Xși Y nu a fost gasit. Eu gras H0rxy= 0 deviază la nivelul a, ceea ce înseamnă că s-a găsit o relație pozitivă (negativă) între Xși Y. Cu toate acestea, interpretarea corelațiilor relevate trebuie abordată cu prudență. Din punct de vedere științific, simpla stabilire a unei relații între două variabile nu implică existența unei relații cauzale. Mai mult, prezența unei corelații nu stabilește o relație de succesiune între cauză și efect. Pur și simplu indică faptul că două variabile sunt mai legate între ele decât ar fi de așteptat dintr-o coincidență. Cu toate acestea, cu prudență, utilizarea metodelor de corelare în studiul relațiilor cauzale este pe deplin justificată. Ar trebui evitate expresiile categorice precum „variabila X este motivul creșterii indicatorului”. Y". Asemenea afirmații ar trebui formulate ca ipoteze, care ar trebui să fie strict fundamentate teoretic.

O descriere detaliată a procedurii matematice pentru fiecare coeficient de corelație este dată în manualele de statistică matematică; ; ; si altele.Ne vom limita la a descrie posibilitatea utilizarii acestor coeficienti in functie de tipul scarii de masurare.

Corelația variabilelor metrice

Pentru a studia relația dintre două variabile metrice măsurate pe același eșantion, folosim coeficient de corelație r-Pearson. Coeficientul însuși caracterizează prezența doar unei relații liniare între caracteristici, de obicei notate prin simboluri Xși Y. Coeficientul de corelație liniară este o metodă parametrică și aplicarea sa corectă este posibilă numai dacă rezultatele măsurătorilor sunt prezentate pe o scară de intervale, iar distribuția însăși a valorilor în variabilele analizate diferă într-o mică măsură de normală. Există multe situații în care utilizarea sa este adecvată. De exemplu: stabilirea unei legături între intelectul unui student și performanțele sale academice; între starea de spirit și succesul în ieșirea dintr-o situație problemă; între nivelul veniturilor și temperament etc.

Coeficientul Pearson este utilizat pe scară largă în psihologie și pedagogie. De exemplu, în lucrările lui I. Ya. Kaplunovich și P. D. Rabinovich, M. P. Nuzhdina, calculul coeficientului de corelație liniară Pearson a fost utilizat pentru a confirma ipotezele prezentate.

La prelucrarea datelor „manual”, este necesar să se calculeze coeficientul de corelație și apoi să se determine p- nivelul de semnificație (pentru a simplifica verificarea datelor, se folosesc tabele de valori critice rxy, care sunt compilate folosind acest criteriu). Valoarea coeficientului de corelație liniară al lui Pearson nu poate depăși +1 și poate fi mai mică de -1. Aceste două numere +1 și -1 sunt limitele coeficientului de corelație. Când calculul are ca rezultat o valoare mai mare de +1 sau mai mică de -1, aceasta indică faptul că a apărut o eroare de calcul.

Când se calculează pe calculator, programul statistic (SPSS, Statistica) însoțește coeficientul de corelație calculat cu o valoare mai precisă p-nivel.

Pentru o decizie statistică privind acceptarea sau respingerea H0 de obicei setat α = 0,05 și pentru un volum mare de observații (100 sau mai mult) α = 0,01. În cazul în care un p ≤ a, H 0 este respinsă și se ajunge la o concluzie semnificativă că s-a găsit o relație semnificativă (semnificativă) statistic între variabilele studiate (pozitive sau negative, în funcție de semnul corelației). Când p > a, H0 nu este respinsă, concluzia semnificativă se limitează la afirmația că relația (semnificativă statistic) nu a fost găsită.

Dacă nu se găsește nicio conexiune, dar există motive să credem că conexiunea chiar există, ar trebui să verificați posibilele motive pentru nefiabilitatea conexiunii.

Neliniaritatea comunicării– Pentru a face acest lucru, analizați diagrama de dispersie bidimensională. Dacă relația este neliniară, dar monotonă, accesați corelațiile de rang. Dacă relația nu este monotonă, atunci împărțiți eșantionul în părți în care relația este monotonă și calculați corelațiile separat pentru fiecare parte a eșantionului sau împărțiți eșantionul în grupuri contrastante și apoi comparați-le în funcție de nivelul de exprimare al trăsătura.

Prezența unor valori aberante și o asimetrie pronunțată în distribuția uneia sau a ambelor caracteristici. Pentru a face acest lucru, trebuie să vă uitați la histogramele distribuției de frecvență a ambelor caracteristici. Dacă există valori aberante sau asimetrii, excludeți valorile aberante sau treceți la corelații de rang.

Eterogenitatea probei(analizați graficul de dispersie 2D). Încercați să împărțiți proba în părți în care relația poate avea direcții diferite.

Dacă relația este semnificativă statistic, atunci înainte de a face o concluzie semnificativă, este necesar să excludem posibilitatea unei corelații false:

  • conexiune datorată valorii aberante. Dacă există valori aberante, mergeți la ierarhizarea corelațiilor sau excludeți valorile aberante;
  • relaţia se datorează influenţei celei de-a treia variabile. Dacă există un fenomen similar, este necesar să se calculeze corelația nu numai pentru întregul eșantion, ci și pentru fiecare grup separat. Dacă „a treia” variabilă este metrică, calculați corelația parțială.

Coeficient de corelație parțială rxy-z se calculează dacă este necesar să se testeze ipoteza că relaţia dintre două variabile Xși Y nu depinde de influenţa celei de-a treia variabile Z. Foarte des, două variabile se corelează între ele doar datorită faptului că ambele se schimbă în mod concertat sub influența unei a treia variabile. Cu alte cuvinte, de fapt, nu există nicio legătură între proprietățile corespunzătoare, dar apare într-o relație statistică sub influența unei cauze comune. De exemplu, o cauză comună a variabilității a două variabile poate fi vârsta atunci când se studiază relația dintre diferitele caracteristici psihologice într-un grup de vârste diferite. Atunci când interpretăm corelația parțială în termeni de cauzalitate, trebuie să fim atenți, deoarece dacă Z se coreleaza cu X si cu Y, și corelația parțială rxy-z aproape de zero, nu urmează neapărat asta Z este un motiv comun pentru Xși Y.

Corelarea variabilelor de rang

Dacă coeficientul de corelație este inacceptabil pentru datele cantitative r-Pearson, apoi pentru a testa ipoteza despre relația dintre două variabile după clasarea preliminară, pot fi aplicate corelații r- lancierul sau τ - Kendalla. De exemplu, într-un studiu al caracteristicilor psihofizice ale adolescenților talentați din punct de vedere muzical de I. A. Lavochkin, a fost folosit criteriul Spearman.

Pentru calcularea corectă a ambilor coeficienți (Spearman și Kendall), rezultatele măsurătorilor trebuie prezentate într-o scară de ranguri sau intervale. Nu există diferențe fundamentale între aceste criterii, dar este general acceptat că coeficientul Kendall este mai „semnificativ”, deoarece analizează relațiile dintre variabile mai complet și în detaliu, sortând toate corespondențele posibile între perechile de valori. Coeficientul lui Spearman ia în considerare mai precis gradul cantitativ de asociere între variabile.

Coeficientul de corelare a rangului lui Spearman este un analog neparametric al coeficientului de corelație Pearson clasic, dar calculul acestuia ia în considerare nu indicatori legați de distribuție ai variabilelor comparate (media aritmetică și varianță), ci ranguri. De exemplu, este necesar să se determine relația dintre evaluările de clasare ale trăsăturilor de personalitate care sunt incluse în ideea unei persoane despre „sunt real” și „sunt ideal”.

Coeficientul Spearman este utilizat pe scară largă în cercetarea psihologică. De exemplu, în lucrarea lui Yu. V. Bushov și N. N. Nesmelova: el a fost folosit pentru a studia dependența preciziei estimării și reproducerii duratei semnalelor sonore de caracteristicile individuale ale unei persoane.

Deoarece acest coeficient este analog r-Pearson, atunci folosirea lui pentru a testa ipoteze este similară cu utilizarea coeficientului r-Pearson. Adică, ipoteza statistică testată, procedura de luare a unei decizii statistice și formularea unei concluzii semnificative sunt aceleași. În programele de calculator (SPSS, Statistica) niveluri de semnificație pentru aceiași coeficienți r-Pearson și r- Se potrivește întotdeauna Spearman.

Avantaj de raport r-Spearman versus raport r-Pearson - într-o mai mare sensibilitate la comunicare. Îl folosim în următoarele cazuri:

  • prezența unei abateri semnificative în distribuția a cel puțin unei variabile de la forma normală (asimetrie, valori aberante);
  • apariția unei conexiuni curbilinii (monotone).

Restrictie de aplicare a coeficientului r- Spearman sunt:

  • pentru fiecare variabilă cel puțin 5 observații;
  • coeficientul cu un număr mare de ranguri identice într-una sau ambele variabile dă o valoare grosieră.

Coeficientul de corelare a rangului τ - Kendalla este o metodă originală independentă bazată pe calculul raportului de perechi de valori a două eșantioane care au tendințe identice sau diferite (creștere sau scădere a valorilor). Acest raport se mai numește factor de concordanță. Astfel, ideea principală a acestei metode este că direcția conexiunii poate fi judecată prin compararea subiecților în perechi: dacă o pereche de subiecți are o schimbare în X coincide în direcție cu schimbarea în Y, aceasta indică o relație pozitivă, dacă nu aceeași - o relație negativă, de exemplu, în studiul calităților personale care au o importanță decisivă pentru bunăstarea familiei. În această metodă, o variabilă este reprezentată ca o secvență monotonă (de exemplu, datele soțului) în ordine crescătoare de mărime; unei alte variabile (de exemplu, datele soției) i se atribuie locurile de clasare corespunzătoare. Numărul de inversiuni (încălcări ale monotonității față de primul rând) este utilizat în formula pentru coeficienții de corelație.

Când se numără τ- Datele Kendall „manual” sunt mai întâi ordonate după variabilă X. Apoi, pentru fiecare subiect, se calculează de câte ori este clasat în Y se dovedește a fi mai mic decât rangul subiecților de mai jos. Rezultatul este înregistrat în coloana Potriviri. Suma tuturor valorilor din coloana „Coincidență” este P- numărul total de potriviri, se substituie în formula de calcul a coeficientului Kendall, care este mai simplă din punct de vedere computațional, dar cu o creștere a eșantionului, spre deosebire de r- Spearman, volumul calculelor nu crește proporțional, ci exponențial. Deci, de exemplu, când N= 12 este necesar să sortați 66 de perechi de subiecte și când N= 489 - deja 1128 de perechi, adică cantitatea de calcule crește de peste 17 ori. Când se calculează pe un computer într-un program statistic (SPSS, Statistica), coeficientul Kendall este calculat în mod similar cu coeficienții r-Spearman și r-Pearson. Coeficientul de corelație calculat τ -Kendall se caracterizează printr-o valoare mai precisă p-nivel.

Aplicarea coeficientului Kendall este de preferat dacă există valori aberante în datele originale.

O caracteristică a coeficienților de corelație de rang este că corelațiile maxime de rang (+1, –1) nu corespund neapărat unor relații stricte directe sau invers proporționale între variabilele originale. Xși Y: este suficientă doar o legătură funcțională monotonă între ele. Corelațiile de rang ating valoarea lor maximă modulo dacă o valoare mai mare a unei variabile corespunde întotdeauna unei valori mai mari a altei variabile (+1), sau o valoare mai mare a unei variabile corespunde întotdeauna unei valori mai mici a altei variabile și invers (–1 ).

Ipoteza statistică de testat, procedura de luare a unei decizii statistice și formularea unei concluzii semnificative sunt aceleași ca și pentru cazul r-Spearman sau r-Pearson.

Dacă nu se găsește o relație semnificativă din punct de vedere statistic, dar există motive să credem că există într-adevăr o relație, ar trebui să treceți mai întâi de la coeficient

r-Spearman la raport τ -Kendall (sau invers), apoi verificați posibilele motive pentru nefiabilitatea conexiunii:

  • neliniaritatea comunicării: Pentru a face acest lucru, uitați-vă la diagrama de dispersie 2D. Dacă relația nu este monotonă, atunci împărțiți proba în părți în care relația este monotonă sau împărțiți eșantionul în grupuri contrastante și apoi comparați-le în funcție de nivelul de exprimare a simptomelor;
  • eterogenitatea probei: uitați-vă la o diagramă de dispersie bidimensională, încercați să împărțiți proba în părți în care relația poate avea direcții diferite.

Dacă conexiunea este semnificativă statistic, atunci înainte de a face o concluzie semnificativă, este necesar să excludem posibilitatea unei corelații false (prin analogie cu coeficienții de corelație metrici).

Corelarea variabilelor dihotomice

Când se compară două variabile măsurate pe o scară dihotomică, măsura corelației este așa-numitul factor j, care este coeficientul de corelație pentru datele dihotomice.

Valoare coeficientul φ este între +1 și -1. Poate fi atât pozitiv, cât și negativ, caracterizând direcția conexiunii dintre două trăsături măsurate dihotomic. Cu toate acestea, interpretarea lui φ poate ridica probleme specifice. Datele dihotomice incluse în schema de calcul al coeficientului φ nu arată ca o suprafață normală bidimensională, prin urmare, este incorect să presupunem că valorile interpretate rxy\u003d 0,60 și φ \u003d 0,60 sunt aceleași. Coeficientul φ poate fi calculat prin metoda de codificare, precum și folosind așa-numitul tabel cu patru câmpuri sau tabel de contingență.

Pentru a aplica coeficientul de corelație φ, trebuie îndeplinite următoarele condiții:

  • trăsăturile comparate trebuie măsurate pe o scară dihotomică;
  • Xși Y ar trebui să fie la fel.

Acest tip de corelație este calculat în programul de calculator SPSS pe baza definiției măsurilor de distanță și a măsurilor de similaritate. Unele proceduri statistice, cum ar fi analiza factorială, analiza clusterului, scalarea multivariată, sunt construite pe aplicarea acestor măsuri, iar uneori ele însele oferă posibilități suplimentare pentru calcularea măsurilor de similaritate.

Când o variabilă este măsurată pe o scară dihotomică (variabilă X), iar celălalt într-o scară de intervale sau rapoarte (variabilă Y), este folosit coeficient de corelație biserială, de exemplu, atunci când se testează ipoteze despre efectul genului unui copil asupra înălțimii și greutății. Acest coeficient variază în intervalul de la -1 la +1, dar semnul său nu contează pentru interpretarea rezultatelor. Pentru utilizarea sa, trebuie îndeplinite următoarele condiții:

  • semnele comparate trebuie măsurate în diferite scale: unu X- într-o scară dihotomică; o alta Y– într-o scară de intervale sau rapoarte;
  • variabil Y are o lege de distribuție normală;
  • numărul de caracteristici variabile din variabilele comparate Xși Y ar trebui să fie la fel.

Dacă variabila X măsurată pe o scară dihotomică și variabila Yîn scala de rang (variabilă Y), poate fi folosit coeficientul de corelare rang-biseriala, care este strâns legat de τ al lui Kendall și utilizează conceptele de coincidență și inversare în definiția sa. Interpretarea rezultatelor este aceeași.

Efectuarea analizei de corelație cu ajutorul programelor de calculator SPSS și Statistica este o operațiune simplă și convenabilă. Pentru a face acest lucru, după apelarea casetei de dialog Bivariate Corelations (Analiză> Corelate> Bivariate ...), trebuie să mutați variabilele aflate în studiu în câmpul Variabile și să selectați metoda prin care va fi detectată corelația dintre variabile. Fișierul rezultat conține un tabel pătrat (Corelații) pentru fiecare criteriu calculat. Fiecare celulă a tabelului conține: însăși valoarea coeficientului de corelație (Coeficientul de corelație), semnificația statistică a coeficientului calculat Sig, numărul de subiecți.

Antetul și coloanele laterale ale tabelului de corelare rezultat conțin numele variabilelor. Diagonala (colțul din stânga sus - dreapta jos) a tabelului este formată din unități, deoarece corelația oricărei variabile cu ea însăși este maximă. Tabelul este simetric față de această diagonală. Dacă caseta de selectare „Marcați corelații semnificative” este bifată în program, atunci coeficienții semnificativi statistic vor fi marcați în tabelul de corelare final: la nivelul de 0,05 și mai puțin - cu un asterisc (*) și la nivelul de 0,01 - cu două asteriscuri (**).

Deci, pentru a rezuma: scopul principal al analizei de corelație este identificarea relației dintre variabile. Măsura conexiunii este coeficienții de corelație, a căror alegere depinde direct de tipul de scară în care sunt măsurate variabilele, de numărul de caracteristici variabile din variabilele comparate și de distribuția variabilelor. Prezența unei corelații între două variabile nu înseamnă că există o relație cauzală între ele. Deși corelația nu indică direct cauzalitate, ea poate fi un indiciu al cauzelor. Pe baza ei se pot formula ipoteze. În unele cazuri, lipsa corelației are un efect mai profund asupra ipotezei cauzalității. Corelația zero a două variabile poate indica că nu există nicio influență a unei variabile asupra celeilalte.

Biometrienii englezi F. Galton (1822-1911) și K. Pearson (1857-1936) sunt considerați a fi fondatorii teoriei corelației. Termenul „corelație” înseamnă raport, corespondență. Ideea de corelație ca interdependență a variabilelor aleatoare stă la baza teoriei statistice a corelației - studiul dependenței unei variații caracteristice de condițiile de mediu. Unele semne actioneaza ca influentatoare (factoriale), altele - care sunt influentate, eficiente. Relațiile dintre caracteristici pot fi funcționale și corelaționale. Relațiile funcționale se caracterizează prin corespondență deplină între modificarea atributului factorului și modificarea valorii efective. Fiecare valoare a factorului-atribut corespunde unei anumite valori a atributului efectiv. Nu există o corespondență completă în corelațiile dintre modificarea factorului și semnul rezultat. Într-o interacțiune complexă este caracteristica efectivă în sine. Prin urmare, rezultatele analizei corelațiilor sunt importante în acest sens, iar interpretarea acestor rezultate în termeni generali necesită construirea unui sistem de corelații. Ele se caracterizează printr-o multitudine de cauze și efecte, iar cu ajutorul lor se stabilește o tendință de modificare a atributului rezultat atunci când valoarea atributului factorului se modifică. De exemplu, productivitatea muncii este influențată de factori ai gradului de îmbunătățire a tehnologiei și tehnologiei, nivelul de mecanizare și automatizare a muncii, specializarea producției, fluctuația personalului etc.

În natură și societate, fenomenele și evenimentele se desfășoară în funcție de natura corelației, când, odată cu modificarea valorii unui atribut, există tendința de a schimba celălalt atribut. O corelație este un caz special al unei relații statistice. Analiza corelației este utilizată pentru a stabili strângerea relației dintre fenomene, procese, obiecte.

Scopul studiului este adesea acela de a stabili relația (corelația) dintre semne. Cunoașterea dependenței face posibilă rezolvarea sarcinii cardinale a oricărei cercetări - capacitatea de a prevedea și de a prezice evoluția situației atunci când factorul de influență se schimbă. Corelația poate oferi doar o evaluare formală a relației. Prin urmare, înainte de a trece la calculul coeficienților de corelație între orice caracteristică, ar trebui să se stabilească teoretic dacă există o relație între aceste caracteristici. Într-adevăr, formal, statisticile pot dovedi relații inexistente, de exemplu, între înălțimea unei clădiri dintr-un oraș și randamentul grâului în ferme.

Relația dintre fenomene (corelația) este determinată prin înființarea de experimente, analiză statistică. Corelația nu trebuie echivalată cu cauzalitatea. Totuși, trebuie avut în vedere că demonstrarea unei legături matematice trebuie să se bazeze pe o relație reală între fenomene. De exemplu, mineralizarea apei scade de la nord la sudul Belarusului, iar conținutul de nutrienți din sol scade în aceeași direcție. Între indicatorii considerați se poate obține o relație semnificativă pozitivă. Totuși, gradul de mineralizare al apei nu determină conținutul optim de nutrienți din sol. În caz contrar, în peisajele deșertice, fertilitatea ar fi maximă, deoarece aici mineralizarea maximă a apei (solul și apa subterană este salmatră), iar acest lucru este contrar adevărului. Prin urmare, o astfel de conexiune în peisajele deșertice este lipsită de sens. Pe site-ul piter.stay24.ru găsiți cea mai bună închiriere zilnică de apartamente de diferite niveluri de confort de la proprietari fără comision. O căutare convenabilă vă va permite să găsiți rapid apartamentul potrivit cerințelor dvs., petrecând în același timp un minim de timp.

Orice indicator de conexiune servește ca o estimare aproximativă a dependenței avute în vedere și nu este o garanție a existenței unei subordonări rigide (funcționale). Absența dependenței rigide în natură și societate contribuie la autoreglarea proceselor, fenomenelor, sistemelor

În direcția de comunicare poate fi directă și inversă; prin natura - funcțional sau statistic (corelație); în mărime - slab, mediu sau puternic; în formă - liniară și neliniară; după numărul de semne corelate – pereche și multiple.

Dependența funcțională este tipică pentru forme geometrice, sisteme tehnice, când fiecare valoare a unui atribut corespunde valorii exacte a altuia. Acesta este un exemplu al relației dintre aria unui dreptunghi și lungimea uneia dintre laturile sale. O astfel de dependență este completă sau exhaustivă.

Există mai multe tipuri de corelații de perechi:

Paralel-corelativ, sau asociativ, atunci când ambele semne se modifică în conjuncție, parțial sub influența unor cauze și efecte comune (ilimitarea vegetației și a solurilor la anumite forme de relief; dezvoltarea industrială și creșterea populației la materii prime);

subcauzale, când un factor acționează ca o cauză separată a unei modificări asociate într-o trăsătură (relația dintre biomasă și precipitații; creșterea populației și fertilitatea);

anticipativ reciproc, atunci când cauza și efectul, fiind într-o relație reciprocă stabilă, se influențează constant reciproc (umiditatea aerului și precipitațiile).

Dacă o trăsătură este influențată de mai mulți factori, atunci trebuie evaluate mai multe corelații. Corelația multiplă servește ca bază pentru identificarea relațiilor dintre caracteristici, dar necesită normalitate strictă și dreptate a distribuției, astfel încât utilizarea sa poate fi dificilă. Pe măsură ce numărul de variabile crește, cantitatea de lucru de calcul crește proporțional cu pătratul numărului de variabile. În acest caz, este mai dificil de apreciat semnificația rezultatelor, deoarece erorile în coeficienții de corelație cresc. În practică, în astfel de cazuri, ele se limitează la studierea doar a factorilor principali. Cu toate acestea, natura influenței factorilor principali asupra trăsăturii este studiată mai detaliat și mai precis prin analiza factorială.

În lucrările practice privind stabilirea unei corelații între semne și fenomene, este necesar să se respecte următoarea secvență:

pe baza studiilor efectuate, se stabilește preliminar dacă există o legătură între semnele luate în considerare;

Dacă există o legătură între ele, stabiliți-i forma, direcția și etanșeitatea folosind un grafic.

La început sunt compilate serii variaționale conjugate, în care ar trebui determinate argumentul x și funcția y:

Un grafic este construit pentru opțiunile conjugate, ceea ce ajută la stabilirea tipului de relație dintre argument și funcție. Prelucrarea ulterioară a datelor experimentale sau statistice depinde de forma corelației. Dependența liniară presupune calculul coeficientului de corelație r, iar cel neliniar - raportul de corelație η (Fig. 5.1). Gradul de împrăștiere a frecvenței sau varianta relativă la linia de regresie de pe grafic indică aproximativ etanșeitatea conexiunii: cu cât împrăștierea este mai mică, cu atât conexiunea este mai puternică (Fig. 5.2).

Analiza corelației rezolvă următoarele sarcini:

Stabilirea direcției și formei de comunicare,

evaluarea etanșeității conexiunii,

evaluarea reprezentativității estimărilor statistice ale relației,

· determinarea mărimii determinării (cotei de influență reciprocă) a factorilor corelați.

Orez. 5.1. Forma de corelare:

a - linie dreaptă; b - liniar invers; c - parabalic; g - hiperbolic

Pentru evaluarea conexiunii se folosesc următoarele criterii numerice (coeficienți) de corelație:

coeficient de corelație (r) cu o dependență liniară,

raportul de corelație (η) cu o dependență neliniară,

coeficienți de regresie multipli,

· coeficienții de rang de corelație liniară ai lui Pearson sau Kendal.

Conceptul de relație este destul de comun în cercetarea psihologică. Un psiholog trebuie să opereze cu ea atunci când devine necesar să compare măsurătorile a doi sau mai mulți indicatori de semne sau fenomene pentru a trage concluzii.

Natura relației dintre fenomenele studiate poate fi lipsită de ambiguitate, adică. astfel când o anumită valoare a unui atribut corespunde unei valori clare și definite a altuia. Deci, de exemplu, în subtestul pentru căutarea modelelor de teste ale funcțiilor mentale, numărul de puncte „brute” obținute este determinat de formula:
Xi \u003d Stz - Soz / Stz + Spz * Sbc,
unde Xi este valoarea variantelor, Sтз este numărul de modele (potriviri) specificate a priori în subtest, Soz este numărul de potriviri indicate eronat subiecților de testare, Soz este numărul de potriviri neindicate (lipsă) la subiecții testului, Sbс este numărul tuturor cuvintelor vizualizate de subiecții testului în test.

O astfel de relație se numește funcțională: aici un indicator este o funcție a altuia, care este un argument în raport cu primul.

Cu toate acestea, nu întotdeauna se găsește o relație clară. Mai des trebuie să se confrunte cu o situație în care o valoare a unei caracteristici poate corespunde mai multor valori ale alteia. Aceste valori variază în limite mai mult sau mai puțin definite. Acest tip de relație se numește corelație sau corelativă.

Sunt folosite mai multe tipuri de expresii de corelare. Deci, pentru a exprima relația dintre trăsăturile care au o natură cantitativă a variației valorilor lor, se folosesc măsuri ale tendinței centrale: tabelul urmat de calculul coeficientului de corelație pereche, coeficientul de corelație multiplă și parțială, coeficientul de determinarea multiplă, raportul de corelație.

Dacă este necesar să se studieze relația dintre trăsături, a căror variație este de natură calitativă (rezultatele metodelor proiective de cercetare a personalității, studii cu ajutorul metodei diferențiale semantice, studii cu scale deschise etc.), atunci folosiți metoda calitativă. coeficient de corelație alternativ (indicator tetrachoric), criteriul Pearson x2, indicatori de contingență (contingență) ai lui Pearson și Chuprov.

Pentru a determina corelația calitativ-cantitativă, i.e. o astfel de corelație, când un semn are o variație calitativă, iar celălalt - cantitativă.Se folosesc metode speciale.

Coeficientul de corelație (termenul a fost introdus pentru prima dată de F. Galton în 1888) este un indicator al tăriei relației dintre două opțiuni de eșantion(e) comparate. Indiferent de formula utilizată pentru a calcula coeficientul de corelație, valoarea acestuia variază de la -1 la +1. În cazul unei corelații pozitive complete, acest coeficient este egal cu plus 1, iar în cazul unei corelații negative complete, este minus 1. Aceasta este de obicei o linie dreaptă care trece prin punctele de intersecție a valorilor lui fiecare pereche de date.

Dacă valorile variantei nu se aliniază pe o linie dreaptă, ci formează un „nor”, ​​atunci valoarea absolută a coeficientului de corelație devine mai mică de unu și, pe măsură ce „norul” este rotunjit, se apropie de zero. Dacă coeficientul de corelație este 0, ambele opțiuni sunt complet independente una de cealaltă.

Orice valoare calculată (empiric) a coeficientului de corelație trebuie verificată pentru fiabilitate (semnificație statistică) conform tabelelor corespunzătoare de valori critice ale coeficientului de corelație. Dacă valoarea empirică este mai mică sau egală cu valoarea tabelată pentru nivelul de 5 procente (P = 0,05), corelația nu este semnificativă. Dacă valoarea calculată a coeficientului de corelație este mai mare decât valoarea tabelată pentru P = 0,01, atunci corelația este semnificativă statistic (semnificativă).

În cazul în care valoarea coeficientului este între 0,05 > P > 0,01, în practică se vorbește despre semnificația corelației pentru P = 0,05.

Coeficientul de corelație Bravais-Pearson (r) este un indicator parametric propus în 1896, pentru calculul căruia se compară media aritmetică și valorile pătratice medii ale variantei. Pentru a calcula acest coeficient, se folosește următoarea formulă (poate arăta diferit pentru diferiți autori):
r= (E Xi Xi1) - NXap X1ap / N-1 Qx Qx1,

unde E Xi Xi1 - suma produselor valorilor opțiunilor comparabile în perechi, n este numărul de perechi comparate, NXap, X1ap - opțiunile medii aritmetice Xi, Xi; respectiv, Qx, Qx, - abaterile standard ale distribuţiilor x şi x.

Coeficientul de corelație a rangului Spearman Rs (coeficientul de corelație a rangului, coeficientul Spearman) este cea mai simplă formă a coeficientului de corelație și măsoară relația dintre rangurile (locurile) unei variante date pe diverse motive, fără a ține cont de propria sa valoare. Aici relația este mai mult calitativă decât cantitativă.

În mod obișnuit, acest test neparametric este utilizat în cazurile în care este necesar să se tragă concluzii nu atât despre intervalele dintre date, cât despre rangurile acestora, precum și atunci când curbele de distribuție sunt extrem de asimetrice și nu permit utilizarea unor astfel de teste parametrice. ca coeficientul de corelație Bravais-Pearson (în aceste cazuri, poate fi necesară convertirea datelor cantitative în date ordinale). Dacă coeficientul Rs este aproape de +1, atunci aceasta înseamnă că cele două rânduri ale eșantionului clasat în funcție de anumite caracteristici practic coincid, iar dacă acest coeficient este apropiat de - 1, putem vorbi despre o relație inversă completă.

La fel ca și calculul coeficientului de corelație Bravais-Pearson, este mai convenabil să prezentăm calculele coeficientului Rs în formă tabelară.

Regresia generalizează conceptul de relație funcțională în cazul unei naturi stocastice (probabilistice) a relației dintre valorile unei variante. Scopul rezolvării categoriei de probleme de regresie este de a estima valoarea variației continue a ieșirii din valorile opțiunilor de intrare.

MINISTERUL EDUCAŢIEI ŞI ŞTIINŢEI

FEDERAȚIA RUSĂ

Instituția de învățământ de învățământ profesional superior bugetar de stat federal

„UNIVERSITATEA DE STAT MOSCOVA

TEHNOLOGII ȘI MANAGEMENT NUMITE DUPA K.G. RAZUMOVSKY"

(FGBOU VPO MGUTU numit după K.G. Razumovsky)

Institutul de Textile si Industrie usoara

Departamentul de Tehnologia Pielei, Blănurilor și Produselor din Piele


TEST

la disciplina „Metode și mijloace de cercetare”


Completat de un student

curs Strazdin S.Yu.


Moscova, 2013

Exercitiul 1.

Analiza corelației


Analiza corelației este un set de metode pentru detectarea așa-numitei dependențe de corelație între variabile aleatoare.

Sarcinile analizei de corelație se reduc la măsurarea strângerii unei relații cunoscute între diferite trăsături, identificarea relațiilor cauzale necunoscute (a căror natura cauzală trebuie clarificată cu ajutorul analizei teoretice) și evaluarea factorilor care au cel mai mare impact asupra trăsăturii rezultate.

Etapele analizei corelației

Analiza de corelație multivariată vă permite să stabiliți prezența, apropierea și forma relației dintre factori și indicatorul studiat. Constă din mai multe etape, a căror împărțire este arbitrară, deoarece etapele individuale sunt strâns legate.

În prima etapă, se determină scopurile și obiectivele studiului și, pe baza unei analize calitative, sunt selectați factorii care probabil afectează indicatorul studiat.

Atunci când le alegeți, este necesar să luați în considerare:

prezența unor relații cauzale între indicatori;

semnificația factorilor, adică gradul de influență a acestora asupra indicatorului de performanță;

posibilitatea de măsurare cantitativă a factorului.

În a doua etapă, se realizează colectarea și prelucrarea primară a informațiilor inițiale.

Setul de date trebuie să fie suficient de mare. Informațiile trebuie să respecte legea distribuției normale, conform căreia cea mai mare parte a observațiilor pentru fiecare indicator trebuie grupată în jurul valorii sale medii.

Datele inițiale trebuie să fie omogene calitativ și cantitativ. Omogenitatea calitativă implică aproximativ aceleași condiții și specificul formării factorilor și a caracteristicilor rezultate. Omogenitatea cantitativă constă în absența unor astfel de observații care diferă semnificativ (anormal) de cea mai mare parte a datelor.

Criteriul de omogenitate a informațiilor este abaterea standard și coeficientul de variație, care se calculează pentru fiecare factor și indicator de rezultat. Abaterea standard arată abaterea absolută a valorilor individuale de la media aritmetică, iar coeficientul de variație caracterizează gradul relativ de abatere a valorilor individuale de la media aritmetică. Mai mult, cu cât coeficientul de variație este mai mare, cu atât este relativ mai mare împrăștierea datelor în agregat.

Variabilitatea seriei de variații este considerată a fi:

nesemnificativ dacă variația nu depășește 10%;

mediu, dacă variația este de 10-20%;

semnificativ dacă este mai mare de 20%, dar nu depășește 33%. Dacă variația este mai mare de 33%, atunci observațiile atipice trebuie excluse din eșantion.

La a treia etapă se modelează relațiile dintre factori și caracteristica rezultată, adică. se rezolvă problema alegerii formei de comunicare.

Pe baza analizei economice și logice a naturii și esenței fenomenului studiat, se selectează un tip de ecuație matematică care reflectă cel mai bine natura dependențelor studiate.

CATEGORII

ARTICOLE POPULARE

2022 "kingad.ru" - examinarea cu ultrasunete a organelor umane