Folosind următoarele date, construiți o ecuație de regresie pe perechi. Ecuația de regresie pereche

Regresia pereche caracterizează relația dintre două caracteristici: rezultantă și factorială. O etapă importantă și netrivială în construirea unui model de regresie este alegerea ecuației de regresie. Această alegere se bazează pe date teoretice despre fenomenul studiat și pe o analiză preliminară a datelor statistice disponibile.

Ecuația de regresie liniară pereche este:

unde sunt valorile teoretice ale caracteristicii rezultate obținute din ecuația de regresie; - coeficienții (parametrii) ecuației de regresie.

Un model de regresie este construit pe baza datelor statistice și pot fi utilizate atât valorile atributelor individuale, cât și datele grupate. Pentru a identifica relația dintre caracteristici pentru un număr suficient de mare de observații, datele statistice sunt grupate preliminar după ambele caracteristici și se construiește un tabel de corelare. Folosind un tabel de corelare, este afișată doar o corelație pereche, adică conexiunea unei caracteristici eficiente cu un factor. Parametrii ecuației de regresie sunt estimați folosind metoda celor mai mici pătrate, care se bazează pe ipoteza independenței observațiilor populației studiate și pe cerința ca suma abaterilor pătrate ale datelor empirice de la valorile aliniate ale efectivului factorul să fie minim:

.

Pentru o ecuație de regresie liniară avem:

Pentru a găsi minimul acestei funcții, echivalăm derivatele sale parțiale cu zero și obținem un sistem de două ecuații liniare, care se numește sistem de ecuații normale:

unde este volumul populaţiei studiate (numărul de unităţi de observare).

Rezolvarea unui sistem de ecuații normale vă permite să găsiți parametrii ecuației de regresie.

Coeficientul de regresie liniară pe perechi este valoarea medie la punctul , deci interpretarea sa economică este dificilă. Semnificația acestui coeficient poate fi interpretată ca influența medie a factorilor necontabiliați (neselectați pentru cercetare) asupra atributului efectiv. Coeficientul arată cât de mult se modifică, în medie, valoarea caracteristicii rezultate atunci când caracteristica factorului se modifică cu unu.

După obținerea ecuației de regresie, este necesar să se verifice adecvarea acesteia, adică conformitatea cu datele statistice reale. În acest scop, se verifică semnificația coeficienților de regresie: se determină în ce măsură acești indicatori sunt tipici pentru întreaga populație și dacă sunt rezultatul unei combinații aleatorii de circumstanțe.

Pentru a testa semnificația coeficienților de regresie liniară simplă atunci când dimensiunea populației este mai mică de 30 de unități, se folosește testul t Student. Prin compararea valorii parametrului cu eroarea medie a acestuia, se determină valoarea criteriului:


unde este eroarea medie a parametrului.

Eroarea medie a parametrilor și se calculează folosind următoarele formule:

; ,

- marime de mostra;

Abaterea standard a caracteristicii rezultate de la valorile aliniate;

Abaterea standard a caracteristicii factorului de la media generală:

sau

Apoi, valorile calculate (reale) ale criteriului sunt, respectiv, egale cu:

- pentru parametru;

- pentru parametru.

Valorile calculate ale criteriului sunt comparate cu valorile critice, care sunt determinate folosind tabelul Student, luând în considerare nivelul de semnificație acceptat și numărul de grade de libertate, unde este dimensiunea eșantionului, -1 (este numărul de caracteristici ale factorilor). În studiile socio-economice, nivelul de semnificație este de obicei considerat 0,05 sau 0,01. Un parametru este considerat semnificativ dacă (ipoteza că parametrul numai din cauza unor circumstanțe aleatorii s-a dovedit a fi egal cu valoarea obținută este respinsă, dar în realitate este egal cu zero).

Adecvarea modelului de regresie poate fi evaluată folosind testul lui Fisher. Valoarea calculată a criteriului este determinată de formulă ,

unde este numărul de parametri ai modelului;

Marime de mostra.

Tabelul determină valoarea critică a testului Fisher pentru nivelul de semnificație acceptat și numărul de grade de libertate, . Dacă , atunci modelul de regresie este considerat adecvat conform acestui criteriu (se respinge ipoteza despre discrepanța dintre relațiile inerente ecuației și cele efectiv existente).

A doua sarcină a analizei de corelație-regresie este de a măsura gradul de apropiere a relației dintre caracteristicile rezultate și factori.

Pentru toate tipurile de comunicare, problema măsurării etanșeității dependenței poate fi rezolvată folosind calculul raportului de corelație teoretică:

,

Unde - dispersia în seria valorilor egalizate ale caracteristicii rezultate, datorită caracteristicii factorului;

- dispersia în seria valorilor reale. Aceasta este varianța totală, care constă din varianța datorată factorului (adică, varianța factorului) și varianța reziduală (abaterea valorilor empirice ale atributului de la cele teoretice aliniate).

Pe baza regulii de adăugare a variațiilor relația de corelație teoretică poate fi exprimată în termeni de varianță reziduală:

.

Deoarece dispersia reflectă variația în serie numai datorită variației factorului, iar dispersia reflectă variația datorată tuturor factorilor, raportul lor, numit coeficient teoretic de determinare, arată ce pondere în dispersia totală a seriei este ocupat de dispersia cauzată de variaţia factorului. Rădăcina pătrată a raportului acestor varianțe dă raportul de corelație teoretic. Pentru relațiile neliniare, relația de corelație teoretică se numește indice de corelație și se notează cu .

Dacă , atunci aceasta înseamnă că nu există niciun rol al altor factori în variație, varianța reziduală este zero și raportul înseamnă dependența completă a variației de . Dacă , atunci aceasta înseamnă că variația nu are niciun efect asupra variației, iar în acest caz . În consecință, raportul de corelație ia valori de la 0 la 1. Cu cât raportul de corelație este mai aproape de 1, cu atât este mai strânsă legătura dintre caracteristici.

În plus, cu forma liniară a ecuației de comunicare, este utilizat un alt indicator al proximității conexiunii - coeficientul de corelație liniară:

.

Coeficientul de corelație liniară ia valori de la –1 la 1. Valorile negative indică o relație inversă, valorile pozitive indică o relație directă. Cu cât modulul coeficientului de corelație este mai aproape de unu, cu atât relația dintre caracteristici este mai strânsă.

Sunt acceptate următoarele estimări ale coeficientului de corelație liniară:

Nu există nicio legătură;

Conexiunea este slabă;

Comunicarea este mediocră;

Legătura este puternică;

Legătura este foarte puternică.

Pătratul coeficientului de corelație liniară se numește coeficient liniar de determinare.

Faptul de coincidență sau necoincidență a relației de corelație teoretică și a coeficientului de corelație liniară este utilizat pentru aprecierea formei dependenței. Valorile lor coincid numai dacă există o conexiune liniară. Discrepanța dintre aceste valori indică neliniaritatea relației dintre caracteristici. Este general acceptat că dacă , atunci ipoteza despre liniaritatea relației poate fi considerată confirmată.

Indicatorii apropierii conexiunilor, în special cei calculați din date dintr-o populație statistică relativ mică, pot fi distorsionați din cauze aleatorii. Acest lucru necesită verificarea fiabilității (semnificației) acestora, ceea ce face posibilă extinderea concluziilor obținute din datele eșantionului la populația generală.

Pentru a face acest lucru, calculați eroarea medie a coeficientului de corelație:

Unde este numărul de grade de libertate pentru o dependență liniară.

Apoi se găsește raportul dintre coeficientul de corelație și eroarea sa medie, adică care este comparat cu valoarea tabelului testului Student.

Dacă valoarea reală (calculată) este mai mare decât valoarea tabelată (critică, pragul), atunci coeficientul de corelație liniară este considerat semnificativ, iar relația dintre și este considerată reală.

După verificarea adecvării modelului construit (ecuația de regresie), acesta trebuie analizat. Pentru ușurința interpretării parametrului, se folosește coeficientul de elasticitate. Acesta arată modificarea medie a caracteristicii efective atunci când caracteristica factorului se modifică cu 1% și este calculată prin formula:

Precizia modelului rezultat poate fi evaluată pe baza valorii erorii medii de aproximare:

În plus, în unele cazuri, datele privind reziduurile care caracterizează abaterea observațiilor de la valorile calculate sunt informative. Un interes economic deosebit sunt valorile ale căror reziduuri au cele mai mari abateri pozitive sau negative de la nivelul așteptat al indicatorului analizat.

Cea mai simplă formă de regresie din punct de vedere al înțelegerii, interpretării și tehnicilor de calcul este forma liniară a regresiei.

Ecuația de regresie liniară a perechilor, unde

a 0 , a 1 sunt parametrii modelului, ε i este o variabilă aleatoare (valoarea restului).

Parametrii modelului și conținutul acestora:


Ecuația de regresie este completată cu un indicator al proximității conexiunii. Un astfel de indicator este coeficientul de corelație liniară, care se calculează folosind formula:

sau .

Pentru a evalua calitatea potrivirii unei funcții liniare, se calculează pătratul coeficientului de corelație liniară, numit coeficient de determinare. Coeficientul de determinare caracterizează proporția varianței caracteristicii efective explicată prin regresie în varianța totală a caracteristicii efective:

,

Unde

.

În consecință, valoarea caracterizează ponderea de varianță cauzată de influența altor factori neluați în considerare în model.

După ce se construiește ecuația de regresie, se verifică adecvarea și acuratețea acesteia.Aceste proprietăți ale modelului sunt studiate pe baza analizei unui număr de reziduuri ε i (abateri ale valorilor calculate de la cele reale).

Nivelul seriei de reziduuri

Analiza de corelație și regresie este efectuată pentru o populație limitată. În acest sens, indicatorii de regresie, corelare și determinare pot fi distorsionați de acțiunea unor factori aleatori. Pentru a verifica cât de tipici sunt acești indicatori pentru întreaga populație și dacă sunt rezultatul unei coincidențe a unor circumstanțe aleatorii, este necesar să se verifice caracterul adecvat al modelului construit.

Verificarea adecvării modelului constă în determinarea semnificației modelului și stabilirea prezenței sau absenței erorii sistematice.

Valori la 1 corespunzătoare datelor X i la valori teoretice un 0Și a 1, Aleatoriu. Valorile coeficienților calculați din aceștia vor fi, de asemenea, aleatorii. un 0Și a 1.

Se verifică semnificația coeficienților individuali de regresie folosind Testul t al elevului prin testarea ipotezei că fiecare coeficient de regresie este egal cu zero. În același timp, ei află cât de tipici sunt parametrii calculați pentru afișarea unui set de condiții: dacă valorile parametrilor obținute sunt rezultatul acțiunii variabilelor aleatoare. Se folosesc formule adecvate pentru coeficienții de regresie corespunzători.

Formule pentru determinarea testului t Student

Unde

S a 0 ,S a 1 - abaterile standard ale termenului liber și coeficientul de regresie. Determinat prin formule

Unde

S ε este abaterea standard a reziduurilor modelului (eroarea standard de estimare), care este determinată de formula

Valorile calculate ale testului t sunt comparate cu valoarea tabelată a criteriului tαγ , care se determină atunci când (n - k— 1) grade de libertate și nivelul de semnificație corespunzător α. Dacă valoarea calculată a criteriului t depășește valoarea sa din tabel tαγ, atunci parametrul este considerat semnificativ. În acest caz, este aproape imposibil ca valorile parametrilor găsite să se datoreze doar unor coincidențe aleatorii.

Semnificația ecuației de regresie în ansamblu este evaluată pe baza testului lui Fisher, care este precedat de analiza varianței.

Suma totală a abaterilor pătrate ale unei variabile de la valoarea medie este descompusă în două părți - „explicat” și „neexplicat”:

Suma totală a abaterilor pătrate;

Suma abaterilor pătrate explicate prin regresie (sau suma factorilor a abaterilor pătrate);


- suma reziduală a abaterilor pătrate, care caracterizează influența factorilor neluați în considerare în model.

Schema de analiză a varianței are forma prezentată în Tabelul 35 (- numărul de observații, - numărul de parametri pentru variabilă).

Tabelul 35 - Schema de analiză a varianței

Componentele variației Suma patratelor Numărul de grade de libertate Dispersia pe grad de libertate
General
Factorială
Rezidual

Definirea varianței cu un grad de libertate aduce variațiile la o formă comparabilă. Comparând factorul și variațiile reziduale pe grad de libertate, obținem valoarea criteriului Fisher:

Pentru a testa semnificația ecuației de regresie în ansamblu, utilizați Testul F al lui Fisher. În cazul regresiei liniare pe perechi, semnificația modelului de regresie este determinată de următoarea formulă: .

Dacă, la un nivel de semnificație dat, valoarea calculată a testului F cu γ 1 =k, γ 2 =( p - k - 1) gradele de libertate sunt mai mari decât tabelul, atunci modelul este considerat semnificativ, ipoteza despre natura aleatorie a caracteristicilor estimate este respinsă și se recunoaște semnificația statistică și fiabilitatea acestora. Verificarea prezenței sau absenței unei erori sistematice (îndeplinirea condițiilor preliminare ale metodei celor mai mici pătrate - LSM) se realizează pe baza analizei unui număr de reziduuri. Calculul erorilor aleatoare ale parametrilor de regresie liniară și al coeficientului de corelație se realizează conform formulelor

,

Pentru a testa caracterul aleatoriu al unei serii de reziduuri, puteți utiliza testul punctului de cotitură (vârf). Un punct este considerat punct de cotitură dacă sunt îndeplinite următoarele condiții: ε i -1< ε i >ε i +1 sau ε i -1 > ε i< ε i +1

În continuare, se calculează numărul de puncte de cotitură p. Criteriul aleatoriei cu un nivel de semnificație de 5%, adică cu o probabilitate de încredere de 95%, este îndeplinirea inegalității:

Parantezele pătrate înseamnă că întreaga parte a numărului cuprins între paranteze este luată. Dacă inegalitatea este satisfăcută, atunci modelul este considerat adecvat.

Pentru a verifica dacă așteptarea matematică a unei secvențe reziduale este egală cu zero, se calculează valoarea medie a unei serii de reziduuri:

Dacă = 0, atunci se consideră că modelul nu conține o eroare sistematică constantă și este adecvat după criteriul mediei zero.

Dacă ≠ 0, atunci se testează ipoteza nulă că așteptarea matematică este egală cu zero. Pentru a face acest lucru, calculați testul t al lui Student folosind formula:

unde S ε este abaterea standard a reziduurilor modelului (eroarea standard).

Valoarea criteriului t este comparată cu t αγ tabelată. Dacă inegalitatea t > t αγ este satisfăcută, atunci modelul este inadecvat conform acestui criteriu

Dispersia nivelurilor unui număr de reziduuri ar trebui să fie aceeași pentru toate valorile X(proprietate homoscedasticitate).Dacă această condiție nu este îndeplinită, atunci heteroscedasticitate .

Pentru a estima heteroscedasticitatea cu o dimensiune mică a eșantionului, puteți utiliza Metoda Goldfeld-Quandt, a cărui esență este că este necesar:

Aranjați valorile variabilelor Xîn ordine crescătoare;

Împărțiți setul de observații ordonate în două grupe;

Pentru fiecare grup de observații, construiți ecuații de regresie;

Determinați sumele reziduale de pătrate pentru primul și al doilea grup folosind formulele: ; , Unde

n 1 - numărul de observații din primul grup;

n 2 - numărul de observații din grupa a doua.

Calculați criteriul sau (numărătorul trebuie să conțină o sumă mare de pătrate). Când ipoteza nulă a homoscedasticității este îndeplinită, criteriul de calcul F va satisface criteriul F cu grade de libertate γ 1 =n 1 -m, γ 2 =n - n 1 - m) pentru fiecare sumă reziduală de pătrate (unde m numărul de parametri estimați în ecuația de regresie). Cu cât valoarea calculată F depășește mai mult valoarea tabelului a criteriului F, cu atât premisa egalității varianțelor valorilor reziduale este încălcată.

Independența secvenței reziduurilor (lipsa autocorelației) este verificată cu ajutorul testului d Durbin-Watson. Acesta este determinat de formula:

Valoarea calculată a criteriului este comparată cu valorile critice inferioare d1 și superioare d2 ale statisticilor Durbin-Watson. Sunt posibile următoarele cazuri:

1) dacă d< d 1 , то гипотеза о независимости остатков отвергается и модель признается неадекватной по критерию независимости остатков;

2) dacă d 1 < d < d 2 (inclusiv aceste valori), atunci se consideră că nu există motive suficiente pentru a trage una sau alta concluzie. Este necesar să se folosească un criteriu suplimentar, de exemplu primul coeficient de autocorelare:

Dacă valoarea calculată a coeficientului în modul este mai mică decât valoarea tabelată r 1cr, atunci se acceptă ipoteza absenței autocorelației; în caz contrar, această ipoteză este respinsă;

3) dacă d 2 < d < 2, atunci se acceptă ipoteza despre independența reziduurilor și se recunoaște modelul ca adecvat conform acestui criteriu;

4) dacă d> 2, atunci aceasta indică o autocorelare negativă a reziduurilor. În acest caz, valoarea calculată a criteriului trebuie convertită folosind formula d′= 4 - d și comparată cu valoarea critică d′ , nu d.

Verificarea dacă distribuția secvenței reziduale corespunde legii distribuției normale se poate face folosind criteriul R/S, care este determinat de formula:

unde S ε este abaterea standard a reziduurilor modelului (eroarea standard). Valoarea calculată a criteriului R/S este comparată cu valorile din tabel (limitele inferioare și superioare ale acestui raport), iar dacă valoarea nu se încadrează în intervalul dintre limitele critice, atunci cu un anumit nivel de semnificație, ipoteza despre normalitatea distribuției este respinsă; altfel ipoteza este acceptată

Pentru a evalua calitatea modelelor de regresie, este, de asemenea, recomandabil să se utilizeze indicele de corelare(coeficient de corelație multiplu).

Formula pentru determinarea indicelui de corelare

Unde

Suma totală a abaterilor pătrate ale unei variabile dependente de la media ei. Determinat prin formula:

Suma pătratelor abaterilor explicate prin regresie. Determinat prin formula:

Suma reziduală a abaterilor pătrate. Calculat prin formula:

Ecuația poate fi reprezentat astfel:

Indicele de corelare ia o valoare de la 0 la 1. Cu cât valoarea indicelui este mai mare, cu atât valorile calculate ale caracteristicii rezultate sunt mai apropiate de cele reale. Indicele de corelare este utilizat pentru orice formă de conexiune între variabile; cu regresia liniară pe perechi este egal cu coeficientul de corelație pe perechi.

Ca măsură a preciziei modelului, sunt utilizate caracteristicile de precizie: Pentru a determina măsura acurateței modelului, calculați:

- eroare maxima- corespunde abaterii abaterii calculate a valorilor calculate de la cele reale

- înseamnă eroare absolută- eroarea arată cât de mult se abate, în medie, valorile reale de la model

- varianța seriei de reziduuri(varianta reziduala)

unde este valoarea medie a unei serii de reziduuri. Determinat prin formula

- eroare pătrată medie. Reprezintă rădăcina pătrată a varianței: , cu cât valoarea erorii este mai mică, cu atât modelul este mai precis

- eroare relativă medie de aproximare.

Eroarea medie de aproximare nu trebuie să depășească 8-10%.

Dacă modelul de regresie este considerat adecvat și parametrii modelului sunt importanți, atunci treceți la construirea unei prognoze .

Valoarea estimată variabil la se obține prin înlocuirea valorii așteptate a variabilei independente în ecuația de regresie X prog.

Această prognoză se numește punctual. Probabilitatea ca o prognoză punctuală să fie realizată este practic zero, astfel încât intervalul de încredere al prognozei este calculat cu mare fiabilitate.

Intervalele de încredere ale prognozei depind de eroarea standard, eliminarea X alerga de la valoarea sa medie , numărul de observații nşi nivelul de semnificaţie al prognozei α. Intervalele de încredere ale prognozei sunt calculate folosind formula: sau

Unde

t tabel - determinat din tabelul de distribuție Student pentru nivelul de semnificație α și numărul de grade de libertate y=n-k-1.

Exemplul 13.

Conform unui sondaj efectuat pe opt grupuri de familii, sunt cunoscute date despre relația dintre cheltuielile populației cu hrană și veniturile familiei (Tabelul 36).

Tabelul 36 - Relațiile dintre cheltuielile populației pentru hrană și nivelul veniturilor familiei

Cheltuieli cu mâncare, mii de ruble. 0,9 1,2 1,8 2,2 2,6 2,9 3,3 3,8
Venitul familiei, mii de ruble. 1,2 3,1 5,3 7,4 9,6 11,8 14,5 18,7

Să presupunem că relația dintre venitul familiei și cheltuielile alimentare este liniară. Pentru a confirma ipoteza noastră, vom construi un câmp de corelare (Figura 8).

Graficul arată că punctele sunt aliniate într-o anumită linie dreaptă.

Pentru confortul calculelor suplimentare, vom compila Tabelul 37.

Să calculăm parametrii ecuației liniare a regresiei perechilor . Pentru a face acest lucru, folosim formulele:

Figura 8 - Câmpul de corelație.

Avem ecuația:

Acestea. cu o creștere a venitului familiei cu 1000 de ruble. cheltuielile cu mâncarea cresc cu 168 de ruble.

Calculul coeficientului de corelație liniară.

100 RUR bonus pentru prima comandă

Selectați tipul de muncă Lucrări de diplomă Lucrări de curs Rezumat Lucrare de master Raport de practică Articol Raport Revizuire Lucrări de testare Monografie Rezolvarea problemelor Plan de afaceri Răspunsuri la întrebări Lucru de creație Eseu Desen Eseuri Traducere Prezentări Dactilografiere Altele Creșterea unicității textului Teza de master Lucrări de laborator Ajutor on-line

Aflați prețul

Regresia pereche este ecuația relației dintre două variabile

y și x Vida y= f(X),

unde y este variabila dependentă (atribut rezultat);

x este o variabilă explicativă independentă (factor-trăsătură).

Există regresii liniare și neliniare.

Metoda celor mai mici pătrate

Pentru a estima parametrii regresiilor care sunt liniare în acești parametri, se utilizează metoda celor mai mici pătrate (OLS). . Metoda celor mai mici pătrate ne permite să obținem astfel de estimări ale parametrilor la care suma abaterilor pătrate ale valorilor reale ale caracteristicii rezultante y de la valorile teoretice ŷ X la aceleași valori ale factorilor X este minimă, adică

5. Evaluarea semnificației statistice a indicatorilor de corelație, a parametrilor ecuației de regresie liniară pereche și a ecuației de regresie în ansamblu.

6. Aprecierea gradului de apropiere a relaţiei dintre variabilele cantitative. Coeficientul de covarianță. Indicatori de corelație: coeficient de corelație liniară, indice de corelație (= raport teoretic de corelație).

Coeficientul de covarianță

Mch(y) - Adică. obţinem o dependenţă de corelare.

Prezența unei corelații nu poate răspunde la întrebarea despre cauza conexiunii. Corelația stabilește doar măsura acestei conexiuni, adică. o măsură a variației consistente.

Măsura relației dintre două variabile poate fi găsită folosind covarianța.

, ,

Mărimea exponentului de covarianță depinde de unitățile în γ ale variabilei măsurate. Prin urmare, pentru aprecierea gradului de variație consistentă se folosește coeficientul de corelație - o caracteristică adimensională care are anumite limite de variație.

7. Coeficient de determinare. Eroarea standard a ecuației de regresie.

Coeficient de determinare (rxy2) - caracterizează ponderea varianței caracteristicii rezultate y, explicată prin varianță, în varianța totală a caracteristicii rezultate. Cu cât rxy2 este mai aproape de 1, cu atât mai bine este modelul de regresie, adică modelul original aproximează bine datele originale.

8. Evaluarea semnificației statistice a indicatorilor de corecție, a parametrilor ecuației de regresie liniară pereche și ai ecuației de regresie în ansamblu: t- testul elevului, F- Criteriul Fisher.

9. Modele de regresie neliniară și liniarizarea acestora.

Regresiile neliniare sunt împărțite în două clase : regresii care sunt neliniare în raport cu variabilele explicative excluse din analiză, dar liniare în raport cu parametrii estimați și regresii care sunt neliniare în raport cu parametrii estimați.

Exemple de regresii, neliniare în variabile explicative, dar liniar în parametrii estimați:


Modele de regresie neliniară și liniarizarea acestora

Cu o dependență neliniară a caracteristicilor redusă la o formă liniară, parametrii regresiei multiple sunt determinați și de cele mai mici pătrate, cu singura diferență că este folosit nu pentru informațiile originale, ci pentru datele transformate. Astfel, având în vedere funcția de putere

,

îl convertim în formă liniară:

unde variabilele sunt exprimate în logaritmi.

În plus, procesarea LSM este aceeași: se construiește un sistem de ecuații normale și se determină parametrii necunoscuți. Prin potențarea valorii găsim parametrul Ași, în consecință, forma generală a ecuației unei funcții de putere.

În general, regresia neliniară în raport cu variabilele incluse nu prezintă dificultăți în estimarea parametrilor săi. Această estimare este determinată, ca și în regresia liniară, de MCO. Astfel, în ecuația de regresie neliniară cu doi factori

liniarizarea poate fi realizată prin introducerea de noi variabile în ea . Rezultatul este o ecuație de regresie liniară cu patru factori

10.Multicoliniaritate. Metode de eliminare a multicolinearității.

Cele mai mari dificultăți în utilizarea aparatului de regresie multiplă apar în prezența multicoliniarității factorilor, când mai mult de doi factori sunt legați între ei printr-o relație liniară. Prezența multicoliniarității între factori poate însemna că unii factori vor acționa întotdeauna la unison. Ca urmare, variația datelor de intrare nu mai este complet independentă, iar impactul fiecărui factor nu poate fi evaluat separat.

Cu cât multicoliniaritatea factorilor este mai puternică, cu atât mai puțin fiabilă este estimarea distribuției cantității de variație explicată între factorii individuali folosind metoda celor mai mici pătrate (MCO).

Includerea factorilor multicoliniari în model este nedorită din următoarele motive:

ü este dificil de interpretat mai mulți parametri de regresie; parametrii de regresie liniară își pierd sensul economic;

ü estimările parametrilor nu sunt de încredere, prezintă erori standard mari și se modifică odată cu modificările volumului de observații, ceea ce face ca modelul să nu fie adecvat pentru analiză și prognoză

Metode de eliminare a multicolinearității

- excluderea variabilelor din model;

Cu toate acestea, este necesară o anumită precauție atunci când utilizați această metodă. În această situație, sunt posibile erori de specificație.

- obtinerea de date suplimentare sau construirea unui nou esantion;

Uneori, pentru a reduce multicolinearitatea, este suficient să mărim dimensiunea eșantionului. De exemplu, dacă utilizați date anuale, puteți trece la datele trimestriale. Creșterea cantității de date reduce varianța coeficienților de regresie și, prin urmare, crește semnificația lor statistică. Cu toate acestea, obținerea unui eșantion nou sau extinderea unuia vechi nu este întotdeauna posibilă sau este asociată cu costuri serioase. În plus, această abordare poate crește

autocorelare.

- modificarea specificațiilor modelului;

În unele cazuri, problema multicolinearității poate fi rezolvată prin modificarea specificației modelului: fie schimbarea formei modelului, fie adăugarea de noi variabile explicative care nu au fost luate în considerare în model.

- utilizarea informațiilor preliminare despre unii parametri;

11.Modelul clasic de regresie multiplă liniară (CLMMR). Determinarea parametrilor nivelului de înregistrare multiplă prin metoda celor mai mici pătrate.

1. Definiții și formule de bază

Regresie pereche- regresie (relație) între două variabile etc. vedere model:

unde este variabila dependentă (atribut rezultat);

- variabilă explicativă independentă (factor de trăsătură);

O perturbare sau variabilă stocastică care include influența unor factori care nu sunt luați în considerare în model.

În aproape fiecare caz individual, valoarea constă din doi termeni:

unde este valoarea reală a atributului rezultat;

Valoarea teoretică a caracteristicii rezultante, găsită pe baza ecuației de regresie. Semnul „^” înseamnă că nu există o relație funcțională strictă între variabile și.

Distinge liniarȘi neliniar regresie.

Regresie liniara descrisă de ecuația dreptei

Regresii neliniare sunt împărțite în două clase:

1) regresie, neliniar în variabilele explicative, dar liniar în parametrii estimați, De exemplu:

Polinoame de diferite grade

Hiperbola echilaterală

2) regresie, neliniar în parametrii estimaţi, De exemplu:

Putere

Indicativ

Exponenţial

Pentru a construi regresia liniară pereche, se calculează mărimile auxiliare ( - numărul de observații).

Eșantion înseamnă: Și

Covarianța eșantionului intre si

sau

Covarianta este o caracteristică numerică a distribuției comune a două variabile aleatoare.

Varianta eșantion pentru

sau

Varianta eșantion pentru

sau

Varianta eșantionului caracterizează gradul de dispersie a valorilor unei variabile aleatoare în jurul valorii medii (variabilitate, variabilitate).

Se evaluează gradul de strânsă legătură dintre fenomenele studiate coeficientul de corelație al eșantionului intre si

Coeficientul de corelație variază de la -1 la +1. Cu cât este mai aproape de la modulo la 1, cu atât este mai apropiată relația statistică între și de una funcțională liniară.

Dacă =0, atunci nu există o relație liniară între și;<0,3 - связь слабая; 0,3<0,7 - связь умеренная; 0,7<0,9 - связь сильная; 0,9<0,99 - связь весьма сильная.

O valoare pozitivă a coeficientului indică faptul că relația dintre caracteristici este directă (cu creștere valoarea crește), o valoare negativă indică o relație inversă (cu creștere valoarea scade).

Construirea regresiei liniare se rezumă la estimarea parametrilor săi, iar abordarea clasică a estimării parametrilor de regresie liniară se bazează pe metoda celor mai mici pătrate(MNC). Metoda celor mai mici pătrate ne permite să obținem astfel de estimări ale parametrilor la care suma abaterilor pătrate a valorilor reale ale caracteristicii rezultate față de cele teoretice este minimă, adică.

Pentru regresia liniară, parametrii și se găsesc din sistemul de ecuații normale:

Rezolvând sistemul, găsim V pe

și parametru

Coeficient cu o variabilă factor arată cât de mult se va schimba valoarea medie atunci când factorul se modifică în funcție de unitatea de măsură.

Parametrul când If nu poate fi egal cu 0, atunci nu are sens economic. Puteți interpreta semnul doar dacă atunci modificarea relativă a rezultatului are loc mai lent decât schimbarea factorului, adică. variaţia rezultatului este mai mică decât variaţia factorului şi invers.

Pentru a evalua calitatea modelului de regresie construit, puteți utiliza coeficient de determinare sau eroare medie de aproximare.

LAcoeficient de determinare

Sau

arată ponderea de varianță explicată prin regresie în varianța totală a caracteristicii rezultate.În consecință, valoarea caracterizează ponderea de varianță în indicator cauzată de influența factorilor neluați în considerare în model și alte motive.

Cu cât este mai aproape de 1, cu atât este mai bun modelul de regresie, de exemplu. modelul construit aproximează bine datele originale.

Eroare medie de aproximare- aceasta este abaterea relativă medie a valorilor teoretice de la valorile reale, adică

Ecuația de regresie construită este considerată satisfăcătoare dacă valoarea nu depășește 10-12%.

Pentru regresia liniară coeficientul mediu de elasticitate se gaseste prin formula:

Coeficientul de elasticitate mediu arată cu ce procent în medie se va schimba rezultatul față de valoarea sa atunci când factorul se modifică cu 1% din valoarea sa.

EvaluarenachimostȘiecuații de regresieîn general este dat folosind testul Fisher, care constă în testarea ipotezei despre nesemnificația statistică a ecuației de regresie . Pentru a face acest lucru, se face o comparație realecerȘi critic valori (tabulare). - Testul Fisher .

se determină din raportul dintre valorile factorilor și variațiile reziduale calculate pe grad de libertate, adică

- valoarea maximă posibilă a criteriului sub influența factorilor aleatori cu grade de libertate =1, =-2 iar nivelul de semnificație se regăsește din tabelul criteriului Fisher (Tabelul 1 al anexei).

Nivel de semnificație- Aceasta este probabilitatea de a respinge o ipoteză corectă, având în vedere că este adevărată.

Dacă apoi se respinge ipoteza despre absența unei legături între indicatorul studiat și factor și se face o concluzie despre semnificația acestei legături cu nivelul de semnificație (adică, ecuația de regresie este semnificativă).

Dacă atunci ipoteza este acceptată și se recunoaște nesemnificația statistică și nefiabilitatea ecuației de regresie.

Pentru regresia liniară importanţăcoeficienții de regresie evaluat folosind - Testul studentului, conform căruia se formulează o ipoteză despre natura aleatorie a indicatorilor, i.e. despre diferența lor nesemnificativă față de zero. În continuare, valorile reale ale criteriului sunt calculate pentru fiecare dintre coeficienții de regresie estimați, adică

unde si - erori standard parametrii de regresie liniară sunt determinați de formulele:

- valoarea maximă posibilă a testului Student sub influența unor factori aleatori pentru un grad de libertate dat = -2 și nivelul de semnificație se regăsește din tabelul testului Student (Tabelul 2 din anexa).

Dacă atunci se respinge ipoteza despre nesemnificația coeficientului de regresie cu nivelul de semnificație i.e. coeficientul ( sau ) nu diferă accidental de zero și s-a format sub influența unui factor care acționează sistematic

Dacă atunci ipoteza nu este respinsă și se recunoaște caracterul aleatoriu al formării parametrului.

Semnificația coeficientului de corelație liniară verificat de asemenea cu - Testul elevului, i.e.

Ipoteza despre nesemnificația coeficientului de corelație este respinsă cu un nivel de semnificație dacă

Cometariu. Pentru regresia perechi liniare, testarea ipotezelor despre semnificația coeficientului și a coeficientului de corelație este echivalentă cu testarea ipotezei despre semnificația ecuației de regresie în ansamblu, i.e.

Pentru a calcula intervalul de încredere, determinați eroare marginală pentru fiecare indicator, adică

Intervale de încredere pentru coeficienții de regresie liniară:

Dacă zero se încadrează în intervalul de încredere, i.e. limita inferioară este negativă și limita superioară pozitivă, atunci parametrul estimat este considerat zero, deoarece nu poate lua în același timp înțelesuri pozitive și negative.

Valoarea prognozată se determină prin substituirea valorii prezise corespunzătoare în ecuația de regresie, apoi se calculează eroare standard medie a prognozei

Unde

si se construieste intervalul de încredere al prognozei

Intervalul poate fi destul de larg datorită volumului mic de observații.

Regresii, neliniar în variabilele incluse , sunt reduse la formă liniară printr-o simplă schimbare a variabilelor, iar estimarea ulterioară a parametrilor este efectuată folosind cele mai mici pătrate.

Ghiperbolăregresie icală:

R apariția , neliniar e conform parametrilor evaluați , sunt împărțite în două tipuri: neliniar internși așa mai departe. (nu se reduce la formă liniară) și liniar intern(redusă la formă liniară folosind transformări adecvate), de exemplu:

Regresie exponențială:

Transformare de liniarizare:

Regresia puterii:

Transformare de liniarizare:

Indexnoua regresie:

Transformare de liniarizare:

Logaritmicregresia:

Transformare de liniarizare:

2. Rezolvarea problemelor tipice

Exemplu9 .1 . Pentru 15 întreprinderi agricole (Tabelul 9.1) se cunosc următoarele: - numărul de utilaje pe unitatea de suprafață însămânțată (unități/ha) și - volumul produselor cultivate (mii de unități monetare). Necesar:

1) determinați dependența de

2) construiți câmpuri de corelație și un grafic al ecuației de regresie liniară pe

3) trageți o concluzie despre calitatea modelului și calculați valoarea de prognoză cu o valoare de prognoză de 112% din nivelul mediu.

Tabelul 9.1

Soluţie:

1) În Excel, creați tabelul auxiliar 9.2.

Tabelul 9.2

Orez.9 .1. Tabel pentru calcularea valorilor intermediare

Să calculăm numărul de măsurători. Pentru a face acest lucru, în celulă B19 pune = COUNT(A2:A16 ) .

Folosind funcția ∑ (Suma automată) de pe bara de instrumente Standard T Naya găsiți suma tuturor (celula B17) și (celula C17).

Orez. 9.2. Calculul sumei valorilor și mediilor

Pentru a calcula valorile medii, folosim funcția încorporată MS Excel AVERAGE(); intervalul de valori pentru determinarea mediei este indicat în paranteze. Astfel, volumul mediu de produse cultivate pentru 15 ferme este de 210.833 mii. unități, iar cantitatea medie de utilaje este de 6,248 unități/ha.

Pentru a umple coloanele D, E, F introduceți formula de calcul a produsului: în celulă D2 pune = B2*C2, apoi apăsați ENTER de pe tastatură. Faceți clic stânga pe celulă D2 și, apucând colțul din dreapta jos al acestei celule (semnul negru plus), trageți-l în jos spre celulă D16 . Intervalul va fi completat automat D3 - D16 .

Pentru a calcula în selectivo covarianțăîntre și folosim formula i.e. la celulă B21 pune = D18- B18* C18 și obținem 418,055 (Fig. 9.3).

Orez.9 .3. Calcul

SelectivWowdispersieYu căci găsim folosind formula pentru asta în celulă B22 pune = E18-B18^2 (^- semn care indică exponențiația ) și obținem 11.337. În mod similar, determinăm =16745,05556 (Fig. 9.4)

Orez.9 .4. CalculVar(X) ȘiVar (y)

Apoi, folosind funcția standard MS Excel „CORREL”, calculăm valoarea coeficientului de corelație liniară pentru problema noastră; funcția va avea forma „=CORREL(B2:B16;C2:C16)”, iar valoarea rxy= 0,96. Valoarea rezultată a coeficientului de corelație indică o legătură directă și puternică între disponibilitatea echipamentelor și volumul produselor cultivate.

Găsim Vcoeficientul de regresie liniară a probei =36,87; parametru = -17,78. Aceasta înseamnă că ecuația de regresie liniară pereche are forma =-17,78+36,87

Coeficientul arată că odată cu creșterea cantității de utilaje cu 1 unitate/ha, volumul produselor cultivate va crește în medie cu 36.875 mii. unitati (Fig. 9.5)

Orez.9 .5. Calculul parametrilor ecuației de regresie.

Astfel, ecuația de regresie va arăta astfel: .

Înlocuim valorile reale în ecuația rezultată X(cantitatea de echipamente) găsim valorile teoretice ale volumelor de produse cultivate (Fig. 9.6).

Orez.9 .6. Calculul valorilor teoretice ale volumelor de produse cultivate

Folosind Chart Wizard construim câmpuri de corelație (evidențierea coloanelor cu valori și ) și o ecuație de regresie liniară (evidențierea coloanelor cu valori și ). Selectarea tipului de diagramă - T spectacol În diagrama rezultată, completați parametrii necesari (titlu, etichete axelor, legendă etc.). Ca rezultat, obținem graficul prezentat în Fig. 9.7.

Orez.9 .7. Graficul dependenței volumului de produse cultivate de cantitatea de echipament

Pentru a evalua calitatea modelului de regresie construit, calculăm:

. Lacoeficient de determinare=0,92, ceea ce arată că 92% din modificarea costurilor de producție se explică prin modificarea volumului producției, iar 8% se datorează unor factori neluați în considerare în model, ceea ce indică calitatea modelului de regresie construit;

. Curednyuyueroarelaaproximări. Pentru a face acest lucru, în coloană H Să calculăm diferența dintre valorile reale și teoretice a din coloană eu- expresie. Vă rugăm să rețineți că funcția standard MS Excel „ABS” este utilizată pentru a calcula valorile modulo. La înmulțirea valorii medii (celula eu18 ) la 100% obținem 18,2%. În consecință, în medie, valorile teoretice se abat de la cele reale cu 18,2% (Fig. 1.8).

Folosind criteriul Fisher, estimăm hnachimostbecuațiiInregistreaza-teCuacestea in general: 150,74.

La un nivel de semnificație de 0,05 = 4,67, determinăm folosind funcția statistică încorporată MAI REPEDE(Fig. 1.9). Este necesar să ne amintim că „Grade_libertate1” este numitorul, iar „Grade_libertate2” este numărătorul, unde este numărul de parametri din ecuația de regresie (avem 2), n- numărul de perechi inițiale de valori (avem 15).

Deoarece atunci ecuația de regresie este semnificativă la =0,05.

Orez.9 .8. Determinarea coeficientului de determinare şieroare medie de aproximare

Orez. 9 . 9 . Fereastra de dialogfuncțiiMAI REPEDE

În continuare definim Cucoeficientul mediu de elasticitate conform formulei. Constatările arată că odată cu o creștere a volumului produselor fabricate cu 1%, costurile de producere a acestor produse în medie în agregat vor crește cu 1,093%.

Să calculăm valoarea de prognoză prin substituirea în ecuația de regresie =-19,559+36,8746 a valorii prezise a factorului =1,12=6,248*1,12=6,9978. Se obține =238,48. În consecință, cu cantitatea de utilaje în valoare de 6,9978 unități/ha, volumul producției va fi de 238,48 mii. unitati

Să găsim varianța reziduală; pentru a face acest lucru, calculăm suma pătratelor diferenței dintre valorile reale și teoretice. =39.166 punând următoarea formulă = ROOT(J17/(B19-2)) la celulă H2 1 (Fig. 9.10).

Orez.9 .10. Determinarea varianței reziduale

CUrednyayastandarderoareaprognoza:

La nivelul de semnificație = 0,05 folosind funcția statistică încorporată STUDISCOVER să definim =2.1604 și să calculăm eroarea maximă de prognoză, care în 95% din cazuri nu va depăși .

Dintervalul de încredere al prognozei:

Sau .

Prognoza finalizată a costurilor de producție s-a dovedit a fi fiabilă (1-0,05 = 0,95), dar inexactă, deoarece intervalul limitelor superioare și inferioare ale intervalului de încredere este ori. Acest lucru s-a întâmplat din cauza volumului mic de observații.

Trebuie remarcat faptul că MS Excel are funcții statistice încorporate care pot reduce semnificativ numărul de calcule intermediare, de exemplu (Fig. 9.11.):

A calcula VselectivXin medieX utilizați funcția MEDIE(număr1:numărN) din categorie Statistic .

Covarianța eșantionuluiîntre și se găsește folosind funcția KOVAR(matriceX;matriceY) din categorie Statistic .

SelectivsdispersieȘi determinat de funcţia statistică DISPR(număr1:numărN) .

Orez.9 .unsprezece. Calculul nfurnizori cu funcții încorporateDOMNIȘOARĂexcela

PParametrusregresie liniaraîn Excel îl puteți defini în mai multe moduri.

1 cale) Folosind funcția încorporată LINIST. Procedura este următoarea:

1. Selectați o zonă de 5x2 de celule goale (5 rânduri, 2 coloane) pentru a afișa rezultatele statisticilor de regresie sau o zonă de 1x2 pentru a obține doar coeficienți de regresie.

2. Cu Vrăjitorii de funcții printre Statistic selectați funcția LINISTși completați argumentele sale (Fig. 9.12):

Orez. 9 . 12 . Caseta de dialog pentru introducerea argumentelor funcțieiLINIST

valori_cunoscute_y

valori_cunoscute_X

Const- o valoare logică (1 sau 0), care indică prezența sau absența unui termen liber în ecuație; set 1;

Statistici- o valoare logică (1 sau 0), care indică dacă se afișează sau nu informații suplimentare privind analiza de regresie; seteaza-l la 1.

3. Primul număr al tabelului va apărea în celula din stânga sus a zonei selectate. Pentru a deschide întregul tabel, apăsați butonul < F2> , iar apoi - la combinația de taste < CTRL> + < SCHIMB> + < INTRODUCE> .

Statisticile de regresie suplimentare vor fi afișate ca (Tabelul 9.3):

Tabelul 9.3

Valoarea coeficientului

Valoarea coeficientului

RMS
deviere

RMS
deviere

Coeficient
determinare

RMS
deviere

Statistici

Numărul de grade de libertate

Suma de regresie a pătratelor

Suma reziduală a pătratelor

Ca rezultat al aplicării funcției LINIST primim:

( 2 cale) Utilizarea unui instrument de analiză a datelor Regresia puteți obține rezultatele statisticilor de regresie, analiza varianței, intervale de încredere, reziduuri, grafice de ajustare a liniilor de regresie, reziduuri și grafice de probabilitate normală. Procedura este următoarea:

1. Trebuie să verificați accesul la Pachet de analize. Pentru a face acest lucru, în meniul principal (prin butonul Microsoft Office, accesați parametrii MS Excel) în caseta de dialog „Opțiuni” DOMNIȘOARĂexcela» selectați comanda „Suplimente” și selectați suplimentul din dreapta Analiza pachetului A apoi faceți clic pe butonul „Go” (Fig. 9.13). În caseta de dialog care se deschide, bifați caseta de lângă „Pachet de analiză” și faceți clic pe „OK” (Fig. 9.14).

În fila Date, în grupul Analiză, veți avea acces la programul de completare instalat. (Fig. 9.15).

Orez.9 .13. Activați suplimentele înDOMNIȘOARĂexcela

Orez.9 .14. Caseta de dialog Suplimente

Orez.9 .15. Supliment pentru analiza datelor de pe panglicăDOMNIȘOARĂexcela 2007 .

2. Selectați „Date” în grupul „Analiză” și selectați comanda Analiza da n nykh în caseta de dialog care se deschide, selectați instrumentul de analiză „Regresie” și faceți clic pe „OK” (Fig. 9.16):

Orez.9 .16. Caseta de dialog Analiza datelor

În caseta de dialog care apare (Fig. 9.17), completați câmpurile:

Interval de intrareY- interval care conține date ale caracteristicii rezultante Y;

Interval de intrareX- interval ce conține date ale caracteristicii explicative X;

Etichete- un steag care indică dacă prima linie conține nume de coloane sau nu;

Constanta-zero- un steag care indică prezența sau absența unui termen liber în ecuație;

Interval de ieșire- este suficient să indicați celula din stânga sus a intervalului viitor;

Foaie de lucru nouă- puteți seta un nume arbitrar pentru o nouă foaie pe care vor fi afișate rezultatele.

Orez.9 .17. Caseta de dialog Regresie

Pentru a obține informații despre reziduuri, diagrame reziduale, potrivire și probabilitate normală, trebuie să bifați casetele corespunzătoare din caseta de dialog.

Orez. 9 . 18 . Rezultatele utilizării instrumentuluiRegresia

ÎN DOMNIȘOARĂexcela linie de tendință poate fi adăugat la o diagramă cu zone de histogramă sau un grafic. Pentru aceasta:

1. Este necesar să selectați zona de reprezentare a diagramei și să selectați „Layout” în panglică, iar în grupul de analiză selectați comanda „Trend Line” (Fig. 9.19.). Selectați „Opțiuni avansate ale liniilor de tendință” din elementul de meniu derulant.

Orez. 1.19.Panglică

2. În caseta de dialog care apare, selectați valorile reale, apoi se va deschide caseta de dialog „Format linie de tendință” (Fig. 9.20.) în care selectați tipul de linie de tendință și setați parametrii corespunzători.

Orez. 9 . 20 . Fereastra de dialog„Format de linie de tendință”

Pentru o tendință polinomială, este necesar să se stabilească gradul polinomului de aproximare, pentru filtrarea liniară - numărul de puncte de mediere.

Alege Liniar pentru a construi o ecuație de regresie liniară.

Pentru informatii suplimentare puteti arătați ecuația în diAgramȘi plasați o valoare pe diagramă(Fig.9.21).

Orez. 9 . 21 . Tendință liniară

Modele de regresie neliniară sunt ilustrate la calcularea parametrilor ecuației folosind funcția statistică selectată în Excel LGRFPRIBL. Procedura de calcul este aceeași cu utilizarea funcției LINEST.

CATEGORII

ARTICOLE POPULARE

2023 „kingad.ru” - examinarea cu ultrasunete a organelor umane