Stima dei parametri di regressione lineare. Regressione in Excel: equazione, esempi

La regressione lineare si riduce alla ricerca di un'equazione della forma:

La prima espressione consente determinati valori di fattore X calcolare i valori teorici della caratteristica risultante sostituendovi i valori effettivi dei fattori. Nel grafico (Fig. 1.2), i valori teorici giacciono su una linea retta, che rappresenta una retta di regressione.

La costruzione della regressione lineare si riduce alla stima dei suoi parametri: a e b. L'approccio classico per la stima dei parametri di regressione lineare si basa sul metodo dei minimi quadrati (OLS).

Il metodo dei minimi quadrati ci consente di ottenere tali stime di parametri UN E B, a cui corrisponde la somma dei quadrati delle deviazioni dei valori effettivi A da teorico e x minimo:

Riso. 1.2.

Per trovare il minimo, è necessario calcolare le derivate parziali delle somme (1.4) per ciascuno dei parametri (a e ft) ed uguagliarle a zero:

Dopo la trasformazione otteniamo un sistema di equazioni normali:

Nel sistema P- dimensione del campione, gli importi sono facilmente calcolabili dai dati originali. Risolvere il sistema per UN E B, noi abbiamo:

L'espressione (1.7) può essere scritta in un'altra forma:

dove cov(x, sì) - covariazione dei tratti; су* - dispersione del fattore X.

Il parametro b è chiamato coefficiente di regressione. Il suo valore mostra la variazione media del risultato con un aumento del fattore di un'unità. La possibilità di una chiara interpretazione economica del coefficiente di regressione ha reso l’equazione di regressione lineare a coppie abbastanza comune nella ricerca econometrica.

Formalmente UN - Senso A A x = 0. Se X non ha e non può avere valore zero, quindi questa interpretazione del termine libero UN non ha senso Parametro UN il più delle volte non ha contenuto economico. I tentativi di interpretarlo economicamente possono portare all'assurdità, soprattutto quando a 0. È possibile interpretare solo il segno del parametro UN. Se un > 0, la variazione relativa del risultato avviene più lentamente della variazione del fattore. Confrontiamo questi cambiamenti relativi:

A volte viene scritta un'equazione di regressione lineare a coppie per le deviazioni dalla media:

Dove

In questo caso il termine libero è uguale a zero, il che si riflette nell'espressione (1.10). Questo fatto deriva da considerazioni geometriche: la stessa linea retta (1.3) corrisponde all'equazione di regressione, ma quando si stima la regressione in deviazioni, l'origine delle coordinate si sposta al punto con coordinate (Zc, y). In questo caso, nell'espressione (1.8) entrambe le somme saranno pari a zero, il che comporterà l'uguaglianza a zero del termine libero. Anche le espressioni (1.7) e (1.9) sono semplificate.

Ad esempio, consideriamo un gruppo di imprese che producono un tipo di prodotto, la dipendenza della regressione dei costi dalla produzione del prodotto y = a + bx+ e (Tabella 1.1).

Il sistema di equazioni normali avrà la forma

Risolvendolo, otteniamo UN - -5,79, B - 36,84.

L'equazione di regressione ha la forma

Tabella 1.1

Dati di input per la stima dei parametri del modello lineare accoppiato

Produzione del prodotto (x), migliaia di unità.

Costi di produzione (y), milioni di rubli

Sostituendo i valori x nell'equazione di regressione, troviamo i valori teorici di y (ultima colonna della Tabella 1.1).

Grandezza UN non ha senso economico. Se le variabili X E A espressa in termini di deviazioni dai livelli medi, la linea di regressione sul grafico passerà per l'origine delle coordinate. La stima del coefficiente di regressione non cambierà: y" = 36,84x", dove y" = y-y, x" = x-x.

Come altro esempio, consideriamo la funzione di consumo della forma:

dove C è il consumo; A- reddito; K, L- opzioni.

Questa equazione di regressione lineare viene solitamente utilizzata insieme all'equazione di bilancio

dove / è l'importo dell'investimento; G- risparmio.

Per semplicità, supponiamo che il reddito venga speso in consumi e investimenti. Consideriamo quindi il sistema di equazioni

La presenza di parità di bilancio impone vincoli sul valore del coefficiente di regressione, che non può essere maggiore di uno, ovvero K1.

Supponiamo che la funzione di consumo sia C = 1,9 + 0,65 anni.

Il coefficiente di regressione caratterizza la propensione al consumo. Da esso risulta che su mille rubli di reddito vengono spesi in media 650 rubli per i consumi e 350 rubli. investito. Se calcoliamo la regressione della dimensione dell’investimento sul reddito, ad es. io = a + per, allora l'equazione di regressione sarà IO= -1,9 + 0,35 a. Non è necessario determinarlo, poiché deriva dalla funzione di consumo. I coefficienti di regressione di queste due equazioni sono legati dall'uguaglianza 0,65 + 0,35 = 1. Se il coefficiente di regressione è maggiore di uno, allora Non solo il reddito, ma anche i risparmi vengono spesi per i consumi.

Coefficiente di regressione A nella funzione consumo viene utilizzato per calcolare il moltiplicatore:

Dove T» 2,86, quindi l'investimento aggiuntivo è di 1 mila rubli. per un lungo periodo porterà, a parità di altre condizioni, a un reddito aggiuntivo di 2,86 mila rubli.

Nella regressione lineare, il coefficiente di correlazione lineare funge da indicatore della vicinanza della connessione G.

I suoi valori rientrano nei limiti: - 1 r 1. Se 6>0, allora 0 g b 0-1 g 0. Secondo l'esempio, il calcolo dell'espressione (1.11) dà g = 0,991, il che significa una dipendenza molto stretta dei costi di produzione dal volume della produzione.

Per valutare la qualità della selezione di una funzione lineare, il coefficiente di determinazione viene calcolato come il quadrato del coefficiente di correlazione lineare io 2. Caratterizza la quota della varianza della caratteristica risultante y, spiegata dalla regressione, nella varianza totale della caratteristica risultante:

Valore 1 - G2 caratterizza la quota di varianza sì, causato dall’influenza di altri fattori non presi in considerazione nel modello.

Nell'esempio g2= 0,982. L'equazione di regressione spiega il 98,2% della varianza in y e altri fattori rappresentano l'1,8%: questa è la varianza residua.

La regressione lineare è ampiamente utilizzata in econometria sotto forma di una chiara interpretazione economica dei suoi parametri. La regressione lineare si riduce alla ricerca di un'equazione della forma

O . (4.6)

Un'equazione della forma consente determinati valori del fattore X avere valori teorici della caratteristica risultante, sostituendovi i valori effettivi del fattore X. Nel grafico i valori teorici rappresentano la retta di regressione (Fig. 4.2).

Riso. 4.2. Stima grafica dei parametri di regressione lineare

La costruzione della regressione lineare si riduce alla stima dei suoi parametri e le stime dei parametri di regressione lineare possono essere trovate con metodi diversi. Puoi rivolgerti al campo di correlazione e, selezionando due punti sul grafico, tracciare una linea retta che li attraversa (vedi Fig. 4.2). Quindi, utilizzando il grafico, è possibile determinare i valori dei parametri. Definiamo il parametro come il punto di intersezione della linea di regressione con l'asse e valutiamo il parametro in base alla pendenza della linea di regressione come , dove è l'incremento del risultato sì, un fattore di incremento X, cioè.

L'approccio classico per la stima dei parametri di regressione lineare si basa su metodo dei minimi quadrati(MNC).

Il metodo dei minimi quadrati ci consente di ottenere tali stime dei parametri e , per le quali la somma delle deviazioni quadratiche dei valori effettivi della caratteristica risultante (y) dal minimo calcolato (teorico):

In altre parole, dall'intero insieme di linee, viene selezionata la linea di regressione sul grafico in modo tale che la somma dei quadrati delle distanze verticali tra i punti e questa linea sia minima:

Perciò,

Per trovare il minimo della funzione (4.7), è necessario calcolare le derivate parziali per ciascuno dei parametri UN E B e impostarli uguali a zero.

Indichiamo con S, Poi:

Trasformando questo sistema, otteniamo il seguente sistema di equazioni normali per la stima dei parametri e:

. (4.8)

Risolvendo il sistema di equazioni normali (4.8) sia con il metodo dell'eliminazione sequenziale delle variabili sia con il metodo dei determinanti, troviamo i valori numerici dei parametri richiesti e . Puoi utilizzare le seguenti formule già pronte:

. (4.9)

La formula (4.9) si ottiene dalla prima equazione del sistema (4.8), se si dividono tutti i suoi termini per P.

dov'è la covarianza delle caratteristiche;

Varianza di un tratto X.

A causa del fatto che , ,otteniamo la seguente formula per il calcolo della stima del parametro B:

. (4.10)

Il parametro è chiamato coefficiente di regressione. Il suo valore mostra la variazione media del risultato con una variazione del fattore di un'unità. Quindi, se nella funzione di costo (sì- costi (migliaia di rubli), X- numero di unità produttive). Pertanto, con un aumento del volume di produzione (X) per 1 unità i costi di produzione aumentano in media di 2mila rubli, ovvero un ulteriore aumento della produzione di 1 unità. richiederà un aumento dei costi in media di 2 mila rubli.


La possibilità di una chiara interpretazione economica del coefficiente di regressione ha reso l’equazione di regressione lineare abbastanza comune nella ricerca econometrica.

Formalmente - significato A A X= 0. Se il fattore-attributo non ha e non può avere un valore zero, allora l'interpretazione del termine libero sopra riportata non ha senso. Il parametro può non avere contenuto economico. Tentativi di interpretare economicamente il parametro UN può portare all'assurdità, soprattutto quando < 0.

100 rupie bonus per il primo ordine

Seleziona il tipo di lavoro Lavoro di diploma Lavoro del corso Abstract Tesi di master Relazione pratica Articolo Report Revisione Lavoro di prova Monografia Problem solving Business plan Risposte alle domande Lavoro creativo Saggio Disegno Saggi Traduzione Presentazioni Dattilografia Altro Aumentare l'unicità del testo Tesi di master Lavoro di laboratorio Aiuto on-line

Scopri il prezzo

Quando si stimano i parametri dell'equazione di regressione, viene utilizzato il metodo dei minimi quadrati (OLS). In questo caso vengono stabiliti alcuni prerequisiti riguardanti la componente casuale e. Nel modello, la componente casuale e è una quantità non osservabile. Dopo che i parametri del modello sono stati stimati, calcolando le differenze tra i valori effettivi e teorici della caratteristica risultante y , è possibile determinare stime della componente casuale. Poiché non sono resti casuali reali, possono essere considerati esempi di realizzazione del resto incognito di una determinata equazione, ovvero ei.

Quando si modifica la specifica del modello o si aggiungono nuove osservazioni ad esso, le stime campionarie dei residui ei possono cambiare. Pertanto, il compito dell'analisi di regressione comprende non solo la costruzione del modello stesso, ma anche lo studio delle deviazioni casuali ei, cioè dei valori residui.

Quando si utilizzano i test di Fisher e Student, vengono fatte delle ipotesi riguardo al comportamento dei residui ei - i residui sono variabili casuali indipendenti e il loro valore medio è 0; hanno la stessa varianza (costante) e seguono una distribuzione normale.

I test statistici dei parametri di regressione e degli indicatori di correlazione si basano su presupposti non verificabili della distribuzione della componente casuale ei. Sono solo preliminari. Dopo aver costruito l'equazione di regressione, la presenza di

stima ei (residui casuali) delle proprietà assunte. Ciò è dovuto al fatto che le stime dei parametri di regressione devono soddisfare determinati criteri. Devono essere imparziali, ricchi ed efficienti. Queste proprietà delle stime ottenute mediante OLS sono di estrema importanza pratica nell'uso dei risultati di regressione e correlazione.

Imparziale stime significa che l'aspettativa matematica dei residui è zero. Se le stime sono imparziali, possono essere confrontate tra diversi studi.

I voti contano efficace, se sono caratterizzati dalla dispersione più piccola. Nella ricerca pratica, ciò significa la possibilità di passare dalla stima puntuale alla stima intervallare.

Ricchezza le stime sono caratterizzate da un aumento della loro accuratezza all’aumentare della dimensione del campione. Di grande interesse pratico sono quei risultati di regressione per i quali l'intervallo di confidenza del valore atteso del parametro di regressione è bi ha un limite di probabilità pari a uno. In altre parole, la probabilità di ottenere una stima ad una data distanza dal valore vero del parametro è prossima a uno.

I criteri di valutazione specificati (imparzialità, coerenza ed efficienza) sono necessariamente presi in considerazione nei diversi metodi di valutazione. Il metodo dei minimi quadrati costruisce stime di regressione basate sulla minimizzazione della somma dei quadrati dei residui. Pertanto, è molto importante esaminare il comportamento dei residui di regressione ei. Le condizioni necessarie per ottenere stime imparziali, coerenti ed efficienti sono i prerequisiti OLS desiderabili per ottenere risultati di regressione affidabili.

Gli studi sui residui ei comportano il controllo della presenza di quanto segue cinque sedi di multinazionali:

1. natura casuale dei resti;

2. valore medio dei residui pari a zero, indipendente da xi;

3. omoschedasticità – la varianza di ogni deviazione ei è la stessa per tutti i valori di x ;

4. assenza di autocorrelazione dei residui – i valori dei residui ei sono distribuiti indipendentemente l'uno dall'altro;

5. i residui seguono una distribuzione normale.

Se la distribuzione dei residui casuali ei non corrisponde ad alcune ipotesi OLS, allora il modello dovrebbe essere aggiustato.

Innanzitutto viene verificata la natura casuale dei residui ei, la prima premessa di OLS. A tale scopo viene tracciato un grafico della dipendenza dei residui ei dai valori teorici della caratteristica risultante.

Se sul grafico si ottiene una barra orizzontale, allora i residui ei sono variabili casuali e il metodo dei minimi quadrati è giustificato; i valori teorici approssimano bene i valori effettivi di y.

I seguenti casi sono possibili se ei dipende da Quello:

1) i resti ei non sono casuali

2) i residui ei non hanno varianza costante

3) i resti ei sono sistematici.

In questi casi è necessario applicare una funzione diversa o introdurre informazioni aggiuntive e ricostruire l'equazione di regressione finché i residui ei non diventano variabili casuali.

La seconda ipotesi OLS relativa ai residui medi pari a zero significa questo . Ciò è fattibile per modelli lineari e modelli non lineari rispetto alle variabili incluse.

Allo stesso tempo, l'imparzialità delle stime dei coefficienti di regressione ottenute da OLS dipende dall'indipendenza dei residui casuali e dei valori x, che viene studiata anche nel quadro del rispetto della seconda premessa di OLS. A tale scopo, insieme al grafico presentato della dipendenza dei residui ei dai valori teorici dell'attributo risultante, viene costruito un grafico della dipendenza dei residui casuali ei dai fattori inclusi nella regressione xj.

Se i residui sul grafico si trovano sotto forma di una striscia orizzontale, allora sono indipendenti dai valori di xj. Se il grafico mostra la presenza di una relazione tra ei e xj, allora il modello è inadeguato. Le ragioni dell’inadeguatezza possono essere diverse. È possibile che la terza premessa di OLS sia violata e che la dispersione dei residui non sia costante per ciascun valore del fattore xj. Le specifiche del modello potrebbero essere errate e devono essere inserite

termini aggiuntivi da xj, ad esempio . L'accumulo di punti in determinate aree dei valori del fattore xj indica la presenza di un errore sistematico nel modello.

L'assunzione della distribuzione normale dei residui consente di testare i parametri di regressione e di correlazione utilizzando i test F e t. Allo stesso tempo, le stime di regressione trovate utilizzando OLS hanno buone proprietà anche in assenza di una distribuzione normale dei residui, vale a dire se viene violata la quinta premessa della MNC.

È assolutamente necessario ottenere stime coerenti dei parametri di regressione utilizzando OLS se si rispetta il terzo e il quarto prerequisito.

La terza premessa di OLS richiede che la varianza dei residui sia omoschedastico. Ciò significa che per ogni valore del fattore xj i residui ei hanno la stessa varianza. Se questa condizione per applicare il metodo dei minimi quadrati non è soddisfatta, allora eteroschedasticità. La presenza di eteroschedasticità può essere vista chiaramente dal campo di correlazione:

1. La varianza dei residui aumenta all'aumentare di x.

Allora abbiamo il seguente tipo di eteroschedasticità: grande varianza di ei per grandi valori

2. La varianza dei residui raggiunge il suo valore massimo ai valori medi di x e diminuisce ai valori minimo e massimo.

Allora abbiamo il seguente tipo di eteroschedasticità: grande dispersione ei per valori medi, e piccola dispersione ei per valori piccoli e grandi

3. La varianza dei residui è massima a piccoli valori di x e la varianza dei residui è uniforme all'aumentare di x.

Allora abbiamo il seguente tipo di eteroschedasticità: grande dispersione ei per piccoli valori, dispersione decrescente dei residui ei come

Quando si costruiscono modelli di regressione, è estremamente importante rispettare la quarta premessa di OLS: l'assenza di autocorrelazione dei residui, ovvero i valori dei residui ei sono distribuiti indipendentemente l'uno dall'altro.

Per autocorrelazione dei residui si intende la presenza di una correlazione tra i residui delle osservazioni attuali e quelle precedenti (successive). Il coefficiente di correlazione tra ei ed ej, dove ei sono i residui delle osservazioni attuali, ej sono i residui delle osservazioni precedenti (ad esempio, j=i-1), può essere definito come:

cioè secondo la formula usuale per il coefficiente di correlazione lineare. Se questo coefficiente risulta significativamente diverso da zero, allora i residui sono autocorrelati e la funzione di densità di probabilità F(e) dipende da j -esimo punto di osservazione e dalla distribuzione dei valori residui in altri punti di osservazione.

L'assenza di autocorrelazione dei valori residui garantisce la coerenza e l'efficienza delle stime dei coefficienti di regressione. È particolarmente importante rispettare questa premessa di OLS quando si costruiscono modelli di regressione basati su serie temporali, dove, a causa della presenza di un trend, i livelli successivi delle serie temporali, di regola, dipendono dai loro livelli precedenti.

Se le ipotesi di base dell’OLS non sono soddisfatte, è necessario aggiustare il modello, modificandone la specificazione, aggiungendo (escludendo) alcuni fattori, trasformando i dati originali in modo da ottenere stime di coefficienti di regressione che abbiano la proprietà di essere imparziali, abbiano un valore inferiore della dispersione dei residui e quindi fornire una verifica statistica più efficace della significatività dei parametri di regressione.

Per stimare i parametri di un'equazione di regressione, viene spesso utilizzato il metodo dei minimi quadrati. (MNC).

Metodo dei minimi quadrati produce stime che hanno la varianza più piccola nella classe di tutte le stime lineari se vengono soddisfatte le ipotesi di un modello di regressione lineare normale.

LSM minimizza la somma dei quadrati delle deviazioni dei valori osservati rispetto ai valori del modello .

Secondo il principio dei minimi quadrati, le stime si ottengono minimizzando la somma dei quadrati

per tutti i valori possibili E a valori dati (osservati).
.

Come risultato dell'applicazione del metodo dei minimi quadrati, otteniamo formule per il calcolo dei parametri del modello di regressione accoppiata.

(3)

Una tale soluzione può esistere solo se la condizione è soddisfatta

che equivale alla differenza da zero del determinante del sistema di equazioni normali. In effetti, questo determinante è uguale a

L'ultima condizione è chiamata condizione di identificabilità modello di osservazione e significa che non tutti i valori
coincidono tra loro. Se questa condizione viene violata Tutto punti
, giacciono sulla stessa linea verticale

Si chiamano preventivi stime dei minimi quadrati . Prestiamo attenzione all'espressione risultante per il parametro. Questa espressione include le somme dei quadrati precedentemente coinvolti nella determinazione della varianza campionaria

e covarianza del campione
quindi, in questi termini il parametro possono essere ottenuti come segue:

=
=
=

=

Valutare la qualità dell'equazione di regressione

La qualità di un modello di regressione è associata all'adeguatezza del modello ai dati (empirici) osservati. L'adeguatezza (o corrispondenza) del modello di regressione ai dati osservati viene verificata sulla base dell'analisi dei residui.

Dopo aver costruito l'equazione di regressione, possiamo dividere il valore Y in ciascuna osservazione in due componenti: E .

Resto rappresenta la deviazione del valore effettivo della variabile dipendente dal valore di questa variabile, ottenuto mediante il calcolo:
(
).

In pratica, di regola, c'è una certa dispersione dei punti del campo di correlazione rispetto alla linea di regressione teorica, cioè deviazioni dei dati empirici da quelli teorici (
). L'entità di queste deviazioni costituisce la base per il calcolo degli indicatori di qualità (adeguatezza) dell'equazione.

Quando si analizza la qualità di un modello di regressione, viene utilizzata la posizione base dell'analisi della varianza, secondo la quale la somma totale delle deviazioni quadrate della variabile dipendente dal valore medio può essere scomposto in due componenti - spiegate e non spiegate dall'equazione di regressione della varianza:

(4)

Dove - valori , calcolato dal modello
.

Dividere le parti destra e sinistra (4) in

,

.

Coefficiente di determinazione è definito come segue:

Coefficiente di determinazione mostra la proporzione della variazione nella caratteristica risultante che è influenzata dai fattori studiati, cioè determina quale proporzione della variazione della caratteristica Y viene presa in considerazione nel modello ed è dovuta all'influenza dei fattori su di esso.

Il più vicino
a 1, maggiore è la qualità del modello.

Per valutare la qualità dei modelli di regressione, è consigliabile utilizzare anche coefficiente di correlazione multipla (indice di correlazione) R

Questo coefficiente è universale, poiché riflette la vicinanza della relazione e l'accuratezza del modello, e può essere utilizzato anche per qualsiasi forma di connessione tra variabili.

Quando si costruisce un modello a un fattore, è uguale al coefficiente di correlazione lineare
.

Ovviamente, minore è l’influenza dei fattori non contabilizzati, migliore è la corrispondenza del modello con i dati reali.

Inoltre, per valutare la qualità dei modelli di regressione, è consigliabile utilizzare l’errore medio di approssimazione:


Minore è la dispersione dei punti empirici attorno alla retta di regressione teorica, minore è l'errore di approssimazione medio. Un errore di approssimazione inferiore al 7% indica una buona qualità del modello.

Dopo aver costruito l'equazione di regressione, viene controllato il significato dell'equazione costruita nel suo insieme e i singoli parametri.

Valutare la significatività di un'equazione di regressione significa stabilire se il modello matematico che esprime la relazione tra Y e X corrisponde ai dati reali e se le variabili esplicative X incluse nell'equazione sono sufficienti a descrivere la variabile dipendente Y

La valutazione del significato di un'equazione di regressione viene effettuata per scoprire se l'equazione di regressione è adatta per l'uso pratico (ad esempio, per la previsione) o meno. Allo stesso tempo, viene avanzata l'ipotesi principale sull'insignificanza dell'equazione nel suo insieme, che formalmente si riduce all'ipotesi che i parametri di regressione siano uguali a zero o, che è lo stesso, che il coefficiente di determinazione sia uguale a zero:
. Un'ipotesi alternativa sul significato dell'equazione è l'ipotesi sulla disuguaglianza dei parametri di regressione a zero.

Per test di significatività del modello viene utilizzata la regressione Test F di Fisher , calcolato come rapporto tra la varianza della serie originaria e la varianza imparziale della componente residua. Se il valore calcolato con  1 = k e  2 = (n - k - 1) gradi di libertà, dove k è il numero di fattori inclusi nel modello, è maggiore del valore tabulato a un dato livello di significatività, allora il modello è considerato significativo.

Per un modello di regressione accoppiato:

COME misure di accuratezza viene utilizzata una stima imparziale della dispersione della componente residua, che è il rapporto tra la somma dei quadrati dei livelli della componente residua e il valore (n- k -1), dove k è il numero di fattori inclusi nella componente residua modello. La radice quadrata di questa quantità ( ) è chiamato errore standard :

D Per il modello di regressione accoppiato

CATEGORIE

ARTICOLI POPOLARI

2024 “kingad.ru” - esame ecografico di organi umani