Analisi dei dati con il metodo dei minimi quadrati. I minimi quadrati in Excel

Metodo dei minimi quadrati

Nella lezione finale dell'argomento, conosceremo l'applicazione più famosa FNP, che trova la più ampia applicazione in vari campi della scienza e della pratica. Può essere fisica, chimica, biologia, economia, sociologia, psicologia e così via. Per volontà del destino, ho spesso a che fare con l'economia, e quindi oggi ti organizzerò un biglietto per un paese fantastico chiamato Econometria=) … Come fai a non volerlo?! È molto buono lì - devi solo decidere! ...Ma quello che probabilmente vuoi sicuramente è imparare a risolvere i problemi minimi quadrati. E soprattutto i lettori diligenti impareranno a risolverli non solo in modo accurato, ma anche MOLTO VELOCE ;-) Ma prima affermazione generale del problema+ esempio correlato:

Lascia che gli indicatori siano studiati in alcune aree tematiche che hanno un'espressione quantitativa. Allo stesso tempo, ci sono tutte le ragioni per credere che l'indicatore dipenda dall'indicatore. Questa ipotesi può essere sia un'ipotesi scientifica che basata sul buon senso elementare. Lasciamo da parte la scienza, tuttavia, ed esploriamo aree più appetitose, vale a dire i negozi di alimentari. Denota con:

– spazio commerciale di un negozio di alimentari, mq,
- fatturato annuo di un negozio di alimentari, milioni di rubli.

È abbastanza chiaro che maggiore è l'area del negozio, maggiore è il suo fatturato nella maggior parte dei casi.

Supponiamo che dopo aver condotto osservazioni/esperimenti/calcoli/ballando con un tamburello, abbiamo a nostra disposizione dati numerici:

Con i negozi di alimentari, penso che tutto sia chiaro: - questa è l'area del 1° negozio, - il suo fatturato annuo, - l'area del 2° negozio, - il suo fatturato annuo, ecc. A proposito, non è affatto necessario avere accesso a materiali classificati: è possibile ottenere una valutazione abbastanza accurata del fatturato utilizzando statistica matematica. Tuttavia, non distrarti, il corso di spionaggio commerciale è già pagato =)

I dati tabulari possono anche essere scritti sotto forma di punti e rappresentati nel solito modo per noi. sistema cartesiano .

Rispondiamo a una domanda importante: quanti punti sono necessari per uno studio qualitativo?

Piu 'grande e', meglio 'e. Il set minimo ammissibile è composto da 5-6 punti. Inoltre, con una piccola quantità di dati, i risultati "anormali" non dovrebbero essere inclusi nel campione. Quindi, ad esempio, un piccolo negozio d'élite può aiutare ordini di grandezza più dei "loro colleghi", distorcendo così lo schema generale che deve essere trovato!



Se è abbastanza semplice, dobbiamo scegliere una funzione, orario che passa il più vicino possibile ai punti . Tale funzione viene chiamata approssimativo (approssimazione - approssimazione) o funzione teorica . In generale, qui appare immediatamente un ovvio "pretendente": un polinomio di alto grado, il cui grafico passa per TUTTI i punti. Ma questa opzione è complicata e spesso semplicemente errata. (perché il grafico si "avvolgerà" continuamente e rifletterà male la tendenza principale).

Pertanto, la funzione desiderata deve essere sufficientemente semplice e allo stesso tempo riflettere adeguatamente la dipendenza. Come puoi immaginare, viene chiamato uno dei metodi per trovare tali funzioni minimi quadrati. Innanzitutto, analizziamo la sua essenza in modo generale. Lascia che qualche funzione approssimi i dati sperimentali:


Come valutare l'accuratezza di questa approssimazione? Calcoliamo anche le differenze (deviazioni) tra i valori sperimentali e funzionali (studiamo il disegno). Il primo pensiero che viene in mente è di stimare quanto è grande la somma, ma il problema è che le differenze possono essere negative. (Per esempio, ) e le deviazioni a seguito di tale somma si annulleranno a vicenda. Pertanto, come stima dell'accuratezza dell'approssimazione, si suggerisce di prendere la somma moduli deviazioni:

o in forma piegata: (per chi non lo sapesse: è l'icona della somma, e - variabile ausiliaria - "contatore", che assume valori da 1 a ) .

Approssimando i punti sperimentali con diverse funzioni, otterremo valori diversi, ed è ovvio dove questa somma è inferiore - quella funzione è più accurata.

Tale metodo esiste e viene chiamato metodo del modulo minimo. Tuttavia, in pratica è diventato molto più diffuso. metodo dei minimi quadrati, in cui eventuali valori negativi vengono eliminati non dal modulo, ma dalla quadratura degli scostamenti:



, dopo di che gli sforzi sono diretti alla selezione di una funzione tale che la somma delle deviazioni al quadrato era il più piccolo possibile. In realtà, da qui il nome del metodo.

E ora torniamo a un altro punto importante: come notato sopra, la funzione selezionata dovrebbe essere abbastanza semplice, ma ci sono anche molte di queste funzioni: lineare , iperbolico , esponenziale , logaritmico , quadratico eccetera. E, naturalmente, qui vorrei subito "ridurre il campo di attività". Quale classe di funzioni scegliere per la ricerca? Tecnica primitiva ma efficace:

- Il modo più semplice per disegnare punti sul disegno e analizzarne la posizione. Se tendono ad essere in linea retta, allora dovresti cercare equazione di linea retta con valori ottimali e . In altre parole, il compito è trovare TALI coefficienti, in modo che la somma delle deviazioni al quadrato sia la più piccola.

Se i punti si trovano, ad esempio, lungo iperbole, allora è chiaro che la funzione lineare darà una scarsa approssimazione. In questo caso, stiamo cercando i coefficienti più "favorevoli" per l'equazione dell'iperbole, quelli che danno la somma minima dei quadrati .

Ora notate che in entrambi i casi stiamo parlando funzioni di due variabili, i cui argomenti sono opzioni di dipendenza cercate:

E in sostanza, dobbiamo risolvere un problema standard: trovare minimo di una funzione di due variabili.

Ricordiamo il nostro esempio: supponiamo che i punti "negozio" tendano a trovarsi in linea retta e ci siano tutte le ragioni per ritenere la presenza dipendenza lineare fatturato dell'area commerciale. Troviamo TALI coefficienti "a" e "be" in modo che la somma delle deviazioni al quadrato era il più piccolo. Tutto come al solito - prima derivate parziali del 1° ordine. Secondo regola di linearità puoi differenziare proprio sotto l'icona della somma:

Se vuoi utilizzare queste informazioni per un saggio o un corso, ti sarò molto grato per il collegamento nell'elenco delle fonti, non troverai calcoli così dettagliati da nessuna parte:

Facciamo un sistema standard:

Riduciamo ogni equazione di un "due" e, inoltre, "dividiamo" le somme:

Nota : analizza in modo indipendente il motivo per cui "a" e "be" possono essere rimossi dall'icona della somma. A proposito, formalmente questo può essere fatto con la somma

Riscriviamo il sistema in una forma "applicata":

dopo di che inizia a disegnare l'algoritmo per risolvere il nostro problema:

Conosciamo le coordinate dei punti? Sappiamo. Somme possiamo trovare? Facilmente. Componiamo il più semplice sistema di due equazioni lineari con due incognite("a" e "beh"). Risolviamo il sistema, ad esempio Il metodo di Cramer, risultando in un punto stazionario. Controllo condizione sufficiente per un estremo, possiamo verificare che a questo punto la funzione raggiunge con precisione minimo. La verifica è associata a calcoli aggiuntivi e quindi la lasceremo dietro le quinte. (se necessario, è possibile visualizzare la cornice mancantequi ) . Traiamo la conclusione finale:

Funzione il modo migliore (almeno rispetto a qualsiasi altra funzione lineare) avvicina i punti sperimentali . In parole povere, il suo grafico passa il più vicino possibile a questi punti. Nella tradizione econometria viene anche chiamata la funzione di approssimazione risultante equazione di regressione lineare accoppiata .

Il problema in esame è di grande importanza pratica. Nella situazione con il nostro esempio, l'equazione permette di prevedere che tipo di fatturato ("yig") sarà al negozio con l'uno o l'altro valore dell'area di vendita (l'uno o l'altro significato di "x"). Sì, la previsione risultante sarà solo una previsione, ma in molti casi risulterà essere abbastanza accurata.

Analizzerò solo un problema con i numeri "reali", poiché non ci sono difficoltà: tutti i calcoli sono a livello del curriculum scolastico nei gradi 7-8. Nel 95% dei casi, ti verrà chiesto di trovare solo una funzione lineare, ma alla fine dell'articolo mostrerò che non è più difficile trovare le equazioni per l'iperbole ottimale, l'esponente e alcune altre funzioni.

In effetti, resta da distribuire le chicche promesse, in modo da imparare a risolvere tali esempi non solo in modo accurato, ma anche rapido. Studiamo attentamente lo standard:

Un compito

Come risultato dello studio della relazione tra due indicatori, sono state ottenute le seguenti coppie di numeri:

Usando il metodo dei minimi quadrati, trova la funzione lineare che meglio approssima l'empirico (esperto) dati. Fare un disegno su cui, in un sistema di coordinate rettangolari cartesiane, tracciare punti sperimentali e un grafico della funzione di approssimazione . Trova la somma delle deviazioni al quadrato tra valori empirici e teorici. Scopri se la funzione è migliore (in termini di metodo dei minimi quadrati) punti sperimentali approssimativi.

Si noti che i valori "x" sono valori naturali, e questo ha un significato significativo caratteristico, di cui parlerò poco dopo; ma, ovviamente, possono essere frazionari. Inoltre, a seconda del contenuto di una particolare attività, entrambi i valori "X" e "G" possono essere completamente o parzialmente negativi. Bene, ci è stato assegnato un compito "senza volto" e lo iniziamo soluzione:

Troviamo i coefficienti della funzione ottima come soluzione del sistema:

Ai fini di una notazione più compatta, la variabile “counter” può essere omessa, poiché è già chiaro che la somma si effettua da 1 a .

È più conveniente calcolare gli importi richiesti in forma tabellare:


I calcoli possono essere eseguiti su un microcalcolatore, ma è molto meglio usare Excel, sia più veloce che senza errori; guarda un breve video:

Quindi, otteniamo quanto segue sistema:

Qui puoi moltiplicare la seconda equazione per 3 e sottrarre la 2a dalla 1a equazione termine per termine. Ma questa è fortuna: in pratica, i sistemi spesso non sono dotati e in questi casi si salva Il metodo di Cramer:
, quindi il sistema ha una soluzione unica.

Facciamo un controllo. Capisco che non voglio, ma perché saltare gli errori dove non puoi assolutamente perderli? Sostituisci la soluzione trovata nel lato sinistro di ciascuna equazione del sistema:

Si ottengono le parti giuste delle equazioni corrispondenti, il che significa che il sistema è risolto correttamente.

Pertanto, la funzione di approssimazione desiderata: – da tutte le funzioni lineari i dati sperimentali sono meglio approssimati da esso.

A differenza di dritto dipendenza del fatturato del negozio dalla sua area, la dipendenza trovata è inversione (principio "più - meno"), e questo fatto è subito rivelato dal negativo coefficiente angolare. Funzione ci informa che con un aumento di un determinato indicatore di 1 unità, il valore dell'indicatore dipendente diminuisce media di 0,65 unità. Come si suol dire, maggiore è il prezzo del grano saraceno, meno venduto.

Per tracciare la funzione di approssimazione, troviamo due dei suoi valori:

ed eseguire il disegno:

Viene chiamata la linea costruita linea di tendenza (vale a dire, una linea di tendenza lineare, ovvero nel caso generale una tendenza non è necessariamente una linea retta). Tutti conoscono l'espressione "essere di tendenza", e penso che questo termine non abbia bisogno di ulteriori commenti.

Calcola la somma delle deviazioni al quadrato tra valori empirici e teorici. Geometricamente, questa è la somma dei quadrati delle lunghezze dei segmenti "cremisi". (due dei quali sono così piccoli che non puoi nemmeno vederli).

Riassumiamo i calcoli in una tabella:


Possono essere ancora eseguiti manualmente, nel caso in cui fornirò un esempio per il 1° punto:

ma è molto più efficiente fare nel modo già noto:

Ripetiamo: qual è il significato del risultato? Da tutte le funzioni lineari funzione l'esponente è il più piccolo, cioè è la migliore approssimazione nella sua famiglia. E qui, tra l'altro, la domanda finale del problema non è casuale: e se la funzione esponenziale proposta approssimasse meglio i punti sperimentali?

Troviamo la somma corrispondente delle deviazioni al quadrato: per distinguerle, le designerò con la lettera "epsilon". La tecnica è esattamente la stessa:

E ancora per ogni calcolo del fuoco per il 1° punto:

In Excel, utilizziamo la funzione standard SCAD (La sintassi può essere trovata nella Guida di Excel).

Conclusione: , quindi la funzione esponenziale approssima i punti sperimentali peggio della retta .

Ma va notato qui che "peggio" è non significa ancora, che c'è. Ora ho costruito un grafico di questa funzione esponenziale e passa anche vicino ai punti - tanto che senza uno studio analitico è difficile dire quale funzione sia più precisa.

Questo completa la soluzione e torno alla questione dei valori naturali dell'argomento. In vari studi, di regola, economici o sociologici, mesi, anni o altri intervalli di tempo uguali sono numerati con "X" naturale. Si consideri, ad esempio, il seguente problema:

Abbiamo i seguenti dati sul fatturato al dettaglio del negozio per la prima metà dell'anno:

Utilizzando l'allineamento analitico in linea retta, trova il volume delle vendite per luglio.

Sì, nessun problema: numeriamo i mesi 1, 2, 3, 4, 5, 6 e utilizziamo il solito algoritmo, dal quale otteniamo un'equazione - l'unica cosa quando si tratta di tempo è solitamente la lettera "te " (anche se non è critico). L'equazione risultante mostra che nella prima metà dell'anno il fatturato è aumentato in media di 27,74 CU. al mese. Ottieni una previsione per luglio (mese #7): Unione Europea.

E compiti simili: l'oscurità è buia. Chi lo desidera può usufruire di un servizio aggiuntivo, ovvero il mio Calcolatrice Excel (versione demo), che il risolve il problema quasi istantaneamente! La versione funzionante del programma è disponibile in cambio o per pagamento simbolico.

Alla fine della lezione, una breve informazione su come trovare dipendenze di altri tipi. In realtà, non c'è niente di speciale da dire, poiché l'approccio fondamentale e l'algoritmo di soluzione rimangono gli stessi.

Assumiamo che la posizione dei punti sperimentali assomigli a un'iperbole. Quindi, per trovare i coefficienti della migliore iperbole, devi trovare il minimo della funzione: chi lo desidera può eseguire calcoli dettagliati e arrivare a un sistema simile:

Da un punto di vista tecnico formale è ottenuto dal sistema "lineare". (segniamolo con un asterisco) sostituendo "x" con . Bene, gli importi calcolare, dopodiché ai coefficienti ottimali "a" e "be" a mano.

Se ci sono tutte le ragioni per credere che i punti sono disposti lungo una curva logaritmica, quindi per cercare i valori ottimali e trovare il minimo della funzione . Formalmente, nel sistema (*) dovrebbe essere sostituito da:

Quando si calcola in Excel, utilizzare la funzione LN. Confesso che non sarà difficile per me creare calcolatrici per ciascuno dei casi in esame, ma sarà comunque meglio se "programmate" voi stessi i calcoli. Video tutorial per aiutare.

Con la dipendenza esponenziale, la situazione è leggermente più complicata. Per ridurre la questione al caso lineare, prendiamo il logaritmo della funzione e usiamo proprietà del logaritmo:

Ora, confrontando la funzione ottenuta con la funzione lineare , giungiamo alla conclusione che nel sistema (*) deve essere sostituito da , e - da . Per comodità indichiamo:

Si noti che il sistema è risolto rispetto a e , e quindi, dopo aver trovato le radici, non bisogna dimenticare di trovare il coefficiente stesso.

Per approssimare punti sperimentali parabola ottimale , dovrebbe essere trovato minimo di una funzione di tre variabili. Dopo aver eseguito le azioni standard, otteniamo il seguente "funzionamento" sistema:

Sì, certo, qui ci sono più importi, ma non ci sono difficoltà nell'utilizzo della tua applicazione preferita. E infine ti spiego come controllare velocemente usando Excel e costruire la linea di tendenza desiderata: crea un grafico a dispersione, seleziona uno qualsiasi dei punti con il mouse e fare clic con il pulsante destro del mouse sull'opzione di selezione "Aggiungi linea di tendenza". Quindi, seleziona il tipo di grafico e nella scheda "Opzioni" attivare l'opzione "Mostra equazione sul grafico". OK

Come sempre, voglio concludere l'articolo con una bella frase, e ho quasi digitato "Sii di tendenza!". Ma col tempo ha cambiato idea. E non perché sia ​​stereotipato. Non so come nessuno, ma non voglio seguire affatto la tendenza americana promossa e soprattutto europea =) Pertanto, auguro a ciascuno di voi di attenersi alla propria linea!

http://www.grandars.ru/student/vysshaya-matematika/metod-naimenshih-kvadratov.html

Il metodo dei minimi quadrati è uno dei più comuni e più sviluppati grazie al suo semplicità ed efficienza dei metodi per la stima dei parametri dei modelli econometrici lineari. Allo stesso tempo, è necessario prestare attenzione quando lo si utilizza, poiché i modelli costruiti utilizzando esso potrebbero non soddisfare una serie di requisiti per la qualità dei loro parametri e, di conseguenza, non riflettere "bene" i modelli di sviluppo del processo.

Consideriamo più in dettaglio la procedura per stimare i parametri di un modello econometrico lineare utilizzando il metodo dei minimi quadrati. Tale modello in forma generale può essere rappresentato dall'equazione (1.2):

y t = a 0 + a 1 x 1t +...+ a n x nt + ε t .

I dati iniziali quando si stimano i parametri a 0 , a 1 ,..., a n sono il vettore dei valori della variabile dipendente y= (y 1 , y 2 , ... , y T)" e la matrice di valori di variabili indipendenti

in cui la prima colonna, composta da uno, corrisponde al coefficiente del modello .

Il metodo dei minimi quadrati ha preso il nome in base al principio di base che le stime dei parametri ottenute sulla sua base dovrebbero soddisfare: la somma dei quadrati dell'errore del modello dovrebbe essere minima.

Esempi di risoluzione di problemi con il metodo dei minimi quadrati

Esempio 2.1. L'impresa commerciale ha una rete composta da 12 negozi, le cui informazioni sulle attività sono presentate nella tabella. 2.1.

Il management dell'azienda vorrebbe sapere in che modo l'entità del fatturato annuo dipende dallo spazio di vendita del punto vendita.

Tabella 2.1

Numero del negozio Fatturato annuo, milioni di rubli Area commerciale, migliaia di m 2
19,76 0,24
38,09 0,31
40,95 0,55
41,08 0,48
56,29 0,78
68,51 0,98
75,01 0,94
89,05 1,21
91,13 1,29
91,26 1,12
99,84 1,29
108,55 1,49

Soluzione dei minimi quadrati. Designiamo - il fatturato annuo del -esimo negozio, milioni di rubli; - area di vendita del esimo negozio, migliaia di m 2.

Fig.2.1. Grafico a dispersione per l'esempio 2.1

Determinare la forma della relazione funzionale tra le variabili e costruire un grafico a dispersione (Fig. 2.1).

Sulla base del diagramma a dispersione, possiamo concludere che il fatturato annuo dipende positivamente dall'area di vendita (cioè, y aumenterà con la crescita di ). La forma più appropriata di connessione funzionale è lineare.

Le informazioni per ulteriori calcoli sono presentate nella tabella. 2.2. Utilizzando il metodo dei minimi quadrati, stimiamo i parametri del modello econometrico lineare a un fattore

Tabella 2.2

t e t x 1t e t 2 x1t2 x 1 t y t
19,76 0,24 390,4576 0,0576 4,7424
38,09 0,31 1450,8481 0,0961 11,8079
40,95 0,55 1676,9025 0,3025 22,5225
41,08 0,48 1687,5664 0,2304 19,7184
56,29 0,78 3168,5641 0,6084 43,9062
68,51 0,98 4693,6201 0,9604 67,1398
75,01 0,94 5626,5001 0,8836 70,5094
89,05 1,21 7929,9025 1,4641 107,7505
91,13 1,29 8304,6769 1,6641 117,5577
91,26 1,12 8328,3876 1,2544 102,2112
99,84 1,29 9968,0256 1,6641 128,7936
108,55 1,49 11783,1025 2,2201 161,7395
S 819,52 10,68 65008,554 11,4058 858,3991
Media 68,29 0,89

In questo modo,

Pertanto, con un aumento dell'area commerciale di 1 mila m 2, a parità di altre condizioni, il fatturato medio annuo aumenta di 67,8871 milioni di rubli.

Esempio 2.2. La direzione dell'impresa ha notato che il fatturato annuo dipende non solo dall'area di vendita del negozio (vedi esempio 2.1), ma anche dal numero medio di visitatori. Le informazioni rilevanti sono presentate in tabella. 2.3.

Tabella 2.3

Soluzione. Denota: il numero medio di visitatori del esimo negozio al giorno, migliaia di persone.

Determinare la forma della relazione funzionale tra le variabili e costruire un grafico a dispersione (Fig. 2.2).

Sulla base del diagramma a dispersione, possiamo concludere che il fatturato annuo è correlato positivamente al numero medio di visitatori al giorno (ovvero, y aumenterà con la crescita di ). La forma della dipendenza funzionale è lineare.

Riso. 2.2. Grafico a dispersione per esempio 2.2

Tabella 2.4

t x 2t x 2t 2 yt x 2t x 1 t x 2 t
8,25 68,0625 163,02 1,98
10,24 104,8575 390,0416 3,1744
9,31 86,6761 381,2445 5,1205
11,01 121,2201 452,2908 5,2848
8,54 72,9316 480,7166 6,6612
7,51 56,4001 514,5101 7,3598
12,36 152,7696 927,1236 11,6184
10,81 116,8561 962,6305 13,0801
9,89 97,8121 901,2757 12,7581
13,72 188,2384 1252,0872 15,3664
12,27 150,5529 1225,0368 15,8283
13,92 193,7664 1511,016 20,7408
S 127,83 1410,44 9160,9934 118,9728
Media 10,65

In generale, è necessario determinare i parametri del modello econometrico a due fattori

y t \u003d a 0 + a 1 x 1t + a 2 x 2t + ε t

Le informazioni necessarie per ulteriori calcoli sono presentate nella tabella. 2.4.

Stimiamo i parametri di un modello econometrico lineare a due fattori utilizzando il metodo dei minimi quadrati.

In questo modo,

La valutazione del coefficiente = 61,6583 mostra che, a parità di condizioni, con un aumento dell'area di vendita di 1000 m 2, il fatturato annuo aumenterà in media di 61,6583 milioni di rubli.

La stima del coefficiente = 2,2748 mostra che, a parità di altre condizioni, con un aumento del numero medio di visitatori ogni mille persone. al giorno, il fatturato annuo aumenterà in media di 2,2748 milioni di rubli.

Esempio 2.3. Utilizzando le informazioni presentate nella tabella. 2.2 e 2.4, stimare il parametro di un modello econometrico a fattore singolo

dov'è il valore centrato del fatturato annuo del -esimo negozio, milioni di rubli; - valore centrato del numero medio giornaliero di visitatori del t-esimo negozio, migliaia di persone. (vedi esempi 2.1-2.2).

Soluzione. Ulteriori informazioni richieste per i calcoli sono presentate nella tabella. 2.5.

Tabella 2.5

-48,53 -2,40 5,7720 116,6013
-30,20 -0,41 0,1702 12,4589
-27,34 -1,34 1,8023 36,7084
-27,21 0,36 0,1278 -9,7288
-12,00 -2,11 4,4627 25,3570
0,22 -3,14 9,8753 -0,6809
6,72 1,71 2,9156 11,4687
20,76 0,16 0,0348 3,2992
22,84 -0,76 0,5814 -17,413
22,97 3,07 9,4096 70,4503
31,55 1,62 2,6163 51,0267
40,26 3,27 10,6766 131,5387
Somma 48,4344 431,0566

Usando la formula (2.35), otteniamo

In questo modo,

http://www.cleverstudents.ru/articles/mnk.html

Esempio.

Dati sperimentali sui valori delle variabili X e a sono riportati nella tabella.

Come risultato del loro allineamento, la funzione

Usando metodo dei minimi quadrati, approssima questi dati con una dipendenza lineare y=ascia+b(trova opzioni un e b). Scopri quale delle due linee è migliore (nel senso del metodo dei minimi quadrati) allinea i dati sperimentali. Fai un disegno.

Soluzione.

Nel nostro esempio n=5. Compiliamo la tabella per comodità di calcolare gli importi che sono inclusi nelle formule dei coefficienti richiesti.

I valori della quarta riga della tabella si ottengono moltiplicando i valori della 2a riga per i valori della 3a riga per ogni numero io.

I valori della quinta riga della tabella si ottengono quadrando i valori della 2a riga per ogni numero io.

I valori dell'ultima colonna della tabella sono le somme dei valori nelle righe.

Usiamo le formule del metodo dei minimi quadrati per trovare i coefficienti un e b. Sostituiamo in essi i valori corrispondenti dall'ultima colonna della tabella:

Di conseguenza, y=0,165x+2,184è la retta approssimata desiderata.

Resta da scoprire quale delle linee y=0,165x+2,184 o approssima meglio i dati originali, ovvero per effettuare una stima utilizzando il metodo dei minimi quadrati.

Prova.

In modo che quando trovato un e b funzione assume il valore più piccolo, è necessario che a questo punto la matrice della forma quadratica del differenziale del secondo ordine per la funzione era positivo definitivo. Mostriamolo.

Il differenziale del secondo ordine ha la forma:

Questo è

Pertanto, la matrice della forma quadratica ha la forma

e i valori degli elementi non dipendono un e b.

Dimostriamo che la matrice è definita positiva. Ciò richiede che gli angoli minori siano positivi.

Angolare minore di primo ordine . La disuguaglianza è rigorosa, poiché i punti

  • tutorial

introduzione

Sono un programmatore di computer. Ho fatto il salto più grande della mia carriera quando ho imparato a dire: "Non capisco nulla!" Ora non mi vergogno a dire al luminare della scienza che mi sta facendo una conferenza, che non capisco di cosa mi sta parlando, il luminare. Ed è molto difficile. Sì, è difficile e imbarazzante ammettere che non lo sai. A chi piace ammettere di non conoscere le basi di qualcosa-là. In virtù della mia professione, devo frequentare un gran numero di presentazioni e conferenze, dove, lo confesso, nella stragrande maggioranza dei casi ho sonno, perché non ci capisco niente. E non capisco perché l'enorme problema della situazione attuale della scienza risiede nella matematica. Presuppone che tutti gli studenti abbiano familiarità con assolutamente tutte le aree della matematica (il che è assurdo). Ammettere di non sapere cosa sia un derivato (che questo è un po' più tardi) è un peccato.

Ma ho imparato a dire che non so cosa sia la moltiplicazione. Sì, non so cosa sia una sottoalgebra su un'algebra di Lie. Sì, non so perché le equazioni di secondo grado sono necessarie nella vita. A proposito, se sei sicuro di saperlo, allora abbiamo qualcosa di cui parlare! La matematica è una serie di trucchi. I matematici cercano di confondere e intimidire il pubblico; dove non c'è confusione, né reputazione, né autorità. Sì, è prestigioso parlare nel linguaggio più astratto possibile, il che è di per sé una completa sciocchezza.

Sai cos'è un derivato? Molto probabilmente mi parlerai del limite della relazione di differenza. Nel primo anno di matematica all'Università statale di San Pietroburgo, Viktor Petrovich Khavin me definito derivata come coefficiente del primo termine della serie di Taylor della funzione nel punto (era una ginnastica separata per determinare la serie di Taylor senza derivate). Ho riso a lungo di questa definizione, fino a quando ho finalmente capito di cosa si trattava. La derivata non è altro che una semplice misura di quanto la funzione che stiamo differenziando è simile alla funzione y=x, y=x^2, y=x^3.

Ora ho l'onore di insegnare agli studenti che paura matematica. Se hai paura della matematica, stiamo arrivando. Non appena provi a leggere del testo e ti sembra che sia eccessivamente complicato, sappi che è scritto male. Sostengo che non esiste una sola area della matematica di cui non si possa parlare "sulle dita" senza perdere la precisione.

La sfida per il prossimo futuro: ho insegnato ai miei studenti a capire cos'è un controller lineare-quadratico. Non essere timido, spreca tre minuti della tua vita, segui il link. Se non capisci niente, allora stiamo arrivando. Anche io (un matematico-programmatore professionista) non capivo nulla. E ti assicuro, questo può essere risolto "sulle dita". Al momento non so di cosa si tratti, ma vi assicuro che sapremo capirlo.

Quindi, la prima lezione che darò ai miei studenti dopo che sono venuti incontro a me inorriditi con le parole che un controller lineare-quadratico è un terribile bug che non potrai mai padroneggiare nella tua vita è metodi dei minimi quadrati. Riesci a risolvere equazioni lineari? Se stai leggendo questo testo, molto probabilmente no.

Quindi, dati due punti (x0, y0), (x1, y1), ad esempio (1,1) e (3,2), il compito è trovare l'equazione di una retta passante per questi due punti:

illustrazione

Questa retta dovrebbe avere un'equazione come la seguente:

Qui alfa e beta ci sono sconosciuti, ma sono noti due punti di questa linea:

Puoi scrivere questa equazione in forma matriciale:

Qui dovremmo fare una digressione lirica: cos'è una matrice? Una matrice non è altro che un array bidimensionale. Questo è un modo per archiviare i dati, non dovrebbero essere dati più valori. Sta a noi come interpretare esattamente una determinata matrice. Periodicamente, lo interpreterò come una mappatura lineare, periodicamente come una forma quadratica e talvolta semplicemente come un insieme di vettori. Tutto questo sarà chiarito nel contesto.

Sostituiamo matrici specifiche con la loro rappresentazione simbolica:

Quindi (alfa, beta) può essere facilmente trovato:

Più precisamente per i nostri dati precedenti:

Il che porta alla seguente equazione di una retta passante per i punti (1,1) e (3,2):

Ok, qui è tutto chiaro. E troviamo l'equazione di una retta passante tre punti: (x0,y0), (x1,y1) e (x2,y2):

Oh-oh-oh, ma abbiamo tre equazioni per due incognite! Il matematico standard dirà che non c'è soluzione. Cosa dirà il programmatore? E prima riscriverà il precedente sistema di equazioni nella forma seguente:

Nel nostro caso, i vettori i, j, b sono tridimensionali, quindi (nel caso generale) non c'è soluzione per questo sistema. Qualsiasi vettore (alpha\*i + beta\*j) giace nel piano attraversato dai vettori (i, j). Se b non appartiene a questo piano, allora non c'è soluzione (l'uguaglianza nell'equazione non può essere raggiunta). Cosa fare? Cerchiamo un compromesso. Indichiamo con e(alfa, beta) come esattamente non abbiamo raggiunto l'uguaglianza:

E proveremo a ridurre al minimo questo errore:

Perché un quadrato?

Cerchiamo non solo il minimo della norma, ma anche il minimo del quadrato della norma. Come mai? Il punto minimo stesso coincide e il quadrato fornisce una funzione liscia (una funzione quadratica degli argomenti (alfa,beta)), mentre solo la lunghezza fornisce una funzione a forma di cono, non differenziabile nel punto minimo. Brr. Il quadrato è più conveniente.

Ovviamente, l'errore è ridotto al minimo quando il vettore e ortogonale al piano percorso dai vettori io e j.

Illustrazione

In altre parole: cerchiamo una retta tale che la somma delle lunghezze al quadrato delle distanze da tutti i punti a questa retta sia minima:

AGGIORNAMENTO: qui ho uno stipite, la distanza dalla linea va misurata in verticale, non in proiezione ortografica. Questo commentatore è corretto.

Illustrazione

In parole completamente diverse (accuratamente, mal formalizzato, ma dovrebbe essere chiaro sulle dita): prendiamo tutte le linee possibili tra tutte le coppie di punti e cerchiamo la linea media tra tutti:

Illustrazione

Un'altra spiegazione sulle dita: alleghiamo una molla tra tutti i punti dati (qui ne abbiamo tre) e la linea che stiamo cercando, e la linea dello stato di equilibrio è esattamente quella che stiamo cercando.

Minimo forma quadratica

Quindi, dato il vettore b e il piano attraversato dalle colonne vettori della matrice UN(in questo caso (x0,x1,x2) e (1,1,1)), cerchiamo un vettore e con un quadrato minimo di lunghezza. Ovviamente il minimo è raggiungibile solo per il vettore e, ortogonale al piano attraversato dalle colonne vettori della matrice UN:

In altre parole, stiamo cercando un vettore x=(alfa, beta) tale che:

Ti ricordo che questo vettore x=(alpha, beta) è il minimo della funzione quadratica ||e(alpha, beta)||^2:

Qui è utile ricordare che la matrice può essere interpretata così come la forma quadratica, ad esempio la matrice identità ((1,0),(0,1)) può essere interpretata come una funzione di x^2 + y ^2:

forma quadratica

Tutta questa ginnastica è nota come regressione lineare.

Equazione di Laplace con condizione al contorno di Dirichlet

Ora il vero problema più semplice: c'è una certa superficie triangolare, è necessario levigarla. Ad esempio, carichiamo il mio modello di viso:

Il commit originale è disponibile. Per ridurre al minimo le dipendenze esterne, ho preso il codice del mio renderer software, già su Habré. Per risolvere il sistema lineare, utilizzo OpenNL , è un ottimo risolutore, ma è molto difficile da installare: devi copiare due file (.h + .c) nella cartella del tuo progetto. Tutto il livellamento viene eseguito dal seguente codice:

Per (int d=0; d<3; d++) { nlNewContext(); nlSolverParameteri(NL_NB_VARIABLES, verts.size()); nlSolverParameteri(NL_LEAST_SQUARES, NL_TRUE); nlBegin(NL_SYSTEM); nlBegin(NL_MATRIX); for (int i=0; i<(int)verts.size(); i++) { nlBegin(NL_ROW); nlCoefficient(i, 1); nlRightHandSide(verts[i][d]); nlEnd(NL_ROW); } for (unsigned int i=0; i&faccia = facce[i]; per (int j=0; j<3; j++) { nlBegin(NL_ROW); nlCoefficient(face[ j ], 1); nlCoefficient(face[(j+1)%3], -1); nlEnd(NL_ROW); } } nlEnd(NL_MATRIX); nlEnd(NL_SYSTEM); nlSolve(); for (int i=0; i<(int)verts.size(); i++) { verts[i][d] = nlGetVariable(i); } }

Le coordinate X, Y e Z sono separabili, le smusso separatamente. Cioè, risolvo tre sistemi di equazioni lineari, ciascuno con tante variabili quanti sono i vertici del mio modello. Le prime n righe della matrice A ne hanno solo una per riga e le prime n righe del vettore b hanno le coordinate del modello originale. Cioè, mi lego a molla tra la nuova posizione del vertice e la vecchia posizione del vertice: le nuove non dovrebbero essere troppo lontane da quelle vecchie.

Tutte le righe successive della matrice A (faces.size()*3 = il numero di bordi di tutti i triangoli nella griglia) hanno un'occorrenza di 1 e un'occorrenza di -1, mentre il vettore b ha zero componenti opposte. Ciò significa che metto una molla su ciascun bordo della nostra mesh triangolare: tutti i bordi cercano di ottenere lo stesso vertice dei loro punti di inizio e fine.

Ancora una volta: tutti i vertici sono variabili, e non possono discostarsi molto dalla loro posizione originaria, ma allo stesso tempo cercano di diventare simili tra loro.

Ecco il risultato:

Andrebbe tutto bene, il modello è davvero levigato, ma si è allontanato dal suo bordo originale. Cambiamo un po' il codice:

Per (int i=0; i<(int)verts.size(); i++) { float scale = border[i] ? 1000: 1; nlBegin(NL_ROW); nlCoefficient(i, scale); nlRightHandSide(scale*verts[i][d]); nlEnd(NL_ROW); }

Nella nostra matrice A, per i vertici che si trovano sul bordo, non aggiungo una riga della categoria v_i = verts[i][d], ma 1000*v_i = 1000*verts[i][d]. Cosa cambia? E questo cambia la nostra forma quadratica dell'errore. Ora una singola deviazione dall'alto sul bordo non costerà un'unità, come prima, ma 1000 * 1000 unità. Cioè, abbiamo appeso una molla più forte sui vertici estremi, la soluzione preferisce allungarne altre più fortemente. Ecco il risultato:

Raddoppiamo la forza delle molle tra i vertici:
nlCoefficiente(faccia[ j ], 2); nlCoefficiente(faccia[(j+1)%3], -2);

È logico che la superficie sia diventata più liscia:

E ora anche cento volte più forte:

Che cos'è questo? Immagina di aver immerso un anello di filo metallico in acqua saponata. Di conseguenza, la pellicola di sapone risultante cercherà di avere la minor curvatura possibile, toccando lo stesso bordo: il nostro anello di filo metallico. Questo è esattamente ciò che abbiamo ottenuto fissando il bordo e chiedendo una superficie liscia all'interno. Congratulazioni, abbiamo appena risolto l'equazione di Laplace con le condizioni al contorno di Dirichlet. Sembra fantastico? Ma in realtà, un solo sistema di equazioni lineari da risolvere.

Equazione di Poisson

Prendiamo un altro bel nome.

Diciamo che ho un'immagine come questa:

Tutti sono bravi, ma la sedia non mi piace.

Ho tagliato l'immagine a metà:



E selezionerò una sedia con le mie mani:

Quindi trascinerò tutto ciò che è bianco nella maschera sul lato sinistro dell'immagine e allo stesso tempo dirò in tutta l'immagine che la differenza tra due pixel vicini dovrebbe essere uguale alla differenza tra due pixel vicini dell'immagine immagine a destra:

Per (int i=0; i

Ecco il risultato:

Codice e immagini sono disponibili

Metodo dei minimi quadrati (OLS, eng. Ordinary Least Squares, OLS)- un metodo matematico utilizzato per risolvere vari problemi, basato sulla minimizzazione della somma delle deviazioni al quadrato di alcune funzioni dalle variabili desiderate. Può essere utilizzato per "risolvere" sistemi di equazioni sovradeterminati (quando il numero di equazioni supera il numero di incognite), per trovare una soluzione nel caso di sistemi di equazioni ordinari (non sovradeterminati), per approssimare i valori dei punti di qualche funzione. L'OLS è uno dei metodi di base dell'analisi di regressione per la stima di parametri sconosciuti dei modelli di regressione da dati campione.

YouTube enciclopedico

    1 / 5

    ✪ Metodo dei minimi quadrati. Argomento

    ✪ Mitin I. V. - Elaborazione dei risultati del fisico. esperimento - Metodo dei minimi quadrati (Lezione 4)

    ✪ Minimi quadrati, lezione 1/2. Funzione lineare

    ✪ Econometria. Lezione 5. Metodo dei minimi quadrati

    ✪ Metodo dei minimi quadrati. Risposte

    Sottotitoli

Storia

Fino all'inizio del XIX secolo. gli scienziati non avevano determinate regole per risolvere un sistema di equazioni in cui il numero di incognite è inferiore al numero di equazioni; Fino a quel momento si utilizzavano metodi particolari, a seconda del tipo di equazioni e dell'ingegnosità dei calcolatori, e quindi calcolatori diversi, partendo dagli stessi dati osservativi, arrivavano a conclusioni diverse. Gauss (1795) è accreditato della prima applicazione del metodo e Legendre (1805) lo scoprì e lo pubblicò indipendentemente con il suo nome moderno (fr. Metodo dei moindres quarres). Laplace collegò il metodo con la teoria delle probabilità e il matematico americano Adrain (1808) ne considerò le applicazioni probabilistiche. Il metodo è diffuso e migliorato da ulteriori ricerche di Encke, Bessel, Hansen e altri.

L'essenza del metodo dei minimi quadrati

Permettere x (\ displaystyle x)- corredo n (\ displaystyle n) variabili sconosciute (parametri), f io (x) (\ displaystyle f_ (i) (x)), , m > n (\ displaystyle m> n)- insieme di funzioni da questo insieme di variabili. Il problema è scegliere tali valori x (\ displaystyle x) in modo che i valori di queste funzioni siano il più vicino possibile ad alcuni valori y io (\ displaystyle y_ (i)). In sostanza, si tratta della “soluzione” del sistema di equazioni sovradeterminato f io (x) = y io (\ displaystyle f_ (i) (x) = y_ (i)), io = 1 , ... , m (\ displaystyle i = 1, \ lpunti, m) nel senso indicato, la massima vicinanza delle parti sinistra e destra dell'impianto. L'essenza di LSM è scegliere come "misura di prossimità" la somma delle deviazioni al quadrato delle parti sinistra e destra | f io (x) − y io | (\ displaystyle |f_(i)(x)-y_(i)|). Pertanto, l'essenza del LSM può essere espressa come segue:

∑ io e io 2 = ∑ io (y io - f io (x)) 2 → min x (\ displaystyle \ sum _(i) e_(i)^(2)=\sum _(i)(y_(i)-f_( i)(x))^(2)\freccia destra \min _(x)).

Se il sistema di equazioni ha una soluzione, il minimo della somma dei quadrati sarà uguale a zero e le soluzioni esatte del sistema di equazioni possono essere trovate analiticamente o, ad esempio, con vari metodi di ottimizzazione numerica. Se il sistema è sovradeterminato, cioè, in parole povere, il numero di equazioni indipendenti è maggiore del numero di variabili sconosciute, allora il sistema non ha una soluzione esatta e il metodo dei minimi quadrati ci permette di trovare qualche vettore "ottimale" x (\ displaystyle x) nel senso della massima vicinanza dei vettori y (\ displaystyle y) e f (x) (\ displaystyle f (x)) o la massima prossimità del vettore di deviazione e (\ displaystyle e) a zero (la prossimità è intesa nel senso di distanza euclidea).

Esempio - sistema di equazioni lineari

In particolare, il metodo dei minimi quadrati può essere utilizzato per "risolvere" il sistema di equazioni lineari

A x = b (\ displaystyle Ax = b),

dove A (\ displaystyle A) matrice di dimensioni rettangolari m × n , m > n (\ displaystyle m \ volte n, m> n)(cioè il numero di righe della matrice A è maggiore del numero di variabili richieste).

Un tale sistema di equazioni generalmente non ha soluzione. Pertanto, questo sistema può essere "risolto" solo nel senso di scegliere un tale vettore x (\ displaystyle x) per ridurre al minimo la "distanza" tra i vettori A x (\ displaystyle Ax) e b (\ displaystyle b). Per fare ciò, puoi applicare il criterio di minimizzazione della somma delle differenze al quadrato delle parti sinistra e destra delle equazioni del sistema, ovvero (A x - b) T (A x - b) → min (\displaystyle (Ax-b)^(T)(Ax-b)\rightarrow \min). È facile dimostrare che la soluzione di questo problema di minimizzazione porta alla soluzione del seguente sistema di equazioni

A T A x = A T b ⇒ x = (A T A) - 1 A T b (\ displaystyle A ^ (T) Ax = A ^ (T) b \ Freccia destra x = (A ^ (T) A) ^ (-1) A ^ (T)b).

OLS nell'analisi di regressione (approssimazione dei dati)

Lascia che ci sia n (\ displaystyle n) valori di qualche variabile y (\ displaystyle y)(questo può essere il risultato di osservazioni, esperimenti, ecc.) e le variabili corrispondenti x (\ displaystyle x). La sfida è fare il rapporto tra y (\ displaystyle y) e x (\ displaystyle x) approssimato da qualche funzione nota fino ad alcuni parametri sconosciuti b (\ displaystyle b), ovvero trovare effettivamente i valori migliori dei parametri b (\ displaystyle b), approssimando al massimo i valori f (x , b) (\ displaystyle f (x, b)) ai valori effettivi y (\ displaystyle y). Ciò si riduce infatti al caso di "soluzione" di un sistema di equazioni sovradeterminato rispetto a b (\ displaystyle b):

F (x t , b) = y t , t = 1 , ... , n (\ displaystyle f (x_(t), b) = y_(t), t=1, \ ldots, n).

Nell'analisi di regressione, ed in particolare in econometria, vengono utilizzati modelli probabilistici della relazione tra variabili.

Y t = f (x t , b) + ε t (\ displaystyle y_ (t) = f (x_ (t), b) + \ varepsilon _ (t)),

dove ε t (\ displaystyle \ varepsilon _ (t))- così chiamato errori casuali Modelli.

Di conseguenza, le deviazioni dei valori osservati y (\ displaystyle y) dal modello f (x , b) (\ displaystyle f (x, b)) già assunto nel modello stesso. L'essenza di LSM (ordinario, classico) è trovare tali parametri b (\ displaystyle b), in cui la somma delle deviazioni al quadrato (errori, per i modelli di regressione sono spesso chiamati residui di regressione) e t (\ displaystyle e_ (t)) sarà minimo:

b ^ O L S = arg ⁡ min b R S S (b) (\ displaystyle (\ cappello (b)) _ (OLS) = \ arg \ min _ (b) RSS (b)),

dove RS S (\ displaystyle RSS)- Inglese. La somma residua dei quadrati è definita come:

R S S (b) = e T e = ∑ t = 1 n e t 2 = ∑ t = 1 n (y t - f (x t , b)) 2 (\displaystyle RSS(b)=e^(T)e=\sum _ (t=1)^(n)e_(t)^(2)=\somma _(t=1)^(n)(y_(t)-f(x_(t),b))^(2) ).

Nel caso generale, questo problema può essere risolto con metodi numerici di ottimizzazione (minimizzazione). In questo caso se ne parla minimi quadrati non lineari(NLS o NLLS - ing. Minimi quadrati non lineari). In molti casi è possibile ottenere una soluzione analitica. Per risolvere il problema di minimizzazione, è necessario trovare i punti stazionari della funzione RS S (b) (\ displaystyle RSS (b)), differenziandolo rispetto a parametri sconosciuti b (\ displaystyle b), uguagliando le derivate a zero e risolvendo il sistema di equazioni risultante:

∑ t = 1 n (y t - f (x t , b)) ∂ f (x t , b) ∂ b = 0 (\ displaystyle \ somma _ (t = 1) ^ (n) (y_ (t) -f (x_ (t),b))(\frac (\parziale f(x_(t),b))(\parziale b))=0).

LSM nel caso di regressione lineare

Sia lineare la dipendenza dalla regressione:

y t = ∑ j = 1 k b j x t j + ε = x t T b + ε t (\ displaystyle y_(t)=\sum _(j=1)^(k)b_(j)x_(tj)+\varepsilon =x_( t)^(T)b+\varepsilon _(t)).

Permettere yè il vettore colonna delle osservazioni della variabile spiegata, e X (\ displaystyle X)- questo è (n × k) (\ displaystyle ((n \ volte k)))- matrice di osservazioni di fattori (righe della matrice - vettori di valori di fattori in questa osservazione, per colonne - vettore di valori di questo fattore in tutte le osservazioni). La rappresentazione matriciale del modello lineare ha la forma:

y = Xb + ε (\ displaystyle y = Xb + \ varepsilon ).

Allora il vettore delle stime della variabile spiegata e il vettore dei residui di regressione saranno uguali a

y ^ = X b , e = y - y ^ = y - X b (\ displaystyle (\ cappello (y)) = Xb, \ quad e = y-(\ cappello (y)) = y-Xb).

di conseguenza, la somma dei quadrati dei residui di regressione sarà uguale a

R S S = e T e = (y - X b) T (y - X b) (\ displaystyle RSS=e^(T)e=(y-Xb)^(T)(y-Xb)).

Differenziare questa funzione rispetto al vettore dei parametri b (\ displaystyle b) e uguagliando le derivate a zero, otteniamo un sistema di equazioni (in forma matriciale):

(X T X) b = X T y (\ displaystyle (X ^ (T) X) b = X ^ (T) y).

Nella forma della matrice decifrata, questo sistema di equazioni si presenta così:

(∑ x t 1 2 ∑ x t 1 x t 2 ∑ x t 1 x t 3 … ∑ x t 1 x t k ∑ x t 2 x t 1 ∑ x t 2 2 ∑ x t 2 x t 3 … ∑ x t 2 x t k ∑ x t 3 x t 1 x ∑ x 2 ∑ x t 3 x t k ⋮ ⋮ ⋮ ⋱ ⋮ ∑ x t k x t 1 ∑ x t k x t 2 ∑ x t k x t 3… ∑ x t k 2) (b 1 b 2 b 3 ⋮ b k) = (∑ x t 1 y x t ∑ 3 y t ⋮ ∑ x t k y t), (\ displayStyle (\begin(pmatrix)\sum x_(t1)^(2)&\sum x_(t1)x_(t2)&\sum x_(t1)x_(t3)&\ldots &\sum x_(t1)x_( tk)\\\sum x_(t2)x_(t1)&\sum x_(t2)^(2)&\sum x_(t2)x_(t3)&\ldots &\ sum x_(t2)x_(tk) \\\somma x_(t3)x_(t1)&\somma x_(t3)x_(t2)&\somma x_(t3)^(2)&\lpunti &\somma x_ (t3)x_(tk)\\ \vdots &\vdots &\vdots &\ddots &\vdots \\\sum x_(tk)x_(t1)&\sum x_(tk)x_(t2)&\sum x_ (tk)x_(t3)&\ ldots &\sum x_(tk)^(2)\\\end(pmatrix))(\begin(pmatrix)b_(1)\\b_(2)\\b_(3 )\\\vdots \\b_( k)\\\end(pmatrix))=(\begin(pmatrix)\sum x_(t1)y_(t)\\\sum x_(t2)y_(t)\\ \sum x_(t3)y_(t )\\\vpunti \\\somma x_(tk)y_(t)\\\end(pmatrix))) dove tutte le somme vengono prese su tutti i valori ammissibili t (\ displaystyle t).

Se una costante è inclusa nel modello (come al solito), allora x t 1 = 1 (\ displaystyle x_(t1)=1) per tutti t (\ displaystyle t), quindi, nell'angolo in alto a sinistra della matrice del sistema di equazioni c'è il numero di osservazioni n (\ displaystyle n), e nei restanti elementi della prima riga e prima colonna - solo la somma dei valori delle variabili: ∑ x t j (\ displaystyle \ somma x_ (tj)) e il primo elemento del lato destro del sistema - ∑ y t (\ displaystyle \ somma y_ (t)).

La soluzione di questo sistema di equazioni fornisce la formula generale per le stime dei minimi quadrati per il modello lineare:

b ^ O L S = (X T X) - 1 X T y = (1 n X T X) - 1 1 n X T y = V x - 1 C x y (\ displaystyle (\ cappello (b)) _ (OLS) = (X ^ (T )X)^(-1)X^(T)y=\sinistra((\frac (1)(n))X^(T)X\destra)^(-1)(\frac (1)(n ))X^(T)y=V_(x)^(-1)C_(xy)).

A fini analitici risulta utile l'ultima rappresentazione di questa formula (nel sistema di equazioni, quando divise per n, al posto delle somme compaiono le medie aritmetiche). Se i dati nel modello di regressione centrato, quindi in questa rappresentazione la prima matrice ha il significato di una matrice di covarianza campionaria di fattori, e la seconda è il vettore di covarianze di fattori con una variabile dipendente. Se, inoltre, i dati sono anche normalizzato allo SKO (cioè, in definitiva standardizzato), quindi la prima matrice ha il significato della matrice di correlazione campionaria dei fattori, il secondo vettore - il vettore delle correlazioni campionarie dei fattori con la variabile dipendente.

Un'importante proprietà delle stime LLS per i modelli con una costante- la retta della regressione costruita passa per il baricentro dei dati campionari, ovvero l'uguaglianza è soddisfatta:

y ¯ = b 1 ^ + ∑ j = 2 k b ^ j X ¯ j (\ displaystyle (\ bar (y)) = (\ cappello (b_(1))) + \ sum _ (j = 2) ^ (k) (\cappello (b))_(j)(\bar (x))_(j)).

In particolare, nel caso estremo, quando l'unico regressore è una costante, troviamo che la stima OLS di un singolo parametro (la costante stessa) è uguale al valore medio della variabile spiegata. Cioè, la media aritmetica, nota per le sue buone proprietà dalle leggi dei grandi numeri, è anche una stima dei minimi quadrati: soddisfa il criterio per la somma minima delle deviazioni al quadrato da essa.

I casi speciali più semplici

Nel caso della regressione lineare a coppie y t = un + b x t + ε t (\ displaystyle y_(t)=a+bx_(t)+\varepsilon _(t)), quando viene stimata la dipendenza lineare di una variabile da un'altra, le formule di calcolo vengono semplificate (si può fare a meno dell'algebra matriciale). Il sistema di equazioni ha la forma:

(1 x ¯ x ¯ x 2 ¯) (un b) = (y ¯ x y ¯) (\ displaystyle (\begin(pmatrix)1&(\bar (x))\\(\bar (x))&(\bar (x^(2)))\\\end(pmatrix))(\begin(pmatrix)a\\b\\\end(pmatrix))=(\begin(pmatrix)(\bar (y))\\ (\overline(xy))\\\end(pmatrix))).

Da qui è facile trovare stime per i coefficienti:

( b ^ = Cov ⁡ (x , y) Var ⁡ (x) = X y ¯ - X ¯ y ¯ X 2 ¯ - X ¯ 2 , un ^ = y ¯ - b X ¯ . (\ displaystyle (\begin (casi) (\hat (b))=(\frac (\mathop (\textrm (Cov)) (x,y))(\mathop (\textrm (Var)) (x))))=(\frac ((\overline (xy))-(\bar (x))(\bar (y)))((\overline (x^(2)))-(\overline (x))^(2))),\\( \hat (a))=(\bar (y))-b(\bar (x)).\end(cases)))

Nonostante il fatto che, in generale, siano preferibili modelli con una costante, in alcuni casi è noto da considerazioni teoriche che la costante un (\ displaystyle a) dovrebbe essere uguale a zero. Ad esempio, in fisica, la relazione tra tensione e corrente ha la forma U = I ⋅ R (\ displaystyle U = I \ cpunto R); misurando tensione e corrente, è necessario stimare la resistenza. In questo caso si tratta di un modello y = b x (\ displaystyle y = bx). In questo caso, invece di un sistema di equazioni, abbiamo un'unica equazione

(∑ x t 2) b = ∑ x t y t (\ displaystyle \ sinistra (\ somma x_(t) ^ (2) \ destra) b = \ somma x_ (t) y_ (t)).

Pertanto, la formula per stimare un singolo coefficiente ha la forma

B ^ = ∑ t = 1 n x t y t ∑ t = 1 n x t 2 = x y ¯ x 2 ¯ (\displaystyle (\hat (b))=(\frac (\sum _(t=1)^(n)x_(t )y_(t))(\sum _(t=1)^(n)x_(t)^(2)))=(\frac (\overline (xy))(\overline (x^(2)) ))).

Il caso di un modello polinomiale

Se i dati sono adattati da una funzione di regressione polinomiale di una variabile f (x) = b 0 + ∑ io = 1 k b io x io (\ displaystyle f(x)=b_(0)+\sum \limits _(i=1)^(k)b_(i)x^(i)), quindi, percepire i gradi x io (\ displaystyle x ^ (i)) come fattori indipendenti per ciascuno io (\ displaystyle i)è possibile stimare i parametri del modello in base alla formula generale per la stima dei parametri del modello lineare. Per fare ciò, è sufficiente tenere conto nella formula generale che con una tale interpretazione x t io x t j = x t io x t j = x t io + j (\displaystyle x_(ti)x_(tj)=x_(t)^(i)x_(t)^(j)=x_(t)^(i+j)) e x t j y t = x t j y t (\ displaystyle x_(tj)y_(t)=x_(t)^(j)y_(t)). Pertanto, le equazioni matriciali in questo caso assumeranno la forma:

(n ∑ n x t ... ∑ n x t k ∑ n x t ∑ n x i 2 ... ∑ m x i k + 1 ⋮ ⋱ ⋮ ∑ ∑ n x t k ∑ n x t k + 1 ... ∑ n x t 2 k) [b 0 b 1 ⋮ b k] = [∑ n y t ∑ n x t y t ⋮ n x t k y t ] . (\ displaystyle (\begin(pmatrix)n&\sum \limits _(n)x_(t)&\ldots &\sum \limits _(n)x_(t)^(k)\\\sum \limits _( n)x_(t)&\sum \limits _(n)x_(i)^(2)&\ldots &\sum \limits _(m)x_(i)^(k+1)\\\vdots & \vdots &\ddots &\vdots \\\sum \limits _(n)x_(t)^(k)&\sum \limits _(n)x_(t)^(k+1)&\ldots &\ sum \limits _(n)x_(t)^(2k)\end(pmatrix))(\begin(bmatrix)b_(0)\\b_(1)\\\vdots \\b_(k)\end( bmatrix))=(\begin(bmatrix)\sum \limits _(n)y_(t)\\\sum \limits _(n)x_(t)y_(t)\\\vdots \\\sum \limits _(n)x_(t)^(k)y_(t)\end(bmatrice)).)

Proprietà statistiche delle stime OLS

Innanzitutto, notiamo che per i modelli lineari, le stime dei minimi quadrati sono stime lineari, come segue dalla formula precedente. Per l'imparzialità delle stime dei minimi quadrati, è necessario e sufficiente soddisfare la condizione più importante dell'analisi di regressione: l'aspettativa matematica di un errore casuale condizionato dai fattori deve essere uguale a zero. Tale condizione è soddisfatta, in particolare, se

  1. l'aspettativa matematica di errori casuali è zero, e
  2. i fattori e gli errori casuali sono valori indipendenti casuali .

La seconda condizione - la condizione dei fattori esogeni - è fondamentale. Se questa proprietà non è soddisfatta, allora possiamo presumere che quasi tutte le stime saranno estremamente insoddisfacenti: non saranno nemmeno coerenti (ovvero, anche una quantità molto grande di dati non consente di ottenere stime qualitative in questo caso). Nel caso classico, si fa un'ipotesi più forte sul determinismo dei fattori, in contrasto con un errore casuale, il che significa automaticamente che la condizione esogena è soddisfatta. Nel caso generale, per coerenza delle stime, è sufficiente soddisfare la condizione di esogeneità unitamente alla convergenza della matrice V x (\ displaystyle V_ (x)) a una matrice non degenerata quando la dimensione del campione aumenta all'infinito.

Affinché, oltre alla coerenza e all'imparzialità, le stime dei minimi quadrati (ordinari) siano anche efficaci (le migliori nella classe delle stime imparziali lineari), devono essere soddisfatte ulteriori proprietà di un errore casuale:

Queste ipotesi possono essere formulate per la matrice di covarianza del vettore degli errori casuali V (ε) = σ 2 io (\ displaystyle V (\ varepsilon) = \ sigma ^ (2) I).

Viene chiamato un modello lineare che soddisfa queste condizioni classico. Le stime OLS per la regressione lineare classica sono stime imparziali, coerenti e più efficienti nella classe di tutte le stime imparziali lineari (nella letteratura inglese, a volte viene utilizzata l'abbreviazione blu (Miglior stimatore lineare imparziale) è la migliore stima lineare imparziale; nella letteratura domestica viene citato più spesso il teorema di Gauss - Markov). Come è facile mostrare, la matrice di covarianza del vettore delle stime dei coefficienti sarà uguale a:

V (b ^ O L S) = σ 2 (X T X) - 1 (\ displaystyle V ((\ cappello (b)) _ (OLS)) = \ sigma ^ (2) (X ^ (T) X) ^ (-1 )).

Efficienza significa che questa matrice di covarianza è "minima" (qualsiasi combinazione lineare di coefficienti, e in particolare i coefficienti stessi, ha una varianza minima), ovvero, nella classe delle stime imparziali lineari, le stime OLS sono le migliori. Gli elementi diagonali di questa matrice - le varianze delle stime dei coefficienti - sono parametri importanti della qualità delle stime ottenute. Tuttavia, non è possibile calcolare la matrice di covarianza perché la varianza dell'errore casuale è sconosciuta. Si può dimostrare che la stima imparziale e coerente (per il modello lineare classico) della varianza degli errori casuali è il valore:

S 2 = R S S / (n - k) (\ displaystyle s ^ (2) = RSS / (n k)).

Sostituendo questo valore nella formula della matrice di covarianza, otteniamo una stima della matrice di covarianza. Anche le stime risultanti sono imparziali e coerenti. È anche importante che la stima della varianza dell'errore (e quindi le varianze dei coefficienti) e le stime dei parametri del modello siano variabili casuali indipendenti, il che rende possibile ottenere statistiche di test per testare ipotesi sui coefficienti del modello.

Va notato che se le ipotesi classiche non sono soddisfatte, le stime dei parametri dei minimi quadrati non sono le più efficienti e, dove W (\ displaystyle W)è una matrice di peso definita positiva simmetrica. I minimi quadrati ordinari sono un caso speciale di questo approccio, quando la matrice di peso è proporzionale alla matrice di identità. Come è noto, per matrici (o operatori) simmetriche c'è una scomposizione W = P T P (\ displaystyle W = P ^ (T) P). Pertanto, questo funzionale può essere rappresentato come segue e T P T P e = (P e) T P e = e ∗ T e ∗ (\ displaystyle e^(T)P^(T)Pe=(Pe)^(T)Pe=e_(*)^(T)e_( *)), cioè questo funzionale può essere rappresentato come la somma dei quadrati di alcuni "residui" trasformati. Pertanto, possiamo distinguere una classe di metodi dei minimi quadrati - metodi LS (Least Squares).

Si dimostra (teorema di Aitken) che per un modello di regressione lineare generalizzato (in cui non sono imposte restrizioni alla matrice di covarianza degli errori casuali), le più efficaci (nella classe delle stime imparziali lineari) sono le stime delle cosiddette. OLS generalizzato (OMNK, GLS - Minimi quadrati generalizzati)- Metodo LS con matrice di peso uguale alla matrice di covarianza inversa degli errori casuali: W = V ε - 1 (\ displaystyle W = V_ (\ varepsilon )^ (-1)).

Si può dimostrare che la formula per le stime GLS dei parametri del modello lineare ha la forma

B ^ G L S = (X T V - 1 X) - 1 X T V - 1 y (\ displaystyle (\ cappello (b)) _ (GLS) = (X ^ (T) V ^ (-1) X) ^ (-1) X^(T)V^(-1)y).

La matrice di covarianza di queste stime, rispettivamente, sarà uguale a

V (b ^ G L S) = (X T V - 1 X) - 1 (\ displaystyle V ((\ cappello (b)) _ (GLS)) = (X ^ (T) V ^ (-1) X) ^ (- uno)).

Infatti, l'essenza dell'OLS sta in una certa trasformazione (lineare) (P) dei dati originali e nell'applicazione dei soliti minimi quadrati ai dati trasformati. Lo scopo di questa trasformazione è che per i dati trasformati, gli errori casuali soddisfano già le ipotesi classiche.

Minimi quadrati ponderati

Nel caso di una matrice di peso diagonale (e quindi della matrice di covarianza degli errori casuali), abbiamo i cosiddetti minimi quadrati pesati (WLS - Weighted Least Squares). In questo caso, la somma pesata dei quadrati dei residui del modello è minimizzata, ovvero ogni osservazione riceve un “peso” che è inversamente proporzionale alla varianza dell'errore casuale in questa osservazione: e T W e = ∑ t = 1 n e t 2 σ t 2 (\displaystyle e^(T)We=\sum _(t=1)^(n)(\frac (e_(t)^(2))(\ sigma _(t)^(2)))). Infatti, i dati vengono trasformati ponderando le osservazioni (dividendo per un importo proporzionale alla deviazione standard ipotizzata degli errori casuali) e ai dati ponderati vengono applicati i minimi quadrati normali.

ISBN 978-5-7749-0473-0.

  • Econometria. Libro di testo / Ed. Eliseeva I. I. - 2a ed. - M.: Finanza e statistica, 2006. - 576 p. - ISBN 5-279-02786-3.
  • Alexandrova N.V. Storia dei termini matematici, concetti, designazioni: un dizionario-libro di consultazione. - 3a ed. - M.: LKI, 2008. - 248 p. - ISBN 978-5-382-00839-4. IV Mitin, Rusakov V.S. Analisi ed elaborazione dei dati sperimentali - 5a edizione - 24p.
  • Approssimiamo la funzione con un polinomio di 2° grado. Per fare ciò, calcoliamo i coefficienti del normale sistema di equazioni:

    , ,

    Componiamo un normale sistema di minimi quadrati, che ha la forma:

    La soluzione del sistema è facile da trovare:, , .

    Si trova quindi il polinomio di 2° grado: .

    Background teorico

    Torna a pagina<Введение в вычислительную математику. Примеры>

    Esempio 2. Trovare il grado ottimo di un polinomio.

    Torna a pagina<Введение в вычислительную математику. Примеры>

    Esempio 3. Derivazione di un normale sistema di equazioni per trovare i parametri di una dipendenza empirica.

    Desumiamo un sistema di equazioni per determinare i coefficienti e le funzioni , che esegue l'approssimazione della radice quadrata della funzione data rispetto ai punti. Componi una funzione e scrivi la condizione estrema necessaria per esso:

    Quindi il sistema normale assumerà la forma:

    Abbiamo ottenuto un sistema lineare di equazioni per parametri sconosciuti e facilmente risolvibile.

    Background teorico

    Torna a pagina<Введение в вычислительную математику. Примеры>

    Esempio.

    Dati sperimentali sui valori delle variabili X e a sono riportati nella tabella.

    Come risultato del loro allineamento, la funzione

    Usando metodo dei minimi quadrati, approssima questi dati con una dipendenza lineare y=ascia+b(trova opzioni un e b). Scopri quale delle due linee è migliore (nel senso del metodo dei minimi quadrati) allinea i dati sperimentali. Fai un disegno.

    L'essenza del metodo dei minimi quadrati (LSM).

    Il problema è trovare i coefficienti di dipendenza lineare per i quali la funzione di due variabili un e bassume il valore più piccolo. Cioè, dati i dati un e b la somma delle deviazioni al quadrato dei dati sperimentali dalla retta trovata sarà la più piccola. Questo è il punto centrale del metodo dei minimi quadrati.

    Pertanto, la soluzione dell'esempio si riduce a trovare l'estremo di una funzione di due variabili.

    Derivazione di formule per il calcolo dei coefficienti.

    Viene compilato e risolto un sistema di due equazioni con due incognite. Trovare derivate parziali di funzioni per variabili un e b, uguagliamo queste derivate a zero.

    Risolviamo il sistema di equazioni risultante con qualsiasi metodo (ad esempio metodo di sostituzione o il metodo di Cramer) e ottenere formule per trovare i coefficienti utilizzando il metodo dei minimi quadrati (LSM).

    Con i dati un e b funzione assume il valore più piccolo. La prova di questo fatto è data di seguito nel testo a fine pagina.

    Questo è l'intero metodo dei minimi quadrati. Formula per trovare il parametro un contiene le somme , , , e il parametro nè la quantità di dati sperimentali. Si consiglia di calcolare separatamente i valori di queste somme.

    Coefficiente b trovato dopo il calcolo un.

    È tempo di ricordare l'esempio originale.

    Soluzione.

    Nel nostro esempio n=5. Compiliamo la tabella per comodità di calcolare gli importi che sono inclusi nelle formule dei coefficienti richiesti.

    I valori della quarta riga della tabella si ottengono moltiplicando i valori della 2a riga per i valori della 3a riga per ogni numero io.

    I valori della quinta riga della tabella si ottengono quadrando i valori della 2a riga per ogni numero io.

    I valori dell'ultima colonna della tabella sono le somme dei valori nelle righe.

    Usiamo le formule del metodo dei minimi quadrati per trovare i coefficienti un e b. Sostituiamo in essi i valori corrispondenti dall'ultima colonna della tabella:

    Di conseguenza, y=0,165x+2,184è la retta approssimata desiderata.

    Resta da scoprire quale delle linee y=0,165x+2,184 o approssima meglio i dati originali, ovvero per effettuare una stima utilizzando il metodo dei minimi quadrati.

    Stima dell'errore del metodo dei minimi quadrati.

    Per fare ciò, è necessario calcolare la somma delle deviazioni quadrate dei dati originali da queste linee e , un valore più piccolo corrisponde a una linea che approssima meglio i dati originali in termini di metodo dei minimi quadrati.

    Dal , quindi la linea y=0,165x+2,184 approssima meglio i dati originali.

    Illustrazione grafica del metodo dei minimi quadrati (LSM).

    Tutto sembra fantastico nelle classifiche. La linea rossa è la linea trovata y=0,165x+2,184, la linea blu è , i punti rosa sono i dati originali.

    A cosa serve, a cosa servono tutte queste approssimazioni?

    Io personalmente lo utilizzo per risolvere problemi di data smoothing, interpolazione ed estrapolazione (nell'esempio originale, ti potrebbe essere chiesto di trovare il valore del valore osservato y a x=3 o quando x=6 secondo il metodo MNC). Ma di questo parleremo più avanti in un'altra sezione del sito.

    Inizio pagina

    Prova.

    In modo che quando trovato un e b funzione assume il valore più piccolo, è necessario che a questo punto la matrice della forma quadratica del differenziale del secondo ordine per la funzione era positivo definitivo. Mostriamolo.

    Il differenziale del secondo ordine ha la forma:

    Questo è

    Pertanto, la matrice della forma quadratica ha la forma

    e i valori degli elementi non dipendono un e b.

    Dimostriamo che la matrice è definita positiva. Ciò richiede che gli angoli minori siano positivi.

    Angolare minore di primo ordine . La disuguaglianza è rigorosa, poiché i punti non coincidono. Ciò sarà implicito in quanto segue.

    Angolare minore di secondo ordine

    Dimostriamolo metodo di induzione matematica.

    Conclusione: valori trovati un e b corrispondono al valore più piccolo della funzione , pertanto, sono i parametri desiderati per il metodo dei minimi quadrati.

    Hai mai capito?
    Ordina una soluzione

    Inizio pagina

    Sviluppo di una previsione con il metodo dei minimi quadrati. Esempio di soluzione del problema

    Estrapolazione — questo è un metodo di ricerca scientifica, che si basa sulla diffusione di tendenze, modelli, relazioni passate e presenti con lo sviluppo futuro dell'oggetto di previsione. I metodi di estrapolazione includono metodo della media mobile, metodo di smoothing esponenziale, metodo dei minimi quadrati.

    Essenza metodo dei minimi quadrati consiste nel minimizzare la somma delle deviazioni quadrate tra i valori osservati e calcolati. I valori calcolati si trovano in base all'equazione selezionata: l'equazione di regressione. Minore è la distanza tra i valori effettivi e quelli calcolati, più accurata sarà la previsione basata sull'equazione di regressione.

    L'analisi teorica dell'essenza del fenomeno in esame, il cui cambiamento è rappresentato da una serie temporale, funge da base per la scelta di una curva. A volte vengono prese in considerazione considerazioni sulla natura della crescita dei livelli delle serie. Quindi, se la crescita della produzione è prevista in una progressione aritmetica, lo smoothing viene eseguito in linea retta. Se risulta che la crescita è esponenziale, il livellamento dovrebbe essere eseguito in base alla funzione esponenziale.

    La formula di lavoro del metodo dei minimi quadrati : Y t+1 = a*X + b, dove t + 1 è il periodo di previsione; Уt+1 – indicatore previsto; aeb sono coefficienti; X è un simbolo del tempo.

    I coefficienti a e b sono calcolati secondo le seguenti formule:

    dove, Uf - i valori effettivi della serie di dinamiche; n è il numero di livelli nella serie storica;

    Il livellamento delle serie temporali con il metodo dei minimi quadrati serve a riflettere i modelli di sviluppo del fenomeno in esame. Nell'espressione analitica di una tendenza, il tempo è considerato una variabile indipendente ei livelli della serie agiscono in funzione di questa variabile indipendente.

    Lo sviluppo di un fenomeno non dipende da quanti anni sono trascorsi dal punto di partenza, ma da quali fattori ne hanno influenzato lo sviluppo, in quale direzione e con quale intensità. Da ciò risulta chiaro che lo sviluppo di un fenomeno nel tempo appare come risultato dell'azione di questi fattori.

    Impostando correttamente il tipo di curva, il tipo di dipendenza analitica dal tempo è uno dei compiti più difficili dell'analisi predittiva. .

    La scelta del tipo di funzione che descrive l'andamento, i cui parametri sono determinati con il metodo dei minimi quadrati, è nella maggior parte dei casi empirica, costruendo più funzioni e confrontandole tra loro in funzione del valore della radice -errore quadratico medio, calcolato con la formula:

    dove Uf - i valori effettivi della serie di dinamiche; Ur – valori calcolati (smussati) delle serie temporali; n è il numero di livelli nella serie storica; p è il numero di parametri definiti nelle formule che descrivono l'andamento (andamento dello sviluppo).

    Svantaggi del metodo dei minimi quadrati :

    • quando si cerca di descrivere il fenomeno economico in esame utilizzando un'equazione matematica, la previsione sarà accurata per un breve periodo di tempo e l'equazione di regressione dovrebbe essere ricalcolata non appena saranno disponibili nuove informazioni;
    • la complessità della selezione dell'equazione di regressione, che è risolvibile utilizzando programmi per computer standard.

    Un esempio di utilizzo del metodo dei minimi quadrati per sviluppare una previsione

    Un compito . Ci sono dati che caratterizzano il livello di disoccupazione nella regione, %

    • Costruire una previsione del tasso di disoccupazione nella regione per i mesi di novembre, dicembre, gennaio, utilizzando i metodi: media mobile, smoothing esponenziale, minimi quadrati.
    • Calcolare gli errori nelle previsioni risultanti utilizzando ciascun metodo.
    • Confronta i risultati ottenuti, trai conclusioni.

    Soluzione dei minimi quadrati

    Per la soluzione, compileremo una tabella in cui faremo i calcoli necessari:

    ε = 28,63/10 = 2,86% accuratezza delle previsioni alto.

    Conclusione : Confrontando i risultati ottenuti nei calcoli metodo della media mobile , livellamento esponenziale e il metodo dei minimi quadrati, possiamo dire che l'errore relativo medio nei calcoli con il metodo di smoothing esponenziale rientra nel 20-50%. Ciò significa che l'accuratezza della previsione in questo caso è solo soddisfacente.

    Nel primo e nel terzo caso, l'accuratezza della previsione è elevata, poiché l'errore relativo medio è inferiore al 10%. Ma il metodo della media mobile ha permesso di ottenere risultati più affidabili (previsione per novembre - 1,52%, previsione per dicembre - 1,53%, previsione per gennaio - 1,49%), poiché l'errore relativo medio quando si utilizza questo metodo è il più piccolo - 1 ,13%.

    Metodo dei minimi quadrati

    Altri articoli correlati:

    Elenco delle fonti utilizzate

    1. Raccomandazioni scientifiche e metodologiche sui problemi della diagnosi dei rischi sociali e della previsione di sfide, minacce e conseguenze sociali. Università Sociale Statale Russa. Mosca. 2010;
    2. Vladimirova L.P. Previsione e pianificazione a condizioni di mercato: Proc. indennità. M.: Casa editrice "Dashkov and Co", 2001;
    3. Novikova N.V., Pozdeeva O.G. Previsione dell'economia nazionale: guida didattica e metodologica. Ekaterinburg: casa editrice Ural. stato economia università, 2007;
    4. Slutskin L.N. Corso MBA in Business Forecasting. Mosca: Alpina Business Books, 2006.

    Programma MNE

    Inserisci i dati

    Dati e approssimazione y = a + b x

    io- numero del punto sperimentale;
    x io- il valore del parametro fisso nel punto io;
    si io- il valore del parametro misurato nel punto io;
    ω io- misurazione del peso al punto io;
    si io, calc.- la differenza tra il valore misurato e il valore calcolato dalla regressione y al punto io;
    S x i (x i)- stima dell'errore x io durante la misurazione y al punto io.

    Dati e approssimazione y = k x

    io x io si io ω io si io, calc. Sì io S x i (x i)

    Fare clic sul grafico

    Manuale d'uso del programma online MNC.

    Nel campo dati, inserisci su ogni riga separata i valori di `x` e `y` in un punto sperimentale. I valori devono essere separati da spazi bianchi (spazio o tabulazione).

    Il terzo valore può essere il peso in punti di `w`. Se il peso in punti non è specificato, allora è uguale a uno. Nella stragrande maggioranza dei casi, i pesi dei punti sperimentali sono sconosciuti o non calcolati; tutti i dati sperimentali sono considerati equivalenti. A volte i pesi nell'intervallo di valori studiato non sono sicuramente equivalenti e possono essere calcolati anche teoricamente. Ad esempio, in spettrofotometria, i pesi possono essere calcolati utilizzando semplici formule, anche se praticamente tutti trascurano questo per ridurre i costi di manodopera.

    I dati possono essere incollati tramite gli appunti da un foglio di calcolo dell'ufficio come Excel da Microsoft Office o Calc da Open Office. Per fare ciò, seleziona l'intervallo di dati da copiare nel foglio di calcolo, copialo negli appunti e incolla i dati nel campo dati in questa pagina.

    Per calcolare con il metodo dei minimi quadrati, sono necessari almeno due punti per determinare due coefficienti `b` - la tangente dell'angolo di inclinazione della retta e `a` - il valore tagliato dalla retta sulla `y ` asse.

    Per stimare l'errore dei coefficienti di regressione calcolati, è necessario impostare il numero di punti sperimentali a più di due.

    Metodo dei minimi quadrati (LSM).

    Maggiore è il numero di punti sperimentali, più accurata è la stima statistica dei coefficienti (a causa della diminuzione del coefficiente di Student) e più vicina la stima alla stima del campione generale.

    L'ottenimento di valori in ogni punto sperimentale è spesso associato a costi di manodopera significativi, pertanto viene spesso eseguito un numero di esperimenti compromesso, che fornisce una stima digeribile e non comporta costi di manodopera eccessivi. Di norma, il numero di punti sperimentali per una dipendenza lineare dai minimi quadrati con due coefficienti viene scelto nella regione di 5-7 punti.

    Una breve teoria dei minimi quadrati per la dipendenza lineare

    Supponiamo di avere un insieme di dati sperimentali sotto forma di coppie di valori [`y_i`, `x_i`], dove `i` è il numero di una misura sperimentale da 1 a `n`; `y_i` - il valore del valore misurato nel punto `i`; `x_i` - il valore del parametro che abbiamo impostato nel punto `i`.

    Un esempio è il funzionamento della legge di Ohm. Modificando la tensione (differenza potenziale) tra le sezioni del circuito elettrico, misuriamo la quantità di corrente che passa attraverso questa sezione. La fisica ci fornisce la dipendenza trovata sperimentalmente:

    `I=U/R`,
    dove `I` - forza attuale; `R` - resistenza; `U` - tensione.

    In questo caso, `y_i` è il valore della corrente misurata e `x_i` è il valore della tensione.

    Come altro esempio, si consideri l'assorbimento della luce da parte di una soluzione di una sostanza in soluzione. La chimica ci dà la formula:

    `A = εl C`,
    dove `A` è la densità ottica della soluzione; `ε` - trasmittanza soluto; `l` - lunghezza del percorso quando la luce passa attraverso una cuvetta con una soluzione; `C` è la concentrazione del soluto.

    In questo caso, `y_i` è la densità ottica misurata `A` e `x_i` è la concentrazione della sostanza che abbiamo impostato.

    Considereremo il caso in cui l'errore relativo nell'impostazione di `x_i` è molto inferiore all'errore relativo nella misurazione di `y_i`. Assumeremo anche che tutti i valori misurati di `y_i` siano casuali e normalmente distribuiti, cioè obbedire alla normale legge di distribuzione.

    Nel caso di una dipendenza lineare di `y` da `x`, possiamo scrivere la dipendenza teorica:
    `y = a + bx`.

    Da un punto di vista geometrico, il coefficiente `b` denota la tangente della pendenza della linea all'asse `x` e il coefficiente `a` - il valore di `y` nel punto di intersezione della linea con il ` asse y` (con `x = 0`).

    Trovare i parametri della retta di regressione.

    In un esperimento, i valori misurati di `y_i` non possono trovarsi esattamente sulla linea teorica a causa di errori di misurazione, che sono sempre inerenti alla vita reale. Pertanto, un'equazione lineare deve essere rappresentata da un sistema di equazioni:
    `y_i = a + b x_i + ε_i` (1),
    dove `ε_i` è l'errore di misura sconosciuto di `y` nel `i`esimo esperimento.

    Viene anche chiamata dipendenza (1). regressione, cioè. la dipendenza di due grandezze l'una dall'altra con significatività statistica.

    Il compito di ripristinare la dipendenza è trovare i coefficienti `a` e `b` dai punti sperimentali [`y_i`, `x_i`].

    Per trovare i coefficienti si usa solitamente `a` e `b` metodo dei minimi quadrati(MNK). È un caso speciale del principio di massima verosimiglianza.

    Riscriviamo (1) come `ε_i = y_i - a - b x_i`.

    Quindi sarà la somma degli errori al quadrato
    `Φ = somma_(i=1)^(n) ε_i^2 = somma_(i=1)^(n) (y_i - a - b x_i)^2`. (2)

    Il principio del metodo dei minimi quadrati è di minimizzare la somma (2) rispetto ai parametri `a` e `b`.

    Il minimo si raggiunge quando le derivate parziali della somma (2) rispetto ai coefficienti `a` e `b` sono uguali a zero:
    `frac(parziale Φ)(parziale a) = frac(somma parziale_(i=1)^(n) (y_i - a - b x_i)^2)(a parziale) = 0`
    `frac(parziale Φ)(parziale b) = frac(somma parziale_(i=1)^(n) (y_i - a - b x_i)^2)(parziale b) = 0`

    Espandendo le derivate, otteniamo un sistema di due equazioni con due incognite:
    `somma_(i=1)^(n) (2a + 2bx_i - 2y_i) = somma_(i=1)^(n) (a + bx_i - y_i) = 0`
    `somma_(i=1)^(n) (2bx_i^2 + 2ax_i - 2x_iy_i) = somma_(i=1)^(n) (bx_i^2 + ax_i - x_iy_i) = 0`

    Apriamo le parentesi e trasferiamo le somme indipendenti dai coefficienti richiesti nell'altra metà, otteniamo un sistema di equazioni lineari:
    `somma_(i=1)^(n) y_i = a n + b somma_(i=1)^(n) bx_i`
    `somma_(i=1)^(n) x_iy_i = una somma_(i=1)^(n) x_i + b somma_(i=1)^(n) x_i^2`

    Risolvendo il sistema risultante, troviamo le formule per i coefficienti `a` e `b`:

    `a = frac(somma_(i=1)^(n) y_i somma_(i=1)^(n) x_i^2 - somma_(i=1)^(n) x_i somma_(i=1)^(n ) x_iy_i) (n somma_(i=1)^(n) x_i^2 — (somma_(i=1)^(n) x_i)^2)` (3.1)

    `b = frac(n somma_(i=1)^(n) x_iy_i - somma_(i=1)^(n) x_i somma_(i=1)^(n) y_i) (n somma_(i=1)^ (n) x_i^2 - (somma_(i=1)^(n) x_i)^2)` (3.2)

    Queste formule hanno soluzioni quando `n > 1` (la linea può essere tracciata utilizzando almeno 2 punti) e quando il determinante `D = n sum_(i=1)^(n) x_i^2 — (sum_(i= 1 )^(n) x_i)^2 != 0`, cioè quando i punti `x_i` nell'esperimento sono diversi (cioè quando la linea non è verticale).

    Stima degli errori nei coefficienti della retta di regressione

    Per una stima più accurata dell'errore nel calcolo dei coefficienti `a` e `b`, è auspicabile un gran numero di punti sperimentali. Quando `n = 2`, è impossibile stimare l'errore dei coefficienti, perché la linea di approssimazione passerà in modo univoco per due punti.

    Viene determinato l'errore della variabile casuale `V` legge sull'accumulo degli errori
    `S_V^2 = somma_(i=1)^p (frac(f parziale)(z_i parziale))^2 S_(z_i)^2`,
    dove `p` è il numero di parametri `z_i` con errore `S_(z_i)` che influiscono sull'errore `S_V`;
    `f` è una funzione di dipendenza di `V` su `z_i`.

    Scriviamo la legge di accumulazione degli errori per l'errore dei coefficienti `a` e `b`
    `S_a^2 = sum_(i=1)^(n)(frac(a parziale)(y_i parziale))^2 S_(y_i)^2 + sum_(i=1)^(n)(frac(a parziale )(x_i parziale))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(a parziale)(y_i parziale))^2 `,
    `S_b^2 = sum_(i=1)^(n)(frac(parziale b)(parziale y_i))^2 S_(y_i)^2 + somma_(i=1)^(n)(frac(parziale b )(x_i parziale))^2 S_(x_i)^2 = S_y^2 sum_(i=1)^(n)(frac(b parziale)(y_i parziale))^2 `,
    perché `S_(x_i)^2 = 0` (in precedenza abbiamo fatto una prenotazione che l'errore di `x` è trascurabile).

    `S_y^2 = S_(y_i)^2` - l'errore (varianza, deviazione standard al quadrato) nella dimensione `y`, supponendo che l'errore sia uniforme per tutti i valori `y`.

    Sostituendo le formule per il calcolo di `a` e `b` nelle espressioni risultanti, otteniamo

    `S_a^2 = S_y^2 frac(somma_(i=1)^(n) (somma_(i=1)^(n) x_i^2 - x_i somma_(i=1)^(n) x_i)^2 ) (D^2) = S_y^2 frac((n sum_(i=1)^(n) x_i^2 - (sum_(i=1)^(n) x_i)^2) sum_(i=1) ^(n) x_i^2) (D^2) = S_y^2 frac(sum_(i=1)^(n) x_i^2) (D)` (4.1)

    `S_b^2 = S_y^2 frac(sum_(i=1)^(n) (n x_i - sum_(i=1)^(n) x_i)^2) (D^2) = S_y^2 frac( n (n somma_(i=1)^(n) x_i^2 - (somma_(i=1)^(n) x_i)^2)) (D^2) = S_y^2 frac(n) (D) ` (4.2)

    Nella maggior parte degli esperimenti reali, il valore di 'Sy' non viene misurato. Per fare ciò, è necessario eseguire più misurazioni parallele (esperimenti) in uno o più punti del piano, il che aumenta il tempo (ed eventualmente il costo) dell'esperimento. Pertanto, di solito si presume che la deviazione di 'y' dalla retta di regressione possa essere considerata casuale. La stima della varianza `y` in questo caso è calcolata dalla formula.

    `S_y^2 = S_(y, resto)^2 = frac(sum_(i=1)^n (y_i - a - b x_i)^2) (n-2)`.

    Il divisore `n-2` appare perché abbiamo ridotto il numero di gradi di libertà dovuto al calcolo di due coefficienti per lo stesso campione di dati sperimentali.

    Questa stima è anche chiamata varianza residua relativa alla retta di regressione `S_(y, resto)^2`.

    La valutazione della significatività dei coefficienti viene effettuata secondo il criterio dello Studente

    `t_a = frac(|a|) (S_a)`, `t_b = frac(|b|) (S_b)`

    Se i criteri calcolati `t_a`, `t_b` sono inferiori ai criteri della tabella `t(P, n-2)`, allora si considera che il coefficiente corrispondente non è significativamente diverso da zero con una data probabilità `P`.

    Per valutare la qualità della descrizione di una relazione lineare, puoi confrontare `S_(y, resto)^2` e `S_(bar y)` rispetto alla media usando il criterio di Fisher.

    `S_(barra y) = frac(somma_(i=1)^n (y_i - barra y)^2) (n-1) = frac(somma_(i=1)^n (y_i - (somma_(i= 1)^n y_i) /n)^2) (n-1)` - stima campionaria della varianza di `y` rispetto alla media.

    Per valutare l'efficacia dell'equazione di regressione per descrivere la dipendenza, viene calcolato il coefficiente di Fisher
    `F = S_(barra y) / S_(y, riposo)^2`,
    che viene confrontato con il coefficiente tabulare di Fisher `F(p, n-1, n-2)`.

    Se `F > F(P, n-1, n-2)`, la differenza tra la descrizione della dipendenza `y = f(x)` usando l'equazione di regressione e la descrizione usando la media è considerata statisticamente significativa con probabilità `P`. Quelli. la regressione descrive la dipendenza meglio della diffusione di 'y' attorno alla media.

    Fare clic sul grafico
    per aggiungere valori alla tabella

    Metodo dei minimi quadrati. Il metodo dei minimi quadrati significa la determinazione di parametri sconosciuti a, b, c, la dipendenza funzionale accettata

    Il metodo dei minimi quadrati significa la determinazione di parametri sconosciuti a, b, c,… dipendenza funzionale accettata

    y = f(x,a,b,c,…),

    che fornirebbe un minimo del quadrato medio (varianza) dell'errore

    , (24)

    dove x i , y i - insieme di coppie di numeri ottenute dall'esperimento.

    Poiché la condizione per l'estremo di una funzione a più variabili è la condizione che le sue derivate parziali siano uguali a zero, allora i parametri a, b, c,… sono determinati dal sistema di equazioni:

    ; ; ; … (25)

    Va ricordato che il metodo dei minimi quadrati viene utilizzato per selezionare i parametri dopo la forma della funzione y = f(x) definito.

    Se da considerazioni teoriche è impossibile trarre conclusioni su quale dovrebbe essere la formula empirica, allora bisogna essere guidati da rappresentazioni visive, principalmente una rappresentazione grafica dei dati osservati.

    In pratica, il più delle volte limitato ai seguenti tipi di funzioni:

    1) lineare ;

    2) quadratico a .

    L'essenza del metodo dei minimi quadrati è nel trovare i parametri del modello di trend che meglio descrive il trend di sviluppo di qualsiasi fenomeno casuale nel tempo o nello spazio (un trend è una linea che caratterizza il trend di questo sviluppo). Il compito del metodo dei minimi quadrati (OLS) è trovare non solo un modello di tendenza, ma anche il modello migliore o ottimale. Questo modello sarà ottimale se la somma delle deviazioni al quadrato tra i valori effettivi osservati e i corrispondenti valori di tendenza calcolati è minima (la più piccola):

    dove è la deviazione standard tra il valore effettivo osservato

    e il corrispondente valore di tendenza calcolato,

    Il valore effettivo (osservato) del fenomeno in esame,

    Valore stimato del modello di trend,

    Il numero di osservazioni del fenomeno in studio.

    MNC è usato raramente da solo. Di norma, molto spesso viene utilizzato solo come tecnica necessaria negli studi di correlazione. Va ricordato che la base informativa del LSM può essere solo una serie statistica affidabile e il numero di osservazioni non deve essere inferiore a 4, altrimenti le procedure di smoothing del LSM potrebbero perdere il loro buon senso.

    Il toolkit OLS si riduce alle seguenti procedure:

    Prima procedura. Si scopre se c'è qualche tendenza a cambiare l'attributo risultante quando cambia l'argomento fattore selezionato, o in altre parole, se c'è una connessione tra " a " e " X ».

    Seconda procedura. Si determina quale linea (traiettoria) è in grado di descrivere o caratterizzare meglio questa tendenza.

    Terza procedura.

    Esempio. Supponiamo di avere informazioni sulla resa media di girasole per l'azienda in esame (Tabella 9.1).

    Tabella 9.1

    Numero di osservazione

    Produttività, c/ha

    Poiché il livello tecnologico nella produzione di girasole nel nostro Paese non è cambiato molto negli ultimi 10 anni, significa che, molto probabilmente, le fluttuazioni della resa nel periodo analizzato sono dipese molto dalle fluttuazioni delle condizioni meteorologiche e climatiche. È vero?

    Prima procedura MNC. E' in corso di verifica l'ipotesi circa l'esistenza di un andamento nella variazione della resa del girasole in funzione delle variazioni delle condizioni meteorologiche e climatiche nel corso dei 10 anni analizzati.

    In questo esempio, per " y » si consiglia di prendere la resa di girasole, e per « X » è il numero dell'anno osservato nel periodo analizzato. Testare l'ipotesi sull'esistenza di qualsiasi relazione tra " X " e " y » può essere fatto in due modi: manualmente e con l'ausilio di programmi per computer. Naturalmente, con la disponibilità della tecnologia informatica, questo problema si risolve da solo. Ma, per comprendere meglio gli strumenti OLS, è opportuno verificare l'ipotesi sull'esistenza di una relazione tra " X " e " y » manualmente, quando sono a portata di mano solo una penna e una normale calcolatrice. In questi casi, l'ipotesi dell'esistenza di un trend è meglio verificata visivamente dalla posizione dell'immagine grafica della serie storica analizzata - il campo di correlazione:

    Il campo di correlazione nel nostro esempio si trova attorno a una linea che aumenta lentamente. Questo di per sé indica l'esistenza di una certa tendenza nel cambiamento della resa del girasole. È impossibile parlare della presenza di una qualsiasi tendenza solo quando il campo di correlazione si presenta come un cerchio, un cerchio, una nuvola rigorosamente verticale o rigorosamente orizzontale, oppure è costituito da punti sparsi casualmente. In tutti gli altri casi, l'ipotesi dell'esistenza di una relazione tra " X " e " y e continuare la ricerca.

    Seconda procedura MNC. Viene determinata quale linea (traiettoria) è in grado di descrivere o caratterizzare meglio l'andamento delle variazioni della resa del girasole per il periodo analizzato.

    Con la disponibilità della tecnologia informatica, la selezione dell'andamento ottimale avviene automaticamente. Con l'elaborazione "manuale", la scelta della funzione ottimale viene eseguita, di norma, in modo visivo, dalla posizione del campo di correlazione. Cioè, in base al tipo di grafico, viene selezionata l'equazione della retta, che si adatta meglio all'andamento empirico (alla traiettoria effettiva).

    Come sapete, in natura esiste un'enorme varietà di dipendenze funzionali, quindi è estremamente difficile analizzarne visivamente anche una piccola parte. Fortunatamente, nella pratica economica reale, la maggior parte delle relazioni può essere accuratamente descritta da una parabola, da un'iperbole o da una linea retta. A tal proposito, con l'opzione "manuale" per la selezione della funzione migliore, puoi limitarti a questi tre modelli.

    Iperbole:

    Parabola del secondo ordine: :

    È facile vedere che nel nostro esempio, l'andamento delle variazioni della resa del girasole nei 10 anni analizzati è meglio caratterizzato da una linea retta, quindi l'equazione di regressione sarà un'equazione di linea retta.

    Terza procedura. Si calcolano i parametri dell'equazione di regressione che caratterizza questa retta, ovvero si determina una formula analitica che descrive il miglior modello di trend.

    Trovare i valori dei parametri dell'equazione di regressione, nel nostro caso i parametri e , è il nucleo del LSM. Questo processo si riduce alla risoluzione di un sistema di equazioni normali.

    (9.2)

    Questo sistema di equazioni è facilmente risolvibile con il metodo di Gauss. Ricordiamo che come risultato della soluzione, nel nostro esempio, si trovano i valori dei parametri e. Pertanto, l'equazione di regressione trovata avrà la seguente forma:

    CATEGORIE

    ARTICOLI POPOLARI

    2022 "kingad.ru" - esame ecografico di organi umani