Construya una matriz de coeficientes de correlación de pares. Compruebe la multicolinealidad

Los datos económicos representan características cuantitativas de cualquier objeto o proceso económico. Se forman bajo la influencia de muchos factores, no todos los cuales son accesibles al control externo. Los factores incontrolables pueden tomar valores aleatorios de algún conjunto de valores y, por lo tanto, hacer que los datos que definen sean aleatorios. Una de las principales tareas de la investigación económica es análisis de dependencias entre variables.

Al considerar las dependencias entre características, es necesario distinguir, en primer lugar, dos tipos de conexiones:

  • funcional - se caracterizan por una correspondencia completa entre el cambio en la característica del factor y el cambio en el valor resultante: Cada valor de una característica de un factor corresponde a valores muy específicos de la característica resultante. Este tipo de relación se expresa como una relación formulada. La dependencia funcional puede conectar una característica efectiva con una o más características de un factor. Así, el monto de los salarios basados ​​en el tiempo depende del número de horas trabajadas;
  • correlacional- no existe una correspondencia completa entre el cambio de dos signos; el impacto de los factores individuales se manifiesta sólo en promedio, con una observación masiva de los datos reales. El impacto simultáneo sobre el rasgo estudiado de una gran cantidad de factores diferentes lleva al hecho de que un mismo valor de una característica de factor corresponde a una distribución completa de valores de la característica resultante, ya que en cada caso concreto otras características de los factores pueden cambiar la fuerza y ​​dirección de su impacto.

Hay que tener en cuenta que si existe una relación funcional entre las características, es posible, conociendo el valor de la característica del factor, determinar con precisión el valor del signo resultante. En presencia de una dependencia de correlación, sólo tendencia de cambio en la característica resultante cuando cambia el valor de la característica del factor.

Al estudiar las relaciones entre signos, se clasifican según dirección, forma, número de factores:

  • hacia Las conexiones se dividen en derecho Y contrarrestar. En una conexión directa, la dirección del cambio en la característica resultante coincide con la dirección del cambio en la característica del factor. Con retroalimentación, la dirección del cambio en la característica resultante es opuesta a la dirección del cambio en la característica del factor. Por ejemplo, cuanto mayores sean las calificaciones de un trabajador, mayor será el nivel de productividad de su trabajo (relación directa). Cuanto mayor sea la productividad laboral, menor será el costo por unidad de producción (retroalimentación);
  • según la forma(tipo de función) las conexiones se dividen en lineal(línea recta) y no lineal(con línea no recta). Una relación lineal se representa mediante una línea recta, una relación no lineal mediante una curva (parábola, hipérbola, etc.). En una relación lineal, con un aumento en el valor de una característica del factor, hay un aumento (disminución) uniforme en el valor de la característica resultante;
  • por el número de factores que actúan sobre la característica efectiva, Las conexiones se dividen en factor único(emparejado) y multifactorial.

El estudio de la dependencia de la variación de los rasgos de las condiciones ambientales es el contenido de la teoría de la correlación.

Al realizar un análisis de correlación, el conjunto completo de datos se considera como un conjunto de variables (factores), cada una de las cuales contiene PAG observaciones.

Al estudiar la relación entre dos factores, generalmente se los designa. x=(xp x2,...,xn) Y Y= (y ( , y 2 ,..., y y).

Covarianza - esto es estadístico medida de interacción dos variables. Por ejemplo, un valor positivo de la covarianza de los rendimientos de dos valores indica que los rendimientos de estos valores tienden a moverse en una dirección.

Covarianza entre dos variables X Y Y calculado de la siguiente manera:

¿Dónde están los valores reales de las variables?

X Y GRAMO;

Si las variables aleatorias chi y independiente, la covarianza teórica es cero.

La covarianza depende de las unidades en las que se miden las variables. jeje Y, es una cantidad no estandarizada. Por lo tanto, para medir fuerza de conexión Se utiliza otra estadística llamada coeficiente de correlación entre dos variables.

Para dos variables X Y Coeficiente de correlación de pares Y

se define de la siguiente manera:

Dónde SSy- estimaciones de variaciones de cantidades Je y. Estas estimaciones caracterizan grado de dispersión valores x (, x 2, ..., x n (y 1, y 2, y n) alrededor de tu promedio x(y respectivamente), o variabilidad(variabilidad) de estas variables a lo largo de un conjunto de observaciones.

Dispersión(estimación de la varianza) está determinada por la fórmula

En general, para obtener una estimación insesgada de la varianza, la suma de cuadrados debe dividirse por el número de grados de libertad de la estimación. (etc), Dónde PAG - tamaño de la muestra, R - número de conexiones superpuestas a la muestra. Dado que la muestra ya se ha utilizado una vez para determinar la media X, entonces el número de conexiones superpuestas en este caso es igual a uno (pag = 1), y el número de grados de libertad de la estimación (es decir, el número de elementos muestrales independientes) es igual a (PAG - 1).

Es más natural medir el grado de dispersión de los valores de las variables en las mismas unidades en las que se mide la variable misma. Este problema se resuelve mediante un indicador llamado Desviación Estándar (Desviación Estándar) o Error estándar variable X(variable Y) y determinado por la relación

Los términos del numerador de la fórmula (3.2.1) expresan la interacción de dos variables y determinan el signo de la correlación (positiva o negativa). Si, por ejemplo, existe una fuerte relación positiva entre variables (un aumento en una variable mientras la otra aumenta), cada término será un número positivo. Del mismo modo, si existe una fuerte relación negativa entre las variables, todos los términos del numerador serán números negativos, lo que dará como resultado un valor de correlación negativo.

El denominador de la expresión del coeficiente de correlación por pares [ver fórmula (3.2.2)] simplemente normaliza el numerador de tal manera que el coeficiente de correlación resulta ser un número sin dimensión fácilmente interpretable y toma valores de -1 a +1.

El numerador de la expresión del coeficiente de correlación, que es difícil de interpretar debido a las unidades de medida inusuales, es covarianza HiU. A pesar de que a veces se utiliza como una característica independiente (por ejemplo, en la teoría financiera para describir el cambio conjunto en los precios de las acciones en dos bolsas), es más conveniente utilizar el coeficiente de correlación. La correlación y la covarianza representan esencialmente la misma información, pero la correlación representa esta información en una forma más útil.

Para evaluar cualitativamente el coeficiente de correlación, se utilizan varias escalas, la mayoría de las veces la escala de Chaddock. Dependiendo del valor del coeficiente de correlación, la relación puede tener una de las siguientes calificaciones:

  • 0,1-0,3 - débil;
  • 0,3-0,5 - perceptible;
  • 0,5-0,7 - moderado;
  • 0,7-0,9 - alto;
  • 0,9-1,0 - muy alto.

La evaluación del grado de cercanía de una conexión mediante el coeficiente de correlación se realiza, por regla general, sobre la base de información más o menos limitada sobre el fenómeno en estudio. En este sentido, existe la necesidad de evaluar la importancia del coeficiente de correlación lineal, lo que permite extender las conclusiones basadas en los resultados de la muestra a la población general.

La evaluación de la importancia del coeficiente de correlación para tamaños de muestra pequeños se realiza mediante la prueba 7 de Student. En este caso, el valor real (observado) de este criterio está determinado por la fórmula

El valor / obs calculado con esta fórmula se compara con el valor crítico del criterio 7, que se toma de la tabla de valores de la prueba / de Student (ver Apéndice 2) teniendo en cuenta el nivel de significancia dado oc y el número de grados de libertad (PAG - 2).

Si 7 obs > 7 tabs, entonces el valor resultante del coeficiente de correlación se considera significativo (es decir, se rechaza la hipótesis nula que establece que el coeficiente de correlación es igual a cero). Y así se concluye que existe una estrecha relación estadística entre las variables en estudio.

si el valor g y x cerca de cero, la relación entre las variables es débil. Si la correlación entre variables aleatorias:

  • positiva, entonces a medida que una variable aleatoria aumenta, la otra tiende a aumentar en promedio;
  • negativa, entonces a medida que una variable aleatoria aumenta, la otra tiende a disminuir en promedio. Una herramienta gráfica conveniente para analizar datos emparejados es gráfico de dispersión, que representa cada observación en un espacio de dos dimensiones correspondientes a dos factores. Un diagrama de dispersión, que representa un conjunto de valores de dos características, también se llama campo de correlación. Cada punto en este diagrama tiene coordenadas x (. y y g A medida que aumenta la fuerza de la relación lineal, los puntos de la gráfica estarán más cerca de la línea recta y la magnitud GRAMO Estaremos más cerca de la unidad.

Los coeficientes de correlación por pares se utilizan para medir la fuerza de las relaciones lineales entre diferentes pares de características de un conjunto de ellas. Para muchas características uno obtiene matriz de coeficientes de correlación de pares.

Deje que todo el conjunto de datos esté formado por una variable. Y = =(sí p y 2, ..., yp) Y t variables (factores) X, cada uno de los cuales contiene PAG observaciones. Valores variables Y Y X, contenidos en la población observada se registran en una tabla (Tabla 3.2.1).

Tabla 3.2.1

Variable

Número

observaciones

X TZ

Xtp

Con base en los datos contenidos en esta tabla, calcule matriz de coeficientes de correlación de pares R, es simétrico con respecto a la diagonal principal:


El análisis de la matriz de coeficientes de correlación de pares se utiliza al construir modelos de regresión múltiple.

Una matriz de correlación no puede describir completamente las dependencias entre cantidades. En este sentido, el análisis de correlación multivariante considera dos tareas:

  • 1. Determinación de la estrecha relación de una variable aleatoria con la totalidad de las demás variables incluidas en el análisis.
  • 2. Determinación de la cercanía de la conexión entre dos cantidades fijando o excluyendo la influencia de otras cantidades.

Estos problemas se resuelven utilizando coeficientes de correlación múltiples y parciales, respectivamente.

La solución al primer problema (determinar la estrecha relación de una variable aleatoria con la totalidad de las demás variables incluidas en el análisis) se lleva a cabo mediante muestra de coeficiente de correlación múltiple según la fórmula

Dónde R- R[cm. fórmula (3.2.6)]; Rjj- complemento algebraico de un elemento de la misma matriz r.

Coeficiente de correlación múltiple al cuadrado SCHj 2 j _j J+l m generalmente llamado muestra de coeficiente de determinación múltiple; muestra qué proporción de la variación (difusión aleatoria) del valor que se está estudiando xj explica la variación de las variables aleatorias restantes X ( , X 2 ,..., Xt.

Los coeficientes de correlación múltiple y determinación son cantidades positivas, tomando valores en el rango de 0 a 1. Al aproximar el coeficiente R 2 a la unidad, podemos concluir que la relación entre variables aleatorias es estrecha, pero no en cuanto a su dirección. El coeficiente de correlación múltiple sólo puede aumentar si se incluyen variables adicionales en el modelo, y no aumentará si se excluye alguna de las características existentes.

La verificación de la importancia del coeficiente de determinación se lleva a cabo comparando el valor calculado del criterio /' de Fisher.

con tabular F rabl. El valor tabular del criterio (ver Apéndice 1) está determinado por el nivel de significancia a y los grados de libertad dados. v l = mnv 2 = nml. Coeficiente R 2 es significativamente diferente de cero si la desigualdad se cumple

Si las variables aleatorias bajo consideración correlacionar entre sí entonces el valor del coeficiente de correlación de pares se ve parcialmente afectado por la influencia de otras cantidades. En este sentido, existe la necesidad de estudiar la correlación parcial entre cantidades excluyendo la influencia de otras variables aleatorias (una o más).

Coeficiente de correlación parcial de muestra determinado por la fórmula

Dónde R Jk , Rjj, R kk - sumas algebraicas a los elementos de la matriz correspondientes R[cm. fórmula (3.2.6)].

El coeficiente de correlación parcial, así como el coeficiente de correlación de pares, varía de -1 a +1.

Expresión (3.2.9) sujeta a t= 3 se verán como

El coeficiente r 12(3) se llama coeficiente de correlación entre x ( Y x 2 para x y fijo Es simétrico con respecto a los índices primarios 1, 2. Su índice secundario 3 se refiere a una variable fija.

Ejemplo 3.2.1. Cálculo de coeficientes de par,

correlación múltiple y parcial.

En mesa 3.2.2 proporciona información sobre los volúmenes de ventas y los costos de publicidad de una empresa, así como el índice de gasto del consumidor para varios años en curso.

  • 1. Construya un diagrama de dispersión (campo de correlación) para las variables “volumen de ventas” e “índice de gasto del consumidor”.
  • 2. Determine el grado de influencia del índice de gasto del consumidor en el volumen de ventas (calcule el coeficiente de correlación del par).
  • 3. Evalúe la importancia del coeficiente de correlación de pares calculado.
  • 4. Construya una matriz de coeficientes de correlación por pares para tres variables.
  • 5. Encuentre una estimación del coeficiente de correlación múltiple.
  • 6. Encuentre estimaciones de coeficientes de correlación parcial.

1. En nuestro ejemplo, el diagrama de dispersión tiene la forma que se muestra en la Fig. 3.2.1. El alargamiento de la nube de puntos en el diagrama de dispersión a lo largo de la línea inclinada nos permite suponer que existe alguna tendencia objetiva a una relación lineal directa entre los valores de las variables. x2 Y(volumen de ventas).

Arroz. 3.2.1.

2. Cálculos intermedios al calcular el coeficiente de correlación entre variables. x2(Índice de Gasto del Consumidor) y Y(volumen de ventas) se dan en la tabla. 3.2.3.

Valores promedio variables aleatorias x2 Y Y, cuáles son los indicadores más simples que caracterizan las secuencias jCj, x2,..., x 16 y y v y 2 ,..., y 16, calcular usando las siguientes fórmulas:


Volumen de ventas Y, miles de rublos.

Índice

consumir

telsky

gastos

Volumen de ventas Y, miles de rublos.

Índice

consumir

telsky

gastos

Tabla 3.2.3

yo:, - X

(Y - U)(x,-x)

(x, - x) 2

(y, - - y) 2

Dispersión caracteriza el grado de difusión de valores x v x 2,x:

Consideremos ahora la solución al ejemplo 3.2.1 en Excel.

Para calcular la correlación usando Excel, puede usar la función =correl(), especificando las direcciones de dos columnas de números, como se muestra en la Fig. 3.2.2. La respuesta se coloca en D8 y es igual a 0,816.

Arroz. 3.2.2.

(Nota: argumentos de función los correls deben ser números o nombres, matrices o referencias que contengan números. Si el argumento, que es una matriz o referencia, contiene texto, valores booleanos o celdas vacías, dichos valores se ignoran; sin embargo, se cuentan las celdas que contienen valores cero.

Si matriz! y array2 tienen diferentes números de puntos de datos, entonces la función correl devuelve el valor de error #n/a.

Si array1 o array2 están vacíos o si o (desviación estándar) de sus valores es cero, entonces la función correl devuelve el valor de error #div/0!.)

El valor crítico del estadístico t de Student también se puede obtener utilizando la función Distribución de estudio de 1 paquete Excel. Como argumentos de función, debe especificar el número de grados de libertad igual a PAG- 2 (en nuestro ejemplo 16 - 2= 14) y nivel de significancia a (en nuestro ejemplo a = 0,1) (Fig. 3.2.3). Si valor actual/-las estadísticas tomadas en módulo son mayores crítico, entonces, con probabilidad (1 - a), el coeficiente de correlación es significativamente diferente de cero.


Arroz. 3.2.3. El valor crítico del estadístico / es 1,7613

Excel incluye un conjunto de herramientas de análisis de datos (el llamado paquete de análisis) diseñado para resolver diversos problemas estadísticos. Calcular la matriz de coeficientes de correlación de pares. R debe utilizar la herramienta Correlación (Fig. 3.2.4) y configurar los parámetros de análisis en el cuadro de diálogo correspondiente. La respuesta se colocará en una nueva hoja de trabajo (Fig. 3.2.5).

1 En Excel 2010, el nombre de la función studrasprobr cambió a estu-

DENT.OBR.2X.

Arroz. 3.2.4.


Arroz. 3.2.5.

  • Se considera que los fundadores de la teoría de la correlación son los estadísticos ingleses F. Galton (1822-1911) y K. Pearson (1857-1936). El término "correlación" fue tomado de las ciencias naturales y significa "correlación, correspondencia". La idea de correlación como interdependencia entre variables aleatorias subyace a la teoría matemático-estadística de la correlación.

Tarea 2

1. Construya una matriz de coeficientes de correlación de pares. Verifique la multicolinealidad. Justifique la selección de factores en el modelo.

2. Construya una ecuación de regresión múltiple en forma lineal con factores seleccionados.

3. Evaluar la significancia estadística de la ecuación de regresión y sus parámetros utilizando las pruebas de Fisher y Student.

4. Construya una ecuación de regresión con factores estadísticamente significativos. Evalúe la calidad de la ecuación de regresión utilizando el coeficiente de determinación R2. Evaluar la precisión del modelo construido.

5. Evaluar la previsión de volumen de producción si los valores previstos de los factores son el 75% de sus valores máximos.

Condiciones problemáticas (opción 21)

Según los datos presentados en la Tabla 1 (n = 17), se estudia la dependencia del volumen de producción Y (millones de rublos) de los siguientes factores (variables):

X 1 – número de personal de producción industrial, personas.

X 2 – coste medio anual de los activos fijos, millones de rublos.

X 3 – depreciación de activos fijos, %

X 4 – suministro de energía, kWh.

X 5 – equipamiento técnico de un trabajador, millones de rublos.

X 6 – producción de productos comercializables por trabajador, frotar.

Tabla 1. Datos de lanzamiento del producto

Y X1 x2 X3 x4 X5 X6
39,5 4,9 3,2
46,4 60,5 20,4
43,7 24,9 9,5
35,7 50,4 34,7
41,8 5,1 17,9
49,8 35,9 12,1
44,1 48,1 18,9
48,1 69,5 12,2
47,6 31,9 8,1
58,6 139,4 29,7
70,4 16,9 5,3
37,5 17,8 5,6
62,0 27,6 12,3
34,4 13,9 3,2
35,4 37,3 19,0
40,8 55,3 19,3
48,1 35,1 12,4


Construya una matriz de coeficientes de correlación de pares. Verifique la multicolinealidad. Justificar la selección de factores en el modelo.

La tabla 2 muestra matriz de coeficientes de correlación de pares para todas las variables involucradas en la consideración. La matriz se obtuvo mediante la herramienta Correlación del paquete Análisis de los datos V Sobresalir.

Tabla 2. Matriz de coeficientes de correlación de pares

Y X1 X2 X3 X4 X5 X6
Y
X1 0,995634
X2 0,996949 0,994947
X3 -0,25446 -0,27074 -0,26264
X4 0,12291 0,07251 0,107572 0,248622
X5 0,222946 0,166919 0,219914 -0,07573 0,671386
X6 0,067685 -0,00273 0,041955 -0,28755 0,366382 0,600899

El análisis visual de la matriz le permite establecer:

1) Ud. tiene correlaciones por pares bastante altas con las variables X1, X2 (>0,5) y bajo con variables X3,X4,X5,X6 (<0,5);

2) Las variables de análisis X1, X2 demuestran correlaciones por pares bastante altas, lo que requiere verificar los factores para detectar la presencia de multicolinealidad entre ellas. Además, una de las condiciones del modelo de regresión clásico es el supuesto de independencia de las variables explicativas.

Para identificar la multicolinealidad de factores, realizamos Prueba de Farrar-Glouber por los factores X1, X2, X3,X4,X5,X6.

La comprobación de la multicolinealidad de factores de la prueba de Farrar-Glouber incluye varias etapas.

1) Comprobación de multicolinealidad de toda la matriz de variables. .

Una de las condiciones del modelo de regresión clásico es el supuesto de independencia de las variables explicativas. Para identificar la multicolinealidad entre factores, la matriz de correlaciones interfactoriales R se calcula utilizando el Paquete de Análisis de Datos (Tabla 3).

Tabla 3. Matriz de correlaciones interfactoriales R

X1 X2 X3 X4 X5 X6
X1 0,994947 -0,27074 0,07251 0,166919 -0,00273
X2 0,994947 -0,26264 0,107572 0,219914 0,041955
X3 -0,27074 -0,26264 0,248622 -0,07573 -0,28755
X4 0,07251 0,107572 0,248622 0,671386 0,366382
X5 0,166919 0,219914 -0,07573 0,671386 0,600899
X6 -0,00273 0,041955 -0,28755 0,366382 0,600899

Existe una fuerte dependencia (>0,5) entre los factores X1 y X2, X5 y X4, X6 y X5.

El determinante det (R) = 0,001488 se calcula mediante la función MOPRED. El determinante de la matriz R tiende a cero, lo que nos permite hacer una suposición sobre la multicolinealidad general de los factores.

2) Comprobación de multicolinealidad de cada variable con otras variables:

· Calculemos la matriz inversa R -1 usando la función MOBR de Excel (Tabla 4):

Tabla 4. Matriz inversa R -1

X1 X2 X3 X4 X5 X6
X1 150,1209 -149,95 3,415228 -1,70527 6,775768 4,236465
X2 -149,95 150,9583 -3,00988 1,591549 -7,10952 -3,91954
X3 3,415228 -3,00988 1,541199 -0,76909 0,325241 0,665121
X4 -1,70527 1,591549 -0,76909 2,218969 -1,4854 -0,213
X5 6,775768 -7,10952 0,325241 -1,4854 2,943718 -0,81434
X6 4,236465 -3,91954 0,665121 -0,213 -0,81434 1,934647

· Cálculo de criterios F, donde están los elementos diagonales de la matriz, n=17, k = 6 (Tabla 5).

Tabla 5. Valores de la prueba F

F1 (X1) F2 (X2) F3 (X3) F4 (X4) F5 (X5) F6 (X6)
89,29396 89,79536 0,324071 0,729921 1,163903 0,559669

· Los valores reales de la prueba F se comparan con el valor de la tabla tabla F = 3,21(FDIST(0.05;6;10)) con n1= 6 y n2 = n - k – 1=17-6-1=10 grados de libertad y nivel de significancia α=0.05, donde k es el número de factores.

· Los valores de los criterios F para los factores X1 y X2 son mayores que los tabulados, lo que indica la presencia de multicolinealidad entre estos factores. El factor X3 tiene el menor efecto sobre la multicolinealidad general de los factores.

3) Comprobación de multicolinealidad de cada par de variables.

· Calculemos los coeficientes de correlación parcial usando la fórmula , donde están los elementos de la matriz (Tabla 6)

Tabla 6. Matriz de coeficientes de correlación parcial

X1 X2 X3 X4 X5 X6
X1
X2 0,996086
X3 -0,22453 0,197329
X4 0,093432 -0,08696 0,415882
X5 -0,32232 0,337259 -0,1527 0,581191
X6 -0,24859 0,229354 -0,38519 0,102801 0,341239

· Cálculo t-criterios según la fórmula (Tabla 7)

n - número de datos = 17

K - número de factores = 6

Tabla 7.pruebas t para coeficientes de correlación parcial

X1 X2 X3 X4 X5 X6
X1
X2 35,6355
X3 -0,72862 0,636526
X4 0,296756 -0,27604 1,446126
X5 -1,07674 1,13288 -0,4886 2,258495
X6 -0,81158 0,745143 -1,31991 0,326817 1,147999

tabla t = STUDARSOBR(0.05,10) = 2.23

Los valores reales de las pruebas t se comparan con el valor de la tabla con grados de libertad n-k-1 = 17-6-1=10 y nivel de significancia α=0,05;

t21 > tabla

t54 > tabla

De las tablas 6 y 7 se desprende claramente que dos pares de factores X1 y X2, X4 y X5 tienen una correlación parcial estadísticamente significativa alta, es decir, son multicolineales. Para deshacerse de la multicolinealidad, puede excluir una de las variables del par colineal. En el par X1 y X2 dejamos X2, en el par X4 y X5 dejamos X5.

Así, como resultado de la prueba de Farrar-Glouber, quedan los siguientes factores: X2, X3, X5, X6.

Al completar los procedimientos de análisis de correlación, es recomendable observar las correlaciones parciales de los factores seleccionados con el resultado. y.

Construyamos una matriz de coeficientes de correlación pareados basados ​​en los datos de la Tabla 8.

Tabla 8. Datos de producción del producto con factores seleccionados X2, X3, X5, X6.

Observación No. Y x2 X3 X5 X6
39,5 3,2
46,4 20,4
43,7 9,5
35,7 34,7
41,8 17,9
49,8 12,1
44,1 18,9
48,1 12,2
47,6 8,1
58,6 29,7
70,4 5,3
37,5 5,6
12,3
34,4 3,2
35,4
40,8 19,3
48,1 12,4

La última columna de la Tabla 9 presenta los valores de la prueba t para la columna Y.

Tabla 9. Matriz de coeficientes de correlación parcial con el resultado Y

Y X2 X3 X5 X6 criterio t (tabla t (0,05;11)= 2,200985
Y 0,996949 -0,25446 0,222946 0,067685
X2 0,996949 -0,26264 0,219914 0,041955 44,31676
X3 -0,25446 -0,26264 -0,07573 -0,28755 0,916144
X5 0,222946 0,219914 -0,07573 0,600899 -0,88721
X6 0,067685 0,041955 -0,28755 0,600899 1,645749

Del Cuadro 9 se desprende claramente que la variable Y tiene una correlación parcial alta y al mismo tiempo estadísticamente significativa con factor X2.


Y X 1 X 2 X 3 X 4 X 5 X 6
Y
X 1 0,519
X 2 -0,273 0,030
X 3 0,610 0,813 -0,116
X 4 -0,572 -0,013 -0,022 -0,091
X 5 0,297 0,043 -0,461 0,120 -0,359
X 6 0,118 -0,366 -0,061 -0,329 -0,100 -0,290

Análisis interfactorial(¡entre las “X”!) coeficientes de correlación muestra que el valor de 0,8 excede en valor absoluto sólo el coeficiente de correlación entre un par de factores X 1 –X 3 (en negrita). Factores X 1 –X Por tanto, 3 se reconocen como colineales.

2. Como se muestra en el párrafo 1, los factores X 1 –X 3 son colineales, lo que significa que son efectivamente duplicados entre sí, e incluirlos simultáneamente en el modelo conducirá a una interpretación incorrecta de los coeficientes de regresión correspondientes. Está claro que el factor X 3 tiene un mayor módulo coeficiente de correlación con el resultado Y que factor X 1: ry , X 1 =0,519; ry , X 3=0,610; (cm. mesa 1). Esto indica una mayor influencia del factor X 3 por cambio Y. Factor X 1 queda, por tanto, excluido de la consideración.

Para construir una ecuación de regresión, los valores de las variables utilizadas ( Y,X 2 , X 3 , X 4 , X 5 , X 6) copiar a una hoja de trabajo en blanco ( adj. 3). Construimos la ecuación de regresión usando el complemento " Análisis de datos...Regresión" (menú " Servicio"® « Análisis de los datos…» ® « Regresión"). El panel de análisis de regresión con campos llenos se muestra en arroz. 2.

Los resultados del análisis de regresión se dan en adj. 4 y se mudó a mesa 2. La ecuación de regresión tiene la forma (ver “ Impares" V mesa 2):

La ecuación de regresión se considera estadísticamente significativa, ya que la probabilidad de que se forme aleatoriamente en la forma en que se obtuvo es 8,80 × 10 -6 (ver. "Importancia F" V mesa 2), que es significativamente menor que el nivel de significancia aceptado de a=0,05.

X 3 , X 4 , X 6 por debajo del nivel de significancia aceptado a=0,05 (ver “ Valor P" V mesa 2), que indica la significancia estadística de los coeficientes y la influencia significativa de estos factores en la variación del beneficio anual. Y.

Probabilidad de formación aleatoria de coeficientes para factores. X 2 y X 5 excede el nivel de significancia aceptado a=0,05 (ver “ Valor P" V mesa 2), y estos coeficientes no se consideran estadísticamente significativos.

arroz. 2. Panel de análisis de regresión del modelo Y(X 2 , X 3 , X 4 , X 5 , X 6)

Tabla 2

Y(X 2 , X 3 , X 4 , X 5 , X 6)

Estadísticas de regresión
Plural R 0,868
R Plaza 0,753
R cuadrado normalizado 0,694
Error estándar 242,3
Observaciones
Análisis de variación
df SS EM F Significado F
Regresión 3749838,2 749967,6 12,78 8.80E-06
Resto 1232466,8 58688,9
Total 4982305,0
Ecuación de regresión
Impares Error estándar estadística t Valor p
Intersección en Y 487,5 641,4 0,760 0,456
X2 -0,0456 0,0373 -1,224 0,235
X3 0,1043 0,0194 5,375 0,00002
X4 -0,0965 0,0263 -3,674 0,001
X5 2,528 6,323 0,400 0,693
X6 248,2 113,0 2,197 0,039

3. Con base en los resultados de la verificación de la significancia estadística de los coeficientes de la ecuación de regresión realizada en el párrafo anterior, construimos un nuevo modelo de regresión que contiene solo factores informativos, que incluyen:

· factores cuyos coeficientes son estadísticamente significativos;

factores cuyos coeficientes t-la estadística excede uno en valor absoluto (en otras palabras, el valor absoluto del coeficiente es mayor que su error estándar).

El primer grupo incluye factores. X 3 , X 4 , X 6, al segundo - factor X 2. Factor X 5 se excluye de la consideración por no ser informativo y el modelo de regresión final contendrá factores X 2 , X 3 , X 4 , X 6 .

Para construir una ecuación de regresión, copie los valores de las variables utilizadas en una hoja de trabajo en blanco ( adj. 5) y realizar análisis de regresión ( arroz. 3). Sus resultados se dan en adj. 6 y se mudó a mesa 3. La ecuación de regresión es:

(cm. " Impares" V mesa 3).

arroz. 3. Panel de análisis de regresión del modelo Y(X 2 , X 3 , X 4 , X 6)

Tabla 3

Resultados del análisis de regresión del modelo. Y(X 2 , X 3 , X 4 , X 6)

Estadísticas de regresión
Plural R 0,866
R Plaza 0,751
R cuadrado normalizado 0,705
Error estándar 237,6
Observaciones
Análisis de variación
df SS EM F Significado F
Regresión 3740456,2 935114,1 16,57 2.14E-06
Resto 1241848,7 56447,7
Total 4982305,0
Ecuación de regresión
Impares Error estándar estadística t Valor p
Intersección en Y 712,2 303,0 2,351 0,028
X2 -0,0541 0,0300 -1,806 0,085
X3 0,1032 0,0188 5,476 0,00002
X4 -0,1017 0,0223 -4,560 0,00015
X6 227,5 98,5 2,310 0,031

La ecuación de regresión es estadísticamente significativa: la probabilidad de su formación aleatoria está por debajo del nivel de significancia aceptable de a=0,05 (ver “ Significado F" V mesa 3).

Los coeficientes de los factores también se consideran estadísticamente significativos. X 3 , X 4 , X 6: la probabilidad de su formación aleatoria está por debajo del nivel de significancia aceptable a=0,05 (ver “ Valor P" V mesa 3). Esto indica un impacto significativo de las primas anuales de seguros. X 3, importe anual de los pagos del seguro X 4 y formas de propiedad X 6 por cambio en el beneficio anual Y.

Coeficiente factorial X 2 (tamaño anual de las reservas de seguros) no es estadísticamente significativo. Sin embargo, este factor aún puede considerarse informativo, ya que t-las estadísticas de su coeficiente superan módulo unidad, aunque se pueden sacar más conclusiones sobre el factor X 2 debe tratarse con cierta precaución.

4. Evaluemos la calidad y precisión de la última ecuación de regresión utilizando algunas características estadísticas obtenidas durante el análisis de regresión (ver . « Estadísticas de regresión" V. mesa 3):

coeficiente de determinación múltiple

muestra que el modelo de regresión explica el 75,1% de la variación del beneficio anual Y, y esta variación se debe a cambios en los factores incluidos en el modelo de regresión X 2 , X 3 , X 4 y X 6 ;

error estándar de regresión

mil rublos.

muestra que los valores de beneficio anual predichos por la ecuación de regresión Y difieren de los valores reales en un promedio de 237,6 mil rublos.

El error de aproximación relativo promedio está determinado por la fórmula aproximada:

Dónde mil rublos. - beneficio anual medio (determinado mediante la función incorporada " PROMEDIO»; adj. 1).

mi rel muestra que los valores de beneficio anual predichos por la ecuación de regresión Y difieren de los valores reales en una media del 26,7%. El modelo tiene una precisión insatisfactoria (en - la precisión del modelo es alta, en - bueno con - satisfactorio, con - insatisfactorio).

5. Para la interpretación económica de los coeficientes de la ecuación de regresión, tabulamos los valores promedio y las desviaciones estándar de las variables en los datos fuente ( mesa 4) . Los valores promedio se determinaron utilizando la función incorporada " PROMEDIO", desviaciones estándar - usando la función incorporada " DESVIACIÓN ESTÁNDAR" (cm. adj. 1).

Los datos de 2011 se proporcionan para los territorios del Distrito Federal Sur de la Federación de Rusia.

Territorios del Distrito Federal

Producto regional bruto, miles de millones de rublos, Y

Inversiones en activos fijos, miles de millones de rublos, X1

1. Representante Adygea

2. Representante Daguestán

3. Representante Ingusetia

4. República Kabardino-Balkariana

5. Representante Kalmukia

6. República de Karachay-Cherkess

7. Representante Osetia del Norte Alanya

8. Región de Krasnodar)

9. Región de Stávropol

10. Región de Astracán.

11. Región de Volgogrado.

12. Región de Rostov.

  • 1. Calcule la matriz de coeficientes de correlación de pares; evaluar la significancia estadística de los coeficientes de correlación.
  • 2. Construir un campo de correlación entre la característica efectiva y el factor más estrechamente relacionado con ella.
  • 3. Calcule los parámetros de regresión lineal de pares para cada factor X.
  • 4. Evaluar la calidad de cada modelo mediante el coeficiente de determinación, el error medio de aproximación y la prueba F de Fisher. Elige el mejor modelo.

será el 80% de su valor máximo. Presentar gráficamente: valores reales y del modelo, puntos de pronóstico.

  • 6. Utilizando una regresión múltiple paso a paso (método de exclusión o método de inclusión), construya un modelo de formación de precios de apartamentos debido a factores importantes. Dé una interpretación económica de los coeficientes del modelo de regresión.
  • 7. Evaluar la calidad del modelo construido. ¿Ha mejorado la calidad del modelo en comparación con el modelo de un solo factor? Evalúe la influencia de factores significativos en el resultado utilizando los coeficientes de elasticidad, en - y -? coeficientes

Al resolver este problema, realizaremos cálculos y construiremos gráficos y diagramas utilizando la configuración de Análisis de datos de Excel.

1. Calcule la matriz de coeficientes de correlación de pares y evalúe la significancia estadística de los coeficientes de correlación.

En el cuadro de diálogo Correlación, en el campo Intervalo de entrada, ingrese el rango de celdas que contienen los datos de origen. Como también hemos seleccionado los encabezados de las columnas, marcamos la casilla Etiquetas en la primera fila.

Obtuvimos los siguientes resultados:

Tabla 1.1 Matriz de coeficientes de correlación de pares

El análisis de la matriz de coeficientes de correlación por pares muestra que la variable dependiente Y, es decir, el producto regional bruto, tiene una relación más estrecha con X1 (inversión en capital fijo). El coeficiente de correlación es 0,936. Esto significa que el 93,6% de la variable dependiente Y (producto regional bruto) depende del indicador X1 (inversión en capital fijo).

Determinaremos la significación estadística de los coeficientes de correlación mediante la prueba t de Student. Comparamos el valor de la tabla con los valores calculados.

Calculemos el valor de la tabla usando la función STUDISCOVER.

tabla t = 0,129 con un nivel de confianza de 0,9 y grados de libertad (n-2).

El factor X1 es estadísticamente significativo.

2. Construyamos un campo de correlación entre el atributo efectivo (producto regional bruto) y el factor más relacionado con él (inversión en capital fijo)

Para ello utilizaremos la herramienta de diagrama de dispersión de Excel.

Como resultado, obtenemos un campo de correlación para el precio del producto regional bruto, en miles de millones de rublos. e inversiones en activos fijos, miles de millones de rublos. (Figura 1.1.).

Figura 1.1

3. Calcule los parámetros de regresión lineal de pares para cada factor X.

Para calcular los parámetros de la regresión lineal por pares, usaremos la herramienta Regresión incluida en la configuración de Análisis de datos.

En el cuadro de diálogo Regresión, en el campo Intervalo de entrada Y, ingrese la dirección del rango de celdas que representa la variable dependiente. en el campo

En el intervalo X ingresamos la dirección del rango que contiene los valores de las variables independientes. Calculemos los parámetros de regresión pareada para el factor X.

Para X1 recibimos los siguientes datos presentados en la Tabla 1.2:

Tabla 1.2

La ecuación de regresión para la dependencia del precio del producto regional bruto de la inversión en capital fijo tiene la forma:

4. Evaluamos la calidad de cada modelo a través del coeficiente de determinación, error promedio de aproximación y prueba F de Fisher. Determinemos qué modelo es el mejor.

Obtuvimos el coeficiente de determinación, el error medio de aproximación, como resultado de los cálculos realizados en el apartado 3. Los datos obtenidos se presentan en las siguientes tablas:

Datos X1:

Tabla 1.3a

Tabla 1.4b

A) El coeficiente de determinación determina qué proporción de la variación del rasgo Y se tiene en cuenta en el modelo y se debe a la influencia sobre él del factor X. Cuanto mayor sea el valor del coeficiente de determinación, más estrecha será la conexión entre los características en el modelo matemático construido.

Excel se refiere a R cuadrado.

Con base en este criterio, el modelo más adecuado es la ecuación de regresión de la dependencia del precio del producto regional bruto de la inversión en capital fijo (X1).

B) Calculamos el error medio de aproximación mediante la fórmula:

donde el numerador es la suma de los cuadrados de la desviación de los valores calculados de los reales. En las tablas se ubica en la columna SS, la línea Restante.

Calculamos el precio medio de un apartamento en Excel mediante la función PROMEDIO. = 24,18182 mil millones de rublos.

Al realizar cálculos económicos, un modelo se considera suficientemente preciso si el error medio de aproximación es inferior al 5%; el modelo se considera aceptable si el error medio de aproximación es inferior al 15%.

Según este criterio, el más adecuado es el modelo matemático para la ecuación de regresión de la dependencia del precio del producto regional bruto de la inversión en capital fijo (X1).

C) La prueba F se utiliza para probar la significancia del modelo de regresión. Para ello, también se comparan los valores críticos (tabulares) de la prueba F de Fisher.

Los valores calculados se dan en las tablas 1.4b (indicadas con la letra F).

Calcularemos el valor tabular de la prueba F de Fisher en Excel usando la función FDIST. Tomemos la probabilidad igual a 0,05. Recibido: = 4,75

Los valores calculados de la prueba F de Fisher para cada factor son comparables al valor de la tabla:

71,02 > = 4,75 el modelo es adecuado según este criterio.

Habiendo analizado los datos de acuerdo con los tres criterios, podemos concluir que el mejor modelo matemático es el factor del producto regional bruto, que se describe mediante la ecuación lineal

5. Para el modelo seleccionado de dependencia del precio del producto regional bruto

Predeciremos el valor promedio del indicador a un nivel de significancia si el valor predicho del factor es el 80% de su valor máximo. Presentémoslo gráficamente: valores reales y del modelo, puntos de pronóstico.

Calculemos el valor predicho de X, según la condición, será el 80% del valor máximo.

Calculemos X max en Excel usando la función MAX.

0,8 *52,8 = 42,24

Para obtener estimaciones predictivas de la variable dependiente, sustituimos el valor obtenido de la variable independiente en la ecuación lineal:

5,07+2,14*42,24 = 304,55 mil millones de rublos.

Determinemos el intervalo de confianza del pronóstico, que tendrá los siguientes límites:

Para calcular el intervalo de confianza del valor predicho, calculamos la desviación de la línea de regresión.

Para un modelo de regresión pareada, el valor de desviación se calcula:

aquellos. valor de error estándar de la Tabla 1.5a.

(Dado que el número de grados de libertad es igual a uno, el denominador será igual a n-2). pronóstico de regresión de pares de correlación

Para calcular el coeficiente usaremos la función de Excel STUDISCOVER, tomaremos la probabilidad igual a 0,1 y el número de grados de libertad 38.

Calculamos el valor usando Excel y obtenemos 12294.


Determinemos los límites superior e inferior del intervalo.

  • 304,55+27,472= 332,022
  • 304,55-27,472= 277,078

Por lo tanto, el valor previsto = 304,55 mil dólares estará entre el límite inferior igual a 277,078 mil dólares. y un límite superior igual a 332.022 millones. Frotar.

Los valores reales y del modelo y los puntos de pronóstico se presentan gráficamente en la Figura 1.2.


Figura 1.2

6. Utilizando regresión múltiple paso a paso (método de eliminación), construiremos un modelo para la formación del precio del producto regional bruto debido a factores importantes.

Para construir una regresión múltiple, usaremos la función Regresión de Excel, incluidos todos los factores. Como resultado, obtenemos las tablas de resultados, de las cuales necesitamos la prueba t de Student.

Tabla 1.8a

Tabla 1.8b

Cuadro 1.8c.

Obtenemos un modelo como:

Porque el< (4,75 < 71,024), уравнение регрессии следует признать адекватным.

Elijamos el valor absoluto más pequeño de la prueba t de Student, es igual a 8,427, compárelo con el valor de la tabla, que calculamos en Excel, tomemos el nivel de significancia igual a 0,10, el número de grados de libertad n-m-1= 12-4=8: =1,8595

Dado que 8,427>1,8595 el modelo debe considerarse adecuado.

7. Para evaluar el factor significativo del modelo matemático resultante, calculamos los coeficientes de elasticidad y - coeficientes

El coeficiente de elasticidad muestra en qué porcentaje cambiará el atributo efectivo cuando el atributo del factor cambie en un 1%:

EX4 = 2,137 * (10,69/24,182) = 0,94%

Es decir, con un aumento de la inversión en capital fijo del 1%, el coste en promedio aumenta un 0,94%.

El coeficiente muestra en qué parte de la desviación estándar cambia el valor promedio de la variable dependiente con un cambio en la variable independiente de una desviación estándar.

2,137* (14.736/33,632) = 0,936.

Los datos de la desviación estándar se toman de tablas obtenidas utilizando la herramienta Estadística Descriptiva.

Cuadro 1.11 Estadísticas descriptivas (Y)

Tabla 1.12 Estadísticas descriptivas (X4)

El coeficiente determina la proporción de la influencia del factor en la influencia total de todos los factores:

Para calcular los coeficientes de correlación de pares, calculamos la matriz de coeficientes de correlación de pares en Excel usando la herramienta Correlación en la configuración de Análisis de datos.

Tabla 1.14

(0,93633*0,93626) / 0,87 = 1,00.

Conclusión: De los cálculos obtenidos, podemos concluir que el atributo efectivo Y (producto regional bruto) tiene una gran dependencia del factor X1 (inversión en capital fijo) (en un 100%).

Bibliografía

  • 1. Magnus Y.R., Katyshev P.K., Peresetsky A.A. Econometría. Curso de iniciación. Tutorial. 2da ed. - M.: Delo, 1998. - p. 69-74.
  • 2. Taller de econometría: Libro de texto / I.I. Eliseeva, S.V. Kurysheva, N.M. Gordeenko y otros 2002. - p. 49-105.
  • 3. Dougherty K. Introducción a la econometría: Transl. De inglés - M.: INFRA-M, 1999. - XIV, p. 262 - 285.
  • 4. Ayvyzyan S.A., Mikhtiryan V.S. Matemáticas aplicadas y fundamentos de la econometría. -1998., págs. 115-147.
  • 5. Kremer N.Sh., Putko B.A. Econometría. -2007. de 175-251.
y X (1) X (2) X (3) X (4) X (5)
y 1.00 0.43 0.37 0.40 0.58 0.33
X (1) 0.43 1.00 0.85 0.98 0.11 0.34
X (2) 0.37 0.85 1.00 0.88 0.03 0.46
X (3) 0.40 0.98 0.88 1.00 0.03 0.28
X (4) 0.58 0.11 0.03 0.03 1.00 0.57
X (5) 0.33 0.34 0.46 0.28 0.57 1.00

El análisis de la matriz de coeficientes de correlación pareados muestra que el indicador efectivo está más estrechamente relacionado con el indicador. X(4) - la cantidad de fertilizante consumido por 1 hectárea ().

Al mismo tiempo, la conexión entre los atributos-argumentos es bastante estrecha. Por tanto, existe una relación prácticamente funcional entre el número de tractores de ruedas ( X(1)) y el número de herramientas de labranza superficial .

La presencia de multicolinealidad también está indicada por los coeficientes de correlación y . Considerando la estrecha relación entre los indicadores X (1) , X(2) y X(3), sólo uno de ellos puede incluirse en el modelo de regresión de rendimiento.

Para demostrar el impacto negativo de la multicolinealidad, considere un modelo de regresión de rendimiento, que incluya todos los indicadores de entrada:

F obs = 121.

Los valores de las estimaciones corregidas de las desviaciones estándar de las estimaciones de los coeficientes de la ecuación se indican entre paréntesis. .

Bajo la ecuación de regresión se presentan los siguientes parámetros de adecuación: coeficiente de determinación múltiple; estimación corregida de la varianza residual, error relativo promedio de aproximación y valor calculado del criterio F obs = 121.

La ecuación de regresión es significativa porque F obs = 121 > F kp = 2,85 encontrado en la tabla F-distribuciones a a=0,05; norte1 =6 y norte2 =14.

De esto se deduce que Q¹0, es decir y al menos uno de los coeficientes de la ecuación q j (j= 0, 1, 2, ..., 5) no es cero.

Para probar la hipótesis sobre la importancia de los coeficientes de regresión individuales H0: q j =0, donde j=1,2,3,4,5, comparar el valor crítico t kp = 2,14, encontrado en la tabla t-distribuciones al nivel de significancia a=2 q=0,05 y el número de grados de libertad n=14, con el valor calculado . De la ecuación se deduce que el coeficiente de regresión es estadísticamente significativo sólo cuando X(4) desde ½ t 4 ½=2.90 > t kp = 2,14.



Los signos negativos de los coeficientes de regresión no se prestan a una interpretación económica cuando X(1) y X(5) . De los valores negativos de los coeficientes se deduce que el aumento en la saturación de la agricultura con tractores de ruedas ( X(1)) y productos fitosanitarios ( X(5)) tiene un efecto negativo sobre el rendimiento. Por tanto, la ecuación de regresión resultante es inaceptable.

Para obtener una ecuación de regresión con coeficientes significativos, utilizamos un algoritmo de análisis de regresión paso a paso. Inicialmente utilizamos un algoritmo paso a paso con eliminación de variables.

Excluyamos la variable del modelo. X(1) , que corresponde al valor absoluto mínimo de ½ t 1 ½ = 0,01. Para las variables restantes, construimos nuevamente la ecuación de regresión:

La ecuación resultante es significativa porque F observado = 155 > F kp = 2,90, encontrado en el nivel de significancia a=0,05 y los números de grados de libertad n 1 =5 y n 2 =15 según la tabla F-distribución, es decir vector q¹0. Sin embargo, sólo el coeficiente de regresión en X(4) . Valores estimados ½ t j ½ para otros coeficientes es menor t kr = 2.131, encontrado en la tabla t-distribuciones en a=2 q=0,05 yn=15.

Excluyendo la variable del modelo. X(3) , que corresponde al valor mínimo t 3 =0,35 y obtenemos la ecuación de regresión:

(2.9)

En la ecuación resultante, el coeficiente en X(5) . Al excluir X(5) obtenemos la ecuación de regresión:

(2.10)

Obtuvimos una ecuación de regresión significativa con coeficientes significativos e interpretables.

Sin embargo, la ecuación resultante no es el único modelo de rendimiento “bueno” ni el “mejor” de nuestro ejemplo.

demostremos que en la condición de multicolinealidad, un algoritmo paso a paso con la inclusión de variables es más eficiente. El primer paso en el modelo de rendimiento. y variable incluida X(4), que tiene el coeficiente de correlación más alto con y, explicado por la variable - r(y,X(4))=0,58. En el segundo paso, incluyendo la ecuación junto con X(4) variables X(1) o X(3), obtendremos modelos que, por razones económicas y características estadísticas, superan (2.10):

(2.11)

(2.12)

Incluir cualquiera de las tres variables restantes en la ecuación empeora sus propiedades. Véase, por ejemplo, la ecuación (2.9).

Por lo tanto, tenemos tres modelos de rendimiento “buenos”, de los cuales debemos elegir uno por razones económicas y estadísticas.

Según criterios estadísticos, el modelo (2.11) es el más adecuado. Corresponde a los valores mínimos de varianza residual = 2,26 y al error relativo promedio de aproximación y los valores mayores y Fob = 273.

El modelo (2.12) tiene indicadores de adecuación ligeramente peores, seguido del modelo (2.10).

Ahora elegiremos el mejor de los modelos (2.11) y (2.12). Estos modelos se diferencian entre sí en términos de variables. X(1) y X(3) . Sin embargo, en los modelos de rendimiento la variable X(1) (número de tractores de ruedas por 100 ha) es más preferible que variable X(3) (número de implementos de labranza superficial por 100 ha), que en cierta medida es secundario (o derivado de X (1)).

En este sentido, por razones económicas, se debe dar preferencia al modelo (2.12). Así, luego de implementar el algoritmo de análisis de regresión por pasos con la inclusión de variables y teniendo en cuenta que solo una de las tres variables relacionadas debe entrar en la ecuación ( X (1) , X(2) o X(3)) elija la ecuación de regresión final:

La ecuación es significativa en a=0.05, porque F obs = 266 > F kp = 3,20, encontrado en la tabla F-distribuciones en a= q=0,05; norte 1 = 3 y norte 2 = 17. Todos los coeficientes de regresión en la ecuación ½ también son significativos t j½> t kp(a=2 q=0,05; n=17)=2,11. El coeficiente de regresión q 1 debe considerarse significativo (q 1 ¹0) por razones económicas, mientras que t 1 = 2,09 sólo un poco menos t kp = 2,11.

De la ecuación de regresión se deduce que un aumento de uno en el número de tractores por cada 100 hectáreas de tierra cultivable (a un valor fijo X(4)) conduce a un aumento del rendimiento de cereales de una media de 0,345 c/ha.

Un cálculo aproximado de los coeficientes de elasticidad e 1 »0,068 y e 2 »0,161 muestra que con indicadores crecientes X(1) y X(4) en un 1%, el rendimiento de grano aumenta en promedio un 0,068% y un 0,161%, respectivamente.

El coeficiente de determinación múltiple indica que sólo el 46,9% de la variación del rendimiento se explica por los indicadores incluidos en el modelo ( X(1) y X(4)), es decir, la saturación de la producción agrícola con tractores y fertilizantes. El resto de la variación se debe a la acción de factores no contabilizados ( X (2) , X (3) , X(5), condiciones climáticas, etc.). El error relativo promedio de aproximación caracteriza la adecuación del modelo, así como el valor de la varianza residual. Al interpretar la ecuación de regresión, son de interés los valores de los errores relativos de aproximación. . Recordemos que - el valor modelo del indicador efectivo caracteriza el valor de rendimiento promedio para la totalidad de las regiones consideradas, siempre que los valores de las variables explicativas X(1) y X(4) se fijan al mismo nivel, es decir X (1) = xyo(1) y X (4) = x yo(4) . Luego, según los valores de d i Puede comparar regiones por rendimiento. Áreas a las que corresponden los valores d i>0, tener un rendimiento superior al promedio y d i<0 - ниже среднего.

En nuestro ejemplo, en términos de rendimiento, la producción agrícola es más efectiva en el área correspondiente a d 7 =28%, donde el rendimiento es 28% superior al promedio regional, y la menos efectiva es en la zona con d 20 =-27,3%.


Tareas y ejercicios.

2.1. De la población general ( y, X (1) , ..., X(p)), donde y tiene una ley de distribución normal con expectativa matemática condicional y varianza s 2, una muestra aleatoria de norte, Déjalo ir ( y yo, xyo (1) , ..., xyo(p)) - resultado i a observación ( i=1, 2, ..., norte). Determine: a) la expectativa matemática de la estimación de mínimos cuadrados del vector q; b) matriz de covarianza de la estimación de mínimos cuadrados del vector q; c) expectativa matemática de la evaluación.

2.2. De acuerdo con las condiciones del problema 2.1, encuentre la esperanza matemática de la suma de las desviaciones al cuadrado debidas a la regresión, es decir, Ecualizador R, Dónde

.

2.3. De acuerdo con las condiciones del problema 2.1, determine la expectativa matemática de la suma de las desviaciones al cuadrado causadas por la variación residual con respecto a las líneas de regresión, es decir, Ecualizador este, donde

2.4. Demostrar que cuando se cumple la hipótesis H 0: q=0 estadística

tiene una distribución F con grados de libertad n 1 =p+1 y n 2 =n-p-1.

2.5. Demuestre que cuando se cumple la hipótesis H 0: q j =0, la estadística tiene una distribución t con el número de grados de libertad n=n-p-1.

2.6. Basado en los datos (Tabla 2.3) de la dependencia de la contracción del pan forrajero ( y) sobre la duración del almacenamiento ( X) encuentre una estimación puntual de la expectativa condicional bajo el supuesto de que la ecuación de regresión general es lineal.

Tabla 2.3.

Se requiere: a) encontrar estimaciones de la varianza residual s 2 bajo el supuesto de que la ecuación de regresión general tiene la forma ; b) comprobar en a=0,05 la significancia de la ecuación de regresión, es decir hipótesis H 0: q=0; c) con confiabilidad g=0,9, determinar estimaciones de intervalo de los parámetros q 0, q 1; d) con confiabilidad g=0.95, determine la estimación de intervalo de la expectativa matemática condicional en X 0 =6; e) determinar en g=0,95 el intervalo de confianza de la predicción en el punto X=12.

2.7. Basado en datos sobre la dinámica de la tasa de crecimiento de los precios de las acciones durante 5 meses, que figuran en la tabla. 2.4.

Tabla 2.4.

meses ( X)
y (%)

y el supuesto de que la ecuación de regresión general tiene la forma , se requiere: a) determinar estimaciones tanto de los parámetros de la ecuación de regresión como de la varianza residual s 2 ; b) comprobar en a=0,01 la significancia del coeficiente de regresión, es decir hipótesis H 0: q 1 =0;

c) con confiabilidad g=0,95, encuentre estimaciones de intervalo de los parámetros q 0 y q 1; d) con confiabilidad g=0.9, establecer una estimación de intervalo de la expectativa matemática condicional en X 0 =4; e) determinar en g=0,9 el intervalo de confianza de la predicción en el punto X=5.

2.8. Los resultados del estudio de la dinámica del aumento de peso de los animales jóvenes se dan en la Tabla 2.5.

Tabla 2.5.

Suponiendo que la ecuación de regresión general es lineal, se requiere: a) determinar estimaciones tanto de los parámetros de la ecuación de regresión como de la varianza residual s 2 ; b) comprobar en a=0,05 la significancia de la ecuación de regresión, es decir hipótesis H 0: q=0;

c) con confiabilidad g=0,8, encuentre estimaciones de intervalo de los parámetros q 0 y q 1; d) con confiabilidad g=0.98, determinar y comparar estimaciones de intervalo de la expectativa matemática condicional en X 0 = 3 y X 1 =6;

e) determinar en g=0,98 el intervalo de confianza de la predicción en el punto X=8.

2.9. Costo ( y) un ejemplar del libro según la tirada ( X) (miles de ejemplares) se caracteriza por los datos recopilados por la editorial (Tabla 2.6). Determinar estimaciones de mínimos cuadrados y parámetros de una ecuación de regresión hiperbólica, con confiabilidad g=0.9, construir intervalos de confianza para los parámetros q 0 y q 1, así como la expectativa condicional en X=10.

Tabla 2.6.

Determine las estimaciones y parámetros de la ecuación de regresión de la forma , pruebe la hipótesis H 0 en a = 0,05: q 1 = 0 y construya intervalos de confianza con confiabilidad g = 0,9 para los parámetros q 0 y q 1 y la expectativa matemática condicional en X=20.

2.11. En mesa 2.8 presentó datos sobre las tasas de crecimiento (%) de los siguientes indicadores macroeconómicos norte=10 países desarrollados del mundo para 1992: PNB - X(1) , producción industrial - X(2), índice de precios - X (3) .

Tabla 2.8.

Países x y parámetros de la ecuación de regresión, estimación de la varianza residual; b) comprobar en a=0,05 la significancia del coeficiente de regresión, es decir H 0: q 1 =0; c) con confiabilidad g=0,9, encuentre estimaciones de intervalo q 0 y q 1; d) encuentre en g=0,95 el intervalo de confianza para en el punto X 0 =xyo, Dónde i=5; e) comparar las características estadísticas de las ecuaciones de regresión: 1, 2 y 3.

2.12. Resuelva el problema 2.11 tomando ( en) índice X(1), y para la explicativa ( X) variable X (3) .

1. Ayvazyan S.A., Mkhitaryan V.S. Estadística aplicada y fundamentos de econometría: Libro de texto. M., UNIDAD, 1998 (2ª edición 2001);

2. Ayvazyan S.A., Mkhitaryan V.S. Estadística aplicada en problemas y ejercicios: Libro de texto. M. UNIDAD - DANA, 2001;

3. Ayvazyan S.A., Enyukov I.S., Meshalkin L.D. Estadísticas aplicadas. Investigación de dependencia. M., Finanzas y Estadística, 1985, 487 págs.;

4. Ayvazyan S.A., Bukhstaber V.M., Enyukov I.S., Meshalkin L.D. Estadísticas aplicadas. Clasificación y reducción de dimensiones. M., Finanzas y Estadísticas, 1989, 607 págs.;

5. Johnston J. Métodos econométricos, M.: Estadísticas, 1980, 446 págs.;

6. Dubrov A.V., Mkhitaryan V.S., Troshin L.I. Métodos estadísticos multivariados. M., Finanzas y Estadísticas, 2000;

7. Mkhitaryan V.S., Troshin L.I. Estudio de dependencias mediante métodos de correlación y regresión. M., MESI, 1995, 120 págs.;

8. Mkhitaryan V.S., Dubrov A.M., Troshin L.I. Métodos estadísticos multivariados en economía. M., MESI, 1995, 149 págs.;

9. Dubrov A.M., Mkhitaryan V.S., Troshin L.I. Estadística matemática para empresarios y directivos. M., MESI, 2000, 140 págs.;

10. Lukashin Yu.I. Métodos de regresión y pronóstico adaptativo: Libro de texto, M., MESI, 1997.

11. Lukashin Yu.I. Métodos adaptativos de previsión a corto plazo. - M., Estadísticas, 1979.


APLICACIONES


Anexo 1. Opciones de tareas para la investigación informática independiente.

CATEGORÍAS

ARTICULOS POPULARES

2023 “kingad.ru” - examen por ultrasonido de órganos humanos