Регресивна зависимост. Регресионен анализ

При статистическото моделиране регресионният анализ е изследване, използвано за оценка на връзката между променливите. Този математически метод включва много други методи за моделиране и анализ на множество променливи, където фокусът е върху връзката между зависима променлива и една или повече независими. По-конкретно, регресионният анализ ни помага да разберем как се променя типичната стойност на зависима променлива, ако една от независимите променливи се промени, докато другите независими променливи остават фиксирани.

Във всички случаи целевата оценка е функция на независимите променливи и се нарича регресионна функция. В регресионния анализ също е от интерес да се характеризира промяната в зависимата променлива като функция на регресията, която може да бъде описана с помощта на вероятностно разпределение.

Проблеми на регресионния анализ

Този статистически изследователски метод се използва широко за прогнозиране, където използването му има значително предимство, но понякога може да доведе до илюзия или фалшиви връзки, така че се препоръчва да се използва внимателно в споменатия въпрос, тъй като например корелацията не означава причинно-следствена връзка.

Разработени са голям брой методи за регресионен анализ, като линейна и обикновена регресия на най-малките квадрати, които са параметрични. Тяхната същност е, че регресионната функция се дефинира от гледна точка на краен брой неизвестни параметри, които се оценяват от данните. Непараметричната регресия позволява нейната функция да лежи в определен набор от функции, които могат да бъдат безкрайномерни.

Като статистически изследователски метод, регресионният анализ на практика зависи от формата на процеса на генериране на данни и как се свързва с регресионния подход. Тъй като истинската форма на генериране на процеса на данни обикновено е неизвестно число, регресионният анализ на данните често зависи до известна степен от предположенията за процеса. Тези предположения понякога могат да бъдат тествани, ако има достатъчно налични данни. Регресионните модели често са полезни дори когато предположенията са умерено нарушени, въпреки че може да не работят с максимална ефективност.

В по-тесен смисъл регресията може да се отнася конкретно до оценката на променливите на непрекъснатия отговор, за разлика от променливите на дискретния отговор, използвани в класификацията. Случаят на непрекъснатата изходна променлива се нарича още метрична регресия, за да се разграничи от свързаните проблеми.

История

Най-ранната форма на регресия е добре познатият метод на най-малките квадрати. Той е публикуван от Лежандр през 1805 г. и Гаус през 1809 г. Лежандр и Гаус прилагат метода към проблема за определяне от астрономически наблюдения на орбитите на телата около Слънцето (главно комети, но по-късно и новооткрити малки планети). Гаус публикува по-нататъшно развитие на теорията на най-малките квадрати през 1821 г., включително версия на теоремата на Гаус-Марков.

Терминът "регресия" е въведен от Франсис Галтън през 19 век, за да опише биологичен феномен. Идеята беше, че височината на потомците от тази на техните предци има тенденция да регресира надолу към нормалната средна стойност. За Галтън регресията има само това биологично значение, но по-късно работата му е продължена от Удни Йоли и Карл Пиърсън и е приведена в по-общ статистически контекст. В работата на Юл и Пиърсън съвместното разпределение на отговора и обяснителните променливи се приема за Гаусово. Това предположение е отхвърлено от Фишер в статии от 1922 и 1925 г. Фишър предположи, че условното разпределение на променливата на отговора е гаусово, но съвместното разпределение не е необходимо да бъде. В това отношение предложението на Фишер е по-близо до формулировката на Гаус от 1821 г. Преди 1970 г. понякога отнемаше до 24 часа, за да се получи резултатът от регресионен анализ.

Методите за регресионен анализ продължават да бъдат област на активно изследване. През последните десетилетия бяха разработени нови методи за стабилна регресия; регресии, включващи корелирани отговори; регресионни методи, които приспособяват различни видове липсващи данни; непараметрична регресия; Байесови регресионни методи; регресии, при които предикторните променливи се измерват с грешка; регресия с повече предиктори, отколкото наблюдения, и причинно-следствени изводи с регресия.

Регресионни модели

Моделите за регресионен анализ включват следните променливи:

  • Неизвестни параметри, обозначени като бета, които могат да бъдат скалари или вектори.
  • Независими променливи, X.
  • Зависими променливи, Y.

Различните области на науката, където се използва регресионен анализ, използват различни термини вместо зависими и независими променливи, но във всички случаи регресионният модел свързва Y с функция на X и β.

Приближението обикновено се записва като E(Y | X) = F(X, β). За да се извърши регресионен анализ, трябва да се определи вида на функцията f. По-рядко се основава на знания за връзката между Y и X, които не разчитат на данни. Ако такова знание не е налично, тогава се избира гъвкавата или удобна форма F.

Зависима променлива Y

Нека сега приемем, че векторът на неизвестните параметри β има дължина k. За да извърши регресионен анализ, потребителят трябва да предостави информация за зависимата променлива Y:

  • Ако се наблюдават N точки от данни във формата (Y, X), където N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Ако се наблюдава точно N = K и функцията F е линейна, тогава уравнението Y = F(X, β) може да бъде решено точно, а не приблизително. Това се равнява на решаване на набор от N-уравнения с N-неизвестни (елементи β), които имат уникално решение, стига X да е линейно независим. Ако F е нелинейно, може да няма решение или може да съществуват много решения.
  • Най-честата ситуация е, когато се наблюдават N > точки от данни. В този случай в данните има достатъчно информация, за да се оцени уникална стойност за β, която най-добре отговаря на данните, и регресионен модел, при който приложението към данните може да се разглежда като свръхопределена система в β.

В последния случай регресионният анализ предоставя инструменти за:

  • Намиране на решение за неизвестните параметри β, което например ще минимизира разстоянието между измерената и прогнозираната стойност на Y.
  • При определени статистически допускания, регресионният анализ използва излишна информация, за да предостави статистическа информация за неизвестните параметри β и прогнозираните стойности на зависимата променлива Y.

Необходим брой независими измервания

Да разгледаме регресионен модел, който има три неизвестни параметъра: β 0 , β 1 и β 2 . Да предположим, че експериментаторът прави 10 измервания на една и съща стойност на вектора X на независимата променлива. В този случай регресионният анализ не дава уникален набор от стойности. Най-доброто, което можете да направите, е да оцените средното и стандартното отклонение на зависимата променлива Y. По същия начин, чрез измерване на две различни стойности на X, можете да получите достатъчно данни за регресия с две неизвестни, но не и с три или повече неизвестни.

Ако измерванията на експериментатора са направени при три различни стойности на независимия променлив вектор X, тогава регресионният анализ ще предостави уникален набор от оценки за трите неизвестни параметъра в β.

В случай на обща линейна регресия горното твърдение е еквивалентно на изискването матрицата X T X да е обратима.

Статистически предположения

Когато броят на измерванията N е по-голям от броя на неизвестните параметри k и грешките на измерване ε i , тогава, като правило, излишната информация, съдържаща се в измерванията, се разпространява и използва за статистически прогнози по отношение на неизвестните параметри. Тази излишна информация се нарича регресивна степен на свобода.

Основни допускания

Класическите допускания за регресионен анализ включват:

  • Вземането на проби е представително за прогнозиране на изводи.
  • Членът на грешката е случайна променлива със средна стойност нула, която зависи от обяснителните променливи.
  • Независимите променливи се измерват без грешки.
  • Като независими променливи (предиктори), те са линейно независими, т.е. не е възможно да се изрази нито един предиктор като линейна комбинация от останалите.
  • Грешките са некорелирани, т.е. ковариационната матрица на грешката на диагоналите и всеки ненулев елемент е дисперсията на грешката.
  • Дисперсията на грешката е постоянна в наблюденията (хомоскедастичност). Ако не, тогава могат да се използват претеглени най-малки квадрати или други методи.

Тези достатъчни условия за оценка на най-малките квадрати имат необходимите свойства; по-специално, тези допускания означават, че оценките на параметрите ще бъдат обективни, последователни и ефективни, особено когато се вземат предвид в класа на линейните оценители. Важно е да се отбележи, че доказателствата рядко отговарят на условията. Тоест, методът се използва дори ако предположенията не са верни. Вариациите от предположенията понякога могат да се използват като мярка за това колко полезен е моделът. Много от тези предположения могат да бъдат облекчени с по-напреднали методи. Докладите за статистически анализ обикновено включват анализ на тестове върху примерни данни и методология за полезността на модела.

Освен това променливите в някои случаи се отнасят до стойности, измерени в точки. Възможно е да има пространствени тенденции и пространствени автокорелации в променливи, които нарушават статистическите допускания. Географската претеглена регресия е единственият метод, който се занимава с такива данни.

Характеристика на линейната регресия е, че зависимата променлива, която е Yi, е линейна комбинация от параметри. Например простата линейна регресия използва една независима променлива, x i, и два параметъра, β 0 и β 1, за моделиране на n-точки.

При множествената линейна регресия има множество независими променливи или техни функции.

Когато се вземе произволна извадка от съвкупност, нейните параметри позволяват да се получи примерен линеен регресионен модел.

В този аспект най-популярен е методът на най-малките квадрати. Използва се за получаване на оценки на параметри, които минимизират сумата на квадратите на остатъците. Този вид минимизиране (което е типично за линейната регресия) на тази функция води до набор от нормални уравнения и набор от линейни уравнения с параметри, които се решават, за да се получат оценки на параметрите.

При по-нататъшното предположение, че грешката на популацията обикновено се разпространява, изследователят може да използва тези стандартни оценки на грешката, за да създаде доверителни интервали и да проведе тестове на хипотези относно нейните параметри.

Нелинеен регресионен анализ

Пример, при който функцията не е линейна по отношение на параметрите, показва, че сумата от квадрати трябва да бъде минимизирана с помощта на итеративна процедура. Това въвежда много усложнения, които определят разликите между линейните и нелинейните методи на най-малките квадрати. Следователно резултатите от регресионния анализ при използване на нелинеен метод понякога са непредсказуеми.

Изчисляване на мощността и размера на извадката

Като цяло няма последователни методи по отношение на броя на наблюденията спрямо броя на независимите променливи в модела. Първото правило е предложено от Добра и Хардин и изглежда като N = t^n, където N е размерът на извадката, n е броят на независимите променливи, а t е броят наблюдения, необходими за постигане на желаната точност, ако моделът имаше само една независима променлива. Например, изследовател изгражда линеен регресионен модел, използвайки набор от данни, който съдържа 1000 пациенти (N). Ако изследователят реши, че са необходими пет наблюдения за точно дефиниране на линията (m), тогава максималният брой независими променливи, които моделът може да поддържа, е 4.

Други методи

Въпреки че параметрите на регресионния модел обикновено се оценяват с помощта на метода на най-малките квадрати, има други методи, които се използват много по-рядко. Например, това са следните методи:

  • Байесови методи (например байесова линейна регресия).
  • Процентна регресия, използвана за ситуации, при които намаляването на процентните грешки се счита за по-подходящо.
  • Най-малките абсолютни отклонения, което е по-стабилно при наличие на отклонения, водещи до квантилна регресия.
  • Непараметрична регресия, която изисква голям брой наблюдения и изчисления.
  • Показател за дистанционно обучение, който се научава да намира смислен показател за разстояние в дадено входно пространство.

Софтуер

Всички основни пакети за статистически софтуер извършват регресионен анализ на най-малките квадрати. Простата линейна регресия и множествената регресия могат да се използват в някои приложения за електронни таблици, както и в някои калкулатори. Въпреки че много статистически софтуерни пакети могат да извършват различни видове непараметрична и стабилна регресия, тези методи са по-малко стандартизирани; различни софтуерни пакети прилагат различни методи. Специализиран софтуер за регресия е разработен за използване в области като анализ на изследването и невроизобразяване.

По време на обучението си студентите много често се сблъскват с различни уравнения. Едно от тях - регресионното уравнение - е разгледано в тази статия. Този тип уравнение се използва специално за описание на характеристиките на връзката между математическите параметри. Този тип равенство се използва в статистиката и иконометрията.

Определение за регресия

В математиката регресията означава определено количество, което описва зависимостта на средната стойност на набор от данни от стойностите на друго количество. Регресионното уравнение показва, като функция на определена характеристика, средната стойност на друга характеристика. Регресионната функция има формата на просто уравнение y = x, в което y действа като зависима променлива, а x като независима променлива (фактор на характеристиките). Всъщност регресията се изразява като y = f (x).

Какви са видовете връзки между променливите?

Като цяло има два противоположни типа връзки: корелация и регресия.

Първият се характеризира с равенството на условните променливи. В този случай не е известно със сигурност коя променлива зависи от другата.

Ако няма равенство между променливите и условията казват коя променлива е обяснителна и коя е зависима, тогава можем да говорим за наличие на връзка от втори тип. За да се състави уравнение на линейна регресия, ще е необходимо да се установи какъв тип връзка се наблюдава.

Видове регресии

Днес има 7 различни вида регресия: хиперболична, линейна, множествена, нелинейна, двойна, обратна, логаритмично линейна.

Хиперболични, линейни и логаритмични

Уравнението на линейната регресия се използва в статистиката за ясно обяснение на параметрите на уравнението. Изглежда като y = c+t*x+E. Хиперболичното уравнение има формата на правилна хипербола y = c + m / x + E. Логаритмично линейно уравнение изразява връзката с помощта на логаритмична функция: In y = In c + m * In x + In E.

Множествени и нелинейни

Двата по-сложни типа регресия са множествена и нелинейна. Уравнението на множествената регресия се изразява чрез функцията y = f(x 1, x 2 ... x c) + E. В тази ситуация y действа като зависима променлива, а x действа като обяснителна променлива. Променливата E е стохастична; тя включва влиянието на други фактори в уравнението. Уравнението на нелинейната регресия е малко противоречиво. От една страна, по отношение на взетите под внимание показатели тя не е линейна, но от друга страна, в ролята на оценяващи показатели е линейна.

Обратни и сдвоени видове регресии

Обратната е вид функция, която трябва да бъде преобразувана в линейна форма. В най-традиционните приложни програми той има формата на функция y = 1/c + m*x+E. Уравнение за регресия по двойки показва връзката между данните като функция на y = f (x) + E. Точно както в други уравнения, y зависи от x, а E е стохастичен параметър.

Понятие за корелация

Това е индикатор, показващ наличието на връзка между две явления или процеси. Силата на връзката се изразява като корелационен коефициент. Стойността му се колебае в интервала [-1;+1]. Отрицателен индикатор показва наличието на обратна връзка, положителен индикатор показва директна обратна връзка. Ако коефициентът приеме стойност, равна на 0, тогава няма връзка. Колкото по-близо е стойността до 1, толкова по-силна е връзката между параметрите; колкото по-близо до 0, толкова по-слаба е тя.

Методи

Корелационните параметрични методи могат да оценят силата на връзката. Те се използват на базата на оценка на разпределението за изследване на параметри, които се подчиняват на закона за нормалното разпределение.

Параметрите на уравнението на линейната регресия са необходими за идентифициране на вида на зависимостта, функцията на уравнението на регресията и оценка на показателите на избраната формула за връзка. Корелационното поле се използва като метод за идентифициране на връзката. За да направите това, всички съществуващи данни трябва да бъдат изобразени графично. Всички известни данни трябва да бъдат нанесени в правоъгълна двумерна координатна система. Така се образува корелационно поле. Стойностите на описващия фактор са отбелязани по абсцисната ос, докато стойностите на зависимия фактор са отбелязани по ординатната ос. Ако има функционална връзка между параметрите, те се подреждат под формата на линия.

Ако коефициентът на корелация на такива данни е по-малък от 30%, можем да говорим за почти пълна липса на връзка. Ако е между 30% и 70%, това показва наличието на средно-тесни връзки. 100% индикатор е доказателство за функционална връзка.

Нелинейното регресионно уравнение, също като линейното, трябва да бъде допълнено с корелационен индекс (R).

Корелация за множествена регресия

Коефициентът на детерминация е мярка на квадрата на множествената корелация. Той говори за тясната връзка на представения набор от показатели с изследваната характеристика. Може да се говори и за естеството на влиянието на параметрите върху резултата. Уравнението на множествената регресия се оценява с помощта на този показател.

За да се изчисли индикаторът за множествена корелация, е необходимо да се изчисли неговият индекс.

Метод на най-малките квадрати

Този метод е начин за оценка на регресионните фактори. Същността му е да се минимизира сумата от квадратите на отклоненията, получени в резултат на зависимостта на фактора от функцията.

Уравнение на двойна линейна регресия може да бъде изчислено с помощта на такъв метод. Този тип уравнение се използва, когато се открие сдвоена линейна зависимост между индикаторите.

Параметри на уравнението

Всеки параметър на линейната регресионна функция има специфично значение. Сдвоеното линейно регресионно уравнение съдържа два параметъра: c и m показва средното изменение на крайния показател на функцията y, при условие че променливата x намалява (увеличава се) с една условна единица. Ако променливата x е нула, тогава функцията е равна на параметъра c. Ако променливата x не е нула, тогава факторът c няма икономическо значение. Единственото влияние върху функцията е знакът пред фактора c. Ако има минус, тогава можем да кажем, че промяната в резултата е бавна в сравнение с фактора. Ако има плюс, това означава ускорена промяна в резултата.

Всеки параметър, който променя стойността на регресионното уравнение, може да бъде изразен чрез уравнение. Например фактор c има формата c = y - mx.

Групирани данни

Има условия на задачата, при които цялата информация е групирана по атрибут x, но за определена група са посочени съответните средни стойности на зависимия индикатор. В този случай средните стойности характеризират как се променя индикаторът в зависимост от x. По този начин групираната информация помага да се намери регресионното уравнение. Използва се като анализ на взаимоотношенията. Този метод обаче има своите недостатъци. За съжаление средните показатели често са подложени на външни колебания. Тези колебания не отразяват модела на връзката; те просто маскират нейния „шум“. Средните стойности показват модели на връзки много по-лоши от уравнение на линейна регресия. Те обаче могат да се използват като основа за намиране на уравнение. Чрез умножаване на броя на отделна популация по съответната средна стойност, може да се получи сумата y в рамките на групата. След това трябва да съберете всички получени суми и да намерите крайния индикатор y. Малко по-трудно е да се правят изчисления с индикатора за сума xy. Ако интервалите са малки, можем условно да приемем, че показателят x за всички единици (в групата) е еднакъв. Трябва да го умножите по сумата от y, за да намерите сумата от произведенията на x и y. След това всички суми се събират заедно и се получава общата сума xy.

Уравнение за множествена регресия по двойки: оценка на важността на връзката

Както беше обсъдено по-рано, множествената регресия има функция от формата y = f (x 1,x 2,…,x m)+E. Най-често такова уравнение се използва за решаване на проблема с търсенето и предлагането на даден продукт, доходите от лихви върху обратно изкупени акции и за изследване на причините и вида на функцията на производствените разходи. Също така се използва активно в голямо разнообразие от макроикономически изследвания и изчисления, но на ниво микроикономика това уравнение се използва малко по-рядко.

Основната задача на множествената регресия е да се изгради модел от данни, съдържащ огромно количество информация, за да се определи допълнително какво влияние има всеки от факторите поотделно и в тяхната съвкупност върху показателя, който трябва да се моделира, и неговите коефициенти. Регресионното уравнение може да приема голямо разнообразие от стойности. В този случай за оценка на връзката обикновено се използват два вида функции: линейни и нелинейни.

Линейната функция е изобразена под формата на следната зависимост: y = a 0 + a 1 x 1 + a 2 x 2,+ ... + a m x m. В този случай a2, a m се считат за „чисти“ регресионни коефициенти. Те са необходими за характеризиране на средната промяна в параметъра y с промяна (намаляване или увеличаване) на всеки съответен параметър x с една единица, при стабилни стойности на други показатели.

Нелинейните уравнения имат например формата на степенна функция y=ax 1 b1 x 2 b2 ...x m bm. В този случай показателите b 1, b 2 ..... b m се наричат ​​коефициенти на еластичност, те показват как ще се промени резултатът (с колко%) с увеличение (намаляване) на съответния показател x с 1% и със стабилен показател на други фактори.

Какви фактори трябва да се вземат предвид при конструирането на множествена регресия

За да се изгради правилно множествената регресия, е необходимо да се установи на кои фактори трябва да се обърне специално внимание.

Необходимо е да има известно разбиране за естеството на връзките между икономическите фактори и това, което се моделира. Факторите, които ще трябва да бъдат включени, трябва да отговарят на следните критерии:

  • Трябва да се подложи на количествено измерване. За да се използва фактор, който описва качеството на даден обект, във всеки случай трябва да му се даде количествена форма.
  • Не трябва да има взаимовръзка на факторите или функционална връзка. Такива действия най-често водят до необратими последици - системата от обикновени уравнения става безусловна и това води до нейната ненадеждност и неясни оценки.
  • В случай на огромен индикатор за корелация, няма начин да се установи изолираното влияние на факторите върху крайния резултат на индикатора, следователно коефициентите стават неинтерпретируеми.

Методи на изграждане

Има огромен брой методи и методи, които обясняват как можете да изберете фактори за уравнение. Всички тези методи обаче се основават на избора на коефициенти с помощта на корелационен индикатор. Сред тях са:

  • Метод на елиминиране.
  • Метод на превключване.
  • Поетапен регресионен анализ.

Първият метод включва филтриране на всички коефициенти от общия набор. Вторият метод включва въвеждането на много допълнителни фактори. Е, третото е елиминирането на факторите, които преди са били използвани за уравнението. Всеки от тези методи има право на съществуване. Те имат своите плюсове и минуси, но всички те могат да решат проблема с премахването на ненужните индикатори по свой начин. По правило резултатите, получени от всеки отделен метод, са доста близки.

Методи за многомерен анализ

Такива методи за определяне на фактори се основават на разглеждане на индивидуални комбинации от взаимосвързани характеристики. Те включват дискриминантен анализ, разпознаване на формата, анализ на главните компоненти и клъстерен анализ. Освен това има и факторен анализ, но той се появи поради развитието на компонентния метод. Всички те се прилагат при определени обстоятелства, при определени условия и фактори.

Целта на регресионния анализ е да се измери връзката между зависима променлива и една (регресионен анализ по двойки) или повече (множество) независими променливи. Независимите променливи се наричат ​​още факторни, обяснителни, детерминантни, регресорни и предикторни променливи.

Зависимата променлива понякога се нарича дефинирана, обяснена или променлива „отговор“. Изключително широкото използване на регресионния анализ в емпиричните изследвания се дължи не само на факта, че той е удобен инструмент за проверка на хипотези. Регресията, особено множествената регресия, е ефективен метод за моделиране и прогнозиране.

Нека започнем да обясняваме принципите на работа с регресионния анализ с по-прост - метода на двойките.

Сдвоен регресионен анализ

Първите стъпки при използване на регресионен анализ ще бъдат почти идентични с тези, които направихме при изчисляването на коефициента на корелация. Трите основни условия за ефективността на корелационния анализ с помощта на метода на Pearson - нормално разпределение на променливите, интервално измерване на променливите, линейна връзка между променливите - също са от значение за множествената регресия. Съответно на първия етап се изграждат диаграми на разсейване, извършва се статистически и описателен анализ на променливите и се изчислява регресионна линия. Както в рамките на корелационния анализ, регресионните линии се конструират с помощта на метода на най-малките квадрати.

За да илюстрираме по-ясно разликите между двата метода за анализ на данни, нека се обърнем към примера, който вече беше обсъден с променливите „SPS подкрепа“ и „дял на селското население“. Изходните данни са идентични. Разликата в диаграмите на разсейване ще бъде, че при регресионния анализ е правилно да се начертае зависимата променлива - в нашия случай „SPS подкрепа“ върху оста Y, докато при корелационния анализ това няма значение. След почистване на отклоненията диаграмата на разсейване изглежда така:

Основната идея на регресионния анализ е, че имайки обща тенденция за променливите - под формата на регресионна линия - е възможно да се предвиди стойността на зависимата променлива, като се имат предвид стойностите на независимата.

Нека си представим обикновена математическа линейна функция. Всяка права линия в евклидовото пространство може да се опише с формулата:

където a е константа, която определя преместването по ординатната ос; b е коефициент, който определя ъгъла на наклона на линията.

Като знаете наклона и константата, можете да изчислите (предскажете) стойността на y за всяко x.

Тази най-проста функция формира основата на модела за регресионен анализ с уговорката, че няма да прогнозираме точно стойността на y, но в рамките на определен доверителен интервал, т.е. приблизително.

Константата е точката на пресичане на регресионната линия и у-оста (F-пресечна точка, обикновено означавана като „прихващач“ в статистическите пакети). В нашия пример с гласуването за Съюза на десните сили закръглената му стойност ще бъде 10,55. Ъгловият коефициент b ще бъде приблизително -0,1 (както при корелационния анализ знакът показва вида на връзката - директна или обратна). Така полученият модел ще има формата SP C = -0.1 x Sel. нас. + 10.55.

ATP = -0,10 х 47 + 10,55 = 5,63.

Разликата между първоначалните и прогнозираните стойности се нарича остатък (вече сме срещали този термин, който е основен за статистиката, когато анализираме таблици за непредвидени обстоятелства). Така че за случая на „Република Адигея“ остатъкът ще бъде равен на 3,92 - 5,63 = -1,71. Колкото по-голяма е модулната стойност на остатъка, толкова по-малко успешна е прогнозираната стойност.

Ние изчисляваме прогнозираните стойности и остатъците за всички случаи:
Случва се Седна. нас. Мерси

(оригинал)

Мерси

(предвидено)

Остатъци
Република Адигея 47 3,92 5,63 -1,71 -
Република Алтай 76 5,4 2,59 2,81
Република Башкортостан 36 6,04 6,78 -0,74
Република Бурятия 41 8,36 6,25 2,11
Република Дагестан 59 1,22 4,37 -3,15
Република Ингушетия 59 0,38 4,37 3,99
и т.н.

Анализът на съотношението на първоначалните и прогнозираните стойности служи за оценка на качеството на получения модел и неговата прогностична способност. Един от основните показатели на регресионната статистика е коефициентът на множествена корелация R - коефициентът на корелация между първоначалните и прогнозираните стойности на зависимата променлива. При сдвоен регресионен анализ той е равен на обичайния коефициент на корелация на Pearson между зависимите и независимите променливи, в нашия случай - 0,63. За да се интерпретира смислено множество R, то трябва да се преобразува в коефициент на определяне. Това става по същия начин както при корелационния анализ – чрез повдигане на квадрат. Коефициентът на детерминация R-квадрат (R 2) показва съотношението на вариация в зависимата променлива, която се обяснява от независимата променлива(и).

В нашия случай R 2 = 0,39 (0,63 2); това означава, че променливата „дял на селското население“ обяснява приблизително 40% от вариацията в променливата „подпомагане на СЕП“. Колкото по-голям е коефициентът на детерминация, толкова по-високо е качеството на модела.

Друг показател за качеството на модела е стандартната грешка на оценката. Това е мярка за това колко широко точките са „разпръснати“ около линията на регресия. Мярката за спред за интервални променливи е стандартното отклонение. Съответно, стандартната грешка на оценката е стандартното отклонение на разпределението на остатъците. Колкото по-висока е стойността му, толкова по-голямо е разсейването и толкова по-лош е моделът. В нашия случай стандартната грешка е 2,18. Именно с тази сума нашият модел ще „сгреши средно“, когато прогнозира стойността на променливата „SPS support“.

Регресионната статистика включва и анализ на дисперсията. С негова помощ откриваме: 1) каква част от вариацията (дисперсията) на зависимата променлива се обяснява с независимата променлива; 2) каква част от дисперсията на зависимата променлива се отчита от остатъците (необяснена част); 3) какво е съотношението на тези две величини (/"-съотношение). Статистиката на дисперсията е особено важна за извадкови изследвания - тя показва колко вероятно е да има връзка между независимите и зависимите променливи в популацията. Въпреки това, за непрекъснати изследвания (както в нашия пример) изследването резултатите от дисперсионния анализ не са полезни В този случай те проверяват дали идентифицираният статистически модел е причинен от съвпадение на случайни обстоятелства, до каква степен е характерен за набора от условия. в която се намира изследваната съвкупност, т.е. се установява, че полученият резултат не е верен за някаква по-широка обща съвкупност, а степента на нейната закономерност, свобода от случайни влияния.

В нашия случай статистиката ANOVA е както следва:

СС df Г-ЦА Е значение
Регрес. 258,77 1,00 258,77 54,29 0.000000001
остатък 395,59 83,00 L,11
Обща сума 654,36

F-съотношението от 54,29 е значително на ниво 0,0000000001. Съответно, можем уверено да отхвърлим нулевата хипотеза (че връзката, която открихме, се дължи на случайност).

Критерият t изпълнява подобна функция, но по отношение на коефициентите на регресия (ъглово и F-пресичане). Използвайки критерия /, проверяваме хипотезата, че в генералната съвкупност коефициентите на регресия са равни на нула. В нашия случай отново можем уверено да отхвърлим нулевата хипотеза.

Множествен регресионен анализ

Моделът на множествена регресия е почти идентичен с модела на сдвоена регресия; единствената разлика е, че няколко независими променливи са последователно включени в линейната функция:

Y = b1X1 + b2X2 + …+ bpXp + a.

Ако има повече от две независими променливи, ние не можем да получим визуална представа за тяхната връзка; в това отношение множествената регресия е по-малко „визуална“ от регресията по двойки. Когато имате две независими променливи, може да е полезно да покажете данните в 3D точкова диаграма. В професионалните статистически софтуерни пакети (например Statistica) има опция за завъртане на триизмерна диаграма, което ви позволява визуално да представите добре структурата на данните.

При работа с множествена регресия, за разлика от регресия по двойки, е необходимо да се определи алгоритъмът за анализ. Стандартният алгоритъм включва всички налични предиктори в крайния регресионен модел. Алгоритъмът стъпка по стъпка включва последователно включване (изключване) на независими променливи въз основа на тяхното обяснително „тегло“. Поетапният метод е добър, когато има много независими променливи; той „почиства“ модела от откровено слаби предиктори, правейки го по-компактен и стегнат.

Допълнително условие за коректността на множествената регресия (наред с интервала, нормалността и линейността) е липсата на мултиколинеарност - наличието на силни корелации между независими променливи.

Интерпретацията на статистическите данни за множествена регресия включва всички елементи, които разгледахме за случая на регресия по двойки. Освен това има други важни компоненти на статистиката на множествения регресионен анализ.

Ще илюстрираме работата с множествена регресия, като използваме примера за тестване на хипотези, които обясняват разликите в нивото на избирателна активност в руските региони. Специфични емпирични проучвания показват, че нивата на избирателна активност се влияят от:

Национален фактор (променлива „Руско население“; операционализирана като дял от руското население в съставните образувания на Руската федерация). Предполага се, че увеличаването на дела на руското население води до намаляване на избирателната активност;

Коефициент на урбанизация (променливата „градско население“; операционализирана като дял от градското население в съставните единици на Руската федерация; вече сме работили с този фактор като част от корелационния анализ). Предполага се, че увеличаването на дела на градското население води и до намаляване на избирателната активност.

Зависимата променлива - „интензивност на избирателната активност“ („активен“) се операционализира чрез данни за средната избирателна активност по региони на федерални избори от 1995 г. до 2003 г. Първоначалната таблица с данни за две независими и една зависима променлива ще бъде както следва:

Случва се Променливи
Активи. Гор. нас. рус. нас.
Република Адигея 64,92 53 68
Република Алтай 68,60 24 60
Република Бурятия 60,75 59 70
Република Дагестан 79,92 41 9
Република Ингушетия 75,05 41 23
Република Калмикия 68,52 39 37
Карачаево-Черкеска република 66,68 44 42
Република Карелия 61,70 73 73
Република Коми 59,60 74 57
Република Марий Ел 65,19 62 47

и т.н. (след почистване на емисиите остават 83 от 88 случая)

Статистика, описваща качеството на модела:

1. Множество R = 0,62; L-квадрат = 0,38. Следователно националният фактор и факторът урбанизация заедно обясняват около 38% от вариацията в променливата „избирателна активност“.

2. Средната грешка е 3,38. Точно толкова „средно грешен” е конструираният модел при прогнозиране на нивото на избирателна активност.

3. /l-съотношението на обяснена и необяснена вариация е 25,2 на ниво 0,000000003. Нулевата хипотеза за случайността на идентифицираните връзки се отхвърля.

4. Критерият / за константните и регресионните коефициенти на променливите „градско население” и „руско население” е значим на ниво 0,0000001; 0,00005 и 0,007 съответно. Нулевата хипотеза, че коефициентите са случайни, се отхвърля.

Допълнителни полезни статистически данни при анализиране на връзката между първоначалните и прогнозираните стойности на зависимата променлива са разстоянието Махаланобис и разстоянието на Кук. Първият е мярка за уникалността на случая (показва доколко комбинацията от стойности на всички независими променливи за даден случай се отклонява от средната стойност за всички независими променливи едновременно). Второто е мярка за влиянието на случая. Различните наблюдения имат различен ефект върху наклона на регресионната линия и разстоянието на Кук може да се използва за сравняването им по този показател. Това може да бъде полезно при почистване на извънредни стойности (външната стойност може да се разглежда като твърде влиятелен случай).

В нашия пример уникалните и влиятелни случаи включват Дагестан.

Случва се Оригинален

стойности

Предска

стойности

Остатъци Разстояние

Махаланобис

Разстояние
Адигея 64,92 66,33 -1,40 0,69 0,00
Република Алтай 68,60 69.91 -1,31 6,80 0,01
Република Бурятия 60,75 65,56 -4,81 0,23 0,01
Република Дагестан 79,92 71,01 8,91 10,57 0,44
Република Ингушетия 75,05 70,21 4,84 6,73 0,08
Република Калмикия 68,52 69,59 -1,07 4,20 0,00

Самият регресионен модел има следните параметри: Y-пресечна (константа) = 75.99; b (хоризонтално) = -0,1; Комерсант (руски нас.) = -0,06. Крайна формула.

В предишни публикации анализът често се фокусира върху една цифрова променлива, като възвръщаемост на взаимни фондове, времена за зареждане на уеб страница или консумация на безалкохолни напитки. В тази и следващите бележки ще разгледаме методите за прогнозиране на стойностите на числова променлива в зависимост от стойностите на една или повече други числови променливи.

Материалът ще бъде илюстриран с междусекторен пример. Прогнозиране на обема на продажбите в магазин за дрехи.Вече 25 години веригата магазини за дискаунт дрехи Sunflowers непрекъснато се разширява. В момента обаче компанията няма систематичен подход при избора на нови обекти. Местоположението, в което една компания възнамерява да отвори нов магазин, се определя въз основа на субективни съображения. Критериите за избор са благоприятни условия за наем или идея на мениджъра за идеалното местоположение на магазина. Представете си, че сте ръководител на отдела за специални проекти и планиране. Имате задача да разработите стратегически план за отваряне на нови магазини. Този план трябва да включва прогноза за годишните продажби за новооткрити магазини. Вярвате, че търговските площи са пряко свързани с приходите и искате да вземете това предвид в процеса на вземане на решения. Как разработвате статистически модел за прогнозиране на годишните продажби въз основа на размера на нов магазин?

Обикновено регресионният анализ се използва за прогнозиране на стойностите на променлива. Целта му е да разработи статистически модел, който може да предскаже стойностите на зависима променлива или отговор от стойностите на поне една независима или обяснителна променлива. В тази бележка ще разгледаме проста линейна регресия - статистически метод, който ви позволява да предвидите стойностите на зависима променлива Yчрез стойности на независими променливи х. Следващите бележки ще опишат модел на множествена регресия, предназначен да предскаже стойностите на независима променлива Yвъз основа на стойностите на няколко зависими променливи ( X 1, X 2, …, X k).

Изтеглете бележката в или формат, примери във формат

Видове регресионни модели

Където ρ 1 – коефициент на автокорелация; Ако ρ 1 = 0 (без автокорелация), д≈ 2; Ако ρ 1 ≈ 1 (положителна автокорелация), д≈ 0; Ако ρ 1 = -1 (отрицателна автокорелация), д ≈ 4.

На практика прилагането на критерия на Дърбин-Уотсън се основава на сравняване на стойността дс критични теоретични стойности d LИ d Uза даден брой наблюдения н, брой независими променливи на модела к(за проста линейна регресия к= 1) и ниво на значимост α. Ако д< d L , хипотезата за независимостта на случайните отклонения се отхвърля (следователно има положителна автокорелация); Ако D>dU, хипотезата не се отхвърля (т.е. няма автокорелация); Ако d L< D < d U , не са налице достатъчно основания за постановяване на решение. Когато изчислената стойност днадвишава 2, след това с d LИ d UНе се сравнява самият коефициент д, и изразът (4 – д).

За да изчислим статистиката на Durbin-Watson в Excel, нека се обърнем към долната таблица на фиг. 14 Теглене на баланс. Числителят в израз (10) се изчислява с помощта на функцията =SUMMAR(масив1;масив2), а знаменателят =SUMMAR(масив) (фиг. 16).

Ориз. 16. Формули за изчисляване на статистиката на Дърбин-Уотсън

В нашия пример д= 0,883. Основният въпрос е: каква стойност на статистиката на Дърбин-Уотсън трябва да се счита за достатъчно малка, за да се заключи, че съществува положителна автокорелация? Необходимо е да се съпостави стойността на D с критичните стойности ( d LИ d U), в зависимост от броя на наблюденията ни ниво на значимост α (фиг. 17).

Ориз. 17. Критични стойности на статистиката на Durbin-Watson (фрагмент от таблица)

По този начин, в проблема за обема на продажбите в магазин, доставящ стоки до дома, има една независима променлива ( к= 1), 15 наблюдения ( н= 15) и ниво на значимост α = 0,05. следователно d L= 1,08 и дU= 1,36. Тъй като д = 0,883 < d L= 1,08, има положителна автокорелация между остатъците, не може да се използва методът на най-малките квадрати.

Тестване на хипотези за наклона и коефициента на корелация

По-горе регресията беше използвана единствено за прогнозиране. За определяне на регресионни коефициенти и прогнозиране на стойността на променлива Yза дадена стойност на променлива хИзползван е методът на най-малките квадрати. В допълнение, ние изследвахме средната квадратична грешка на оценката и смесения коефициент на корелация. Ако анализът на остатъците потвърди, че условията за приложимост на метода на най-малките квадрати не са нарушени и простият линеен регресионен модел е адекватен, въз основа на извадковите данни, може да се твърди, че има линейна връзка между променливите в население.

ПриложениеT -критерии за наклон.Чрез тестване дали наклонът на популацията β 1 е равен на нула, можете да определите дали има статистически значима връзка между променливите хИ Y. Ако тази хипотеза бъде отхвърлена, може да се твърди, че между променливите хИ Yима линейна връзка. Нулевата и алтернативната хипотеза са формулирани по следния начин: H 0: β 1 = 0 (няма линейна зависимост), H1: β 1 ≠ 0 (има линейна зависимост). А-приорат T-статистиката е равна на разликата между наклона на извадката и хипотетичната стойност на наклона на популацията, разделена на средната квадратична грешка на оценката на наклона:

(11) T = (b 1 β 1 ) / S b 1

Където b 1 – наклон на директна регресия върху извадкови данни, β1 – хипотетичен наклон на директна популация, , и тестови статистики TТо има T-разпределение с n – 2степени на свобода.

Нека проверим дали има статистически значима връзка между размера на магазина и годишните продажби при α = 0,05. T-критерият се показва заедно с други параметри, когато се използва Пакет за анализ(опция Регресия). Пълните резултати от пакета за анализ са показани на фиг. 4, фрагмент, свързан с t-статистиката - на фиг. 18.

Ориз. 18. Резултати от приложението T

Тъй като броят на магазините н= 14 (виж фиг. 3), критична стойност T-статистиката при ниво на значимост α = 0,05 може да се намери с помощта на формулата: t L=STUDENT.ARV(0,025;12) = –2,1788, където 0,025 е половината от нивото на значимост, а 12 = н – 2; t U=STUDENT.OBR(0,975;12) = +2,1788.

Тъй като T-статистика = 10,64 > t U= 2.1788 (фиг. 19), нулева хипотеза H 0отхвърлени. От друга страна, Р- стойност за х= 10,6411, изчислено по формулата =1-STUDENT.DIST(D3,12,TRUE), е приблизително равно на нула, така че хипотезата H 0отново отхвърлен. Фактът че Р-стойност от почти нула означава, че ако няма истинска линейна връзка между размерите на магазина и годишните продажби, би било практически невъзможно да се открие с помощта на линейна регресия. Следователно съществува статистически значима линейна връзка между средните годишни продажби в магазина и размера на магазина.

Ориз. 19. Тестване на хипотезата за наклона на населението при ниво на значимост 0,05 и 12 степени на свобода

ПриложениеЕ -критерии за наклон.Алтернативен подход за тестване на хипотези за наклона на проста линейна регресия е използването Е- критерии. Нека си припомним това Е-test се използва за тестване на връзката между две вариации (за повече подробности вижте). Когато се тества хипотезата за наклона, мярката за случайни грешки е дисперсията на грешката (сумата от квадратните грешки, разделена на броя на степените на свобода), така че Е-критерият използва съотношението на дисперсията, обяснено от регресията (т.е. стойността ССР, разделено на броя на независимите променливи к), към дисперсията на грешката ( MSE = S Yх 2 ).

А-приорат Е-статистиката е равна на средния квадрат на регресия (MSR), разделен на дисперсията на грешката (MSE): Е = MSR/ MSE, Където MSR=ССР / к, MSE =SSE/(н– k – 1), k– брой независими променливи в регресионния модел. Тестова статистика ЕТо има Е-разпределение с кИ н– к – 1степени на свобода.

За дадено ниво на значимост α решаващото правило се формулира по следния начин: ако F>FU, нулевата хипотеза се отхвърля; иначе не се отхвърля. Резултатите, представени под формата на обобщена таблица на дисперсионния анализ, са показани на фиг. 20.

Ориз. 20. Анализ на дисперсионна таблица за проверка на хипотезата за статистическата значимост на регресионния коефициент

По същия начин T-критерий Е- критерият се показва в таблицата, когато се използва Пакет за анализ(опция Регресия). Пълни резултати от работата Пакет за анализса показани на фиг. 4, фрагмент, свързан с Е-статистика – на фиг. 21.

Ориз. 21. Резултати от приложението Е-критерии, получени с помощта на пакета за анализ на Excel

F-статистиката е 113,23 и Р-стойност близка до нула (клетка ЗначениеЕ). Ако нивото на значимост α е 0,05, определете критичната стойност Е-разпределения с една и 12 степени на свобода могат да се получат с помощта на формулата Ф У=F.OBR(1-0.05;1;12) = 4.7472 (фиг. 22). Тъй като Е = 113,23 > Ф У= 4,7472 и Р- стойност близка до 0< 0,05, нулевая гипотеза H 0се отхвърля, т.е. Размерът на магазина е тясно свързан с годишните му продажби.

Ориз. 22. Тестване на хипотезата за наклона на населението при ниво на значимост 0,05 с една и 12 степени на свобода

Доверителен интервал, съдържащ наклон β 1 .За да тествате хипотезата, че има линейна зависимост между променливите, можете да конструирате доверителен интервал, съдържащ наклона β 1 и да проверите дали хипотетичната стойност β 1 = 0 принадлежи на този интервал. Центърът на доверителния интервал, съдържащ наклона β 1, е наклонът на извадката b 1 , а неговите граници са количествата b 1 ±тн –2 S b 1

Както е показано на фиг. 18, b 1 = +1,670, н = 14, S b 1 = 0,157. T 12 =STUDENT.ARV(0,975;12) = 2,1788. следователно b 1 ±тн –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, или + 1,328 ≤ β 1 ≤ +2,012. По този начин има вероятност от 0,95, че наклонът на населението е между +1,328 и +2,012 (т.е. $1,328,000 до $2,012,000). Тъй като тези стойности са по-големи от нула, съществува статистически значима линейна връзка между годишните продажби и площта на магазина. Ако доверителният интервал съдържаше нула, нямаше да има връзка между променливите. Освен това доверителният интервал означава, че всяко увеличение на площта на магазина с 1000 кв. фута води до увеличение на средния обем на продажбите между $1,328,000 и $2,012,000.

ИзползванеT -критерии за коефициента на корелация.беше въведен коефициент на корелация r, което е мярка за връзката между две числови променливи. Може да се използва за определяне дали има статистически значима връзка между две променливи. Нека означим коефициента на корелация между популациите на двете променливи със символа ρ. Нулевата и алтернативната хипотеза са формулирани, както следва: H 0: ρ = 0 (няма корелация), H 1: ρ ≠ 0 (има корелация). Проверка на наличието на корелация:

Където r = + , Ако b 1 > 0, r = – , Ако b 1 < 0. Тестовая статистика TТо има T-разпределение с n – 2степени на свобода.

В проблема за веригата магазини Слънчогледи r 2= 0,904, а b 1- +1.670 (виж фиг. 4). Тъй като b 1> 0, коефициентът на корелация между годишните продажби и размера на магазина е r= +√0,904 = +0,951. Нека тестваме нулевата хипотеза, че няма корелация между тези променливи, използвайки T-статистика:

При ниво на значимост α = 0,05, нулевата хипотеза трябва да бъде отхвърлена, тъй като T= 10,64 > 2,1788. Следователно може да се твърди, че има статистически значима връзка между годишните продажби и размера на магазина.

Когато се обсъждат изводи относно наклона на съвкупността, доверителните интервали и тестовете за хипотези се използват взаимозаменяемо. Въпреки това, изчисляването на доверителния интервал, съдържащ коефициента на корелация, се оказва по-трудно, тъй като типът на извадковото разпределение на статистиката rзависи от истинския коефициент на корелация.

Оценка на математическото очакване и прогнозиране на индивидуалните стойности

Този раздел обсъжда методите за оценка на математическото очакване на отговор Yи прогнози за индивидуални стойности Yза дадени стойности на променливата х.

Изграждане на доверителен интервал.В пример 2 (вижте раздела по-горе Метод на най-малките квадрати) регресионното уравнение направи възможно прогнозирането на стойността на променливата Y х. При проблема с избора на място за търговски обект средният годишен обем на продажбите в магазин с площ от 4000 кв. фута е равно на 7,644 милиона долара, но тази оценка на математическото очакване на общото население е точкова. За да се оцени математическото очакване на населението, беше предложена концепцията за доверителен интервал. По подобен начин можем да въведем концепцията доверителен интервал за математическото очакване на отговораза дадена стойност на променлива х:

Където , = b 0 + b 1 X i– прогнозираната стойност е променлива Yпри х = X i, S YX– средна квадратична грешка, н– размер на извадката, хаз- определена стойност на променливата х, µ Y|х = хаз– математическо очакване на променливата Yпри х = Xi, SSX =

Анализът на формула (13) показва, че ширината на доверителния интервал зависи от няколко фактора. При дадено ниво на значимост увеличаването на амплитудата на флуктуациите около регресионната линия, измерена с помощта на средната квадратична грешка, води до увеличаване на ширината на интервала. От друга страна, както може да се очаква, увеличаването на размера на извадката е придружено от стесняване на интервала. Освен това ширината на интервала се променя в зависимост от стойностите хаз. Ако стойността на променливата Yпредвидени за количества х, близо до средната стойност , доверителният интервал се оказва по-тесен, отколкото при прогнозиране на отговора за стойности, далеч от средните.

Да кажем, че когато избираме местоположение на магазин, искаме да изградим 95% доверителен интервал за средните годишни продажби на всички магазини, чиято площ е 4000 квадратни метра. крака:

Следователно средният годишен обем на продажбите във всички магазини с площ от 4000 кв. фута, с 95% вероятност се намира в диапазона от 6,971 до 8,317 милиона долара.

Изчислете доверителния интервал за прогнозираната стойност.В допълнение към доверителния интервал за математическото очакване на отговора за дадена стойност на променливата х, често е необходимо да се знае доверителният интервал за прогнозираната стойност. Въпреки че формулата за изчисляване на такъв доверителен интервал е много подобна на формула (13), този интервал съдържа прогнозираната стойност, а не оценката на параметъра. Интервал за прогнозиран отговор Yх = Xiза конкретна стойност на променлива хазопределя се по формулата:

Да предположим, че когато избираме местоположение за търговски обект, искаме да изградим 95% доверителен интервал за прогнозирания годишен обем на продажбите за магазин, чиято площ е 4000 квадратни метра. крака:

Следователно прогнозираният годишен обем на продажбите за магазин с площ от 4000 кв. фута, с 95% вероятност се намира в диапазона от 5,433 до 9,854 милиона долара. Както виждаме, доверителният интервал за прогнозираната стойност на отговора е много по-широк от доверителния интервал за нейното математическо очакване. Това е така, защото променливостта при прогнозиране на индивидуалните стойности е много по-голяма, отколкото при оценката на математическото очакване.

Клопки и етични проблеми, свързани с използването на регресия

Трудности, свързани с регресионния анализ:

  • Игнориране на условията за приложимост на метода на най-малките квадрати.
  • Погрешна оценка на условията за приложимост на метода на най-малките квадрати.
  • Неправилен избор на алтернативни методи, когато са нарушени условията за приложимост на метода на най-малките квадрати.
  • Прилагане на регресионен анализ без задълбочено познаване на предмета на изследване.
  • Екстраполиране на регресия извън диапазона на обяснителната променлива.
  • Объркване между статистически и причинно-следствени връзки.

Широкото използване на електронни таблици и статистически софтуер елиминира изчислителните проблеми, които възпрепятстваха използването на регресионен анализ. Това обаче доведе до факта, че регресионният анализ беше използван от потребители, които нямаха достатъчно квалификация и знания. Как могат потребителите да знаят за алтернативни методи, ако много от тях изобщо нямат представа за условията на приложимост на метода на най-малките квадрати и не знаят как да проверят тяхното изпълнение?

Изследователят не бива да се увлича с изчерпване на числа - изчисляване на отместване, наклон и смесен коефициент на корелация. Има нужда от по-задълбочени познания. Нека илюстрираме това с класически пример, взет от учебниците. Anscombe показа, че и четирите набора от данни, показани на фиг. 23, имат същите регресионни параметри (фиг. 24).

Ориз. 23. Четири изкуствени масива от данни

Ориз. 24. Регресионен анализ на четири изкуствени масива от данни; приключи с Пакет за анализ(щракнете върху снимката, за да я увеличите)

Така че, от гледна точка на регресионния анализ, всички тези набори от данни са напълно идентични. Ако анализът приключи дотук, ще загубим много полезна информация. Това се доказва от диаграмите на разсейване (Фигура 25) и остатъчните графики (Фигура 26), конструирани за тези набори от данни.

Ориз. 25. Диаграми на разсейване за четири набора от данни

Графиките на разсейване и остатъчните графики показват, че тези данни се различават една от друга. Единственото множество, разпределено по права линия, е множество A. Графиката на остатъците, изчислена от множество A, няма никакъв модел. Това не може да се каже за набори B, C и D. Диаграмата на разсейване, начертана за набор B, показва ясно изразен квадратичен модел. Това заключение се потвърждава от остатъчната диаграма, която има параболична форма. Диаграмата на разсейване и остатъчната диаграма показват, че наборът от данни B съдържа отклонение. В тази ситуация е необходимо да се изключи отклонението от набора от данни и да се повтори анализът. Метод за откриване и елиминиране на отклонения в наблюденията се нарича анализ на влиянието. След елиминиране на отклонението, резултатът от повторното оценяване на модела може да бъде напълно различен. Диаграмата на разсейване, начертана от данни от набор G, илюстрира необичайна ситуация, в която емпиричният модел е значително зависим от индивидуален отговор ( X 8 = 19, Y 8 = 12,5). Такива регресионни модели трябва да се изчисляват особено внимателно. Така че диаграмите на разсейване и остатъците са основен инструмент за регресионен анализ и трябва да бъдат неразделна част от него. Без тях регресионният анализ не е надежден.

Ориз. 26. Остатъчни графики за четири набора от данни

Как да избегнем клопки в регресионния анализ:

  • Анализ на възможните връзки между променливите хИ Yвинаги започвайте с начертаване на точкова диаграма.
  • Преди да интерпретирате резултатите от регресионния анализ, проверете условията за неговата приложимост.
  • Начертайте остатъците спрямо независимата променлива. Това ще позволи да се определи колко добре емпиричният модел съответства на резултатите от наблюдението и да се открие нарушение на постоянството на дисперсията.
  • Използвайте хистограми, диаграми на стъбла и листа, графики с кутии и графики на нормално разпределение, за да тествате предположението за нормално разпределение на грешката.
  • Ако условията за приложимост на метода на най-малките квадрати не са изпълнени, използвайте алтернативни методи (например модели на квадратична или множествена регресия).
  • Ако условията за приложимост на метода на най-малките квадрати са изпълнени, е необходимо да се провери хипотезата за статистическата значимост на регресионните коефициенти и да се построят доверителни интервали, съдържащи математическото очакване и прогнозираната стойност на отговора.
  • Избягвайте да прогнозирате стойности на зависимата променлива извън диапазона на независимата променлива.
  • Имайте предвид, че статистическите връзки не винаги са причина и следствие. Не забравяйте, че корелацията между променливите не означава, че има причинно-следствена връзка между тях.

Резюме.Както е показано на блоковата диаграма (Фигура 27), бележката описва простия модел на линейна регресия, условията за неговата приложимост и как да тествате тези условия. Разглеждан T-критерий за проверка на статистическата значимост на наклона на регресията. Използван е регресионен модел за прогнозиране на стойностите на зависимата променлива. Разгледан е пример, свързан с избора на местоположение за търговски обект, в който се изследва зависимостта на годишния обем на продажбите от площта на магазина. Получената информация ви позволява по-точно да изберете местоположение за магазин и да предвидите годишния обем на продажбите му. Следващите бележки ще продължат обсъждането на регресионния анализ и също ще разгледат множество регресионни модели.

Ориз. 27. Схема на структурата на бележките

Използвани са материали от книгата Levin et al. – М.: Уилямс, 2004. – стр. 792–872

Ако зависимата променлива е категорична, трябва да се използва логистична регресия.

ЗАКЛЮЧВАНЕ НА РЕЗУЛТАТИТЕ

Таблица 8.3а. Регресионна статистика
Регресионна статистика
множествено число Р 0,998364
R-квадрат 0,99673
Нормализиран R-квадрат 0,996321
Стандартна грешка 0,42405
Наблюдения 10

Първо, нека разгледаме горната част на изчисленията, представени в таблица 8.3a - регресионна статистика.

Стойността R-квадрат, наричана още мярка за сигурност, характеризира качеството на получената регресионна линия. Това качество се изразява чрез степента на съответствие между изходните данни и регресионния модел (изчислените данни). Мярката за сигурност е винаги в рамките на интервала.

В повечето случаи стойността на R-квадрат попада между тези стойности, наречени екстремни стойности, т.е. между нула и едно.

Ако стойността на R-квадрат е близка до единица, това означава, че конструираният модел обяснява почти цялата променливост в съответните променливи. Обратно, стойност на R-квадрат, близка до нула, означава, че качеството на конструирания модел е лошо.

В нашия пример мярката за сигурност е 0,99673, което показва много добро прилягане на регресионната линия към оригиналните данни.

множествено число Р- коефициент на множествена корелация R - изразява степента на зависимост на независимите променливи (X) и зависимата променлива (Y).

Множеството R е равно на корен квадратен от коефициента на определяне; това количество приема стойности в диапазона от нула до единица.

При прост линеен регресионен анализ множественото R е равно на корелационния коефициент на Пиърсън. Наистина, множественото R в нашия случай е равно на корелационния коефициент на Пиърсън от предишния пример (0,998364).

Таблица 8.3b. Коефициенти на регресия
Коефициенти Стандартна грешка t-статистика
Y-пресечка 2,694545455 0,33176878 8,121757129
Променлива X 1 2,305454545 0,04668634 49,38177965
* Предоставена е съкратена версия на изчисленията

Сега разгледайте средната част на изчисленията, представени в таблица 8.3b. Тук са дадени регресионният коефициент b (2.305454545) и преместването по ординатната ос, т.е. константа a (2,694545455).

Въз основа на изчисленията можем да напишем регресионното уравнение, както следва:

Y= x*2,305454545+2,694545455

Посоката на връзката между променливите се определя въз основа на знаците (отрицателни или положителни) регресионни коефициенти(коефициент b).

Ако знакът при регресионен коефициент- положителен, връзката между зависимата променлива и независимата променлива ще бъде положителна. В нашия случай знакът на регресионния коефициент е положителен, следователно връзката също е положителна.

Ако знакът при регресионен коефициент- отрицателна, връзката между зависимата променлива и независимата променлива е отрицателна (обратна).

В таблица 8.3c. Представени са резултатите от извеждането на остатъците. За да се появят тези резултати в отчета, трябва да поставите отметка в квадратчето „Остатъци“, когато стартирате инструмента „Регресия“.

ТЕГЛЕНЕ НА ОСТАНАЛАТА

Таблица 8.3c. Остатъци
Наблюдение Предсказаният Y Остатъци Стандартни баланси
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Използвайки тази част от отчета, можем да видим отклоненията на всяка точка от построената регресионна линия. Най-голямата абсолютна стойност

КАТЕГОРИИ

ПОПУЛЯРНИ СТАТИИ

2024 “kingad.ru” - ултразвуково изследване на човешки органи