Регресивна залежність. Регресійний аналіз

У статистичному моделюванні регресійний аналіз є дослідження, що застосовуються з метою оцінки взаємозв'язку між змінними. Цей математичний метод включає безліч інших методів для моделювання та аналізу декількох змінних, коли основна увага приділяється взаємозв'язку між залежною змінною і однією або декількома незалежними. Говорячи конкретніше, регресійний аналіз допомагає зрозуміти, як змінюється типове значення залежної змінної, якщо одне із незалежних змінних змінюється, тоді як інші незалежні змінні залишаються фіксованими.

У всіх випадках цільова оцінка є функцією незалежних змінних і називається функцією регресії. У регресійному аналізі також цікавить характеристика зміни залежної змінної як функції регресії, яка може бути описана за допомогою розподілу ймовірностей.

Завдання регресійного аналізу

Даний статистичний метод дослідження широко використовується для прогнозування, де його використання має суттєву перевагу, але іноді це може призводити до ілюзії або помилкових відносин, тому рекомендується акуратно використовувати його в зазначеному питанні, оскільки, наприклад, кореляція не означає причинно-наслідкового зв'язку.

Розроблено велику кількість методів для проведення регресійного аналізу, такі як лінійна та звичайна регресії за методом найменших квадратів, які є параметричними. Їх суть у тому, що функція регресії визначається термінами кінцевого числа невідомих параметрів, які оцінюються з даних. Непараметрична регресія дозволяє її функції лежати у певному наборі функцій, які можуть бути нескінченномірними.

Як статистичний метод дослідження, регресійний аналіз практично залежить від форми процесу генерації даних і від цього, як і ставиться до регресійного підходу. Так як справжня форма процесу даних, що генерують, як правило, невідоме число, регресійний аналіз даних часто залежить до певної міри від припущень про цей процес. Ці припущення іноді перевіряються, якщо є достатньо доступних даних. Регресійні моделі часто бувають корисними навіть тоді, коли припущення помірковано порушені, хоча вони не можуть працювати з максимальною ефективністю.

У вужчому сенсі регресія може ставитися безпосередньо до оцінці безперервних змінних відгуку, на відміну дискретних змінних відгуку, що у класифікації. Випадок безперервної вихідний змінної також називають метричною регресією, щоб відрізнити його від пов'язаних із цим проблем.

Історія

Найраніша форма регресії – це всім відомий метод найменших квадратів. Він був опублікований Лежандром в 1805 році і Гауссом в 1809. Лежандр і Гаусс застосували метод завдання визначення з астрономічних спостережень орбіти тіл навколо Сонця (в основному комети, але пізніше і знову відкриті малі планети). Гаус опублікував подальший розвиток теорії найменших квадратів у 1821 році, включаючи варіант теореми Гаусса-Маркова.

Термін «регрес» вигадав Френсіс Гальтон у ХІХ столітті, щоб описати біологічне явище. Суть у тому, що зростання нащадків від зростання предків, зазвичай, регресує вниз до нормального середнього. Для Гальтона регресія мала лише цей біологічний сенс, але пізніше його робота була продовжена Удні Йолей та Карлом Пірсоном і виведена до більш загального статистичного контексту. У роботі Йоля та Пірсона спільний розподіл змінних відгуків та пояснювальних вважається гаусовим. Це припущення було відкинуто Фішером на роботах 1922 і 1925 років. Фішер припустив, що умовний розподіл змінної відгуку є гаусовим, але спільний розподіл не повинен бути таким. У зв'язку з цим припущення Фішера ближче до формулювання Гауса 1821 року. До 1970 року іноді витрачалося до 24 годин, щоб отримати результат регресійного аналізу.

Методи регресійного аналізу продовжують залишатися областю активних досліджень. Останні десятиліття нові методи були розроблені для надійної регресії; регресії за участю корелюючих відгуків; методи регресії, що вміщають різні типи даних, що відсутні; непараметричної регресії; байєсовські методи регресії; регресії, у яких змінні прогнозуючих вимірюються з помилкою; регресії здебільшого предикторов, ніж спостережень, і навіть причинно-наслідкових висновків з регресією.

Регресійні моделі

Моделі регресійного аналізу включають такі змінні:

  • Невідомі параметри, позначені як бета, які можуть бути скаляр або вектор.
  • Незалежні змінні, X.
  • Залежні змінні, Y.

У різних галузях науки, де здійснюється застосування регресійного аналізу, використовуються різні терміни замість залежних та незалежних змінних, але у всіх випадках регресійна модель відносить Y до функцій X та β.

Наближення зазвичай оформляється як E (Y | X) = F (X, β). Для проведення регресійного аналізу має бути визначено вид функції f. Рідше вона заснована на знаннях про взаємозв'язок між Y та X, які не покладаються на дані. Якщо таке знання недоступне, то вибрано гнучку або зручну форму F.

Залежна змінна Y

Припустимо тепер, що вектор невідомих параметрів має довжину k. Для виконання регресійного аналізу користувач повинен надати інформацію про залежну змінну Y:

  • Якщо спостерігаються точки N даних виду (Y, X), де N< k, большинство классических подходов к регрессионному анализу не могут быть выполнены, так как система уравнений, определяющих модель регрессии в качестве недоопределенной, не имеет достаточного количества данных, чтобы восстановить β.
  • Якщо спостерігаються рівно N = K, а функція F є лінійною, то рівняння Y = F (X, β) можна вирішити точно, а чи не приблизно. Це зводиться до рішення набору N-рівнянь з N-невідомими (елементи β), який має єдине рішення доти, доки X лінійно незалежний. Якщо F є нелінійним, рішення може не існувати або може існувати багато рішень.
  • Найбільш поширеною є ситуація, де спостерігається N> точки до даних. У цьому випадку є достатньо інформації в даних, щоб оцінити унікальне значення для β, яке найкраще відповідає даним, і модель регресії, коли застосування до даних можна розглядати як перевизначену систему β.

У разі регресійний аналіз надає інструменти для:

  • Пошук рішення для невідомих параметрів β, які, наприклад, мінімізувати відстань між виміряним і передбаченим значенням Y.
  • За певних статистичних припущень, регресійний аналіз використовує надлишок інформації для надання статистичної інформації про невідомі параметри β та передбачені значення залежної змінної Y.

Необхідна кількість незалежних вимірів

Розглянемо модель регресії, яка має три невідомі параметри: β 0 , β 1 та β 2 . Припустимо, що експериментатор виконує 10 вимірювань в тому самому значенні незалежної змінної вектора X. У цьому випадку регресійний аналіз не дає унікальний набір значень. Краще, що можна зробити, оцінити середнє значення і стандартне відхилення залежної змінної Y. Аналогічно вимірюючи два різних значеннях X, можна отримати достатньо даних для регресії з двома невідомими, але не для трьох і більше невідомих.

Якщо вимірювання експериментатора проводилися за трьох різних значеннях незалежної змінної вектора X, то регресійний аналіз забезпечить унікальний набір оцінок для трьох невідомих параметрів β.

У разі загальної лінійної регресії наведене вище твердження еквівалентне вимогі, що матриця X Т X оборотна.

Статистичні припущення

Коли число вимірювань N більше, ніж число невідомих параметрів k і похибки вимірювань ε i , то, як правило, поширюється надлишок інформації, що міститься у вимірюваннях, і використовується для статистичних прогнозів щодо невідомих параметрів. Цей надлишок інформації називається ступенем свободи регресії.

Основні припущення

Класичні припущення для регресійного аналізу включають:

  • Вибірка є представником прогнозування логічного висновку.
  • Помилка є випадковою величиною із середнім значенням нуля, який є умовним на пояснюючих змінних.
  • Незалежні змінні вимірюються без помилок.
  • Як незалежних змінних (предикторів) вони лінійно незалежні, тобто неможливо висловити будь-який провісник у вигляді лінійної комбінації інших.
  • Помилки є некорельованими, тобто матриця помилок діагоналей і кожен ненульовий елемент є дисперсією помилки.
  • Дисперсія помилки постійна за спостереженнями (гомоскедастичністю). Якщо ні, можна використовувати метод зважених найменших квадратів чи інші методи.

Ці достатні умови для оцінки найменших квадратів мають необхідні властивості, зокрема ці припущення означають, що оцінки параметрів будуть об'єктивними, послідовними та ефективними, особливо при їх обліку в класі лінійних оцінок. Важливо, що фактичні дані рідко задовольняють умовам. Тобто метод використовується навіть якщо припущення не вірні. Варіація з припущень іноді може бути використана як міра, що показує, наскільки ця модель є корисною. Багато з цих припущень можуть бути пом'якшені у більш розвинених методах. Звіти статистичного аналізу, як правило, включають аналіз тестів за даними вибірки і методології для корисності моделі.

Крім того, змінні в деяких випадках посилаються на значення, які вимірюються в точкових місцях. Там можуть бути просторові тенденції та просторові автокореляції у змінних, що порушують статистичні припущення. Географічна зважена регресія – єдиний метод, який має справу з такими даними.

У лінійній регресії особливістю є те, що залежна змінна, якою є Y i являє собою лінійну комбінацію параметрів. Наприклад, у простій лінійній регресії для моделювання n-точок використовується одна незалежна змінна, x i , і два параметри, β 0 і β 1 .

При множинні лінійної регресії існує кілька незалежних змінних або їх функцій.

При випадковій вибірці з популяції параметри дозволяють отримати зразок моделі лінійної регресії.

В даному аспекті найпопулярнішим є метод найменших квадратів. За допомогою нього одержують оцінки параметрів, які мінімізують суму квадратів залишків. Такі мінімізація (що характерно саме лінійної регресії) цієї функції призводить до набору нормальних рівнянь і набору лінійних рівнянь з параметрами, які вирішуються з отриманням оцінок параметрів.

При подальшому припущенні, що помилка популяції зазвичай поширюється, дослідник може використовувати ці оцінки стандартних помилок для створення довірчих інтервалів та перевірки гіпотез про її параметри.

Нелінійний регресійний аналіз

Приклад, коли функція не є лінійною щодо параметрів, вказує на те, що сума квадратів повинна бути мінімально зведена за допомогою ітераційної процедури. Це вносить багато ускладнень, які визначають різницю між лінійними і нелінійними методами найменших квадратів. Отже, результати регресійного аналізу під час використання нелінійного методу часом непередбачувані.

Розрахунок потужності та обсягу вибірки

Тут, зазвичай, немає узгоджених методів, які стосуються числа спостережень проти числом незалежних змінних у моделі. Перше правило було запропоновано Доброю і Хардіном і виглядає як N = t^n, де N є розмір вибірки, n - число незалежних змінних, а t є числом спостережень, необхідних досягнення бажаної точності, якщо модель мала тільки одну незалежну змінну. Наприклад, дослідник будує модель лінійної регресії з використанням набору даних, що містить 1000 пацієнтів (N). Якщо дослідник вирішує, що необхідно п'ять спостережень, щоб точно визначити пряму (м), то максимальна кількість незалежних змінних, які може підтримувати модель, дорівнює 4.

Інші методи

Незважаючи на те, що параметри регресійної моделі, як правило, оцінюються з використанням методу найменших квадратів, існують і інші методи, які використовуються набагато рідше. Наприклад, це такі способи:

  • Байєсовські методи (наприклад, метод Байєса лінійної регресії).
  • Процентна регресія, що використовується для ситуацій, коли зниження відсоткових помилок вважається за доцільне.
  • Найменші абсолютні відхилення, що є стійкішим у присутності викидів, що призводять до квантильної регресії.
  • Непараметрична регресія, що вимагає великої кількості спостережень та обчислень.
  • Відстань метрики навчання, яка вивчається у пошуках значної відстані метрики у заданому вхідному просторі.

Програмне забезпечення

Усі основні статистичні пакети програмного забезпечення виконуються за допомогою найменших квадратів регресійного аналізу. Проста лінійна регресія та множинний регресійний аналіз можуть бути використані в деяких додатках електронних таблиць, а також на деяких калькуляторах. Хоча багато статистичних пакетів програмного забезпечення можуть виконувати різні типи непараметричної та надійної регресії, ці методи менш стандартизовані; Різні програмні пакети реалізують різні методи. Спеціалізоване регресійне програмне забезпечення було розроблено для використання в таких галузях як аналіз обстеження та нейровізуалізації.

Під час навчання студенти часто стикаються з різноманітними рівняннями. Одне з них – рівняння регресії – розглянуто у цій статті. Такий тип рівняння використовується спеціально для опису характеристики зв'язку між математичними параметрами. Даний вид рівностей використовують у статистиці та економетриці.

Визначення поняття регресії

У математиці під регресією мається на увазі певна величина, що описує залежність середнього значення сукупності даних від значень іншої величини. Рівняння регресії показує як функцію певної ознаки середнє значення іншої ознаки. Функція регресії має вигляд простого рівняння у = х, в якому у виступає залежною змінною, а х - незалежною (ознака-фактор). Фактично регресія виражається як у = f(x).

Які бувають типи зв'язків між змінними

Загалом, виділяється два протилежні типи взаємозв'язку: кореляційна та регресійна.

Перша характеризується рівноправністю умовних змінних. У разі достовірно невідомо, яка змінна залежить від інший.

Якщо ж між змінними немає рівноправності й умовах сказано, яка змінна пояснює, яка - залежна, можна говорити про наявність зв'язку другого типу. Для того, щоб побудувати рівняння лінійної регресії, необхідно буде з'ясувати, який тип зв'язку спостерігається.

Види регресій

На сьогоднішній день виділяють 7 різноманітних видів регресії: гіперболічна, лінійна, множинна, нелінійна, парна, зворотна, логарифмічно лінійна.

Гіперболічна, лінійна та логарифмічна

Рівняння лінійної регресії застосовують у статистиці для чіткого пояснення параметрів рівняння. Воно виглядає як у = с+т*х+Е. Гіперболічне рівняння має вигляд правильної гіперболи у = с + т / х + Е. Логарифмічно лінійне рівняння виражає взаємозв'язок за допомогою логарифмічної функції: In у = In + т * In x + In E.

Множинна та нелінійна

Два складніших виду регресії - це множинна і нелінійна. Рівняння множинної регресії виражається функцією у = f(х 1 х 2 ... х с) + E. У цій ситуації у виступає залежною змінною, а х - що пояснює. Змінна Е – стохастична, вона включає вплив інших факторів у рівнянні. Нелінійне рівняння регресії трохи суперечливе. З одного боку, щодо врахованих показників воно не лінійне, а з іншого боку, у ролі оцінки показників воно є лінійним.

Зворотні та парні види регресій

Зворотний - це такий вид функції, який необхідно перетворити на лінійний вигляд. У традиційних прикладних програмах вона має вигляд функції у = 1/с + т*х+Е. Парне рівняння регресії демонструє взаємозв'язок між даними як функції у = f(x) + Е. Так само, як і в інших рівняннях, у залежить від х, а Е - стохастичний параметр.

Поняття кореляції

Це показник, що демонструє існування взаємозв'язку двох явищ чи процесів. Сила взаємозв'язку виявляється як коефіцієнт кореляції. Його значення коливається у межах інтервалу [-1;+1]. Негативний показник говорить про наявність зворотного зв'язку, позитивний – про прямий. Якщо коефіцієнт набуває значення, що дорівнює 0, то взаємозв'язку немає. Чим ближче значення до 1 – тим сильніший зв'язок між параметрами, чим ближче до 0 – тим слабше.

Методи

Кореляційні параметричні методи можуть оцінити тісноту взаємозв'язку. Їх застосовують з урахуванням оцінки розподілу вивчення параметрів, підпорядковуються закону нормального розподілу.

Параметри рівняння лінійної регресії необхідні ідентифікації виду залежності, функції регресійного рівняння та оцінювання показників обраної формули взаємозв'язку. Як метод ідентифікації зв'язку використовується поле кореляції. Для цього всі наявні дані необхідно зобразити графічно. У прямокутній двовимірній системі координат необхідно нанести всі відомі дані. Так утворюється поле кореляції. Значення описуючого чинника відзначаються вздовж осі абсцис, тоді як значення залежного - вздовж осі ординат. Якщо між параметрами є функціональна залежність, вони шикуються у формі лінії.

Якщо коефіцієнт кореляції таких даних буде менше 30 %, можна говорити про практично повну відсутність зв'язку. Якщо він знаходиться між 30% і 70%, це говорить про наявність зв'язків середньої тісноти. 100% показник – свідчення функціонального зв'язку.

Нелінійне рівняння регресії як і, як і лінійне, необхідно доповнювати індексом кореляції (R).

Кореляція для множинної регресії

Коефіцієнт детермінації є показник квадрата множинної кореляції. Він говорить про тісноті взаємозв'язку представленого комплексу показників з ознакою, що досліджується. Він може говорити про характер впливу параметрів на результат. Рівняння множинної регресії оцінюють за допомогою цього показника.

Щоб обчислити показник множинної кореляції, необхідно розрахувати його індекс.

Метод найменших квадратів

Цей метод є способом оцінювання факторів регресії. Його суть полягає у мінімізуванні суми відхилень у квадраті, отриманих внаслідок залежності фактора від функції.

Парне лінійне рівняння регресії можна оцінити з допомогою такого методу. Цей тип рівнянь використовують у разі виявлення між показниками парної лінійної залежності.

Параметри рівнянь

Кожен параметр функції лінійної регресії несе певний зміст. Парне лінійне рівняння регресії містить два параметри: с і т. Параметр т демонструє середню зміну кінцевого показника функції у, за умови зменшення (збільшення) змінної х на одну умовну одиницю. Якщо змінна х – нульова, то функція дорівнює параметру с. Якщо ж змінна х не нульова, то фактор не несе в собі економічний сенс. Єдиний вплив на функцію має знак перед фактором с. Якщо там мінус, то можна сказати про уповільнену зміну результату порівняно з фактором. Якщо там плюс, то це свідчить про прискорену зміну результату.

Кожен параметр, що змінює значення рівняння регресії, можна виразити через рівняння. Наприклад, фактор с має вигляд с = y - тх.

Згруповані дані

Бувають такі умови завдання, у яких вся інформація групується за ознакою x, але для певної групи вказуються відповідні середні значення залежного показника. У разі середні значення характеризують, як змінюється показник, залежить від х. Таким чином, згрупована інформація допомагає знайти рівняння регресії. Її використовують як аналіз взаємозв'язків. Однак такий метод має свої недоліки. На жаль, середні показники досить часто зазнають зовнішніх коливань. Дані коливання є відображенням закономірності взаємозв'язку, вони лише маскують її «шум». Середні показники демонструють закономірності взаємозв'язку набагато гірше, ніж рівняння лінійної регресії. Однак їх можна застосовувати у вигляді бази для пошуку рівняння. Перемножуючи чисельність окремої сукупності на відповідну середню можна отримати суму в межах групи. Далі необхідно підбити всі отримані суми і знайти кінцевий показник. Трохи складніше робити розрахунки з показником суми ху. Якщо інтервали малі, можна умовно взяти показник х для всіх одиниць (у межах групи) однаковим. Слід перемножити його із сумою у, щоб дізнатися суму творів x на у. Далі всі суми підбиваються разом і виходить загальна сума ху.

Множинне парне рівняння регресії: оцінка важливості зв'язку

Як розглядалося раніше, множинна регресія має функцію виду у = f (x 1 x 2 ... x m) + E. Найчастіше таке рівняння використовують для вирішення проблеми попиту та пропозиції на товар, відсоткового доходу за викупленими акціями, вивчення причин та виду функції витрат виробництва. Її також активно застосовують у найрізноманітніших макроекономічних дослідженнях і розрахунках, а на рівні мікроекономіки таке рівняння застосовують трохи рідше.

Основним завданням множинної регресії є побудова моделі даних, що містять величезну кількість інформації, для того щоб надалі визначити, який вплив має кожен із факторів окремо та в їхній загальній сукупності на показник, який необхідно змоделювати, та його коефіцієнти. Рівняння регресії може набувати найрізноманітніших значень. При цьому для оцінки взаємозв'язку зазвичай використовується два типи функцій: лінійна та нелінійна.

Лінійна функція зображується у формі такого взаємозв'язку: у = а 0 + a 1 х 1 + а 2 х 2 + + + m x m . У цьому а2, a m , вважаються коефіцієнтами «чистої» регресії. Вони необхідні для характеристики середньої зміни параметра зі зміною (зменшенням або збільшенням) кожного відповідного параметра х на одну одиницю, з умовою стабільного значення інших показників.

Нелінійні рівняння мають, наприклад, вид статечної функції у=ах 1 b1 х 2 b2 ... x m bm. У разі показники b 1 , b 2 ..... b m - називаються коефіцієнтами еластичності, демонструють, як зміниться результат (на скільки %) зі збільшенням (зменшенні) відповідного показника x 1 % і за стабільному показнику інших чинників.

Які фактори необхідно враховувати при побудові множинної регресії

Для того, щоб правильно побудувати множинну регресію, необхідно з'ясувати, на які саме фактори слід звернути особливу увагу.

Необхідно мати певне розуміння природи взаємозв'язків між економічними факторами та модельованим. Чинники, які потрібно буде включати, повинні відповідати таким признакам:

  • Повинні бути підвладні кількісному виміру. Для того щоб використовувати фактор, який описує якість предмета, у будь-якому випадку слід надати йому кількісну форму.
  • Не повинна бути інтеркореляція факторів, або функціональний взаємозв'язок. Такі дії найчастіше призводять до незворотних наслідків - система звичайних рівнянь стає не обумовленою, а це спричиняє її ненадійність і нечіткість оцінок.
  • У разі існування величезного показника кореляції немає способу для з'ясування ізольованого впливу факторів на остаточний результат показника, отже коефіцієнти стають неінтерпретованими.

Методи побудови

Існує безліч методів і методів, пояснюють, як можна вибрати чинники рівняння. Проте ці методи будуються на відборі коефіцієнтів з допомогою показника кореляції. Серед них виділяють:

  • Спосіб виключення.
  • Спосіб включення.
  • Покроковий аналіз регресії.

Перший метод має на увазі відсів усіх коефіцієнтів із сукупного набору. Другий метод включає введення множини додаткових факторів. Ну а третій – відсів факторів, які були раніше застосовані для рівняння. Кожен із цих методів має право на існування. Вони мають свої плюси та мінуси, але вони всі по-своєму можуть вирішити питання відсіву непотрібних показників. Зазвичай, результати, отримані кожним окремим методом, досить близькі.

Методи багатовимірного аналізу

Такі методи визначення чинників базуються на розгляді окремих поєднань взаємозалежних ознак. Вони включають дискримінантний аналіз, розпізнання видів, метод основних компонентів і аналіз кластерів. Крім того, існує факторний аналіз, однак він з'явився внаслідок розвитку способу компонент. Усі вони застосовуються у певних обставинах, за наявності певних умов та факторів.

Метою регресійного аналізу є вимірювання зв'язку між залежною змінною та однією (парний регресійний аналіз) або декількома (множинним) незалежними змінними. Незалежні змінні називають також факторними, що пояснюють, визначальними, регресорами та предикторами.

Залежну змінну іноді називають обумовленою, пояснюваною, «відгуком». Надзвичайно широке поширення регресійного аналізу в емпіричних дослідженнях пов'язано не тільки з тим, що це зручний інструмент для тестування гіпотез. Регресія, особливо множинна, є ефективним методом моделювання та прогнозування.

Пояснення принципів роботи з регресійним аналізом почнемо з простішого - парного методу.

Парний регресійний аналіз

Перші дії при використанні регресійного аналізу будуть практично ідентичними нами в рамках обчислення коефіцієнта кореляції. Три основні умови ефективності кореляційного аналізу за методом Пірсона – нормальний розподіл змінних, інтервальний вимір змінних, лінійний зв'язок між змінними – актуальні і для множинної регресії. Відповідно, на першому етапі будуються діаграми розсіювання, проводиться статистично-описовий аналіз змінних та обчислюється лінія регресії. Як і рамках кореляційного аналізу, лінії регресії будуються шляхом найменших квадратів.

Щоб наочно проілюструвати різницю між двома методами аналізу даних, звернемося до вже розглянутому прикладу зі змінними «підтримка УПС» і «частка сільського населення». Вихідні дані ідентичні. Відмінність у діаграмах розсіювання полягатиме у цьому, що у регресійному аналізі коректно відкладати залежну змінну - у разі «підтримка УПС» по осі Y, тоді як і кореляційному аналізі це має значення. Після чищення викидів діаграма розсіювання має вигляд:

Принципова ідея регресійного аналізу у тому, що, маючи загальну тенденцію для змінних - як лінії регресії, - можна передбачити значення залежної змінної, маючи значення незалежної.

Уявімо звичайну математичну лінійну функцію. Будь-яку пряму в евклідовому просторі можна описати формулою:

де а - константа, що задає зміщення осі ординат; b – коефіцієнт, що визначає кут нахилу лінії.

Знаючи кутовий коефіцієнт і константу, можна розрахувати (передбачити) значення для будь-якого х.

Ця найпростіша функція і лягла основою моделі регресійного аналізу з тим застереженням, що значення ми передбачимо не точно, а межах певного довірчого інтервалу, тобто. приблизно.

Константою є точка перетину лінії регресії та осі ординат (F-перетин, у статистичних пакетах, як правило, що позначається «interceptor»). У нашому прикладі із голосуванням за УПС її округлене значення становитиме 10,55. Кутовий коефіцієнт Ъ дорівнюватиме приблизно -0,1 (як і в кореляційному аналізі, знак показує тип зв'язку - пряма або зворотна). Таким чином, отримана модель матиме вигляд СП = -0,1 х Сел. нас. + 10,55.

УПС = -0,10 х 47 + 10,55 = 5,63.

Різниця між вихідним і передбаченим значеннями називається залишком (з цим терміном – важливим для статистики – ми вже стикалися при аналізі таблиць сполученості). Так, для випадку «Республіка Адигея» залишок дорівнюватиме 3,92 - 5,63 = -1,71. Чим більше модульне значення залишку, тим менш успішно передбачено значення.

Розраховуємо передбачені значення та залишки для всіх випадків:
Випадок Сіл. нас. УПС

(вихідне)

УПС

(передбачене)

Залишки
Республіка Адигея 47 3,92 5,63 -1,71 -
Республіка Алтай 76 5,4 2,59 2,81
Республіка Башкортостан 36 6,04 6,78 -0,74
Республіка Бурятія 41 8,36 6,25 2,11
республіка Дагестан 59 1,22 4,37 -3,15
Республіка Інгушетія 59 0,38 4,37 3,99
І т.д.

Аналіз співвідношення вихідних та передбачених значень служить для оцінки якості отриманої моделі, її прогностичної здатності. Одним з головних показників регресійної статистики є множинний коефіцієнт кореляції R - коефіцієнт кореляції між вихідними та передбаченими значеннями залежної змінної. У парному регресійному аналізі він дорівнює звичайному коефіцієнту кореляції Пірсона між залежною та незалежною змінною, у нашому випадку – 0,63. Щоб змістовно інтерпретувати множинний R, його необхідно перетворити на коефіцієнт детермінації. Це робиться так само, як і в кореляційному аналізі – зведенням у квадрат. Коефіцієнт детермінації R-квадрат (R 2) показує частку варіації залежної змінної, яка пояснюється незалежною (незалежними) змінними.

У разі R 2 = 0,39 (0,63 2); це означає, що змінна «частка сільського населення» пояснює приблизно 40% варіації змінної «підтримка УПС». Чим більша величина коефіцієнта детермінації, тим вища якість моделі.

Іншим показником якості моделі є стандартна помилка оцінки (standard error of estimate). Це показник того, наскільки сильно точки розкидані навколо лінії регресії. Мірою розкиду для інтервальних змінних є стандартне відхилення. Відповідно, стандартна помилка оцінки – це стандартне відхилення розподілу залишків. Чим вище її значення, тим сильніший розкид і тим гірша модель. У разі стандартна помилка становить 2,18. Саме на цю величину наша модель "помилятиметься в середньому" при прогнозуванні значення змінної "підтримка УПС".

Регресійна статистика включає також дисперсійний аналіз. За його допомогою ми з'ясовуємо: 1) яка частка варіації (дисперсії) залежної змінної пояснюється незалежною змінною; 2) яка частка дисперсії залежної змінної посідає залишки (непояснена частина); 3) яке відношення цих двох величин (/"-відношення). Дисперсійна статистика особливо важлива для вибіркових досліджень - вона показує, наскільки ймовірно наявність зв'язку між незалежною і залежною змінними в генеральній сукупності. Однак і для суцільних досліджень (як у нашому прикладі) вивчення У цьому випадку перевіряють, чи не викликана виявлена ​​статистична закономірність збігом випадкових обставин, наскільки вона характерна для того комплексу умов, в яких знаходиться обстежувана сукупність, тобто встановлюється не істинність отриманого результату для якоїсь більшої генеральної. сукупності, а ступінь його закономірності, волі від випадкових впливів.

У нашому випадку статистика дисперсійного аналізу така:

SS df MS F значення
Регрес. 258,77 1,00 258,77 54,29 0.000000001
Залиш. 395,59 83,00 Л,11
Усього 654,36

F-відношення 54,29 значимо лише на рівні 0,0000000001. Відповідно, ми можемо з упевненістю відкинути нульову гіпотезу (що виявлений нами зв'язок носить випадковий характер).

Аналогічну функцію виконує критерій t, але вже щодо регресійних коефіцієнтів (кутового та F-перетину). За допомогою критерію/перевіряємо гіпотезу про те, що в генеральній сукупності регресійні коефіцієнти дорівнюють нулю. У нашому випадку ми знову можемо впевнено відкинути нульову гіпотезу.

Множинний регресійний аналіз

Модель множинної регресії практично ідентична моделі парної регресії; різниця лише тому, що у лінійну функцію послідовно включаються кілька незалежних змінних:

Y = b1X1 + b2X2 + … + bpXp + а.

Якщо незалежних змінних більше двох, ми не маємо можливості отримати візуальне уявлення про їхній зв'язок, у цьому плані множинна регресія менш «наочна», ніж парна. За наявності двох незалежних змінних дані корисно відобразити на тривимірній діаграмі розсіювання. У професійних статистичних пакетах програм (наприклад Statisticа) існує опція обертання тривимірної діаграми, що дозволяє добре візуально подати структуру даних.

Працюючи з множинної регресією, на відміну парної, необхідно визначати алгоритм аналізу. Стандартний алгоритм включає у підсумкову регресійну модель усі наявні предиктори. Покроковий алгоритм передбачає послідовне включення (виключення) незалежних змінних, виходячи з їхньої пояснювальної «ваги». Покроковий метод хороший, коли є багато незалежних змінних; він «очищає» модель від відверто слабких предикторів, роблячи її компактнішою і лаконічнішою.

Додатковою умовою коректності множинної регресії (поряд з інтервальністю, нормальністю та лінійністю) є відсутність мультиколлінеарності – наявності сильних кореляційних зв'язків між незалежними змінними.

Інтерпретація статистики множинної регресії включає всі злементи, розглянуті нами для випадку парної регресії. Крім того, у статистиці множинного регресійного аналізу є й інші важливі складові.

Роботу з множинною регресією ми проілюструємо на прикладі тестування гіпотез, що пояснюють відмінності в рівні електоральної активності в регіонах Росії. У ході конкретних емпіричних досліджень було висловлено припущення, що на рівень явки виборців впливають:

Національний чинник (змінна «російське населення»; операціоналізована як частка російського населення суб'єктах РФ). Передбачається, що частка російського населення веде до зниження активності виборців;

Фактор урбанізації (змінна «міське населення»; операціоналізована як частка міського населення в суб'єктах РФ, з цим фактором ми вже працювали в рамках кореляційного аналізу). Передбачається, що збільшення частки міського населення також призводить до зниження активності виборців.

Залежна змінна - «інтенсивність виборчої активності» («актив») операціоналізована через усереднені дані явки по регіонах на федеральних виборах з 1995 по 2003 р. Вихідна таблиця даних для двох незалежних та однієї залежної змінної матиме такий вигляд:

Випадок Змінні
актив. Гір. нас. Рос. нас.
Республіка Адигея 64,92 53 68
Республіка Алтай 68,60 24 60
Республіка Бурятія 60,75 59 70
республіка Дагестан 79,92 41 9
Республіка Інгушетія 75,05 41 23
Республіка Калмикія 68,52 39 37
Карачаєво-Черкеська Республіка 66,68 44 42
республіка Карелія 61,70 73 73
Республіка Комі 59,60 74 57
Республіка Марій Ел 65,19 62 47

І т.д. (після чищення викидів залишається 83 випадки із 88)

Статистика, що описує якість моделі:

1. Множинний R = 0,62; Л-квадрат = 0,38. Отже, національний фактор та фактор урбанізації разом пояснюють близько 38% варіації змінної «електоральної активності».

2. Середня помилка складає 3,38. Саме настільки «в середньому помиляється» побудована модель під час прогнозування рівня явки.

3. /л-відношення поясненої та непоясненої варіації становить 25,2 на рівні 0,000000003. Нульова гіпотеза про випадковість виявлених зв'язків відкидається.

4. Критерій /для константи та регресійних коефіцієнтів змінних «міське населення» і «російське населення» значимо на рівні 0,0000001; 0,00005 та 0,007 відповідно. Нульова гіпотеза про випадковість коефіцієнтів відкидається.

Додаткова корисна статистика в аналізі співвідношення вихідних та передбачуваних значень залежної змінної – відстань Махаланобіса та відстань Кука. Перше - міра унікальності випадку (показує, наскільки поєднання значень всіх незалежних змінних для цього випадку відхиляється від середнього значення по всіх незалежних змінних одночасно). Друге – міра впливовості випадку. p align="justify"> Різні спостереження по-різному впливають на нахил лінії регресії, і за допомогою відстані Кука можна зіставляти їх за цим показником. Це буває корисно при чищенні викидів (викид можна уявити як надмірно впливовий випадок).

У нашому прикладі до унікальних та впливових випадків, зокрема, відноситься Дагестан.

Випадок Вихідні

значення

Предська

значення

Залишки Відстань

Махаланобіса

Відстань
Адигея 64,92 66,33 -1,40 0,69 0,00
Республіка Алтай 68,60 69.91 -1,31 6,80 0,01
Республіка Бурятія 60,75 65,56 -4,81 0,23 0,01
республіка Дагестан 79,92 71,01 8,91 10,57 0,44
Республіка Інгушетія 75,05 70,21 4,84 6,73 0,08
Республіка Калмикія 68,52 69,59 -1,07 4,20 0,00

Власне регресійна модель має наступні параметри: У-перетин (константа) = 75,99; Ь (Мір. нас.) = -0,1; Ъ (Рус. нас.) = -0,06. Підсумкова формула.

У попередніх нотатках предметом аналізу часто ставала окрема числова змінна, наприклад, прибутковість взаємних фондів, час завантаження Web-сторінки або обсяг споживання безалкогольних напоїв. У цій і наступних нотатках ми розглянемо методи передбачення значень числової змінної залежно від значень однієї чи кількох інших числових змінних.

Матеріал буде проілюстрований наскрізним прикладом. Прогнозування обсягу продажу у магазині одягу.Мережа магазинів зниженого в ціні одягу Sunflowers протягом 25 років постійно розширювалася. Проте на даний час компанія не має систематичного підходу до вибору нових торгових точок. Місце, де компанія збирається відкрити новий магазин, визначається з урахуванням суб'єктивних міркувань. Критеріями вибору є вигідні умови оренди або подання менеджера про ідеальне розташування магазину. Уявіть, що ви - керівник відділу спеціальних проектів та планування. Вам доручили розробити стратегічний план для відкриття нових магазинів. Цей план повинен містити прогноз річного обсягу продажів у магазинах, що знову відкриваються. Ви вважаєте, що торгова площа безпосередньо пов'язана з обсягом виручки і хочете врахувати цей факт у процесі прийняття рішення. Як розробити статистичну модель, яка дозволяє прогнозувати річний обсяг продажу на основі розміру нового магазину?

Як правило, для прогнозування значень змінної використовується регресійний аналіз. Його мета - розробити статистичну модель, що дозволяє передбачати значення залежної змінної, або відгуку, за значеннями принаймні однієї незалежної або пояснюючої змінної. У цьому замітці ми розглянемо просту лінійну регресію - статистичний метод, що дозволяє передбачати значення залежної змінної Yза значеннями незалежної змінної X. У наступних нотатках буде описана модель множинної регресії, призначена для передбачення значень незалежної змінної Yза значеннями кількох залежних змінних ( Х 1 , Х 2 , …, X k).

Завантажити нотатку у форматі або , приклади у форматі

Види регресійних моделей

де ρ 1 - Коефіцієнт автокореляції; якщо ρ 1 = 0 (немає автокореляції), D≈ 2; якщо ρ 1 ≈ 1 (позитивна автокореляція), D≈ 0; якщо ρ 1 = -1 (негативна автокореляція), D ≈ 4.

На практиці застосування критерію Дурбіна-Уотсона ґрунтується на порівнянні величини Dз критичними теоретичними значеннями d Lі d Uдля заданої кількості спостережень n, числа незалежних змінних моделі k(для простої лінійної регресії k= 1) та рівня значущості α. Якщо D< d L , гіпотеза про незалежність випадкових відхилень відкидається (отже, є позитивна автокореляція); якщо D > d U, гіпотеза не відкидається (тобто автокореляція відсутня); якщо d L< D < d U немає достатніх підстав для прийняття рішення. Коли розрахункове значення Dперевищує 2, то з d Lі d Uпорівнюється не сам коефіцієнт D, а вираз (4 – D).

Для обчислення статистики Дурбіна-Уотсона в Excel звернемося до нижньої таблиці на рис. 14 Виведення залишку. Чисельник у виразі (10) обчислюється за допомогою функції СУММКВРАЗН(масив1;масив2), а знаменник СУММКВ(масив) (рис. 16).

Мал. 16. Формули розрахунку статистики Дурбіна-Уотсона

У нашому прикладі D= 0,883. Основне питання полягає в наступному - яке значення статистики Дурбіна-Уотсона слід вважати досить малим, щоб зробити висновок про існування позитивної автокореляції? Необхідно співвіднести значення D з критичними значеннями ( d Lі d U), що залежать від числа спостережень nта рівня значущості α (рис. 17).

Мал. 17. Критичні значення статистики Дурбіна-Уотсона (фрагмент таблиці)

Таким чином, у задачі про обсяг продажу в магазині, що доставляє товари додому, існують одна незалежна змінна ( k= 1), 15 спостережень ( n= 15) та рівень значущості α = 0,05. Отже, d L= 1,08 та dU= 1,36. Оскільки D = 0,883 < d L= 1,08, між залишками існує позитивна автокореляція, метод найменших квадратів застосовувати не можна.

Перевірка гіпотез про нахил та коефіцієнт кореляції

Вище регресія застосовувалась виключно для прогнозування. Для визначення коефіцієнтів регресії та передбачення значення змінної Yпри заданій величині змінної Xвикористовувався метод найменших квадратів. Крім того, ми розглянули середньоквадратичну помилку оцінки та коефіцієнт змішаної кореляції. Якщо аналіз залишків підтверджує, що умови застосування методу найменших квадратів не порушуються, і модель простої лінійної регресії є адекватною, на основі вибіркових даних можна стверджувати, що між змінними в генеральній сукупності існує лінійна залежність.

Застосуванняt -Критерію для нахилу.Перевіряючи, чи дорівнює нахил генеральної сукупності β 1 нулю, можна визначити, чи існує статистично значуща залежність між змінними Xі Y. Якщо ця гіпотеза відхиляється, можна стверджувати, що між змінними Xі YІснує лінійна залежність. Нульова та альтернативна гіпотези формулюються наступним чином: Н 0: β 1 = 0 (немає лінійної залежності), Н1: β 1 ≠ 0 (є лінійна залежність). За визначенням t-статистика дорівнює різниці між вибірковим нахилом та гіпотетичним значенням нахилу генеральної сукупності, поділеної на середньоквадратичну помилку оцінки нахилу:

(11) t = (b 1 β 1 ) / S b 1

де b 1 – нахил прямої регресії за вибірковими даними, β1 – гіпотетичний нахил прямої генеральної сукупності, , а тестова статистика tмає t-розподіл з n – 2ступенями свободи.

Перевіримо, чи існує статистично значуща залежність між розміром магазину та річним обсягом продажу при α = 0,05. t-критерій виводиться поряд з іншими параметрами під час використання Пакет аналізу(опція Регресія). Повністю результати роботи Пакету аналізу наведено на рис. 4 фрагмент, що відноситься до t-статистики - на рис. 18.

Мал. 18. Результати застосування t

Оскільки кількість магазинів n= 14 (див. рис.3), критичне значення t-Статистики при рівні значимості α = 0,05 можна знайти за формулою: t L=СТЬЮДЕНТ.ОБР(0,025;12) = –2,1788, де 0,025 – половина рівня значимості, а 12 = n – 2; t U=СТЬЮДЕНТ.ОБР(0,975;12) = +2,1788.

Оскільки t-статистика = 10,64> t U= 2,1788 (рис. 19), нульова гіпотеза Н 0відхиляється. З іншого боку, р-значення для Х= 10,6411, що обчислюється за формулою =1-СТЬЮДЕНТ.РАСП(D3;12;ІСТИНА), приблизно дорівнює нулю, тому гіпотеза Н 0знову відхиляється. Той факт, що рзначення майже дорівнює нулю, означає, що якби між розмірами магазинів і річним обсягом продажів не існувало реальної лінійної залежності, виявити її за допомогою лінійної регресії було б практично неможливо. Отже, між середнім річним обсягом продажів у магазинах та їх розміром існує статистично значуща лінійна залежність.

Мал. 19. Перевірка гіпотези про нахил генеральної сукупності при рівні значимості, що дорівнює 0,05, та 12 ступенях свободи

ЗастосуванняF -Критерію для нахилу.Альтернативним підходом до перевірки гіпотез про нахил простої лінійної регресії є використання F-Критерія. Нагадаємо, що F-Критерій застосовується для перевірки відносин між двома дисперсіями (докладніше див.). При перевірці гіпотези про нахил мірою випадкових помилок є дисперсія помилки (сума квадратів помилок, поділена на кількість ступенів свободи), тому F-Критерій використовує відношення дисперсії, що пояснюється регресією (тобто величини SSR, поділеної на кількість незалежних змінних k), до дисперсії помилок ( MSE = S YX 2 ).

За визначенням F-статистика дорівнює середньому квадрату відхилень, обумовлених регресією (MSR), поділеному на дисперсію помилки (MSE): F = MSR/ MSE, де MSR =SSR / k, MSE =SSE/(n- k - 1), k– кількість незалежних змінних у регресійній моделі. Тестова статистика Fмає F-розподіл з kі n– k – 1ступенями свободи.

При заданому рівні значимості вирішальне правило формулюється так: якщо F > FUнульова гіпотеза відхиляється; в іншому випадку вона не відхиляється. Результати, оформлені як зведеної таблиці дисперсійного аналізу, наведено на рис. 20.

Мал. 20. Таблиця дисперсійного аналізу для перевірки гіпотези щодо статистичної значущості коефіцієнта регресії

Аналогічно t-критерію F-критерій виводиться в таблицю під час використання Пакет аналізу(опція Регресія). Цілком результати роботи Пакет аналізунаведено на рис. 4, фрагмент, що відноситься до F-Статистиці - на рис. 21.

Мал. 21. Результати застосування F-критерію, отримані за допомогою Пакету аналізу Excel

F-статистика дорівнює 113,23, а р-значення близько до нуля (комірка ЗначимістьF). Якщо рівень значущості α дорівнює 0,05, визначити критичне значення F-розподілу з одним і 12 ступенями свободи можна за формулою F U= F.ОБР (1-0,05; 1; 12) = 4,7472 (рис. 22). Оскільки F = 113,23 > F U= 4,7472, причому р-значення близько до 0< 0,05, нулевая гипотеза Н 0відхиляється, тобто. Обсяг магазину був із його річним обсягом продажів.

Мал. 22. Перевірка гіпотези про нахилі генеральної сукупності при рівні значимості, що дорівнює 0,05, з одним і 12 ступенями свободи

Довірчий інтервал, що містить нахил β 1 .Для перевірки гіпотези про існування лінійної залежності між змінними можна побудувати довірчий інтервал, що містить нахил 1 і переконатися, що гіпотетичне значення 1 = 0 належить цьому інтервалу. Центром довірчого інтервалу, що містить нахил β 1 , є вибірковий нахил b 1 , а його межами - величини b 1 ±t n –2 S b 1

Як показано на рис. 18, b 1 = +1,670, n = 14, S b 1 = 0,157. t 12 =СТЬЮДЕНТ.ОБР(0,975;12) = 2,1788. Отже, b 1 ±t n –2 S b 1 = +1,670 ± 2,1788 * 0,157 = +1,670 ± 0,342, або + 1,328 ≤ β 1 ≤ +2,012. Таким чином, нахил генеральної сукупності з ймовірністю 0,95 лежить в інтервалі від +1,328 до +2,012 (тобто від 1328000 до 2012000 дол.). Оскільки ці величини більші за нуль, між річним обсягом продажів і площею магазину існує статистично значуща лінійна залежність. Якби довірчий інтервал містив нуль, між змінними не було б залежності. Крім того, довірчий інтервал означає, що кожне збільшення площі магазину на 1000 кв. футів призводить до збільшення середнього обсягу продажів на величину від 1328000 до 2012000 доларів.

Використанняt -Критерію для коефіцієнта кореляції.було введено коефіцієнт кореляції r, що є мірою залежності між двома числовими змінними. З його допомогою можна встановити, чи існує між двома змінними статистично значущий зв'язок. Позначимо коефіцієнт кореляції між генеральними сукупностями обох змінних символом ρ. Нульова та альтернативна гіпотези формулюються наступним чином: Н 0: ρ = 0 (немає кореляції), Н 1: ρ ≠ 0 (є кореляція). Перевірка існування кореляції:

де r = + , якщо b 1 > 0, r = – , якщо b 1 < 0. Тестовая статистика tмає t-розподіл з n – 2ступенями свободи.

У задачі про мережу магазинів Sunflowers r 2= 0,904, а b 1- +1670 (див. рис. 4). Оскільки b 1> 0, коефіцієнт кореляції між обсягом річних продажів та розміром магазину дорівнює r= +√0,904 = +0,951. Перевіримо нульову гіпотезу, яка стверджує, що між цими змінними немає кореляції, використовуючи t-Статистику:

При рівні значимості α = 0,05 нульову гіпотезу слід відхилити, оскільки t= 10,64> 2,1788. Таким чином, можна стверджувати, що між обсягом річних продажів та розміром магазину існує статистично значущий зв'язок.

При обговоренні висновків, що стосуються нахилу генеральної сукупності, довірчі інтервали та критерії перевірки гіпотез є взаємозамінними інструментами. Проте обчислення довірчого інтервалу, що містить коефіцієнт кореляції, виявляється складнішою справою, оскільки вид вибіркового розподілу статистики. rзалежить від справжнього коефіцієнта кореляції.

Оцінка математичного очікування та передбачення індивідуальних значень

У цьому розділі розглядаються методи оцінки математичного очікування відгуку Yта передбачення індивідуальних значень Yпри заданих значеннях змінної X.

Побудова довірчого інтервалу.У прикладі 2 (див. вище розділ Метод найменших квадратів) регресійне рівняння дозволило передбачити значення змінної Y X. У задачі про вибір місця для торгової точки середній річний обсяг продажу магазині площею 4000 кв. футів дорівнював 7,644 млн. дол. Однак ця оцінка математичного очікування генеральної сукупності є точковою. для оцінки математичного очікування генеральної сукупності було запропоновано концепцію довірчого інтервалу. Аналогічно можна запровадити поняття довірчого інтервалу для математичного очікування відгукупри заданому значенні змінної X:

де , = b 0 + b 1 X i- Передбачене значення змінне Yпри X = X i, S YX- Середньоквадратична помилка, n- Обсяг вибірки, Xi- задане значення змінної X, µ Y|X = Xi– математичне очікування змінної Yпри Х = Х i, SSX =

Аналіз формули (13) показує, що ширина довірчого інтервалу залежить від кількох факторів. При заданому рівні значущості зростання амплітуди коливань навколо лінії регресії, виміряне за допомогою середньоквадратичної помилки, призводить до збільшення ширини інтервалу. З іншого боку, як і слід було очікувати, збільшення обсягу вибірки супроводжується звуженням інтервалу. Крім того, ширина інтервалу змінюється в залежності від значень Xi. Якщо значення змінної Yпередбачається для величин Xблизьких до середнього значення , Довірчий інтервал виявляється вже, ніж при прогнозуванні відгуку для значень, далеких від середнього.

Припустимо, що, вибираючи місце для магазину, ми хочемо побудувати 95% довірчий інтервал для середнього річного обсягу продажів у всіх магазинах, площа яких дорівнює 4000 кв. футів:

Отже, середній річний обсяг продажів у всіх магазинах, площа яких дорівнює 4000 кв. футів, з 95%-ною ймовірністю лежить в інтервалі від 6,971 до 8,317 млн. дол.

Обчислення довірчого інтервалу для передбаченого значення.Крім довірчого інтервалу для математичного очікування відгуку при заданому значенні змінної Xчасто необхідно знати довірчий інтервал для передбаченого значення. Незважаючи на те, що формула для обчислення такого довірчого інтервалу дуже схожа на формулу (13), цей інтервал містить передбачене значення, а не оцінку параметра. Інтервал для передбаченого відгуку YX = Xiпри конкретному значенні змінної Xiвизначається за формулою:

Припустимо, що, вибираючи місце для торгової точки, ми хочемо побудувати 95% довірчий інтервал для передбаченого річного обсягу продажів у магазині, площа якого дорівнює 4000 кв. футів:

Отже, передбачений річний обсяг продажів у магазині, площа якого дорівнює 4000 кв. футів, з 95%-ной ймовірністю лежить в інтервалі від 5,433 до 9,854 млн. дол. Як бачимо, довірчий інтервал для передбаченого значення відгуку набагато ширший, ніж довірчий інтервал для його математичного очікування. Це тим, що мінливість при прогнозуванні індивідуальних значень набагато більше, ніж за оцінці математичного очікування.

Підводне каміння та етичні проблеми, пов'язані із застосуванням регресії

Проблеми, пов'язані з регресійним аналізом:

  • Ігнорування умов застосування методу найменших квадратів.
  • Помилкова оцінка умов застосування методу найменших квадратів.
  • Неправильний вибір альтернативних методів у разі порушення умов застосування методу найменших квадратів.
  • Застосування регресійного аналізу без глибоких знань про предмет дослідження.
  • Екстраполяція регресії за межі діапазону зміни змінної, що пояснює.
  • Плутанина між статистичною та причинно-наслідковою залежностями.

Широке поширення електронних таблиць та програмного забезпечення для статистичних розрахунків ліквідувало обчислювальні проблеми, що перешкоджали застосуванню регресійного аналізу. Однак це призвело до того, що регресійний аналіз стали застосовувати користувачі, які не мають достатньої кваліфікації та знань. Звідки користувачам знати про альтернативні методи, якщо багато хто з них взагалі не має жодного поняття про умови застосування методу найменших квадратів і не вміє перевіряти їх виконання?

Дослідник не повинен захоплюватися перемелюванням чисел - обчисленням зсуву, нахилу та коефіцієнта змішаної кореляції. Йому потрібні глибші знання. Проілюструємо це класичним прикладом, взятим із підручників. Анскомб показав, що це чотири набору даних, наведених на рис. 23, мають одні й самі параметри регресії (рис. 24).

Мал. 23. Чотири набори штучних даних

Мал. 24. Регресійний аналіз чотирьох штучних наборів даних; виконаний за допомогою Пакет аналізу(Клікніть на малюнку, щоб збільшити зображення)

Отже, з погляду регресійного аналізу, всі ці набори даних абсолютно ідентичні. Якби аналіз був на цьому закінчений, ми втратили б багато корисної інформації. Про це свідчать діаграми розкиду (рис. 25) та графіки залишків (рис. 26), побудовані для цих наборів даних.

Мал. 25. Діаграми розкиду для чотирьох наборів даних

Діаграми розкиду та графіки залишків свідчать про те, що ці дані відрізняються одна від одної. Єдиний набір, розподілений уздовж прямої лінії, - набір А. Графік залишків, обчислених за набором А, немає закономірності. Цього не можна сказати про набори Б, В та Г. Графік розкиду, побудований за набором Б, демонструє яскраво виражену квадратичну модель. Цей висновок підтверджується графіком залишків, які мають параболічну форму. Діаграма розкиду та графік залишків показують, що набір даних містить викид. У цій ситуації необхідно виключити викид із набору даних та повторити аналіз. Метод, що дозволяє виявляти та виключати викиди зі спостережень, називається аналізом впливу. Після виключення викиду результат повторної оцінки моделі може бути зовсім іншим. Діаграма розкиду, побудована за даними набору Р, ілюструє незвичайну ситуацію, у якій емпірична модель значно залежить від окремого відгуку ( Х 8 = 19, Y 8 = 12,5). Такі регресійні моделі необхідно обчислювати особливо ретельно. Отже, графіки розкиду та залишків є вкрай необхідним інструментом регресійного аналізу та мають бути його невід'ємною частиною. Без них регресійний аналіз не заслуговує на довіру.

Мал. 26. Графіки залишків для чотирьох наборів даних

Як уникнути підводного каміння при регресійному аналізі:

  • Аналіз можливого взаємозв'язку між змінними Xі Yзавжди починайте з побудови діаграми розкиду.
  • Перш ніж інтерпретувати результати регресійного аналізу, перевіряйте умови його застосування.
  • Побудуйте графік залежності залишків від незалежної змінної. Це дозволить визначити, наскільки емпірична модель відповідає результатам спостереження, та виявити порушення сталості дисперсії.
  • Для перевірки припущення про нормальний розподіл помилок використовуйте гістограми, діаграми «ствол та листя», блокові діаграми та графіки нормального розподілу.
  • Якщо умови застосування методу найменших квадратів не виконуються, використовуйте альтернативні методи (наприклад, моделі квадратичної або множинної регресії).
  • Якщо умови застосування методу найменших квадратів виконуються, необхідно перевірити гіпотезу про статистичну значущість коефіцієнтів регресії та побудувати довірчі інтервали, що містять математичне очікування та передбачене значення відгуку.
  • Уникайте передбачати значення залежної змінної за межами діапазону зміни незалежної змінної.
  • Майте на увазі, що статистичні залежності не завжди є причинно-наслідковими. Пам'ятайте, що кореляція між змінними не означає наявності причинно-наслідкової залежності між ними.

РезюмеЯк показано на структурній схемі (рис. 27), у замітці описані модель простої лінійної регресії, умови її застосування та способи перевірки цих умов. Розглянуто t-Критерій для перевірки статистичної значущості нахилу регресії Для передбачення значень залежною змінною використано регресійну модель. Розглянуто приклад, пов'язаний із вибором місця для торгової точки, в якому досліджується залежність річного обсягу продажу від площі магазину. Отримана інформація дозволяє точніше вибрати місце для магазину та передбачити його річний обсяг продажу. У наступних нотатках буде продовжено обговорення регресійного аналізу, а також розглянуто моделі множинної регресії.

Мал. 27. Структурна схема нотатки

Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 792–872

Якщо залежна змінна є категорійною, необхідно застосовувати логістичну регресію.

ВИСНОВОК ПІДСУМКІВ

Таблиця 8.3. Регресійна статистика
Регресійна статистика
Множинний R 0,998364
R-квадрат 0,99673
Нормований R-квадрат 0,996321
Стандартна помилка 0,42405
Спостереження 10

Спочатку розглянемо верхню частину розрахунків, подану в таблиці 8.3а - регресійну статистику.

Величина R-квадрат, звана також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається ступенем відповідності між вихідними даними та регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу.

Найчастіше значення R-квадрат перебуває між цими значеннями, званими екстремальними, тобто. між нулем та одиницею.

Якщо значення R-квадрату близьке до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрату, близьке до нуля, означає погану якість побудованої моделі.

У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хороше припасування регресійної прямої до вихідних даних.

Множинний R- Коефіцієнт множинної кореляції R - виражає ступінь залежності незалежних змінних (X) і залежної змінної (Y).

Множинний R дорівнює квадратному кореню з коефіцієнта детермінації, ця величина набуває значення в інтервалі від нуля до одиниці.

У простому лінійному регресійному аналізі множинний R дорівнює коефіцієнту кореляції Пірсона. Справді, множинний R у нашому випадку дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).

Таблиця 8.3б. Коефіцієнти регресії
Коефіцієнти Стандартна помилка t-статистика
Y-перетин 2,694545455 0,33176878 8,121757129
Змінна X 1 2,305454545 0,04668634 49,38177965
* Наведено усічений варіант розрахунків

Тепер розглянемо середню частину розрахунків, подану у таблиці 8.3б. Тут дано коефіцієнт регресії b (2,305454545) і усунення осі ординат, тобто. константа a (2,694545455).

Виходячи з розрахунків, можемо записати рівняння регресії таким чином:

Y = x * 2,305454545 +2,694545455

Напрямок зв'язку між змінними визначається на підставі знаків (негативний або позитивний) коефіцієнтів регресії(Коефіцієнта b).

Якщо знак при коефіцієнт регресії- Позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.

Якщо знак при коефіцієнт регресії- негативний, зв'язок залежної змінної з незалежною є негативним (зворотним).

У таблиці 8.3в. представлені результати виведення залишків. Для того, щоб ці результати з'явилися у звіті, необхідно при запуску інструменту "Регресія" активувати чекбокс "Залишки".

ВИСНОВОК ЗАЛИШКУ

Таблиця 8.3 ст. Залишки
Спостереження Передбачене Y Залишки Стандартні залишки
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

За допомогою цієї частини звіту ми можемо бачити відхилення кожної точки від збудованої лінії регресії. Найбільше абсолютне значення

КАТЕГОРІЇ

ПОПУЛЯРНІ СТАТТІ

2024 «kingad.ru» - УЗД дослідження органів людини