Линеарна регресија

Линеарната регресија е најкористена од сите статистички техники. Таа ги проучува линеарните (праволиниските) врски помеѓу променливите,обично под претпоставка на нормално распределени грешки.

Поимот регресија станал применуван како предмет на моделите на линеарната статистика кога бил најпрвин проучуван при крајот на 19 век од страна на научникот Францис Галтон. Галтон бил самоук природонаучник, антрополог, астроном и статистичар. Бил познат по неговите изтражувања и по неговата книга, бестселер, за тоа како да преживееш во дивината. Тој бил пионер во примената на статистичките методи за мерење.^[1].За првпат го споменал поимот регресија како „регресија кон просечност“ при објаснувањето неговиот феномен за „ таткото и синот’’ (ако височината на таткото е Х стандардни отстапувања од средната вредност во популацијата , тогаш треба да се предвиди дека висината на синот ќе биде rх(r по х) стандардни отстапувања на популација).

Зошто ние најчесто претпоставуваме дека врската меѓу промелнивите е линеарна?^[2]

Оваа претпоставка е често оправдана од централната гранична теорема на статистиката, која вели дека збирот на доволно голем број независно променливи променливи достигнува нормална распределба. Многу податоци во бизнисот и економијата се добиени со агрегација.
Таа е математички прилагодена : таа подразбира дека проценките за оптималниот коефициент на линеарниот модел се оние кои го минимизираат значењето на квадратната грешка (која е лесно преслетлива) и поради тоа што таа го оправдува користењето на статистички проверки врз основа на нормалното „семејство“ на проверки (ова семејство ги вклучува t-проверка,f-проверка и хи-квадратна проверка).
Дури и ако „вистинската“ грешка на процесот не е нормална, во однос на оригиналните единици на податоците, можно е да се трансформираат податоците со цел грешките од вашиот предвиден модел да се приближно точни.

Во статистиката, линеарната регресија претставува пристап за моделирање на врската меѓу променливата y и една или повеќе промелниви х. Кога имаме една променлива х тогаш станва збор за проста линеарна регресија. Ако има повеќе од една променлива тогаш станува збор за повеќекратна регресија. Во линеарната регресија, податоците се моделирани користејќи различни линеарни функции, преку кои се проценуваат непознатите параметри на некој модел. Ваквите модели се нарекуваат Линеарни модели. Најчесто , линеарната регресија се однесува на модел каде што очекуваната вредност на y, дадена преку Х , претставува линеарна функција на Х. Поретко, линеарната регресија може да се однесува на модел каде што медијаната , или некој друг квантил на очекуваната y ,дадена преку Х , претставува линеарна функција на Х. Како и сите форми на линеарна анализа, и линеарната регресија се фокусира на условната веројатност на y за дадена х, наместо за заедничката веројатност на y и х што претставува област на мултиваријабилната анализа. Линеарната регресија беше првиот вид на регресивна анализа која беше ригорозно проучена, и која беше опширно користена во практиката. Тоа е поради тоа што моделите кои линеарно зависат од непознатите параметри се полесни отколку моделите кои не се линеарно поврзани со нивните параметри и поради тоа што статистичките својства на добиените пресметки полесно се детерминираат.

Вовед во линеарна регресија

Црвената линија се добива со помош на линеарна регресија од точките.

Во даден збир на податоци ${\{y_{i},\,x_{i1},\ldots ,x_{ip}\}_{i=1}^{n}}$ од n статистички единици, моделот на линеарна регресија тргнува од претпоставката дека релацијата меѓу зависната променлива yi и р-вредноста на регресорот xi е линеарна. Оваа врска е моделирана преку грешката εi сличајна променлива која додава форма на линеарниот однос меѓу зависната променлива и регресорите.

Овој модел ја има следната форма:

${y_{i}=\beta _{1}x_{i1}+\cdots +\beta _{p}x_{ip}+\varepsilon _{i}=\mathbf {x} _{i}^{\rm {T}}{\boldsymbol {\beta }}+\varepsilon _{i},\qquad i=1,\ldots ,n,}$

често овие n равенки се поврзани заедно и напишани во вектор со ваква форма: ${\mathbf {y} =\mathbf {X} {\boldsymbol {\beta }}+{\boldsymbol {\varepsilon }},\,}$

каде што :

${\mathbf {y} ={\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}},\quad \mathbf {X} ={\begin{pmatrix}\mathbf {x} _{1}^{\rm {T}}\\\mathbf {x} _{2}^{\rm {T}}\\\vdots \\\mathbf {x} _{n}^{\rm {T}}\end{pmatrix}}={\begin{pmatrix}x_{11}&\cdots &x_{1p}\\x_{21}&\cdots &x_{2p}\\\vdots &\ddots &\vdots \\x_{n1}&\cdots &x_{np}\end{pmatrix}},\quad {\boldsymbol {\beta }}={\begin{pmatrix}\beta _{1}\\\vdots \\\beta _{p}\end{pmatrix}},\quad {\boldsymbol {\varepsilon }}={\begin{pmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\vdots \\\varepsilon _{n}\end{pmatrix}}.}$

Неколку забелешки во врска со терминологијата и општата употреба

- yi е наречена регресант, едногена променлива, зависна променлива или мерена променлива. Одлуката која променлива, во дадениот збир на податоци, е зависна а која е независна променлива може да се заснова на претпоставката дека вредноста на едната од променливите е предизвикана, или е директно под влијание на другите променливи.

- xi е наречена регресор, егзогена променлива, објаснувачка променлива, влезна променлива или независна променлива. Матрицата х е понекогаш нарекувана ,,дизајнирана матрица’’

- β е р-димензионален параметарски вектор. Неговите елементи се нарекуваат ефекти или регресиони коефициенти. Статистичката проценка и заклучување се фокусираат на β.

- εi е наречено грешка. Оваа променлива ги опфаќа сите други фактори кои влијаат на зависно променливата yi , освен регресорот xi. Врската меѓу грешката и регресорите, на пример кога тие се поврзани, претставува клучен чекор во формирањето на моделот на линеарна регресија бидејќи таа ќе го одреди методот кој ќе се користи за проценка.

Претпоставки

Стандардните модели на линеарна регресија со стандардни техники на проценка прават бројни претпоставки за предвидената променлива, за добиената променлива и за нивната врска. Бројни подобрувања беа направени за да се овозможи секоја од овие претпоставки да се сведе во поблага форма, или во некои случаи целосно да се елиминира. Некои методи можат да ублажат неколку претпоставки одеднаш. Во продолжение ќе бидат објаснети неколку поважни претпоставки направени во моделите на стандардна линеарна регреисја:

Слаба егзогеност. Ова во суштина значи дека предвидената променлива х може да биде третирана како фиксна вредност,наместо како случајна променлива.Ова значи дека, на пример,претпоставената променлива се смета дека е без грешка, односно дека таа не содржи грешки настанати при мерењето. Иако не реалистична во многу погледи, ова претпоставка води до значително потешки грешки во моделите.
Линеарност. Ова значи дека средната вредност на добиената променлива е линеарна комбинација на параметрите(коефициентите на регресија) и претпоставената променлива. Мора да се забележи дека оваа претпоставка е помалку рестриктивна отколку првата. Претпоставената променлива сама по себе може да биде произволно трансформирана.
Константна варијанса. Ова значи дека различни добиени променливи имаат иста варијанса во нивните грешки, безразлика на нивните вредности.Во праксата овие претпоставки се погрешни.
Независност на грешки. Ова претпоставува дека грешките од добиените променливи се неповрзани меѓу себе.Некои методи (како на пример генерализираните најмали квадтари)се способни да се справат со поврзаните грешки, иако тие најчесто бараат повеќе податоци.
Недостаток од мултиколинеарност во предвидувањата. За стандардните методи за проценка на најмали квадрати, матрицата Х мора да има целосна колона за р, во спротивно имаме ситуација наречена мултиколинеарност во претпоставената променлива. Тоа значи дека може да имаме две или повеќе совршено поврзнаи променливи. Тоа исто така може да се случи ако имаме премалку информации во споредба со бројот на параметри. Во овој случај на мултиколинеарност, параметарот β ќе биде неиндентификувана- нема да има решение. Најмногу что може да се направи е да се индетификуваат некои од параметрите.

Толкување

Моделот на линеарна регреција може да биде користен за да ја индентификува врската меѓу еден индицатор, променливата xi и променливата y кога сите други променливи се во моделот фиксни. Особено, интерпретацијата на βi прави промена во y за една единица промена на xi кога другите променливи се фиксни , што претставува очекувана вредност на делумниот дериват на y во однос на хi. Ова понекогаш се нарекува уникатен ефект на хi за y. Мора да се внимава при толкување на регресивните резултати, бидејќи некои од регресорите неможат да дозволат маргинални промени,додека други пак, не може да бидат одржани фиксно. Можно е уникатниот ефект да биде скоро еднаков на нула дури и кога маргиналниот ефект е голем. Ова може да значи дека некои други промелниви ги опфаќаат сите информации на хi, така што штом променливата е во моделот, не постои придонес на хi на варијацијата на y. Спротивно на тоа, уникатниот ефект на хi може да биде голем додека неговиот маргинален ефект е скоро нула. Ова ќе се случи доколку другата променлива објасни поголем дел од варијацијата на y, но главно ја објаснува варијацијата на начин кој е комплементарен со она што е опфатено со хi. Во овој случај, вклучувајќи ги и другите променливи во моделот, се намалува улогата на варијабилитетот на y кој не е поврзан со хi, а со тоа се зајакнува врската со хi. Поимот уникатен ефект е погоден кога се студира еден комплексен систем , каде што повеќе меѓусебно поврзани компоненти влијаат врз добиената променлива. Во некои случаи тоа буквално може да се протолкува како причинско-последичен ефект на интервенција, кој е поврзан со вредноста на претпоставената променлива.

Методи на проценка

Развиени се голем број на процедури за проценка и заклучок за параметрите на линеарната регресија. Овие методи се разликуваат во приодите кои се користат при нивното пресметување.

Некои од позначајните методи на проценка на линеарната регресија се објаснети во продолжение:

а) Проценка преку методот на најмали квадрати и сродни техники

Обични најмали квадрати (OLS) е наједноставниот и според тоа, најкористениот метод на проденка. Концептуално е едноставен и директен, јасен. ОЛС методот најчесто е користен за анализа на податоци добиени од експерименти или набљудувања. Овој метод го минимизира збирот на квадратните резидуали и ја пресметува вредноста на непознатиот параметер β ${{\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y} ={\big (}\,{\tfrac {1}{n}}{\textstyle \sum }\mathbf {x} _{i}\mathbf {x} _{i}^{\rm {T}}\,{\big )}^{-1}{\big (}\,{\tfrac {1}{n}}{\textstyle \sum }\mathbf {x} _{i}y_{i}\,{\big )}.}$
Генерализирани најмали квадрати (GLS) претставува проширување на ОЛС методот кој овозможува ефикасна проценка на β , кога корелациите се присутни меѓу грешките на моделот. ${{\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\rm {T}}{\boldsymbol {\Omega }}^{-1}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}{\boldsymbol {\Omega }}^{-1}\mathbf {y} }$
Регресија на инструментални променливи (IV) може да се користи кога регресорите се поврзани со грешките. Во овој случај ни требаат некои помошни инструментални променливи zi за E[ziεi] = 0 . Ако z е матрица на иструментите, тогаш формулата може да биде дадена во ова форма: ${{\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\rm {T}}\mathbf {Z} (\mathbf {Z} ^{\rm {T}}\mathbf {Z} )^{-1}\mathbf {Z} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {Z} (\mathbf {Z} ^{\rm {T}}\mathbf {Z} )^{-1}\mathbf {Z} ^{\rm {T}}\mathbf {y} }$
Оптимални инструменти
Вкупни најмали квадрати (TLS)