Regresijas analīze Attiecības starp mainīgajiem lielumiem
Regresija ir datu ieguves metode, ko izmanto, lai noteiktu skaitlisko vērtību diapazonu (ko sauc arī par nepārtrauktām vērtībām ), ņemot vērā konkrētu datu kopu. Piemēram, regresiju var izmantot, lai paredzētu preces vai pakalpojuma izmaksas, ņemot vērā citus mainīgos lielumus.
Regresiju izmanto vairākās nozarēs uzņēmējdarbības un mārketinga plānošanai, finanšu prognozēšanai, vides modelēšanai un tendenču analīzei.
Regresijas Vs. Klasifikācija
Regresija un klasifikācija ir datu ieguves metodes, ko izmanto līdzīgu problēmu risināšanai, taču tās bieži vien ir sajauktas. Abi tiek izmantoti prognozēšanas analīzē, bet regresija tiek izmantota, lai noteiktu skaitlisku vai nepārtrauktu vērtību, bet klasifikācija piešķir datus atsevišķās kategorijās.
Piemēram, regresija tiks izmantota, lai prognozētu mājas vērtību, pamatojoties uz tā atrašanās vietu, kvadrātpēdām, cenu, kad to pēdējo reizi pārdod, līdzīgu māju cenu un citiem faktoriem. Klasifikācija būtu kārtībā, ja jūs gribētu, nevis sakārtot mājas kategorijās, piemēram, gājēju vietas, partijas lieluma vai noziedzības līmeni.
Regresijas tehnikas veidi
Vienkāršākā un vecākā regresijas forma ir lineārā regresija, ko izmanto, lai novērtētu attiecības starp diviem mainīgajiem. Šis paņēmiens izmanto taisnas līnijas matemātisko formulu (y = mx + b). Vienkārši sakot, tas vienkārši nozīmē to, ka, ņemot vērā grafiku ar Y un X asi, attiecības starp X un Y ir taisna līnija ar dažiem novirzēm. Piemēram, mēs varam pieņemt, ka, ņemot vērā iedzīvotāju skaita pieaugumu, pārtikas ražošana palielināsies ar tādu pašu ātrumu - tam ir nepieciešama spēcīga un lineāra saikne starp abiem skaitļiem. Lai to vizualizētu, apsveriet grafiku, kurā Y asis novēro populācijas pieaugumu, un X ass seko pārtikas ražošanai. Palielinoties Y vērtībai, X vērtība palielināsies ar tādu pašu ātrumu, padarot attiecības starp tām taisnu līniju.
Uzlabotas metodes, piemēram, vairākkārtēja regresija, paredz attiecības starp vairākiem mainīgajiem - piemēram, vai pastāv saistība starp ienākumiem, izglītību un vietu, kurā dzīvo? Vairāk mainīgo lielumu pievienošana ievērojami palielina prognozes sarežģītību. Pastāv vairāku tipu vairākkārtējas regresijas metodes, tostarp standarta, hierarhijas, secīgi un pakāpeniski, katrai no tām ir sava programma.
Šajā brīdī ir svarīgi saprast, ko mēs cenšamies paredzēt (atkarīgais vai paredzamais mainīgais) un datus, kurus mēs izmantojam, lai izveidotu prognozi (neatkarīgie vai prognozējamie mainīgie). Mūsu piemērā mēs vēlamies prognozēt atrašanās vietu, kurā dzīvo ( prognozētais mainīgais), ņemot vērā ienākumus un izglītību (abi prognozējamie mainīgie).
- Standarta daudzkārtēja regresija ņem vērā visus prognozējošos mainīgos vienlaicīgi. Piemēram 1) kāda ir saistība starp ienākumiem un izglītību (prognozējamās personas) un apkārtnes izvēli (prognozēts); un 2) cik lielā mērā katrs no atsevišķajiem prognozatoriem veicina šīs attiecības?
- Pakāpeniska daudzkārtēja regresija atbild uz pavisam citu jautājumu. Pakāpeniska regresijas algoritms analizēs, kādus prognozētājus vislabāk izmantot, lai prognozētu apkārtnes izvēli - tas nozīmē, ka pakāpenisks modelis novērtē prognozējošo mainīgo lielumu secību un pēc tam atlasa attiecīgo apakškopu. Šāda veida regresijas problēma izmanto "soļus", lai izstrādātu regresijas vienādojumu. Ņemot vērā šāda veida regresiju, visi prognozētāji var pat neparādīties galīgajā regresijas vienādojumā.
- Hierarhiskā regresija , tāpat kā pakāpeniski, ir secīgs process, bet prognozējamie mainīgie tiek ievadīti modelī iepriekš noteiktā kārtībā, kas iepriekš definēts, ti, algoritms nesatur iebūvētu vienādojumu kopu, lai noteiktu kārtību, kādā ievadiet prognozētājus. To visbiežāk izmanto, ja indivīds, kurš izveido regresijas vienādojumu, ir eksperta zināšanas šajā jomā.
- Noteiktā regresija ir līdzīga pakāpeniskai, bet analizē mainīgo lielumu kopumus, nevis atsevišķus mainīgos lielumus.