Lineaarne vs logistiline regressioon
Statistilises analüüsis on oluline tuvastada uuringuga seotud muutujate vahelised seosed. Mõnikord võib see olla analüüsi ainus eesmärk. Üks tugev vahend, mida kasutatakse seose olemasolu tuvastamiseks ja seose tuvastamiseks, on regressioonanalüüs.
Regressioonanalüüsi lihtsaim vorm on lineaarne regressioon, kus muutujate vaheline suhe on lineaarne. Statistiliselt toob see välja seose selgitava muutuja ja vastuse muutuja vahel. Näiteks saame regressiooni abil juhuslikust valimist kogutud andmete põhjal kindlaks teha kauba hinna ja tarbimise suhte. Regressioonianalüüs annab andmekogumi regressioonifunktsiooni, mis on matemaatiline mudel, mis sobib olemasolevate andmetega kõige paremini. Seda saab hõlpsalt tähistada hajuvusega. Graafiline regressioon on samaväärne antud andmekogumile kõige sobivama kõvera leidmisega. Kõvera funktsioon on regressioonifunktsioon. Matemaatilist mudelit kasutades saab kauba hinna ennustada antud hinnaga.
Seetõttu kasutatakse regressioonanalüüsi laialdaselt ennustamisel ja prognoosimisel. Seda kasutatakse ka suhete loomiseks eksperimentaalsetes andmetes, füüsika, keemia ning paljudes loodusteaduste ja inseneri erialadel. Kui suhe või regressioonifunktsioon on lineaarne funktsioon, siis nimetatakse seda protsessi lineaarseks regressiooniks. Hajumisel võib seda kujutada sirgjoonena. Kui funktsioon ei ole parameetrite lineaarne kombinatsioon, siis on regressioon mittelineaarne.
Logistiline regressioon on võrreldav mitme muutujaga regressiooniga ja see loob mudeli, mis selgitab mitme ennustaja mõju reageerimise muutujale. Logistilise regressiooni puhul peaks lõpptulemuse muutuja siiski olema kategooriline (tavaliselt jagatud; s.t saavutatavate tulemuste paar, näiteks surm või ellujäämine, kuigi spetsiaalsed tehnikad võimaldavad modelleerida kategoorilisemat teavet). Pideva tulemuse muutuja võib muuta kategooriliseks muutujaks, mida kasutatakse logistiliseks regressiooniks; Pidevate muutujate sel viisil kokkuvarisemine on siiski enamasti ebasoovitav, kuna see vähendab täpsust.
Erinevalt lineaarsest regressioonist ei pea keskmise suunas logistliku regressiooni ennustavaid muutujaid sundima, et nad oleksid lineaarselt ühendatud, ühiselt jaotatud ega omaks igas klastris võrdset dispersiooni. Seetõttu ei ole ennustaja ja tulemusnäitajate vaheline seos tõenäoliselt lineaarne funktsioon.
Mis vahe on logistilisel ja lineaarsel regressioonil??
• Lineaarse regressiooni korral eeldatakse selgitava muutuja ja reageerimise muutuja vahelist lineaarset seost ning mudelile vastavad parameetrid leitakse analüüsi abil, et saada täpne seos.
• Kvantitatiivsete muutujate jaoks kasutatakse lineaarset regressiooni ja saadud funktsioon on kvantitatiivne.
• Logistilise regressiooni korral võivad andmed olla kas kategoorilised või kvantitatiivsed, kuid tulemus on alati kategooriline.