Definisanje statističkog modela regresije

Regresija analizira odnose između varijabli

Regresija je tehnika rukovanja podataka koja se koristi za predviđanje niza numeričkih vrednosti (takođe nazvane kontinuirane vrijednosti ), s obzirom na određeni skup podataka. Na primer, regresija se može koristiti za predviđanje troškova proizvoda ili usluge, s obzirom na druge varijable.

Regresija se koristi u više industrija za poslovno i marketinško planiranje, finansijsko predviđanje, modeliranje životne sredine i analizu trendova.

Regression Vs. Klasifikacija

Regresija i klasifikacija su tehnike rudarenja podataka koje se koriste za rješavanje sličnih problema, ali se često zbunjuju. Obje se koriste u analizi predviđanja, ali se regresija koristi za predviđanje numeričke ili kontinualne vrijednosti dok klasifikacija dodjeljuje podatke u diskretne kategorije.

Na primjer, regresija bi se koristila za predviđanje vrijednosti kuće na osnovu njegove lokacije, kvadratnih metara, cene kada je poslednji prodat, cijene sličnih kuća i drugih faktora. Klasifikacija bi bila u redu ako želite da umesto toga organizujete kuće u kategorije, kao što su spremnost, veličina serije ili stope kriminala.

Vrste tehnike regresije

Najjednostavniji i najstariji oblik regresije je linearna regresija koja se koristi za procjenu odnosa između dvije promenljive. Ova tehnika koristi matematičku formulu prave linije (y = mx + b). Jednostavno rečeno, to jednostavno znači da, s obzirom na grafikon sa Y i X-osom, odnos između X i Y je ravna linija sa nekoliko izlaza. Na primjer, možemo pretpostaviti da bi, s obzirom na porast broja stanovnika, proizvodnja hrane porasla sa istom brzinom - to zahtijeva jak, linearni odnos između dvije cifre. Da biste ovo vizualizirali, uzmite u obzir grafikon u kojem Y-osa prati porast broja stanovnika, a X-osa prati proizvodnju hrane. Kako se Y vrijednost povećava, X vrijednost bi se povećala istom brzinom, čineći odnos između njih ravnom linijom.

Napredne tehnike, kao što je višestruka regresija, predviđaju odnos između višestrukih varijabli - na primjer, postoji li korelacija između prihoda, obrazovanja i gdje se neko zalaže za život? Dodavanje više varijabli znatno povećava složenost predviđanja. Postoji nekoliko tipova tehnika višestruke regresije, uključujući standardne, hijerarhijske, setwise i stepwise, svaka sa svojom sopstvenom aplikacijom.

U ovom trenutku je važno shvatiti šta pokušavamo da predvidimo (zavisna ili predviđena varijabla) i podatke koje koristimo da napravimo predviđanje (nezavisne ili prediktivne varijable). U našem primeru, želimo da predvidimo lokaciju na kojoj se odlučuje da živi ( predviđena varijabla) sa prihodima i obrazovanjem (obe prediktorske varijable).