Regresija analizira odnose između varijabli
Regresija je tehnika rukovanja podataka koja se koristi za predviđanje niza numeričkih vrednosti (takođe nazvane kontinuirane vrijednosti ), s obzirom na određeni skup podataka. Na primer, regresija se može koristiti za predviđanje troškova proizvoda ili usluge, s obzirom na druge varijable.
Regresija se koristi u više industrija za poslovno i marketinško planiranje, finansijsko predviđanje, modeliranje životne sredine i analizu trendova.
Regression Vs. Klasifikacija
Regresija i klasifikacija su tehnike rudarenja podataka koje se koriste za rješavanje sličnih problema, ali se često zbunjuju. Obje se koriste u analizi predviđanja, ali se regresija koristi za predviđanje numeričke ili kontinualne vrijednosti dok klasifikacija dodjeljuje podatke u diskretne kategorije.
Na primjer, regresija bi se koristila za predviđanje vrijednosti kuće na osnovu njegove lokacije, kvadratnih metara, cene kada je poslednji prodat, cijene sličnih kuća i drugih faktora. Klasifikacija bi bila u redu ako želite da umesto toga organizujete kuće u kategorije, kao što su spremnost, veličina serije ili stope kriminala.
Vrste tehnike regresije
Najjednostavniji i najstariji oblik regresije je linearna regresija koja se koristi za procjenu odnosa između dvije promenljive. Ova tehnika koristi matematičku formulu prave linije (y = mx + b). Jednostavno rečeno, to jednostavno znači da, s obzirom na grafikon sa Y i X-osom, odnos između X i Y je ravna linija sa nekoliko izlaza. Na primjer, možemo pretpostaviti da bi, s obzirom na porast broja stanovnika, proizvodnja hrane porasla sa istom brzinom - to zahtijeva jak, linearni odnos između dvije cifre. Da biste ovo vizualizirali, uzmite u obzir grafikon u kojem Y-osa prati porast broja stanovnika, a X-osa prati proizvodnju hrane. Kako se Y vrijednost povećava, X vrijednost bi se povećala istom brzinom, čineći odnos između njih ravnom linijom.
Napredne tehnike, kao što je višestruka regresija, predviđaju odnos između višestrukih varijabli - na primjer, postoji li korelacija između prihoda, obrazovanja i gdje se neko zalaže za život? Dodavanje više varijabli znatno povećava složenost predviđanja. Postoji nekoliko tipova tehnika višestruke regresije, uključujući standardne, hijerarhijske, setwise i stepwise, svaka sa svojom sopstvenom aplikacijom.
U ovom trenutku je važno shvatiti šta pokušavamo da predvidimo (zavisna ili predviđena varijabla) i podatke koje koristimo da napravimo predviđanje (nezavisne ili prediktivne varijable). U našem primeru, želimo da predvidimo lokaciju na kojoj se odlučuje da živi ( predviđena varijabla) sa prihodima i obrazovanjem (obe prediktorske varijable).
- Standardna višestruka regresija razmatra sve varijable prediktora istovremeno. Na primjer 1) kakav je odnos između prihoda i obrazovanja (prediktori) i izbor susjedstva (predviđeni); i 2) u kojoj meri svaki od pojedinačnih prediktora doprinosi tom odnosu?
- Stepwise višestruka regresija odgovara potpuno drugačijem pitanju. Postepeni algoritam regresije će analizirati koji prediktori se najbolje koriste za predviđanje izbora susjedstva - što znači da stepen model procjenjuje redosled važnosti prediktorskih varijabli, a zatim bira relevantan podskup. Ovakav problem regresije koristi "korake" za razvoj jednačine regresije. S obzirom na ovu vrstu regresije, svi prediktori se možda čak i ne pojavljuju u konačnoj regresionoj jednačini.
- Hijerarhijska regresija , kao stepen, je sekvencijalni proces, ali prediktorske varijable se unose u model u unapred određenom redosledu definisanom unaprijed, tj. Algoritam ne sadrži ugrađeni skup jednačina za određivanje reda u kojem unesite prediktore. Ovo se najčešće koristi kada pojedinac koji stvara regresionu jednačinu ima stručno znanje o ovoj oblasti.
- Setwise regresija je takođe slična stepenu, ali analizira skupove promenljivih, a ne pojedinačne varijable.