Klasifikacija je tehnika rukovanja podacima koja dodjeljuje kategorije zbirci podataka kako bi pomogla u preciznijim predviđanjima i analizama. Takođe se naziva i ponekad nazvano Tree Tree odlukom , klasifikacija je jedan od nekoliko metoda namijenjenih da se analiza veoma velikih skupova podataka uspješta.
Zašto klasifikacija?
Velike baze podataka postaju norma u današnjem svetu "velikih podataka". Zamislite bazu podataka sa više terabajta podataka - terabajt je jedan trilion bajta podataka.
Facebook samo sruši 600 terabajta novih podataka svakog dana (od 2014. godine, poslednji put kada je prijavio ove specifikacije). Primarni izazov velikih podataka je kako to osmisliti.
I obim volumena nije jedini problem: veliki podaci takođe imaju tendenciju da budu raznovrsni, nestrukturirani i brzi. Razmotrite audio i video podatke, postove društvenih medija, 3D podatke ili geoprostorne podatke. Ova vrsta podataka nije lako kategorizirana ili organizovana.
Da bi se zadovoljio ovaj izazov, razvijen je niz automatskih metoda za iznošenje korisnih informacija, među kojima je klasifikacija .
Kako funkcioniše klasifikacija
Zbog opasnosti od prevelikog prelaska u tehnologiju, raspravimo o tome kako funkcionira klasifikacija. Cilj je kreiranje skupa pravila klasifikacije koja će odgovoriti na pitanje, donijeti odluku ili predvidjeti ponašanje. Da započne, razvija se skup podataka o obuci koji sadrži određeni skup atributa, kao i verovatni ishod.
Posao algoritma klasifikacije je da otkrije kako taj skup atributa dostigne svoj zaključak.
Scenario : Možda kompanija za kreditne kartice pokušava da odredi koje perspektive treba da dobiju ponudu za kreditne kartice.
Ovo bi moglo biti njegov set podataka o obuci:
Ime | Starost | Pol | Godišnji prihod | Ponuda kreditne kartice |
---|---|---|---|---|
John Doe | 25 | M | $ 39,500 | Ne |
Jane Doe | 56 | F | 125.000 dolara | Da |
Stubovi "prediktor" Starost , pol i godišnji prihod određuju vrijednost ponude "prediktor atributa" kreditne kartice . U skupu treninga, atribut prediktora je poznat. Algoritam klasifikacije potom pokušava da odredi kako je dostignuta vrednost atributa prediktora: kakve veze postoje između prediktora i odluke? Razvijaće skup pravila predviđanja, obično IF / THEN izjave, na primer:
IF (starost> 18 ili starost <75) I godišnji prihod> 40,000 THEN Ponudba kreditne kartice = da
Očigledno, ovo je jednostavan primer, i za algoritam bi bilo potrebno mnogo veće uzorkovanje podataka nego dva prikazana ovde. Dalje, pravila predviđanja će verovatno biti mnogo složenija, uključujući i pod-pravila za hvatanje detalja atributa.
Zatim, algoritam daje "set predviđanja" podataka za analizu, ali ovom setu nedostaje atribut predikcije (ili odluka):
Ime | Starost | Pol | Godišnji prihod | Ponuda kreditne kartice |
---|---|---|---|---|
Džek Frost | 42 | M | 88.000 dolara | |
Mary Murray | 16 | F | $ 0 |
Podaci o predikatorima pomažu u procjeni tačnosti pravila predviđanja, a pravila se tweakaju dok programer ne smatra da su predviđanja efikasna i korisna.
Današnji primjeri klasifikacije
Klasifikacija i druge tehnike rukovanja podacima stoje iza velikog dela našeg svakodnevnog iskustva kao potrošači.
Predviđanja vremena mogu koristiti klasifikaciju kako bi prijavili da li će dan biti kišovito, sunčano ili oblačno. Medicinska profesija može analizirati zdravstvene uslove da predvidi medicinske ishode. Vrsta metode klasifikacije, Naive Bayesian, koristi uslovnu verovatnoću da kategorizira spam e-poštu. Od otkrivanja prevara do ponuda proizvoda, klasifikacija se iza svake scene analizira i predviđa prognoze.