Klasifikacija u rudarstvu podataka

Klasifikacija je tehnika rukovanja podacima koja dodjeljuje kategorije zbirci podataka kako bi pomogla u preciznijim predviđanjima i analizama. Takođe se naziva i ponekad nazvano Tree Tree odlukom , klasifikacija je jedan od nekoliko metoda namijenjenih da se analiza veoma velikih skupova podataka uspješta.

Zašto klasifikacija?

Velike baze podataka postaju norma u današnjem svetu "velikih podataka". Zamislite bazu podataka sa više terabajta podataka - terabajt je jedan trilion bajta podataka.

Facebook samo sruši 600 terabajta novih podataka svakog dana (od 2014. godine, poslednji put kada je prijavio ove specifikacije). Primarni izazov velikih podataka je kako to osmisliti.

I obim volumena nije jedini problem: veliki podaci takođe imaju tendenciju da budu raznovrsni, nestrukturirani i brzi. Razmotrite audio i video podatke, postove društvenih medija, 3D podatke ili geoprostorne podatke. Ova vrsta podataka nije lako kategorizirana ili organizovana.

Da bi se zadovoljio ovaj izazov, razvijen je niz automatskih metoda za iznošenje korisnih informacija, među kojima je klasifikacija .

Kako funkcioniše klasifikacija

Zbog opasnosti od prevelikog prelaska u tehnologiju, raspravimo o tome kako funkcionira klasifikacija. Cilj je kreiranje skupa pravila klasifikacije koja će odgovoriti na pitanje, donijeti odluku ili predvidjeti ponašanje. Da započne, razvija se skup podataka o obuci koji sadrži određeni skup atributa, kao i verovatni ishod.

Posao algoritma klasifikacije je da otkrije kako taj skup atributa dostigne svoj zaključak.

Scenario : Možda kompanija za kreditne kartice pokušava da odredi koje perspektive treba da dobiju ponudu za kreditne kartice.

Ovo bi moglo biti njegov set podataka o obuci:

Podaci o obuci
Ime Starost Pol Godišnji prihod Ponuda kreditne kartice
John Doe 25 M $ 39,500 Ne
Jane Doe 56 F 125.000 dolara Da

Stubovi "prediktor" Starost , pol i godišnji prihod određuju vrijednost ponude "prediktor atributa" kreditne kartice . U skupu treninga, atribut prediktora je poznat. Algoritam klasifikacije potom pokušava da odredi kako je dostignuta vrednost atributa prediktora: kakve veze postoje između prediktora i odluke? Razvijaće skup pravila predviđanja, obično IF / THEN izjave, na primer:

IF (starost> 18 ili starost <75) I godišnji prihod> 40,000 THEN Ponudba kreditne kartice = da

Očigledno, ovo je jednostavan primer, i za algoritam bi bilo potrebno mnogo veće uzorkovanje podataka nego dva prikazana ovde. Dalje, pravila predviđanja će verovatno biti mnogo složenija, uključujući i pod-pravila za hvatanje detalja atributa.

Zatim, algoritam daje "set predviđanja" podataka za analizu, ali ovom setu nedostaje atribut predikcije (ili odluka):

Podaci prediktora
Ime Starost Pol Godišnji prihod Ponuda kreditne kartice
Džek Frost 42 M 88.000 dolara
Mary Murray 16 F $ 0

Podaci o predikatorima pomažu u procjeni tačnosti pravila predviđanja, a pravila se tweakaju dok programer ne smatra da su predviđanja efikasna i korisna.

Današnji primjeri klasifikacije

Klasifikacija i druge tehnike rukovanja podacima stoje iza velikog dela našeg svakodnevnog iskustva kao potrošači.

Predviđanja vremena mogu koristiti klasifikaciju kako bi prijavili da li će dan biti kišovito, sunčano ili oblačno. Medicinska profesija može analizirati zdravstvene uslove da predvidi medicinske ishode. Vrsta metode klasifikacije, Naive Bayesian, koristi uslovnu verovatnoću da kategorizira spam e-poštu. Od otkrivanja prevara do ponuda proizvoda, klasifikacija se iza svake scene analizira i predviđa prognoze.