Šta je k-sredstvo klastera?

Data mining sa algoritmom k-sredstava

K- sredstvo algoritma za grupisanje je alat za merenje podataka i alat za učenje mašina koji se koristi za grupisanje posmatranja u grupe srodnih posmatranja bez ikakvog prethodnog znanja o tim odnosima. Uzimajući uzorak, algoritam pokušava pokazati u kojoj kategoriji ili grupi pripadaju podaci, pri čemu je broj klastera definisan vrijednošću k.

Algoritam k- sredstava je jedna od najjednostavnijih tehnika klasteriranja i najčešće se koristi u medicinskim slikama, biometriji i srodnim poljima. Prednost k- sredstava je grupisanje što govori o vašim podacima (koristeći svoj nenadzorovani oblik) umjesto da morate da instruktirate algoritam o podacima na početku (koristeći nadgledani oblik algoritma).

Ponekad se naziva Lloyd's Algorithm, posebno u krugovima računarstva, jer je standardni algoritam prvi put predložio Stuart Lloyd 1957. godine. Termin "k-sredstva" je skovao 1967. godine James McQueen.

Kako funkcije k-znači algoritam

Algoritam k- sredstava je evolutivni algoritam koji dobiva svoje ime iz svog načina rada. Algoritam vrši zapažanja u k grupe, gde se k predstavlja kao ulazni parametar. Zatim se svako posmatranje dodeljuje klasterima zasnovanim na blizini posmatranja sa sredinom klastera. Sredstvo klastera se ponovo preporučuje i proces počinje ponovo. Evo kako funkcioniše algoritam:

  1. Algoritam proizvoljno odabire točke k kao početni klaster centri (sredstva).
  2. Svaka tačka u skupu podataka dodeljuje se zatvorenoj grupi, na osnovu evklidskog rastojanja između svake tačke i svakog centra klastera.
  3. Svaki centri klastera se ponovo izračunavaju kao prosek poena u tom klasteru.
  4. Koraci 2 i 3 se ponavljaju sve dok klasteri ne konvergiraju. Konvergencija se može definisati različito u zavisnosti od implementacije, ali uobičajeno znači da ni jedna opservacija ne mijenja klastere kada se ponovu koraci 2 i 3 ili da promjene ne daju značajnu razliku u definiciji klastera.

Izbor broja klastera

Jedna od glavnih nedostataka k- znači grupisanje je činjenica da morate navesti broj klastera kao ulaz u algoritam. Kao što je dizajnirano, algoritam nije sposoban da odredi odgovarajući broj klastera i zavisi od toga da li korisnik to unapred identifikuje.

Na primjer, ako ste imali grupu ljudi koji treba da budu grupisani na osnovu binarnog rodnog identiteta kao muški ili ženski, pozivanje algoritma k- sredstava pomoću unosa k = 3 bi primoralo ljude na tri klastera kada su samo dvije, ili unos k = 2, bi obezbedio prirodnije uklapanje.

Slično tome, ako je grupa ljudi lako grupisana na osnovu matične države i vi ste nazvali algoritam k- sredstava sa ulazom k = 20, rezultati su možda previše generalizovani da bi bili efikasni.

Iz tog razloga, često je dobra ideja da eksperimentišete sa različitim vrednostima k da biste identifikovali vrijednost koja najviše odgovara vašim podacima. Takođe možete želeti da istražite upotrebu drugih algoritama za rukovanje podacima u potrazi za naučenim znanjem.