Kas ir k-līdzekļu klasterizācija?

Datu iegūšana ar k-līdzekļu algoritmu

K- līdzekļu grupēšanas algoritms ir datu ieguves un mašīnlasīšanas rīks, ko izmanto, lai apkopotu novērojumus saistīto novērojumu grupās, iepriekš nezinot šīs attiecības. Paraugu ņemšanā algoritms mēģina parādīt, uz kuru kategoriju vai klasteru pieder dati, un klasteru skaitu nosaka ar vērtību k.

K- līdzekļu algoritms ir viens no visvienkāršākajiem klasterizācijas paņēmieniem, un to parasti izmanto medicīniskās attēlveidošanas, biometrijas un saistītās jomās. K- līdzekļu grupēšanas priekšrocība ir tā, ka tā stāsta par jūsu datiem (izmantojot savu nekontrolēto formu), nevis par algoritma norādīšanu par datiem sākumā (izmantojot algoritma uzraudzīto formu).

To dažreiz dēvē par Lloids algoritmu, it īpaši datorzinātņu aprindās, jo standarta algoritmu pirmo reizi ierosināja Stuarts Lloids 1957. gadā. Terminu "k-līdzekļi" 1967. gadā ieviesa Džeimss McQueens.

Kā k-veida algoritma funkcijas

K- līdzekļu algoritms ir evolucionārs algoritms, kas iegūst savu nosaukumu no tā darbības metodes. Algoritms pulcē novērojumus k grupās, kur k ir ievades parametrs. Pēc tam katrs novērojums tiek piešķirts klasteriem, pamatojoties uz novērojuma tuvumu klastera vidējam rādītājam. Pēc tam klastera vidējā vērtība tiek atkārtoti aprēķināta, un process sākas no jauna. Lūk, kā algoritms darbojas:

  1. Algoritms patvaļīgi izvēlas k punktus kā sākotnējos klasteru centrus (līdzekļus).
  2. Katrs datu kopas punkts tiek piešķirts slēgtajai klasterim, pamatojoties uz Eiklīda attālumu starp katru punktu un katru klastera centru.
  3. Katrs klasteru centrs tiek pārrēķināts kā vidējais punktu skaits šajā klasterī.
  4. 2. un 3. solis atkārtojas, līdz klasteri saplūst. Konverģence var tikt definēta atšķirīgi atkarībā no ieviešanas, bet tas parasti nozīmē, ka vai nu novērojumi neveido kopas, kad 2. un 3. posms tiek atkārtoti, vai ka izmaiņas būtiski neietekmē klasteru definīciju.

Klustru skaita izvēle

Viens no galvenajiem trūkumiem k-grupu veidošanā ir fakts, ka jums ir jānorāda kopu skaits kā algoritma ievade. Kā paredzēts, algoritms nespēj noteikt atbilstošu klasteru skaitu un ir atkarīgs no tā, kā lietotājs iepriekš to identificē.

Piemēram, ja jums būtu grupa cilvēku, kas jāapkopo, pamatojoties uz binārā dzimuma identitāti kā vīrieti vai sievieti, izsaucot k- līdzekļu algoritmu, izmantojot ievadi k = 3, cilvēkus piespiestu trīs klasteros, kad būs tikai divi vai ievadīšana k = 2, nodrošinātu dabīgāku piemērotību.

Tāpat, ja personu grupa bija viegli grupējama, pamatojoties uz mītnes valsti, un jūs saucāt k- līdzekļu algoritmu ar ievadi k = 20, rezultāti varētu būt pārāk vispārināti, lai tie būtu efektīvi.

Šī iemesla dēļ bieži ir ieteicams eksperimentēt ar dažādām k vērtībām, lai noteiktu vērtību, kas vislabāk atbilst jūsu datiem. Jūs, iespējams, vēlēsities izpētīt arī citu datu ieguves algoritmu izmantošanu, meklējot mašīnzinībās iegūtos zināšanas.