Klasifikācija datu ieguvē

Klasifikācija ir datu ieguves metode, kas kategorijām piešķir datu kolekciju, lai palīdzētu precīzāk prognozēt un analizēt. To sauc arī dažreiz par " Lēmumu koku" , klasifikācija ir viena no vairākām metodēm, kuras mērķis ir efektīvi analizēt ļoti lielas datu kopas.

Kāpēc klasifikācija?

Ļoti lielas datubāzes kļūst par normu šodienas "lielo datu" pasaulē. Iedomājieties datubāzi ar vairākiem terabaitu datiem - terabaits ir viens triljons bitu datu.

Tikai Facebook katru dienu sadala 600 terabaitiem jaunu datu (no 2014. gada, kad pēdējo reizi ziņoja par šīm specifikācijām). Galvenais lielo datu uzdevums ir tas, kā to saprast.

Un lielākais apjoms nav vienīgā problēma: lielie dati arī mēdz būt dažādi, nestrukturēti un ātri mainīgi. Apsveriet audio un video datus, sociālās mediju ziņas, 3D datus vai ģeotelpiskos datus. Šāda veida dati nav viegli klasificēti vai organizēti.

Lai risinātu šo problēmu, ir izstrādāta virkne automātisku metožu noderīgas informācijas iegūšanai, tostarp klasifikācija .

Kā darbojas klasifikācija?

Pārsniedzot pārāk lielu uzmanību tehniskajam risinājumam, apspriedīsim, kā klasifikācija darbojas. Mērķis ir izveidot klasifikācijas noteikumu kopu, kas atbildēs uz jautājumu, pieņems lēmumu vai prognozēs uzvedību. Sākumā tiek izstrādāts apmācības datu kopums, kurā ir noteikts atribūtu komplekts, kā arī iespējamais rezultāts.

Klasifikācijas algoritma uzdevums ir atklāt, kā šis atribūtu komplekts sasniedz savu secinājumu.

Scenārijs : Iespējams, ka kredītkaršu kompānija mēģina noteikt, kuras izredzes saņems kredītkaršu piedāvājumu.

Tas varētu būt tā apmācības datu kopums:

Apmācības dati
Nosaukums Vecums Dzimums Gada ienākumi Kredītkartes piedāvājums
John Doe 25 M 39 500 $
Jane Doe 56 F $ 125,000

Prognozējošo sleju vecums , dzimums un ikgadējais ienākums nosaka " Kredītkartes piedāvājumu " prognozētāja atribūtu vērtību. Apmācības komplektā ir zināms prognozētāja atribūts. Tad klasifikācijas algoritms mēģina noteikt, kā tiek sasniegta prognozētāja atribūta vērtība: kādas ir attiecības starp prognozējamiem un lēmumu? Tas izstrādās prognozēšanas noteikumu kopumu, parasti IF / THEN paziņojumu, piemēram:

IF (Vecums> 18 VAI Vecums <75) UN GADA IENĀKUMS> 40 000 TAS Kredītkartes piedāvājums = jā

Protams, tas ir vienkāršs piemērs, un algoritms prasīs daudz lielāku datu atlasi nekā šeit redzamie divi ieraksti. Turklāt prognozēšanas noteikumi, visticamāk, būs daudz sarežģītāki, tostarp apakšnoteikumi, lai uztvertu atribūtu datus.

Tālāk algoritms tiek piešķirts analizējamo datu "prognozes kopai", taču šim komplektam trūkst prognozēšanas atribūtu (vai lēmumu):

Predictor Data
Nosaukums Vecums Dzimums Gada ienākumi Kredītkartes piedāvājums
Jack Frost 42 M 88 000 $
Mary Murray 16 F $ 0

Šie prognozes dati palīdz novērtēt prognozēšanas noteikumu precizitāti, un tad noteikumi tiek precizēti, līdz izstrādātājs uzskata, ka prognozes ir efektīvas un lietderīgas.

Klasifikācijas ikdienas piemēri

Klasifikācija un citas datu ieguves metodes aizņem lielu daļu no mūsu ikdienas pieredzes kā patērētāji.

Laika prognozes var izmantot klasifikāciju, lai ziņotu, vai diena būs lietains, saulains vai duļķains. Medicīnas profesija var analizēt veselības stāvokli, lai prognozētu medicīniskos rezultātus. Klasifikācijas metodes veids, Naive Bayesian, izmanto nosacījumu varbūtību klasificēt surogātpasta vēstules. No krāpšanas atklāšanas līdz produktu piedāvājumiem katru dienu tiek veikta klasifikācija aiz ainas, analizējot datus un sagatavojot prognozes.