KDD vs datu ieguve
KDD (Knowledge Discovery in Databases) ir datorzinātņu joma, kas ietver rīkus un teorijas, kas palīdz cilvēkiem iegūt noderīgu un iepriekš nezināmu informāciju (ti, zināšanas) no lielām digitalizētu datu kolekcijām. KDD sastāv no vairākiem posmiem, un datu ieguve ir viens no tiem. Datu ieguve ir noteikta algoritma pielietošana, lai no datiem iegūtu modeļus. Neskatoties uz to, KDD un datu ieguve tiek izmantoti savstarpēji aizstājami.
Kas ir KDD?
Kā minēts iepriekš, KDD ir datorzinātņu joma, kas nodarbojas ar iepriekš nezināmas un interesantas informācijas iegūšanu no neapstrādātiem datiem. KDD ir viss process, kurā mēģina saprast datus, izstrādājot atbilstošas metodes vai paņēmienus. Šis process nodarbojas ar zema līmeņa datu kartēšanu citās formās, kas ir kompaktākas, abstraktākas un noderīgākas. Tas tiek panākts, izveidojot īsus pārskatus, modelējot datu ģenerēšanas procesu un izstrādājot prognozēšanas modeļus, kas var paredzēt nākotnes gadījumus. Sakarā ar datu eksponenciālo pieaugumu, it īpaši tādās jomās kā bizness, KDD ir kļuvis par ļoti svarīgu procesu, lai šo lielo datu bagātību pārveidotu biznesa inteliģencē, jo pēdējās desmitgadēs modeļu manuāla iegūšana ir kļuvusi šķietami neiespējama. Piemēram,to pašlaik izmanto dažādām lietojumprogrammām, piemēram, sociālo tīklu analīzei, krāpšanas atklāšanai, zinātnei, investīcijām, ražošanai, telekomunikācijām, datu tīrīšanai, sportam, informācijas izgūšanai un galvenokārt mārketingam. KDD parasti izmanto, lai atbildētu uz jautājumiem, piemēram, kādi ir galvenie produkti, kas varētu palīdzēt iegūt lielu peļņu nākamajā gadā Wal-Mart ?. Šim procesam ir vairākas darbības. Tas sākas ar izpratnes veidošanu par lietojumprogrammas domēnu un mērķi un pēc tam ar mērķa datu kopas izveidošanu. Tam seko datu tīrīšana, pirmapstrāde, samazināšana un projicēšana. Nākamais solis ir izmantot datu ieguvi (paskaidrots tālāk), lai identificētu modeli. Visbeidzot, atklātās zināšanas tiek nostiprinātas, vizualizējot un / vai interpretējot.sports, informācijas iegūšana un galvenokārt mārketings. KDD parasti izmanto, lai atbildētu uz jautājumiem, piemēram, kādi ir galvenie produkti, kas varētu palīdzēt iegūt lielu peļņu nākamajā gadā Wal-Mart ?. Šim procesam ir vairākas darbības. Tas sākas ar izpratnes veidošanu par lietojumprogrammas domēnu un mērķi un pēc tam ar mērķa datu kopas izveidošanu. Tam seko datu tīrīšana, pirmapstrāde, samazināšana un projicēšana. Nākamais solis ir izmantot datu ieguvi (paskaidrots tālāk), lai identificētu modeli. Visbeidzot, atklātās zināšanas tiek nostiprinātas, vizualizējot un / vai interpretējot.sports, informācijas iegūšana un galvenokārt mārketings. KDD parasti izmanto, lai atbildētu uz jautājumiem, piemēram, kādi ir galvenie produkti, kas varētu palīdzēt iegūt lielu peļņu nākamajā gadā Wal-Mart ?. Šim procesam ir vairākas darbības. Tas sākas ar izpratnes veidošanu par lietojumprogrammas domēnu un mērķi un pēc tam ar mērķa datu kopas izveidošanu. Tam seko datu tīrīšana, pirmapstrāde, samazināšana un projicēšana. Nākamais solis ir izmantot datu ieguvi (paskaidrots tālāk), lai identificētu modeli. Visbeidzot, atklātās zināšanas tiek nostiprinātas, vizualizējot un / vai interpretējot. Tas sākas ar izpratnes veidošanu par lietojumprogrammas domēnu un mērķi un pēc tam ar mērķa datu kopas izveidošanu. Tam seko datu tīrīšana, pirmapstrāde, samazināšana un projicēšana. Nākamais solis ir izmantot datu ieguvi (paskaidrots tālāk), lai identificētu modeli. Visbeidzot, atklātās zināšanas tiek nostiprinātas, vizualizējot un / vai interpretējot. Tas sākas ar izpratnes veidošanu par lietojumprogrammas domēnu un mērķi un pēc tam ar mērķa datu kopas izveidošanu. Tam seko datu tīrīšana, pirmapstrāde, samazināšana un projicēšana. Nākamais solis ir izmantot datu ieguvi (paskaidrots tālāk), lai identificētu modeli. Visbeidzot, atklātās zināšanas tiek nostiprinātas, vizualizējot un / vai interpretējot.
Kas ir datu ieguve?
Kā minēts iepriekš, datu ieguve ir tikai solis kopējā KDD procesā. Ir divi galvenie datu ieguves mērķi, ko nosaka lietojumprogrammas mērķis, un tie ir pārbaude vai atklāšana. Verifikācija ir lietotāja hipotēzes par datiem pārbaude, savukārt atklāšana automātiski atrod interesantus modeļus. Ir četri galvenie datu ieguves uzdevumi: kopu veidošana, klasifikācija, regresija un asociācija (apkopojums). Klasterizācija ir līdzīgu grupu identificēšana no nestrukturētiem datiem. Klasifikācija ir mācību noteikumi, kurus var piemērot jauniem datiem. Regresija ir funkciju atrašana ar minimālu kļūdu, lai modelētu datus. Asociācija meklē attiecības starp mainīgajiem. Pēc tam jāizvēlas konkrētais datu ieguves algoritms. Atkarībā no mērķa dažādi algoritmi, piemēram, lineārā regresija, loģistiskā regresija,var izvēlēties lēmumu kokus un Naivās Bejas. Tad tiek meklēti interesējošie modeļi vienā vai vairākās reprezentācijas formās. Visbeidzot, modeļi tiek novērtēti, izmantojot prognozējamo precizitāti vai saprotamību.
Kāda ir atšķirība starp KDD un datu ieguvi?
Lai gan abi termini KDD un Data Mining tiek savstarpēji aizstāti, tie attiecas uz diviem saistītiem, tomēr nedaudz atšķirīgiem jēdzieniem. KDD ir vispārējs zināšanu iegūšanas process no datiem, savukārt datu ieguve ir solis KDD procesā, kas nodarbojas ar datu modeļu identificēšanu. Citiem vārdiem sakot, datu ieguve ir tikai noteikta algoritma izmantošana, pamatojoties uz KDD procesa vispārējo mērķi.