Erinevus KDD ja andmekaevandamise vahel

KDD vs andmete kaevandamine

KDD (teadmiste avastamine andmebaasides) on arvutiteaduse valdkond, mis hõlmab tööriistu ja teooriaid, mis aitavad inimestel kasuliku ja varem tundmatu teabe (s.o teadmiste) kaevandamisel digiteeritud andmete suurtest kogudest. KDD koosneb mitmest etapist ja Data Mining on üks neist. Data Mining on kindla algoritmi rakendamine, et saada andmetest mustreid. Sellest hoolimata kasutatakse KDD-d ja andmekaevandamist vaheldumisi.

Mis on KDD?

Nagu eespool mainitud, on KDD infotehnoloogia valdkond, mis tegeleb varasemast tundmatu ja huvitava teabe ekstraheerimisega töötlemata andmetest. KDD on kogu protsess, mille eesmärk on andmete mõistmine, arendades sobivaid meetodeid või tehnikaid. See protsess käsitleb madala taseme andmete kaardistamist muudeks vormideks, mis on kompaktsemad, abstraktsemad ja kasulikud. See saavutatakse luues lühiaruandeid, modelleerides andmete genereerimise protsessi ja töötades välja ennustusmudeleid, mis võimaldavad tulevasi juhtumeid ennustada. Andmete eksponentsiaalse kasvu tõttu, eriti sellistes valdkondades nagu äri, on KDD muutunud väga oluliseks protsessiks, mille abil saab seda suurt andmehulka muuta äriteabeks, kuna mustrite käsitsi eraldamine on viimase paarikümne aasta jooksul näiliselt võimatu. Näiteks kasutatakse seda praegu mitmesuguste rakenduste jaoks, näiteks sotsiaalsete võrgustike analüüs, pettuste avastamine, teadus, investeeringud, tootmine, telekommunikatsioon, andmete puhastamine, sport, teabe otsimine ja suures osas turustamiseks. KDD-d kasutatakse tavaliselt selleks, et vastata küsimustele, näiteks millised on peamised tooted, mis võiksid järgmisel aastal Wal-Martil suurt kasumit teenida? Sellel protsessil on mitu sammu. Alustatakse rakenduse domeeni ja eesmärgi mõistmise arendamisega ning seejärel sihtandmekogu loomisega. Sellele järgneb andmete puhastamine, eeltöötlemine, vähendamine ja projitseerimine. Järgmine samm on andmekaevandamise kasutamine (selgitatakse allpool) mustri tuvastamiseks. Lõpuks konsolideeritakse avastatud teadmised visualiseerimise ja / või tõlgendamise kaudu.

Mis on andmete kaevandamine?

Nagu ülalpool mainitud, on Data Mining vaid samm kogu KDD-protsessis. Rakenduse eesmärgiga on määratletud kaks peamist andmekaevandamise eesmärki ja need on kontrollimine või avastamine. Kontrollimisega kontrollitakse kasutaja andmete hüpoteesi, samal ajal kui avastus otsib automaatselt huvitavaid mustreid. Andmete kaevandamise peamisi ülesandeid on neli: rühmitamine, klassifitseerimine, regressioon ja seostamine (kokkuvõte). Klasterdamine on sarnaste rühmade tuvastamine struktureerimata andmete põhjal. Klassifikatsioon on õppereeglid, mida saab rakendada uute andmete jaoks. Regressioon on andmete modelleerimiseks minimaalsete vigadeta funktsioonide leidmine. Ja assotsiatsioon otsib seoseid muutujate vahel. Seejärel tuleb valida konkreetne andmete kaevandamise algoritm. Sõltuvalt eesmärgist saab valida erinevaid algoritme, näiteks lineaarset regressiooni, logistilist regressiooni, otsustuspuud ja Naiivseid Bayes. Seejärel otsitakse huvipakkuvaid mustreid ühes või mitmes esindusvormis. Lõpuks hinnatakse mudeleid kas ennustava täpsuse või arusaadavuse abil.

Mis vahe on KDD ja Data mining??

Ehkki kahte terminit KDD ja Data Mining kasutatakse laialdaselt vaheldumisi, viitavad nad kahele omavahel seotud, kuid pisut erinevale kontseptsioonile. KDD on üldine protsess, mille käigus võetakse andmetest teadmisi, samas kui Data Mining on samm KDD protsessis, mis tegeleb andmete mustrite tuvastamisega. Teisisõnu on Data Mining ainult konkreetse algoritmi rakendamine, mis põhineb KDD protsessi üldeesmärgil.