Andmete kaevandamine vs andmete ladustamine
Andmete kaevandamine ja andmete ladustamine on andmete analüüsimiseks väga võimas ja populaarne tehnika. Kasutajad, kes kalduvad statistika poole, kasutavad andmekaevandamist. Nad kasutavad statistilisi mudeleid andmete peidetud mustrite otsimiseks. Andmekaevandajad on huvitatud erinevate andmeelementide vahel kasulike seoste leidmisest, mis on lõppkokkuvõttes kasumlik ettevõtetele. Kuid teisest küljest kasutavad andmeeksperdid, kes saavad otse ettevõtte mõõtmeid analüüsida, kasutada Andmeladu.
Andmete kaevandamist tuntakse ka teadmiste avastuse andmetes (KDD) all. Nagu eespool mainitud, on tegemist arvutiteaduse valdkonnaga, mis tegeleb varasemast tundmatu ja huvitava teabe ekstraheerimisega töötlemata andmetest. Andmete eksponentsiaalse kasvu tõttu, eriti sellistes valdkondades nagu äri, on andmete kaevandamine muutunud väga oluliseks tööriistaks, mille abil saab seda suurt andmehulka muuta äriteabeks, kuna mustrite käsitsi eraldamine on viimastel aastakümnetel tundunud võimatuks. Näiteks kasutatakse seda praegu mitmesuguste rakenduste jaoks, näiteks sotsiaalsete võrgustike analüüs, pettuste avastamine ja turundus. Andmete kaevandamine tegeleb tavaliselt järgmise nelja ülesandega: rühmitamine, klassifitseerimine, regressioon ja seostamine. Klasterdamine on sarnaste rühmade tuvastamine struktureerimata andmete põhjal. Klassifikatsioon on õppimisreeglid, mida saab kasutada uute andmete jaoks ja mis sisaldab tavaliselt järgmisi etappe: andmete eeltöötlus, modelleerimise kavandamine, õppimise / funktsioonide valimine ja hindamine / valideerimine. Regressioon on andmete modelleerimiseks minimaalsete vigadeta funktsioonide leidmine. Ja assotsiatsioon otsib seoseid muutujate vahel. Andmekaevandamist kasutatakse tavaliselt selleks, et vastata küsimustele, näiteks millised on peamised tooted, mis võiksid järgmisel aastal Wal-Martis suurt kasumit teenida?
Nagu eespool mainitud, kasutatakse andmete analüüsimiseks ka andmete ladustamist, kuid seda peavad tegema erinevad kasutajad ja silmas pidades pisut erinevat eesmärki. Näiteks jaekaubanduse valdkonnas on andmeladude kasutajad rohkem huvitatud sellest, millised ostud on klientide seas populaarsed, nii et analüüsi tulemused saavad klienti aidata, parandades kliendikogemust. Kuid andmekaevandajad loobuvad kõigepealt hüpoteesist, näiteks sellest, millised kliendid ostavad teatud tüüpi toote, ja analüüsib andmeid hüpoteesi kontrollimiseks. Andmete ladustamist võiks teostada suurem jaemüüja, kes varustab oma kauplusi algselt sama suurusega toodetega, et hiljem teada saada, et New Yorgi kauplused müüvad väiksema suurusega laovarusid palju kiiremini kui Chicago kauplustes. Niisiis võib jaemüüja seda tulemust vaadates varuda New Yorgi poodi väiksema suurusega kui Chicago kauplustes.
Niisiis, nagu näete selgelt, näivad need kaks analüüsi tüüpi palja silmaga sama laadi. Mõlemad muretsevad ajalooliste andmete põhjal kasumi suurendamise üle. Kuid muidugi on peamisi erinevusi. Lihtsamalt öeldes on Data Mining ja Data Warehousing pühendatud eri tüüpi analüütika sisustamisele, kuid kindlasti eri tüüpi kasutajatele. Teisisõnu otsib Data Mining statistilise hüpoteesi toetamiseks korrelatsioone ja patsereid. Kuid Data Warehousing vastab suhteliselt laiemale küsimusele ning lõikab ja kuubib andmeid sealt edasi, et tulevikus teadvustada parendusvõimalusi..