Andmekaevandamine vs OLAP
Nii andmete kaevandamine kui ka OLAP on kaks levinumat äriteabe (BI) tehnoloogiat. Äriteave viitab arvutipõhistele meetoditele kasuliku teabe tuvastamiseks ja ekstraheerimiseks äriandmetest. Andmete kaevandamine on arvutiteaduse valdkond, mis tegeleb huvitavate mustrite kaevandamisega suurtest andmekogumitest. See ühendab paljusid meetodeid alates tehisintellektist, statistikast ja andmebaaside haldamisest. Nagu nimigi ütleb, on OLAP (veebipõhine analüütiline töötlemine) mitmemõõtmelistest andmebaasidest päringute moodustamise viis.
Andmete kaevandamist tuntakse ka teadmiste avastuse andmetes (KDD) all. Nagu eespool mainitud, on tegemist arvutiteaduse valdkonnaga, mis tegeleb varasemast tundmatu ja huvitava teabe ekstraheerimisega töötlemata andmetest. Andmete eksponentsiaalse kasvu tõttu, eriti sellistes valdkondades nagu äri, on andmete kaevandamine muutunud väga oluliseks tööriistaks, mille abil saab seda suurt andmehulka muuta äriteabeks, kuna mustrite käsitsi eraldamine on viimastel aastakümnetel tundunud võimatuks. Näiteks kasutatakse seda praegu mitmesuguste rakenduste jaoks, näiteks sotsiaalsete võrgustike analüüs, pettuste avastamine ja turundus. Andmete kaevandamine tegeleb tavaliselt järgmise nelja ülesandega: rühmitamine, klassifitseerimine, regressioon ja seostamine. Klasterdamine on sarnaste rühmade tuvastamine struktureerimata andmete põhjal. Klassifikatsioon on õppimisreeglid, mida saab kasutada uute andmete jaoks ja mis sisaldab tavaliselt järgmisi etappe: andmete eeltöötlus, modelleerimise kavandamine, õppimise / funktsioonide valimine ja hindamine / valideerimine. Regressioon on andmete modelleerimiseks minimaalsete vigadeta funktsioonide leidmine. Ja assotsiatsioon otsib seoseid muutujate vahel. Andmekaevandamist kasutatakse tavaliselt selleks, et vastata küsimustele, näiteks millised on peamised tooted, mis võiksid järgmisel aastal Wal-Martis suurt kasumit teenida.
OLAP on süsteemiklass, mis pakub vastuseid mitmemõõtmelistele küsimustele. Tavaliselt kasutatakse OLAP-i turunduse, eelarve koostamise, prognoosimise ja sarnaste rakenduste jaoks. On ütlematagi selge, et OLAP-i jaoks kasutatavad andmebaasid on konfigureeritud keerukate ja ad-hoc päringute jaoks, pidades silmas kiiret toimimist. Tavaliselt kasutatakse OLAP-i väljundi kuvamiseks maatriksit. Ridad ja veerud moodustatakse päringu mõõtmete järgi. Sageli kasutavad nad kokkuvõtete saamiseks mitme tabeli koondamismeetodeid. Selle abil saab teada saada näiteks Wal-Marti selle aasta müügi eelmise aastaga võrreldes? Milline on järgmise kvartali müügi prognoos? Mida saab trendi kohta öelda, vaadates protsendimuutust?
Ehkki on ilmne, et Data Mining ja OLAP on sarnased, kuna nad töötavad luureandmete saamiseks andmetel, tuleneb peamine erinevus sellest, kuidas nad andmetega töötavad. OLAP-i tööriistad pakuvad mitmemõõtmelist andmete analüüsi ja need pakuvad andmete kokkuvõtteid, kuid vastupidiselt keskendub andmete kaevandamine andmekogude suhetele, mustritele ja mõjutustele. See on OLAP-i tehing koondamise kohta, mis seisneb andmete käitlemises “lisamise” kaudu, kuid andmete kaevandamine vastab “jagamisele”. Veel üks märkimisväärne erinevus on see, et kuigi andmekaevandamise tööriistad modelleerivad andmeid ja tagastavad rakendatavad reeglid, viib OLAP reaalajas läbi ettevõtte mõõtme võrdlus- ja kontrasteerimistehnikaid..