DBMS vs andmete kaevandamine
DBMS (Database Management System) on digitaalsete andmebaaside haldamiseks kasutatav terviklik süsteem, mis võimaldab andmebaasi sisu salvestada, andmeid luua / säilitada, otsingut ja muid funktsioone. Teisest küljest on Data Mining arvutiteaduse valdkond, mis tegeleb varasemalt tundmatu ja huvitava teabe ekstraheerimisega töötlemata andmetest. Tavaliselt säilitatakse andmete kaevandamise protsessi sisendina kasutatavaid andmeid andmebaasides. Kasutajad, kes kalduvad statistika poole, kasutavad andmekaevandamist. Nad kasutavad statistilisi mudeleid andmete peidetud mustrite otsimiseks. Andmekaevandajad on huvitatud erinevate andmeelementide vahel kasulike seoste leidmisest, mis on lõppkokkuvõttes kasumlik ettevõtetele.
DBMS
DBMS, mida mõnikord nimetatakse ka andmebaasihalduriks, on arvutiprogrammide kogum, mis on pühendatud kõigi süsteemi (st kõvakettale või võrku) installitud andmebaaside haldamiseks (st korraldamiseks, säilitamiseks ja otsimiseks). Maailmas on olemas erinevat tüüpi andmebaaside haldussüsteeme ja mõned neist on loodud sihtotstarbeliselt konfigureeritud andmebaaside nõuetekohaseks haldamiseks. Kõige populaarsemad kaubanduslikud andmebaasihaldussüsteemid on Oracle, DB2 ja Microsoft Access. Kõik need tooted pakuvad vahendeid erinevatele kasutajatele erineva taseme privileegide eraldamiseks, mis võimaldab DBMS-i hallata tsentraalselt ühe administraatori poolt või eraldada mitmele erinevale inimesele. Igas andmebaasihaldussüsteemis on neli olulist elementi. Need on modelleerimiskeel, andmestruktuurid, päringute keel ja tehingute mehhanism. Modelleerimiskeel määratleb iga andmebaasi, mida hostitakse DBMS-is. Praegu on praktikas kasutusel mitmed populaarsed lähenemisviisid, nagu hierarhia, võrk, relatsioon ja objekt. Andmestruktuurid aitavad korraldada selliseid andmeid nagu üksikud kirjed, failid, väljad ning nende määratlused ja objektid, näiteks visuaalsed andmekandjad. Andmepäringu keel säilitab andmebaasi turvalisuse, jälgides sisselogimisandmeid, erinevatele kasutajatele juurdepääsuõigusi ja süsteemile andmete lisamise protokolle. SQL on populaarne päringute keel, mida kasutatakse relatsiooniliste andmebaaside haldussüsteemides. Lõpuks aitab tehinguid võimaldav mehhanism kokkulangevust ja paljusust. See mehhanism tagab, et mitu kasutajat ei muuda sama kirjet korraga, hoides sellega andmete terviklikkuse taktitundes. Lisaks pakuvad DBMS varukoopiaid ja muid võimalusi.
Andmete kaevandamine
Andmete kaevandamist nimetatakse ka teadmiste avastuseks andmetes (KDD). Nagu eespool mainitud, on tegemist arvutiteaduse felidiga, mis tegeleb varasemast tundmatu ja huvitava teabe ekstraheerimisega töötlemata andmetest. Andmete eksponentsiaalse kasvu tõttu, eriti sellistes valdkondades nagu äri, on andmete kaevandamine muutunud väga oluliseks tööriistaks, mille abil saab seda suurt andmehulka muuta äriteabeks, kuna mustrite käsitsi eraldamine on viimastel aastakümnetel tundunud võimatuks. Näiteks kasutatakse seda praegu mitmesuguste rakenduste jaoks, näiteks sotsiaalsete võrgustike analüüs, pettuste avastamine ja turundus. Andmete kaevandamine tegeleb tavaliselt järgmise nelja ülesandega: rühmitamine, klassifitseerimine, regressioon ja seostamine. Klasterdamine on sarnaste rühmade tuvastamine struktureerimata andmete põhjal. Klassifikatsioon on õppimisreeglid, mida saab kasutada uute andmete jaoks ja mis sisaldab tavaliselt järgmisi etappe: andmete eeltöötlus, modelleerimise kavandamine, õppimise / funktsioonide valimine ja hindamine / valideerimine. Regressioon on andmete modelleerimiseks minimaalsete vigadeta funktsioonide leidmine. Ja assotsiatsioon otsib seoseid muutujate vahel. Andmekaevandamist kasutatakse tavaliselt selleks, et vastata küsimustele, näiteks millised on peamised tooted, mis võiksid järgmisel aastal Wal-Martis suurt kasumit teenida?
Mis vahe on DBMS ja Data mining??
DBMS on täieõiguslik süsteem digitaalsete andmebaaside komplekti majutamiseks ja haldamiseks. Andmekaevandamine on siiski tehnika või kontseptsioon arvutiteaduses, mis tegeleb kasuliku ja varem tundmatu teabe ekstraheerimisega töötlemata andmetest. Enamasti säilitatakse neid töötlemata andmeid väga suurtes andmebaasides. Seetõttu kasutavad andmekaevandajad DBMS-i olemasolevaid funktsioone töötlemata andmete töötlemiseks, haldamiseks ja isegi eeltöötluseks enne andmehaldusprotsessi ja selle ajal. Kuid DBMS-süsteemi üksi ei saa andmete analüüsimiseks kasutada. Kuid mõnes DBMS-is on praegu sisseehitatud andmete analüüsimise tööriistad või võimalused.