Hierarhiline vs jagunemine
Klasterdamine on masinõppe tehnika andmete analüüsimiseks ja sarnaste andmete rühmadesse jagamiseks. Neid rühmi või sarnaste andmete kogumeid nimetatakse klastriteks. Klastrianalüüs vaatleb klasterdamisalgoritme, mis võimaldavad klastrid automaatselt tuvastada. Hierarhiline ja osajaotus on kaks sellist klasterdamisalgoritmi klassi. Hierarhilised rühmituse algoritmid liigendavad andmed klastrite hierarhiasse. Paritionalgoritmid jagavad andmekogumi vastastikku eraldatud partitsioonideks.
Mis on hierarhiline klasterdamine?
Hierarhilised klasterdamisalgoritmid kordavad tsüklit: kas väiksemate klastrite liitmine suuremateks või suuremate klastrite väiksemateks jagamine. Mõlemal juhul loob see klastrite hierarhia, mida nimetatakse dendogrammiks. Aglomeratiivne klastrimisstrateegia kasutab alt üles lähenemisviisi, ühendades klastrid suuremateks, samas kui jagatav klasterdamisstrateegia kasutab ülalt alla lähenemist väiksemateks jagamiseks. Tavaliselt kasutatakse ahnet lähenemist, et otsustada, milliseid suuremaid / väiksemaid kobaraid liitmisel / jagamisel kasutatakse. Eukleidiline kaugus, Manhattani kaugus ja koosinusliku sarnasus on numbriliste andmete sarnasuse kõige sagedamini kasutatavad mõõdikud. Mittenumbriliste andmete jaoks kasutatakse selliseid mõõdikuid nagu Hammingi vahemaa. Oluline on märkida, et tegelikke vaatlusi (juhtumeid) pole hierarhilise rühmituse jaoks vaja, kuna piisab ainult vahemaade maatriksist. Dendogramm on klastrite visuaalne esitus, mis kuvab hierarhia väga selgelt. Kasutaja võib saada erinevaid rühmitusi, sõltuvalt dendogrammi lõikamise tasemest.
Mis on partitsiooniline klasterdamine?
Osadeks jagatud rühmitamise algoritmid genereerivad erinevaid partitsioone ja hindavad neid siis mingi kriteeriumi alusel. Neid nimetatakse ka mittehierarhilisteks, kuna iga esinemisjuht on paigutatud täpselt ühte k üksteist välistavast klastrist. Kuna tüüpilise partitsioonilise klasterdamisalgoritmi väljund on ainult üks klastrite komplekt, on kasutaja kohustatud sisestama soovitud arvu klastrid (tavaliselt nimetatakse k). Üks kõige sagedamini kasutatavaid partitsiooniliste rühmitamise algoritme on k-vahendite rühmitamise algoritm. Kasutaja peab enne alustamist esitama klastrite arvu (k) ja algoritm initsieerib kõigepealt k-partitsioonide keskused (või tsentrid). Lühidalt - k-rühmituse algoritm määrab liikmed praeguste keskuste põhjal ja ümberhindamise keskused praeguste liikmete põhjal. Neid kahte sammu korratakse, kuni on optimeeritud klastrisisese sarnasuse eesmärgi funktsioon ja klastritevahelise erinevuse eesmärgi funktsioon. Seetõttu on keskuste mõistlik initsialiseerimine partitsioonilistest klasterdamisalgoritmidest kvaliteeditulemuste saamiseks väga oluline tegur.
Mis vahe on Hierarhilisel ja Osade rühmitusel??
Hierarhilisel ja osade rühmitamisel on võtme erinevused jooksuajas, eeldustes, sisendparameetrites ja sellest tulenevates klastrites. Tavaliselt on jaotuste rühmitamine kiirem kui hierarhiline rühmitus. Hierarhiline klastrimine nõuab ainult sarnasuse mõõtmist, samas kui osade rühmitamine nõuab tugevamaid eeldusi, näiteks klastrite arv ja algkeskused. Hierarhiline klasterdamine ei nõua sisendparameetrite kasutamist, samas kui partitsioonilised klasterdamisalgoritmid nõuavad käivitamiseks klastrite arvu. Hierarhiline klasterdamine annab klastrite palju sisukama ja subjektiivsema jaotuse, kuid osadeks jaotamise tulemuseks on täpselt k klaster. Hierarhilised rühmitamise algoritmid sobivad kategooriliste andmete jaoks paremini, kui sarnasuse määra saab vastavalt määratleda.