Erinevus kottide ja juhusliku metsa vahel

Aastate jooksul on mitmed klassifitseerimissüsteemid, mida nimetatakse ka ansamblisüsteemideks, olnud populaarne uurimisteema ja neile on arvutusliku intelligentsuse ja masinõppe kogukonnas üha suuremat tähelepanu pööratud. See äratas huvi teadlaste vastu mitmest valdkonnast, sealhulgas masinõpe, statistika, mustrituvastus ja teadmiste avastamine andmebaasides. Aja jooksul on ansamblimeetodid osutunud väga tõhusaks ja mitmekülgseks probleemivaldkondade laiaulatuslikus spektris ja reaalsetes rakendustes. Ansamblimeetodeid, mis olid algselt välja töötatud automatiseeritud otsustussüsteemi erinevuste vähendamiseks, on sellest ajast alates kasutatud mitmesuguste masinõppe probleemide lahendamiseks. Esitame ülevaate kahest silmapaistvamast ansambli algoritmist - Bagging ja Random Forest - ning seejärel arutame nende kahe erinevusi.

Paljudel juhtudel on tõestatud, et pakkimisel, mis kasutab alglaadimisproovide võtmist, on klassifikatsioonipressil suurem täpsus kui ühel klassifitseerimispuul. Kottimine on üks vanimaid ja lihtsamaid ansamblipõhiseid algoritme, mida saab ennustuste täpsuse suurendamiseks rakendada puupõhistel algoritmidel. Seal on veel üks täiustatud pakkimisversioon, mida nimetatakse Random Forest algoritmiks, mis on sisuliselt pakkimismehhanismiga treenitud otsustuspuude kogum. Vaatame, kuidas juhuslik metsaalgoritm töötab ja kuidas see erineb kui ansamblimudelites kottide pakkimine.

Kottimine

Bootstrap-i liitmine, mida nimetatakse ka kottide lisamiseks, on üks varasemaid ja lihtsamaid ansamblipõhiseid algoritme, mis muudavad otsustuspuud kindlamaks ja parema jõudluse saavutamiseks. Kottimise idee on ühendada mitme baasõppija ennustused, et luua täpsem väljund. Leo Breiman tutvustas pakkimisalgoritmi 1994. aastal. Ta näitas, et alglaadimiste koondamine võib anda soovitud tulemusi ebastabiilsetes õppimisalgoritmides, kus väikesed muudatused treeningandmetes võivad põhjustada suuri erinevusi ennustustes. Alglaadimärk on asendatava andmekogumi proov ja iga valim genereeritakse, võttes ühtlaselt m-suuruse treeningkomplekti, kuni saadakse uus m-astmega komplekt.

Juhuslik mets

Juhuslik mets on juhendatud masinõppe algoritm, mis põhineb ansamblite õppimisel ja Breimani originaalse pakkimisalgoritmi evolutsioonil. See on suur edasiminek pakkimisotsustega puude osas, et ehitada mitu otsustuspuud ja neid täpse tulemuse saamiseks koondada. Breiman lisas pakkimisprotseduurile täiendava juhusliku variatsiooni, luues saadud mudelite vahel suurema mitmekesisuse. Juhuslikud metsad erinevad kotti pandud puudest selle poolest, et sunnivad puud kasvuperioodil jagamiseks kasutama ainult osa olemasolevatest ennustajatest. Kõik otsustuspuud, mis moodustavad juhusliku metsa, on erinevad, kuna iga puu on üles ehitatud erinevale juhuslikule andmehulgale. Kuna see vähendab ületäitumist, kipub see olema täpsem kui üksik otsustuspuu.

Erinevus kottide ja juhusliku metsa vahel

Põhitõed

- Nii kottide pakkimine kui ka juhuslikud metsad on ansamblipõhised algoritmid, mille eesmärk on vähendada koolitusandmeid ületanud mudelite keerukust. Bootstrap-i liitmine, mida nimetatakse ka kottide lisamiseks, on üks vanimaid ja võimsaid ansamblimeetodeid, et vältida ületalitlust. See on metatehnika, mis kasutab ennustava täpsuse parandamiseks mitut klassifikaatorit. Kottimine tähendab lihtsalt juhuslike proovide väljavõtmist treeningproovist asendamiseks, et saada erinevatest mudelitest koosnev ansambel. Juhuslik mets on juhendatud masinõppe algoritm, mis põhineb ansamblite õppimisel ja Breimani originaalse pakkimisalgoritmi arengul.

Kontseptsioon

- Saabumisproovide võtmise (kottidesse toomise) mõte on treenida treenimata andmete juhuslikele alamrühmadele hõõrumata otsustuspuid, proovide võtmine koos asendamisega, et vähendada otsustuspuude dispersiooni. Idee on ühendada mitme baasõppija ennustused, et luua täpsem väljund. Juhuslike metsade puhul lisatakse pakkimisprotseduurile täiendav juhuslik variatsioon, et saada tulemuseks olevate mudelite vahel suurem mitmekesisus. Juhuslike metsade mõte on ehitada mitu otsustuspuud ja need täpse tulemuse saamiseks koondada.

Eesmärk

- Nii kottpuud kui ka juhuslikud metsad on kõige tavalisemad ansamblite õppevahendid, mida kasutatakse mitmesuguste masinõppe probleemide lahendamiseks. Bootstrap-diskreetimine on meta-algoritm, mis on loodud ansamblite õppimist kasutavate masinõppemudelite täpsuse ja stabiilsuse parandamiseks ning ületäitumismudelite keerukuse vähendamiseks. Juhuslik metsaalgoritm on ületalitluse vastu väga vastupidav ning tasakaalustamata ja puuduvate andmetega on hea. See on ka ennustatavate mudelite loomise algoritmi eelistatud valik. Eesmärk on dispersiooni vähendada, arvutades mitu sügavat otsustuspuud, mis on koolitatud erinevatele andmete valimitele.

Kottimine ja juhuslik mets: võrdlusdiagramm

Kokkuvõte

Nii kottpuud kui ka juhuslikud metsad on kõige tavalisemad ansamblite õppevahendid, mida kasutatakse mitmesuguste masinõppe probleemide lahendamiseks. Kottimine on üks vanimaid ja lihtsamaid ansamblipõhiseid algoritme, mida saab ennustuste täpsuse suurendamiseks rakendada puupõhistel algoritmidel. Random Forests on seevastu juhendatud masinõppe algoritm ja bootstrap-i proovivõtumudeli täiustatud versioon, mida kasutatakse nii regressiooni kui ka klassifitseerimise probleemide lahendamiseks. Juhusliku metsa idee on ehitada mitu otsustuspuud ja need täpse tulemuse saamiseks koondada. Juhuslik mets kipub olema täpsem kui üksik otsustuspuu, kuna see vähendab ületalitlust.