„Bagging“ („Bootstrap Aggregation“) apžvalga, kaip tai veikia, privalumai

Mokymąsi apie mašinų ansamblį daugiausia galima suskirstyti į maišus ir didinimą. Maišymo technika yra naudinga regresijai ir statistinei klasifikacijai. Maišai naudojami su sprendimų medeliais, kur tai žymiai padidina modelių stabilumą mažinant dispersiją ir gerinant tikslumą, o tai pašalina per didelio pritaikymo iššūkį.

Maišavimas

1 paveikslas. Maišo („Bootstrap Aggregation“) srautas. Šaltinis

Kaupiant ansamblio mašinų mokymąsi reikia kelių silpnų modelių, sujungiant prognozes, kad būtų galima pasirinkti geriausią prognozę. Silpni modeliai specializuojasi atskirose funkcijų erdvės dalyse, o tai leidžia kiekvienam modeliui pateikti didžiausią paskirtį, kad būtų pasiektas didžiausias tikslas.

Greitas Summary

  • Maišai ir didinimas yra du pagrindiniai ansamblio mašinų mokymosi metodai.
  • Maišavimas yra ansamblio metodas, kuris gali būti naudojamas regresijai ir klasifikacijai.
  • Jis taip pat žinomas kaip „bootstrap“ sujungimas, kuris sudaro dvi maišelių klasifikacijas.

Kas yra „Bootstrapping“?

Maišai susideda iš dviejų dalių: sujungimo ir įpakavimo. Bootstrapping yra mėginių ėmimo metodas, kai mėginys parenkamas iš rinkinio, naudojant pakaitinį metodą. Tada mokymosi algoritmas paleidžiamas pagal pasirinktus pavyzdžius.

Bootstrapping metodikoje naudojama atranka su pakaitalais, kad atrankos procedūra būtų visiškai atsitiktinė. Kai imtis pasirenkama nepakeičiant, tolesni kintamųjų pasirinkimai visada priklauso nuo ankstesnių atrankų, todėl kriterijai tampa neatsitiktiniai.

Kas yra agregavimas?

Modelio prognozės yra apibendrinamos, kad jas sujungtų galutinėje prognozėje, kad būtų atsižvelgta į visus galimus rezultatus. Apibendrinimas gali būti atliekamas remiantis bendru rezultatų skaičiumi arba prognozių, gautų iš kiekvieno modelio įkrovos, tikimybe procedūroje.

Kas yra ansamblio metodas?

Tiek maišai, tiek pakėlimas sudaro ryškiausias ansamblio technikas. Ansamblio metodas yra mašininio mokymosi platforma, padedanti keliems mokymų modeliams, naudojant tą patį mokymosi algoritmą. Ansamblio metodas yra didesnės daugybės klasifikatorių grupės dalyvis.

Keli klasifikatoriai - tai daug besimokančiųjų grupė, skaičiuojanti tūkstančius, turinti bendrą tikslą, kuris gali sujungti ir išspręsti bendrą problemą. Kita daugiaklasifikatorių kategorija yra hibridiniai metodai. Hibridiniai metodai naudoja besimokančiųjų rinkinį, tačiau, skirtingai nei daugialypiai klasifikatoriai, jie gali naudoti skirtingus mokymosi metodus.

Mokymasis susiduria su daugybe iššūkių, tokių kaip klaidos, kurios dažniausiai kyla dėl šališkumo, triukšmo ir dispersijos. Mašininio mokymosi tikslumą ir stabilumą garantuoja tokie ansambliniai metodai kaip maišų kaupimas ir tobulinimas. Keli klasifikatorių deriniai sumažina dispersiją, ypač tais atvejais, kai klasifikatoriai yra nestabilūs, ir jie yra svarbūs pateikiant patikimesnius rezultatus nei vienas klasifikatorius.

Norint pritaikyti maišus ar padidinti, pirmiausia reikia pasirinkti pagrindinį besimokančiojo algoritmą. Pavyzdžiui, jei pasirenkamas klasifikacijos medis, tada pakėlimas ir maišas bus medžių telkinys, kurio dydis prilygtų vartotojo pasirinkimui.

Maišavimo privalumai ir trūkumai

Atsitiktinis miškas Atsitiktinis miškas Atsitiktinis miškas yra metodika, naudojama modeliuojant prognozes ir elgesio analizę, ir pagrįsta sprendimų medžiais. Atsitiktinis miškas, kuriame yra daug sprendimų medžių, yra vienas iš populiariausių maišų algoritmų. Krepšys suteikia pranašumą, nes leidžia daugeliui silpnų besimokančiųjų sujungti pastangas, kad pralenktų vieną stiprią besimokantį. Tai taip pat padeda sumažinti dispersiją, taigi pašalinti perteklinį perteklių. „Overfitting Overfitting“ yra terminas, vartojamas statistikoje, nurodantis modeliavimo klaidą, kuri atsiranda, kai funkcija per daug atitinka tam tikrą procedūros modelių duomenų rinkinį.

Vienas maišelių trūkumas yra tai, kad prarandamas modelio aiškinamumas. Gautas modelis gali patirti daug šališkumo, kai nepaisoma tinkamos procedūros. Nepaisant to, kad maišas yra labai tikslus, jis gali būti brangus skaičiavimams ir tam tikrais atvejais gali neskatinti jo naudoti.

Maišai prieš padidinimą

Geriausia technika, naudojama tarp maišų pakavimo ir padidinimo, priklauso nuo turimų duomenų, modeliavimo ir visų tuo metu egzistuojančių aplinkybių. Įvertinimo dispersija žymiai sumažėja maišymo ir padidinimo metodais derinimo procedūros metu, taip padidinant tikslumą. Todėl gauti rezultatai rodo didesnį stabilumą nei atskiri rezultatai.

Kai renginys kelia prastų rezultatų iššūkį, maišymo technika nesukels geresnio šališkumo. Tačiau padidinimo technika sukuria vieningą modelį su mažesnėmis klaidomis, nes jis sutelktas į vieno modelio pranašumų optimizavimą ir trūkumų mažinimą.

Kai vieno modelio iššūkis yra per didelis, maišelio metodas veikia geriau nei padidinimo technika. „Boosting“ susiduria su iššūkiu susidoroti su per dideliu montavimu, nes jis pats savaime tinka.

Susiję skaitymai

Finansai siūlo finansinio modeliavimo ir vertinimo analitikui (FMVA) ™ FMVA® atestaciją. Prisijunkite prie 350 600 ir daugiau studentų, dirbančių tokiose įmonėse kaip „Amazon“, J. P. Morganas ir „Ferrari“ sertifikavimo programa tiems, kurie nori pakelti savo karjerą į kitą lygį. Norėdami toliau mokytis ir plėtoti savo žinių bazę, ištirkite toliau nurodytus papildomus atitinkamus finansų išteklius:

  • Klasterių atranka Klasterių atranka Statistikoje klasterių atranka yra atrankos metodas, kai visa tyrimo populiacija yra suskirstyta į išoriškai homogeniškus, bet iš vidaus
  • Pernelyg didelis pasitikėjimas savimi Per didelis pasitikėjimas savimi Pernelyg didelis pasitikėjimas savimi yra klaidingas ir klaidinantis mūsų įgūdžių, intelekto ar talento vertinimas. Trumpai tariant, tai egoistinis įsitikinimas, kad mes geresni nei iš tikrųjų esame. Tai gali būti pavojingas šališkumas ir yra labai produktyvus elgesio finansų ir kapitalo rinkose.
  • Regresijos analizė Regresijos analizė Regresijos analizė yra statistinių metodų rinkinys, naudojamas sąryšiui tarp priklausomo kintamojo ir vieno ar daugiau nepriklausomų kintamųjų įvertinti. Jis gali būti naudojamas vertinant santykio tarp kintamųjų stiprumą ir modeliuojant būsimą jų santykį.
  • Laiko eilučių duomenų analizė Laiko eilučių duomenų analizė Laiko eilučių duomenų analizė yra duomenų rinkinių, kurie keičiasi per tam tikrą laikotarpį, analizė. Laiko eilučių duomenų rinkiniai fiksuoja to paties kintamojo stebėjimus įvairiais laiko momentais. Finansų analitikai naudoja laiko eilutės duomenis, tokius kaip akcijų kainų pokyčiai ar įmonės pardavimai laikui bėgant

Naujausios žinutės

$config[zx-auto] not found$config[zx-overlay] not found