Ansamblio metodai yra metodai, kuriais siekiama pagerinti rezultatų tikslumą modeliuose, derinant kelis modelius, o ne naudojant vieną modelį. Kombinuoti modeliai žymiai padidina rezultatų tikslumą. Tai padidino ansamblių metodų populiarumą mokantis mašinoje.
Greita santrauka
- Ansamblio metodais siekiama pagerinti modelių nuspėjamumą, derinant kelis modelius, kad gautų vieną labai patikimą modelį.
- Populiariausi ansamblio metodai yra padidinimas, maišų kaupimas ir kaupimas.
- Ansamblio metodai idealiai tinka regresijai ir klasifikacijai, kai jie sumažina šališkumą ir dispersiją, kad padidintų modelių tikslumą.
Ansamblio metodų kategorijos
Ansamblio metodai skirstomi į dvi plačias kategorijas, t. Y. Nuoseklios ansamblio technikos ir lygiagrečios ansamblio technikos. Nuoseklios ansamblio technikos generuoti besimokančiuosius seka, pvz., „Adaptive Boosting“ („AdaBoost“). Nuosekliai besimokančiųjų karta skatina priklausomybę tarp besimokančiųjų. Tada gerinamas modelio veikimas, priskiriant didesnį svorį anksčiau neteisingai atstovaujantiems besimokantiesiems.
Į lygiagrečios ansamblio technikos, baziniai besimokantieji generuojami lygiagrečiu formatu, pvz., atsitiktinis miškas Atsitiktinis miškas Atsitiktinis miškas yra metodika, naudojama modeliuojant prognozes ir elgesio analizę, ir pagrįsta sprendimų medžiais. Atsitiktiniame miške yra daug sprendimų medžių. Lygiagrečiais metodais naudojama lygiagreti besimokančiųjų karta, siekiant skatinti savarankišką mokymąsi. Bazinių besimokančiųjų nepriklausomumas žymiai sumažina klaidą dėl vidurkių taikymo.
Daugumoje ansamblio metodų mokantis bazėje taikomas vienas algoritmas, o tai lemia visų bazinių besimokančiųjų homogeniškumą. Vienalyčiai baziniai besimokantieji reiškia to paties tipo besimokančiuosius, turinčius panašių savybių. Kiti metodai taiko heterogeniškus besimokančiuosius ir sukuria heterogeninius ansamblius. Heterogeniški besimokantieji yra skirtingų tipų mokiniai.
Pagrindiniai ansamblių metodų tipai
1. Maišavimas
„Bagging“, trumpa įkrovos juostos agregavimo forma, daugiausia naudojama klasifikavimo ir regresijos regresijos analizėje. Regresijos analizė yra statistinių metodų rinkinys, naudojamas sąryšiui tarp priklausomo kintamojo ir vieno ar daugiau nepriklausomų kintamųjų įvertinti. Jis gali būti naudojamas vertinant santykio tarp kintamųjų stiprumą ir modeliuojant būsimą jų santykį. . Naudojant sprendimų medžius, padidėja modelių tikslumas, o tai labai sumažina dispersiją. Sumažėjus dispersijai, padidėja tikslumas, taigi pašalinamas per didelis įrengimas, o tai yra iššūkis daugeliui nuspėjamų modelių.
Maišai klasifikuojami į du tipus, t. Y. Įpakavimą ir sujungimą. Batų užrišimas yra mėginių ėmimo metodas, kai mėginiai imami iš visos populiacijos (rinkinio), naudojant pakaitinę procedūrą. Atranka naudojant pakaitinį metodą padeda atrankos procedūrą atsitiktinai parinkti. Norint užbaigti procedūrą, pavyzdžiuose vykdomas pagrindinis mokymosi algoritmas.
Apibendrinimas maišai daromi siekiant įtraukti visus įmanomus prognozės rezultatus ir atsitiktinai parinkti rezultatus. Be apibendrinimo prognozės nebus tikslios, nes neatsižvelgiama į visus rezultatus. Todėl apibendrinimas grindžiamas tikimybės paleidimo procedūromis arba visais prognozuojamų modelių rezultatais.
Maišų kaupimas yra naudingas, nes silpnos bazės besimokantieji sujungiami į vieną stiprų besimokantįjį, kuris yra stabilesnis nei vieni. Tai taip pat pašalina bet kokius skirtumus ir taip sumažina modelių perteklių. Vienas maišų apribojimas yra tai, kad jis yra skaičiavimo požiūriu brangus. Taigi, kai ignoruojama tinkama maišelių pakavimo procedūra, tai gali sukelti daugiau šališkumo modeliuose.
2. Stiprinimas
„Boosting“ yra ansamblio technika, mokanti iš ankstesnių prognozavimo klaidų, kad ateityje būtų galima geriau prognozuoti. Ši technika sujungia keletą silpnos bazės besimokančiųjų ir sudaro vieną stiprų besimokantįjį, taip žymiai pagerindama modelių nuspėjamumą. Padidinti darbą organizuojant silpnus besimokančiuosius taip, kad silpni besimokantieji mokytųsi iš kito besimokančiojo, kad sukurtų geresnius nuspėjamus modelius.
„Boosting“ yra įvairių formų, įskaitant gradiento stiprinimą, „Adaptive Boosting“ („AdaBoost“) ir „XGBoost“ („Extreme Gradient Boosting“). „AdaBoost“ naudoja silpnus besimokančiuosius, kurie yra sprendimų medžių pavidalu, kurie dažniausiai apima vieną skilimą, kuris populiariai vadinamas sprendimų kelmais. Pagrindinį „AdaBoost“ kelmą sudaro stebėjimai, kurių svoris yra panašus.
Gradiento padidinimas Gradiento padidinimas Gradiento padidinimas yra technika, naudojama kuriant prognozavimo modelius. Metodas dažniausiai naudojamas regresijos ir klasifikavimo procedūrose. į ansamblį nuosekliai įtraukiami numatikliai, kur ankstesni nuspėjamieji taiso savo įpėdinius, taip padidindami modelio tikslumą. Nauji numatikliai tinka kovoti su ankstesnių prognozių klaidų padariniais. Nusileidimo gradientas padeda gradiento stiprintuvui nustatyti besimokančiųjų prognozių problemas ir atitinkamai jas spręsti.
„XGBoost“ naudoja sprendimų medžius su padidintu nuolydžiu, užtikrindamas didesnį greitį ir našumą. Tai labai priklauso nuo skaičiavimo greičio ir tikslinio modelio našumo. Modelio mokymas turėtų būti vykdomas seka, taigi sulėtėjusių mašinų diegimas būtų lėtas.
3. Krovimas
Krautas, dar vienas ansamblio metodas, dažnai vadinamas sukrautu apibendrinimu. Ši technika veikia leidžiant mokymo algoritmui sujungti keletą kitų panašių mokymosi algoritmų prognozių. Stacking sėkmingai įgyvendinta regresijos, tankio įvertinimo, nuotolinio mokymosi ir klasifikavimo srityse. Jis taip pat gali būti naudojamas pakeliant maišą matuoti klaidų lygį.
Dispersijos mažinimas
Ansamblio metodai idealiai tinka sumažinti modelių dispersiją ir taip padidinti prognozių tikslumą. Dispersija pašalinama, kai sujungiami keli modeliai, kad būtų suformuota viena prognozė, kuri pasirenkama iš visų kitų galimų kombinuotų modelių prognozių. Modelių ansamblis yra įvairių modelių derinimas, siekiant užtikrinti, kad gautas prognozavimas būtų kuo geresnis, atsižvelgiant į visų prognozių įvertinimą.
Papildomi resursai
Finansai yra oficialus pasaulinio sertifikuoto bankų ir kreditų analitiko (CBCA) ™ CBCA ™ sertifikavimo teikėjas. Atestuota bankų ir kreditų analitikų (CBCA) ™ akreditacija yra pasaulinis kredito analitikų standartas, apimantis finansus, apskaitą, kredito analizę, pinigų srautų analizę. , sandorio modeliavimas, paskolos grąžinimas ir kt. sertifikavimo programa, skirta padėti visiems tapti pasaulinio lygio finansų analitikais. Norėdami toliau siekti karjeros, naudingi toliau nurodyti papildomi finansų ištekliai:
- Elastinis tinklas Elastinis tinklas Elastinis tinklas regresijos modeliams sureguliuoti linijiškai naudoja tiek lazso, tiek kraigo metodų baudas. Technika sujungia tiek lasą, tiek
- Overfitting Overfitting Overfitting yra terminas, vartojamas statistikoje, nurodantis modeliavimo klaidą, kuri atsiranda, kai funkcija per daug atitinka tam tikrą duomenų rinkinį
- Mastelio mastelis Mastelio mastelis gali sumažėti tiek finansinėje, tiek verslo strategijoje. Abiem atvejais tai reiškia subjekto sugebėjimą atlaikyti
- Spoofing Spoofing Spoofing yra trikdanti algoritminė prekybos praktika, apimanti siūlymus pirkti ar siūlyti parduoti ateities sandorius ir atšaukti pasiūlymus ar pasiūlymus prieš sandorio vykdymą. Šia praktika ketinama sukurti klaidingą paklausos vaizdą arba klaidingą pesimizmą rinkoje.