Overfitting - apžvalga, aptikimo ir prevencijos metodai

Pernelyg didelis statistikoje vartojamas terminas reiškia modeliavimo klaidą, kuri atsiranda, kai funkcija per daug atitinka tam tikrą duomenų rinkinį. Dėl to per didelis įrengimas gali netenkinti papildomų duomenų, o tai gali turėti įtakos būsimų stebėjimų prognozavimo tikslumui.

Perteklių galima nustatyti tikrinant patvirtinimo metriką, pvz., Tikslumą ir praradimą. Patvirtinimo metrika paprastai didėja iki taško, kuriame ji sustingsta arba pradeda mažėti, kai modelį veikia per didelis įrengimas. Didėjančios tendencijos metu modelis siekia gero atitikimo, kurį pasiekus, tendencija pradeda mažėti arba sustingti.

Greita santrauka

Per didelis įrengimas yra modeliavimo klaida, įvedanti modelio šališkumą, nes jis yra pernelyg glaudžiai susijęs su duomenų rinkiniu.
Pernelyg pritaikius modelį, jis yra svarbus tik jo duomenų rinkiniui ir neturi reikšmės kitiems duomenų rinkiniams.
Kai kurie metodai, naudojami užkirsti kelią per dideliam aprūpinimui, apima surinkimą, duomenų papildymą, duomenų supaprastinimą ir kryžminį patvirtinimą.

Kaip nustatyti perteklių?

Prieš bandant duomenis, aptikti perteklių yra beveik neįmanoma. Tai gali padėti spręsti būdingą pertekliaus pritaikymo ypatybę - nesugebėjimą apibendrinti duomenų rinkinių. Todėl duomenis galima suskirstyti į skirtingus pogrupius, kad būtų lengviau juos mokyti ir išbandyti. Duomenys yra padalinti į dvi pagrindines dalis, t. Y. Į testų rinkinį ir treniruočių rinkinį.

Mokymų rinkinys sudaro didžiąją dalį turimų duomenų (apie 80%), ir jis treniruoja modelį. Testavimo rinkinys sudaro nedidelę duomenų rinkinio dalį (apie 20%), ir jis naudojamas duomenų, su kuriais jis niekada nebendravo, tikslumui patikrinti. Segmentuodami duomenų rinkinį, galime išnagrinėti kiekvieno duomenų rinkinio modelio našumą, kad pastebėtume perteklių, kai jis atsiranda, taip pat pamatyti, kaip veikia mokymo procesas.

Eksploatacines savybes galima išmatuoti, naudojant tikslumo procentą, pastebėtą abiejuose duomenų rinkiniuose, kad būtų galima padaryti išvadą, jog yra per daug. Jei modelis geriau veikia treniruočių rinkinį nei bandymų rinkinį, tai reiškia, kad modelis greičiausiai bus tinkamas.

Kaip išvengti perteklių?

Toliau pateikiami keli būdai, kaip išvengti per didelio įrengimo:

1. Mokymai su daugiau duomenų

Vienas iš būdų užkirsti kelią permokėjimui yra mokymai, turint daugiau duomenų. Tokia parinktis palengvina algoritmų naudojimą. Algoritmai („Algos“). Algoritmai („Algos“) yra instrukcijų rinkinys, pateiktas atlikti užduotį. Algoritmai pristatomi siekiant automatizuoti prekybą, kad būtų gaunamas pelnas tokiu dažnumu, kurio prekybininkas negali nustatyti signalo. geriau sumažinti klaidų skaičių. Kai vartotojas į modelį įtraukia daugiau mokymo duomenų, jis negalės perpildyti visų pavyzdžių ir bus priverstas apibendrinti, kad gautų rezultatų.

Vartotojai turėtų nuolat rinkti daugiau duomenų, kad padidintų modelio tikslumą. Tačiau šis metodas laikomas brangiu, todėl vartotojai turėtų užtikrinti, kad naudojami duomenys būtų tinkami ir švarūs.

2. Duomenų didinimas

Alternatyva mokymui, turint daugiau duomenų, yra duomenų papildymas, kuris yra pigesnis, palyginti su pirmuoju. Jei negalite nuolat rinkti daugiau duomenų, galite padaryti, kad turimi duomenų rinkiniai būtų įvairūs. Duomenų padidinimas leidžia imties duomenims atrodyti šiek tiek kitaip kiekvieną kartą, kai juos apdoroja modelis. Vykdant procesą kiekvienas duomenų rinkinys atrodo unikalus modeliui ir neleidžia modeliui sužinoti duomenų rinkinių ypatybių.

Kitas variantas, kuris veikia taip pat, kaip duomenų didinimas, yra įvesties ir išvesties duomenų pridėjimas prie triukšmo. Pridėjus triukšmą prie įvesties, modelis tampa stabilus, nedarant įtakos duomenų kokybei ir privatumui, o pridėjus triukšmą prie išvesties, duomenys tampa įvairesni. Tačiau triukšmas turėtų būti daromas saikingai, kad triukšmo mastas nebūtų toks didelis, kad duomenys būtų neteisingi arba per daug skirtingi.

3. Duomenų supaprastinimas

Perkrovimas gali atsirasti dėl modelio sudėtingumo, todėl net ir esant dideliems duomenų kiekiams, modelis vis tiek sugeba perpildyti mokymo duomenų rinkinį. Duomenų supaprastinimo metodas yra naudojamas siekiant sumažinti perteklių, sumažinant modelio sudėtingumą, kad jis būtų pakankamai paprastas, kad jis nebūtų per didelis.

Kai kurie veiksmai, kuriuos galima įgyvendinti, yra sprendimų medžio genėjimas, parametrų skaičiaus sumažinimas. Parametras Parametras yra naudingas statistinės analizės komponentas. Tai nurodo charakteristikas, kurios naudojamos apibrėžiant tam tikrą populiaciją. Tai įprasta neuroniniame tinkle, o atsisakymas naudojamas neutraliame tinkle. Supaprastinus modelį, modelis taip pat gali būti lengvesnis ir veikti greičiau.

4. Ansamblis

Ansamblis yra mašininio mokymosi technika, veikianti derinant dviejų ar daugiau atskirų modelių prognozes. Populiariausi ansamblių sudarymo būdai yra stiprinimas ir maišelių pakavimas. Padidinimas veikia naudojant paprastus bazinius modelius, kad padidėtų jų visuma. Joje mokoma daug silpnų besimokančiųjų, išdėstytų seka taip, kad kiekvienas besimokantysis mokytųsi iš prieš tai buvusių besimokančiųjų klaidų.

„Boosting“ sujungia visus silpnus besimokančiuosius, kad išryškėtų vienas stiprus besimokantysis. Kitas ansamblio sudarymo būdas yra maišo maišas, kuris yra priešingas padidinimui. Krepšys veikia mokant daug stiprių besimokančiųjų, išdėstytų lygiagrečiai, ir tada juos derinant optimizuoti prognozes.

Daugiau išteklių

Finansai yra oficialus pasaulinio finansų modeliavimo ir vertinimo analitiko (FMVA) ™ FMVA® sertifikavimo teikėjas. Prisijunkite prie 350 600 ir daugiau studentų, dirbančių tokiose įmonėse kaip „Amazon“, „JP Morgan“ ir „Ferrari“ sertifikavimo programa, skirta padėti visiems tapti pasaulinio lygio finansų analitikais. . Norėdami toliau siekti karjeros, naudingi toliau nurodyti papildomi finansų ištekliai:

Finansų pagrindinės statistikos sąvokos Pagrindinės finansų statistikos sąvokos Tvirtas statistikos supratimas yra nepaprastai svarbus, kad padėtų mums geriau suprasti finansus. Be to, statistikos sąvokos gali padėti investuotojams stebėti
Duomenų gavybos šališkumas Duomenų gavybos šališkumas Duomenų gavybos šališkumas reiškia prielaidą, kad prekybininkas suteikia svarbą įvykiui rinkoje, kuris iš tikrųjų buvo atsitiktinis ar nenumatytas.
Atsitiktinis miškas Atsitiktinis miškas Atsitiktinis miškas yra metodas, naudojamas modeliuojant prognozes ir elgesio analizę, ir pagrįstas sprendimų medžiais. Atsitiktiniame miške yra daug sprendimų medžių
Besąlyginė tikimybė Besąlyginė tikimybė Besąlyginė tikimybė, dar vadinama ribine tikimybe, reiškia tikimybę, kurios neveikia ankstesni ar būsimi įvykiai. Kitaip tariant,