Názor k článku Křížová validace modelů v knihovně scikit-learn od Martin Jurča - Len by som doplnil, že pre ešte lepšiu...

  • 25. 9. 2024 12:51

    Martin Jurča

    Len by som doplnil, že pre ešte lepšiu dôveru v spoľahlivosť klasifikačného modelu je možné využiť StratifiedKFold (https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.StratifiedKFold.html), ktorý zachováva podiely jednotlivých tried vo vytvorených podmnožinách dát.

    Ďalšia možnosť je iterative (stratified) k-fold cross-validation, pri ktorom sa opakuje k-fold krížová validácia n-krát, pričom sa pre každú iteráciu nanovo shufflujú dáta.

    Ešte drobnosť: Pri k-fold krížovej validácii sa pre jednoduchšie modely následne použijú všetky dáta pre natrénovanie výsledného modelu a priemer skóre z validácie sa berie ako očakávaný výkon modelu. Toto ale nie je použiteľné pre hlboké neurónové siete pri hľadaní hyperparametrov, pretože zmena veľkosti trénovacích dát má nemalé dopady na výkon modelu a výsledný model bude mať potom iný než očakávaný výkon, takže takto nájdené hyperparametre nie sú použiteľné pre učenie na všetkých dátach dohromady.