Redukce atributů v datových sadách před tréninkem modelů ve scikit-learn

19. 9. 2024

Doba čtení: 41 minut

Líbí se vám článek?
Podpořte redakci

Často se setkáme s datovými sadami, které obsahují velké množství atributů. Většinou ovšem dopředu nevíme, které z nich má smysl použít pro trénink modelu a které atributy jsou naopak zbytečné či dokonce nevhodné.

Obsah

1. Redukce atributů v datových sadách před tréninkem modelů

2. Získání základních statistických informací o atributech v datových sadách Iris i California Housings

3. Získané statistické informace

4. Výběr atributů pro trénink modelu s využitím filtru VarianceThreshold

5. Získání jmen atributů původní datové sady a datové sady redukované

6. Výběr (filtrace) atributů pro různé mezní hodnoty (threshold)

7. Výběr K nejvhodnějších atributů pro trénink

8. Výběr čtyř nejvhodnějších atributů datové sady California Housings

9. Výběr atributů pro postupně rostoucí hodnotu K

10. Použití modelu pro výběr atributů

11. Ukázka využití modelu pro výběr atributů

12. Křížová validace modelu naučeného s využitím vyfiltrované skupiny atributů

13. Křížová validace pro model natrénovaný na datovou sadu Iris

14. Výsledky křížové validace pro datovou sadu Iris

15. Křížová validace pro model natrénovaný na datovou sadu California Housings

16. Výsledky křížové validace pro datovou sadu California housings

17. Výsledky křížové validace pro filtraci pomocí VarianceThreshold

18. Obsah navazujícího článku – neuronové sítě

19. Repositář s demonstračními příklady

20. Odkazy na Internetu

1. Redukce atributů v datových sadách před tréninkem modelů

Poměrně často se setkáme s daty (resp. přesněji řečeno s datovými sadami), které obsahují velké množství atributů. Příkladem může být například datová sada s parametry různých typů vín, která pro každé víno obsahuje jednu hodnotu s odpovědí a třináct dalších atributů, které je možné (nikoli nutné) použít pro trénink:

Variable Name                 Role
class                         Target
Alcohol                       Feature
Malicacid                     Feature
Ash                           Feature
Alcalinity_of_ash             Feature
Magnesium                     Feature
Total_phenols                 Feature
Flavanoids                    Feature
Nonflavanoid_phenols          Feature
Proanthocyanins               Feature
Color_intensity               Feature
Hue                           Feature
0D280_0D315_of_diluted_wines  Feature
Proline                       Feature

Většinou ovšem dopředu nevíme, které z těchto atributů má smysl použít pro trénink modelu a které atributy jsou naopak zbytečné či dokonce nevhodné (příliš náhodné atd.). Dnes si tedy ukážeme několik způsobů filtrace vhodných a nevhodných atributů. Opět pochopitelně použijeme knihovnu scikit-learn.

2. Získání základních statistických informací o atributech v datových sadách Iris i California Housings

Nejprve si ukažme, resp. přesněji řečeno připomeňme, jakým způsobem můžeme získat základní statistické informace o atributech v datových sadách. Podobně jako v předchozích částech tohoto seriálu i dnes použijeme datové sady Iris (čtyři atributy se stejnými jednotkami i měřítkem) a California Housings (osm atributů z různými jednotkami a samozřejmě i s rozdílným měřítkem).

Získání a výpočet statistických informací pro datovou sadu Iris:

import numpy as np
 
# import funkce pro nacteni datove sady, kterou pouzijeme
from sklearn.datasets import load_iris
 
# nacteni datove sady
iris = load_iris()
 
# precteni dat z datove sady
data = iris["data"]
 
# nadpis tabulky
print("Feature                     Min          Max          Avg         Std          Var")
 
# zakladni statisticke informace o jednotlivych atributech
for i in range(len(iris["feature_names"])):
    column = data[:, i]
    feature = iris.feature_names[i]
    print(f"{feature:20}   {column.min():10.3f}   {column.max():10.3f}   {np.mean(column):10.3f}  {np.std(column):10.3f}  {np.var(column):11.3f}")

Získání a výpočet statistických informací pro datovou sadu California Housings:

import numpy as np
 
# import funkce pro nacteni datove sady, kterou pouzijeme
from sklearn.datasets import fetch_california_housing
 
# nacteni datove sady
housings = fetch_california_housing()
 
# precteni dat z datove sady
data = housings["data"]
 
# nadpis tabulky
print("Feature              Min         Max           Avg         Std         Var")
 
# zakladni statisticke informace o jednotlivych atributech
for i in range(len(housings["feature_names"])):
    column = data[:, i]
    feature = housings.feature_names[i]
    print(f"{feature:12}   {column.min():10.3f}   {column.max():10.3f}   {np.mean(column):10.3f}  {np.std(column):10.3f}  {np.var(column):11.3f}")

3. Získané statistické informace

Výše uvedené skripty vypočítaly pro každý z atributů nejmenší a největší hodnotu atributu, průměrnou hodnotu, směrodatnou odchylku a rozptyl:

Feature                     Min          Max          Avg         Std          Var
sepal length (cm)           4.300        7.900        5.843       0.825        0.681
sepal width (cm)            2.000        4.400        3.057       0.434        0.189
petal length (cm)           1.000        6.900        3.758       1.759        3.096
petal width (cm)            0.100        2.500        1.199       0.760        0.577

Poznámka: rozptyl i směrodatné odchylky jsou v tomto případě pro všechny atributy relativně malé.

Pro datovou sadu California Housings dostaneme značně odlišné hodnoty. Především stojí za pozornost velká odchylka a rozptyl pro atribut Population:

Feature              Min         Max           Avg         Std         Var
MedInc              0.500       15.000        3.871       1.900        3.609
HouseAge            1.000       52.000       28.639      12.585      158.389
AveRooms            0.846      141.909        5.429       2.474        6.121
AveBedrms           0.333       34.067        1.097       0.474        0.225
Population          3.000    35682.000     1425.477    1132.435  1282408.322
AveOccup            0.692     1243.333        3.071      10.386      107.865
Latitude           32.540       41.950       35.632       2.136        4.562
Longitude        -124.350     -114.310     -119.570       2.003        4.014

Poznámka: připomeňme si, že právě odstraněním atributu Population jsme získali nejlepší předpověď modelu (nejmenší chyba, resp. největší skóre):

Ignored attribute       MSE     r2 score
MedInc                  0.805   0.392
HouseAge                0.535   0.601
AveRooms                0.536   0.596
AveBedrms               0.541   0.598
Population              0.525   0.605
AveOccup                0.539   0.596
Latitude                0.617   0.535
Longitude               0.619   0.538

4. Výběr atributů pro trénink modelu s využitím filtru VarianceThreshold

Jedním z filtrů sloužících pro snížení počtu atributů, se kterými se bude model trénovat, je filtr nazvaný VarianceThreshold. Tento filtr odstraní atribut či atributy s nejmenším (nikoli největším) rozptylem. Filtr přímo vrací novou datovou sadu. Podívejme se na jeho použití, přičemž vstupem bude datová sada California Housings:

# import tridy realizujici vyber atributu
from sklearn.feature_selection import VarianceThreshold
 
# import funkce pro nacteni datove sady, kterou pouzijeme
from sklearn.datasets import fetch_california_housing
 
# nacteni datove sady
housings = fetch_california_housing()
 
# precteni dat z datove sady
# urcenych pro trenink, validaci atd.
data = housings["data"]
 
# tvar puvodni datove sady (pocet zaznamu a atributu) pred vyberem
print("Data shape before selection:")
print(data.shape)
 
# provest filtering dat
sel = VarianceThreshold(threshold=0.6)
selected = sel.fit_transform(data)
 
# tvar upravene datove sady (pocet zaznamu a atributu)
print("Data shape after selection:")
print(selected.shape)

Tento skript po svém spuštění zobrazí tvar původní datové sady (20640 záznamů, každý s osmi atributy) a nově redukované datové sady (stejný počet záznamů, ale jen sedm atributů):

Data shape before selection:
(20640, 8)
Data shape after selection:
(20640, 7)

Poznámka: důvodem pro existenci tohoto filtru je fakt, že atribut s velmi malým rozptylem je vlastně pro trénink modelu zbytečný až nadbytečný. Extrémním případem je atribut s konstantní hodnotou, který způsobuje menší citlivost modelu.

5. Získání jmen atributů původní datové sady a datové sady redukované

V praxi je pochopitelně vhodné zjistit nejenom to, kolik atributů má nově vyfiltrovaná datová sada, ale i to, o jaké atributy se jedná. I tuto informaci lze velmi snadno zjistit pomocí get_feature_names_out:

# import tridy realizujici vyber atributu
from sklearn.feature_selection import VarianceThreshold
 
# import funkce pro nacteni datove sady, kterou pouzijeme
from sklearn.datasets import fetch_california_housing
 
# nacteni datove sady
housings = fetch_california_housing()
 
# precteni dat z datove sady
# urcenych pro trenink, validaci atd.
data = housings["data"]
 
# jmena jednotlivych atributu
feature_names = housings["feature_names"]
 
# tvar puvodni datove sady (pocet zaznamu a atributu) pred vyberem
print("Data shape before selection:")
print(data.shape)
 
# jmena vsech puvodnich atributu
print("Features before selection:")
print(feature_names)
 
print()
 
sel = VarianceThreshold(threshold=0.6)
selected = sel.fit_transform(data)
 
# tvar upravene datove sady (pocet zaznamu a atributu)
print("Data shape after selection:")
print(selected.shape)
 
# jmena vybranych atributu
print("Features after selection:")
print(sel.get_feature_names_out(input_features=housings["feature_names"]))

A takto bude vypadat výsledek běhu tohoto skriptu:

Data shape before selection:
(20640, 8)
Features before selection:
['MedInc', 'HouseAge', 'AveRooms', 'AveBedrms', 'Population', 'AveOccup', 'Latitude', 'Longitude']
 
Data shape after selection:
(20640, 7)
Features after selection:
['MedInc' 'HouseAge' 'AveRooms' 'Population' 'AveOccup' 'Latitude' 'Longitude']

Poznámka: dostali jsme předpokládaný výsledek, který odpovídá tabulce ze třetí kapitoly.

6. Výběr (filtrace) atributů pro různé mezní hodnoty (threshold)

Pokusme se pro zajímavost manipulovat s hodnotou předávanou v parametru threshold. Jedná se o mezní hodnotu pro filtraci atributů na základě jejich rozptylu. Čím větší bude mezní hodnota, tím větší počet atributů bude obecně odstraněn. Vyzkoušejme si nyní proměnnou hodnotu threshold použít společně s datovou sadou Iris:

import numpy as np
 
# import tridy realizujici vyber atributu
from sklearn.feature_selection import VarianceThreshold
 
# import funkce pro nacteni datove sady, kterou pouzijeme
from sklearn.datasets import load_iris
 
# nacteni datove sady
iris = load_iris()
 
# precteni dat z datove sady
# urcenych pro trenink, validaci atd.
data = iris["data"]
 
# jmena jednotlivych atributu
feature_names = iris["feature_names"]
 
# tvar puvodni datove sady (pocet zaznamu a atributu) pred vyberem
print("Data shape before selection:")
print(data.shape)
 
# jmena vsech puvodnich atributu
print("Features before selection:")
print(feature_names)
 
print()
 
for threshold in np.linspace(0.0, 1.0, 11):
    sel = VarianceThreshold(threshold=threshold)
 
    selected = sel.fit_transform(data)
 
    print(threshold, selected.shape, sel.get_feature_names_out(input_features=feature_names))

Po spuštění skriptu se budou vypisovat tvary datové sady po filtraci, pochopitelně společně s názvy atributů, které v nově sadě zůstaly:

Data shape before selection:
(150, 4)
 
Features before selection:
['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
 
0.0 (150, 4) ['sepal length (cm)' 'sepal width (cm)' 'petal length (cm)' 'petal width (cm)']
0.1 (150, 4) ['sepal length (cm)' 'sepal width (cm)' 'petal length (cm)' 'petal width (cm)']
0.2 (150, 3) ['sepal length (cm)' 'petal length (cm)' 'petal width (cm)']
0.3 (150, 3) ['sepal length (cm)' 'petal length (cm)' 'petal width (cm)']
0.4 (150, 3) ['sepal length (cm)' 'petal length (cm)' 'petal width (cm)']
0.5 (150, 3) ['sepal length (cm)' 'petal length (cm)' 'petal width (cm)']
0.6 (150, 2) ['sepal length (cm)' 'petal length (cm)']
0.7 (150, 1) ['petal length (cm)']
0.8 (150, 1) ['petal length (cm)']
0.9 (150, 1) ['petal length (cm)']
1.0 (150, 1) ['petal length (cm)']

7. Výběr K nejvhodnějších atributů pro trénink

Dalším typem filtrů, který je možné použít pro výběr nejvhodnějších atributů, je filtr nazvaný SelectKBest. Jak již název tohoto filtru naznačuje, bude se vracet K nejlepších atributů, přičemž ona konstanta K je volitelná uživatelem. Ukažme si nejdříve použití tohoto filtru nad datovou sadou Iris, z níž se pokusíme vybrat dva nejlepší atributy:

# import tridy realizujici vyber atributu
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif
 
# import funkce pro nacteni datove sady, kterou pouzijeme
from sklearn.datasets import load_iris
 
# nacteni datove sady
iris = load_iris()
 
# precteni dat z datove sady
# urcenych pro trenink, validaci atd.
data = iris["data"]
 
# jmena jednotlivych atributu
feature_names = iris["feature_names"]
 
# tvar puvodni datove sady (pocet zaznamu a atributu) pred vyberem
print("Data shape before selection:")
print(data.shape)
 
# provest filtering dat
sel = SelectKBest(f_classif, k=2)
selected = sel.fit_transform(data, iris["target"])
 
# tvar upravene datove sady (pocet zaznamu a atributu)
print("Data shape after selection:")
print(selected.shape)
print(sel.get_feature_names_out(input_features=iris["feature_names"]))

Nejdříve se opět zobrazí tvar (shape) původní datové sady a posléze tvar sady vyfiltrované. A nakonec se vypíše dvojice atributů, která je podle tohoto filtru nejlepší:

Data shape before selection:
(150, 4)
Data shape after selection:
(150, 2)
['petal length (cm)' 'petal width (cm)']

Poznámka: povšimněte si, že výsledek vlastně neodpovídá předchozímu filtru, který pro vhodný threshold doporučil tyto dva atributy:

0.6 (150, 2) ['sepal length (cm)' 'petal length (cm)']

8. Výběr čtyř nejvhodnějších atributů datové sady California Housings

Stejný filtr, pouze s odlišnou hodnotou K, nyní použijeme pro výběr atributů z datové sady California Housings. Skript, který tento výběr provede, vypadá následovně:

# import tridy realizujici vyber atributu
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif
 
# import funkce pro nacteni datove sady, kterou pouzijeme
from sklearn.datasets import fetch_california_housing
 
# nacteni datove sady
housings = fetch_california_housing()
 
# precteni dat z datove sady
# urcenych pro trenink, validaci atd.
data = housings["data"]
 
# jmena jednotlivych atributu
feature_names = housings["feature_names"]
 
# tvar puvodni datove sady (pocet zaznamu a atributu) pred vyberem
print("Data shape before selection:")
print(data.shape)
 
# provest filtering dat
sel = SelectKBest(f_classif, k=4)
selected = sel.fit_transform(data, housings["target"])
 
# tvar upravene datove sady (pocet zaznamu a atributu)
print("Data shape after selection:")
print(selected.shape)
print(sel.get_feature_names_out(input_features=housings["feature_names"]))

Výsledkem bude doporučení čtyř atributů vypsaných na posledním řádku:

Data shape before selection:
(20640, 8)
Data shape after selection:
(20640, 4)
['MedInc' 'HouseAge' 'Population' 'Latitude']

9. Výběr atributů pro postupně rostoucí hodnotu K

Samozřejmě si můžeme otestovat, jaké konkrétní atributy budou vybrány v případě, že K předávané do konstruktoru třídy SelectKBest postupně poroste od nuly do maximálního počtu atributů (tedy v našem případě pro osm atributů). Samotný test chování SelectKBest pro proměnné K lze naprogramovat velmi snadno:

# import tridy realizujici vyber atributu
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif
 
# import funkce pro nacteni datove sady, kterou pouzijeme
from sklearn.datasets import fetch_california_housing
 
# nacteni datove sady
housings = fetch_california_housing()
 
# precteni dat z datove sady
# urcenych pro trenink, validaci atd.
data = housings["data"]
 
# jmena jednotlivych atributu
feature_names = housings["feature_names"]
 
# tvar puvodni datove sady (pocet zaznamu a atributu) pred vyberem
print("Data shape before selection:")
print(data.shape)
 
for k_best in range(0, len(feature_names)+1):
    # provest filtering dat
    sel = SelectKBest(f_classif, k=k_best)
    selected = sel.fit_transform(data, housings["target"])
 
    print(k_best, selected.shape, sel.get_feature_names_out(input_features=feature_names))

Podívejme se nyní na výsledky, od „nejlepší malé skupiny“ atributů až po všechny dostupné atributy:

0 (20640, 0) []
1 (20640, 1) ['MedInc']
2 (20640, 2) ['MedInc' 'Latitude']
3 (20640, 3) ['MedInc' 'Population' 'Latitude']
4 (20640, 4) ['MedInc' 'HouseAge' 'Population' 'Latitude']
5 (20640, 5) ['MedInc' 'HouseAge' 'Population' 'Latitude' 'Longitude']
6 (20640, 6) ['MedInc' 'HouseAge' 'AveRooms' 'Population' 'Latitude' 'Longitude']
7 (20640, 7) ['MedInc' 'HouseAge' 'AveRooms' 'AveBedrms' 'Population' 'Latitude' 'Longitude']
8 (20640, 8) ['MedInc' 'HouseAge' 'AveRooms' 'AveBedrms' 'Population' 'AveOccup' 'Latitude' 'Longitude']

Poznámka: opět stojí za povšimnutí, že atribut AveBedrms, který byl podle filtru VarianceThreshold nejhorší (adept na odstranění), zde nejhorší není (konkrétně je druhý nejhorší). Nyní je nejhorším atributem AveOccup a nejlepším atributeb MedInc. To může být na dobře fungujícím trhu s byty logické – hodnota domů koreluje s mediánem příjmů.

10. Použití modelu pro výběr atributů

Výběr atributů vhodných (či dokonce nejlepších) pro trénink určitého modelu nemusí být proveden pouze na základě prostých statistických informací, ale můžeme k této operaci použít k tomu určené modely a především pak třídu SelectFromModel, která zajistí výběr modelu:

class SelectFromModel(sklearn.base.MetaEstimatorMixin, sklearn.feature_selection._base.SelectorMixin, sklearn.base.BaseEstimator)
 |  SelectFromModel(estimator, *, threshold=None, prefit=False, norm_order=1, max_features=None, importance_getter='auto')
 |
 |  Meta-transformer for selecting features based on importance weights.
 |
 |  .. versionadded:: 0.17
 |
 |  Read more in the :ref:`User Guide <select_from_model>`.
 |
 |  Parameters
 |  ----------
 |  estimator : object
 |      The base estimator from which the transformer is built.
 |      This can be both a fitted (if ``prefit`` is set to True)
 |      or a non-fitted estimator. The estimator should have a
 |      ``feature_importances_`` or ``coef_`` attribute after fitting.
 |      Otherwise, the ``importance_getter`` parameter should be used.
 |

Povšimněte si, že v prvním parametru konstruktoru této třídy se předává takzvaný estimator neboli „odhadovač výsledků“. Výsledkem je instance modelu:

# "odhadovac" vysledku
lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X, y)
 
# vyber modelu
model = SelectFromModel(lsvc, prefit=True)

Vybraný model můžeme následně použít pro výběr atributů a popř. i natrénování:

# transformace dat
X_new = model.transform(X)
 
# natrenovani modelu
model.fit(X, y)

Poznámka: proč jsme použili konkrétně LinearSVC si vysvětlíme příště.

11. Ukázka využití modelu pro výběr atributů

Opět si na praktickém příkladu vyzkoušejme, jakým způsobem je možné použít model pro výběr atributů. Konkrétně využijeme třídy LinearSVC a SelectFromModel. Instance třídy LinearSVC bude využita pro odhad výsledků, návratová hodnota bude použita modelem pro výběr atributů. Model následně ztransformuje původní datovou sadu na sadu novou:

from sklearn.svm import LinearSVC
 
# import funkce pro nacteni datove sady, kterou pouzijeme
from sklearn.datasets import load_iris
from sklearn.feature_selection import SelectFromModel
 
# nacteni datove sady
iris = load_iris()
 
# ziskani atributu a ocekavanych vysledku
X = iris["data"]
y = iris["target"]
 
# jmena jednotlivych atributu
feature_names = iris["feature_names"]
 
# "odhadovac" vysledku
lsvc = LinearSVC(C=0.01, penalty="l1", dual=False).fit(X, y)
 
# vyber modelu
model = SelectFromModel(lsvc, prefit=True)
 
# tisk modelu
print(model)
 
# transformace dat
X_new = model.transform(X)
 
# natrenovani modelu
model.fit(X, y)
 
# vysledek + ziskani jmen atributu, ktere se pouzily
print(X_new.shape)
print(model.get_feature_names_out(input_features=feature_names))

Zkontrolujeme výsledky vyprodukované tímto skriptem. Nyní byly pro trénink modelu vybrány tři atributy, které jsou vypsány na posledním řádku:

SelectFromModel(estimator=LinearSVC(C=0.01, dual=False, penalty='l1'),
                prefit=True)
(150, 3)
['sepal length (cm)' 'sepal width (cm)' 'petal length (cm)']

Poznámka: za povšimnutí stojí odlišné výsledky oproti filtru VarianceThreshold.

12. Křížová validace modelu naučeného s využitím vyfiltrované skupiny atributů

Ve chvíli, kdy se vybírá model, upravují se hyperparametry modelu, popř. když se filtrují vstupní atributy, je prakticky vždy dobré provést křížovou validaci. Již minule jsme si ukázali způsoby provedení křížové validace při výběru modelů a při nastavování jejich hyperparametrů. Zbývá nám jediné – ukázat si kombinaci filtraci atributů s křížovou validací. Nejedná se o nijak komplikované programy, protože již všechny potřebné třídy a funkce známe. Jen pro úplnost si v navazujících kapitolách ukážeme konkrétní postupy, a to opět na našich dvou testovacích datových sadách: Iris a California Housings.

13. Křížová validace pro model natrénovaný na datovou sadu Iris

Nejprve si ukažme provedení křížové validace pro datovou sadu Iris, z níž postupně vybíráme 1 až 4 nejlepší atributy. Bude nás zajímat, pro jakou kombinaci atributů bude natrénovaný model odhadovat nejlepší výsledky:

# import tridy realizujici vyber atributu
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif
 
from sklearn.neighbors import KNeighborsClassifier
 
# import funkce pro nacteni datove sady, kterou pouzijeme
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score
 
 
# nacteni datove sady
iris = load_iris()
 
# jmena jednotlivych atributu
feature_names = iris["feature_names"]
 
# X je matice (feature matrix)
X = iris.data
 
# y je vektor (response vector)
y = iris.target
 
for k_best in range(1, len(feature_names)+1):
    # provest filtering dat
    sel = SelectKBest(f_classif, k=k_best)
    X_new = sel.fit_transform(X, y)
 
    print(k_best, X_new.shape, sel.get_feature_names_out(input_features=feature_names))
    # konstrukce klasifikatoru
    knn = KNeighborsClassifier(n_neighbors=5)
    scores = cross_val_score(knn, X_new, y, cv=10, scoring='accuracy')
    print("Average score:", scores.mean())

14. Výsledky křížové validace pro datovou sadu Iris

Výsledky získané skriptem uvedeným v předchozí kapitole by měly vypadat následovně:

1 (150, 1) ['petal length (cm)']
Average score: 0.9533333333333334
 
2 (150, 2) ['petal length (cm)' 'petal width (cm)']
Average score: 0.9666666666666666
 
3 (150, 3) ['sepal length (cm)' 'petal length (cm)' 'petal width (cm)']
Average score: 0.96
4 (150, 4) ['sepal length (cm)' 'sepal width (cm)' 'petal length (cm)' 'petal width (cm)']
 
Average score: 0.9666666666666668

Poznámka: to jsou ve skutečnosti velmi zajímavé výsledky, protože vlastně říkají, že jediným skutečně rozhodujícím atributem je „petal length“, přičemž další atributy model pouze nepatrně „doladí“. To ostatně odpovídá výsledkům, které jsme získali v rámci šesté kapitoly a vlastně i kapitoly sedmé

15. Křížová validace pro model natrénovaný na datovou sadu California Housings

Prakticky totožným způsobem lze zkombinovat výběr atributů s využitím SelectKBest a s ověřením natrénovaného modelu LinearRegression křížovou validací. Jak je již z názvu modelu patrné, použijeme nyní datovou sadu California Housings a necháme model odhadovat cenu nemovitosti:

# import tridy realizujici vyber atributu
from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import f_classif
 
from sklearn import linear_model
 
# import funkce pro nacteni datove sady, kterou pouzijeme
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import cross_val_score
 
# nacteni datove sady
housings = fetch_california_housing()
 
# jmena jednotlivych atributu
feature_names = housings["feature_names"]
 
# X je matice (feature matrix)
X = housings.data
 
# y je vektor (response vector)
y = housings.target
 
for k_best in range(1, len(feature_names)+1):
    # provest filtering dat
    sel = SelectKBest(f_classif, k=k_best)
    X_new = sel.fit_transform(X, y)
 
    # konstrukce modelu pro regresi
    lr = linear_model.LinearRegression()
    scores = cross_val_score(lr, X_new, y, cv=10, scoring='r2')
 
    print(k_best, X_new.shape, sel.get_feature_names_out(input_features=feature_names), scores.mean())

16. Výsledky křížové validace pro datovou sadu California housings

Pro datovou sadu California Housings a pro proměnný počet atributů použitých pro trénink modelu vypadají výsledky křížové validace následovně:

1 (20640, 1) ['MedInc'] 0.3483800124754965
2 (20640, 2) ['MedInc' 'Latitude'] 0.34861270211722617
3 (20640, 3) ['MedInc' 'Population' 'Latitude'] 0.34993815052254296
4 (20640, 4) ['MedInc' 'HouseAge' 'Population' 'Latitude'] 0.3903572524665514
5 (20640, 5) ['MedInc' 'HouseAge' 'Population' 'Latitude' 'Longitude'] 0.5021339726461409
6 (20640, 6) ['MedInc' 'HouseAge' 'AveRooms' 'Population' 'Latitude' 'Longitude'] 0.5034342766060689
7 (20640, 7) ['MedInc' 'HouseAge' 'AveRooms' 'AveBedrms' 'Population' 'Latitude' 'Longitude'] 0.5100561354984194
8 (20640, 8) ['MedInc' 'HouseAge' 'AveRooms' 'AveBedrms' 'Population' 'AveOccup' 'Latitude' 'Longitude'] 0.5110068610523775

Poznámka: můžeme zde vidět poměrně velký skok v úspěšnosti modelu při přidání atributu Longitude. Před přidáním tohoto atributu dosahovalo skóre přibližné hodnoty 0,4, poté již překročilo hodnotu 0,5. A přidávání dalších atributů již kvalitě modelu příliš nepomohlo. A pochopitelně by bylo možné dosáhnout lepších výsledků přechodem na jiný model, než je jednoduchý LinearRegression

17. Výsledky křížové validace pro filtraci pomocí VarianceThreshold

Na závěr si ještě ukážeme výsledky křížové validace ve chvíli, kdy byla filtrace provedena s využitím filtru VarianceThreshold; zde konkrétně pro datovou sadu California Housings. Skript, který provede příslušný výpočet, vypadá následovně:

# import tridy realizujici vyber atributu
from sklearn.feature_selection import VarianceThreshold
 
from sklearn import linear_model
 
# import funkce pro nacteni datove sady, kterou pouzijeme
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import cross_val_score
 
# nacteni datove sady
housings = fetch_california_housing()
 
# jmena jednotlivych atributu
feature_names = housings["feature_names"]
 
# X je matice (feature matrix)
X = housings.data
 
# y je vektor (response vector)
y = housings.target
 
sel = VarianceThreshold(threshold=0.6)
X_new = sel.fit_transform(X, y)
 
# konstrukce modelu pro regresi
lr = linear_model.LinearRegression()
scores = cross_val_score(lr, X_new, y, cv=10, scoring='r2')
 
print(X_new.shape, sel.get_feature_names_out(input_features=feature_names), scores.mean())

A takto konkrétně bude vypadat výsledek křížové validace ve chvíli, kdy byl z původní datové sady odstraněn jeden z atributů, takže se namísto osmi atributů použilo pouze atributů sedm:

20640, 7) ['MedInc' 'HouseAge' 'AveRooms' 'Population' 'AveOccup' 'Latitude' 'Longitude'] 0.503734153650471

Poznámka: nyní již snadno můžeme měnit (třeba ve smyčce) hodnotu threshold a sledovat rozdílné skóre. Stále však mějte na paměti, že model LinearRegression není pro tuto datovou sadu nejlepší.

18. Obsah navazujícího článku – neuronové sítě

V navazujícím článku se budeme zabývat pravděpodobně nejpopulárnější skupinou modelů. Bude se jednat o modely založené na neuronových sítích. Knihovna scikit-learn v této oblasti nabízí jak varianty neuronových sítí provádějících klasifikaci, tak i neuronové sítě, které dokážou provádět regresi. A pochopitelně je možné (i když jen do určité míry) ovlivnit interní strukturu neuronové sítě, tj. zejména počet takzvaných skrytých vrstev i počet neuronů v jednotlivých skrytých vrstvách, použitou aktivační funkci atd. A vzhledem k tomu, že se z pohledu scikit-learn stále jedná o „standardní“ modely, budeme mít k dispozici všechny již popsané nástroje pro trénink, validaci, testování, křížovou validaci atd.

19. Repositář s demonstračními příklady

Všechny demonstrační příklady využívající knihovnu Scikit-learn lze nalézt v repositáři https://github.com/tisnik/most-popular-python-libs. Následují odkazy na jednotlivé příklady i na (Jupyter) diáře s postupem výpočtů a analýz:

#	Příklad	Stručný popis	Adresa příkladu
1	01_show_matrix.py	kooperace mezi knihovnami Matplotlib a NumPy: vizualizace obsahu 2D matice	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/01_show_matrix.py
2	02_get_digits.py	datová množina obsahující naskenované ručně napsané číslice	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/02_get_digits.py
3	03_get_features.py	další atributy datové množiny, které použijeme při trénování	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/03_get_features.py
4	04_get_images.py	přečtení a následné vykreslení jednotlivých ručně nakreslených číslic	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/04_get_images.py
5	05_show_grayscale_matrix.py	odstranění umělé aplikované barvové palety (obrázky ve stupních šedi)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/05_show_grayscale_matrix.py
6	06_grayscale_images.py	vykreslení ručně nakreslených číslic ve formě obrázků ve stupních šedi	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/06_grayscale_images.py
7	07_multiplot.py	rozdělení plochy grafu do oblastí; vykreslení více obrázků do jediného grafu	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/07_multiplot.py
8	08_model_preperation₁.py	obrázky s jejich ohodnocením	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/08_model_preperation₁.py
9	09_training_set.py	příprava dat pro trénink	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/09_training_set.py
10	10_classification.py	klasifikace obrázků	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/10_classification.py
11	11_results.py	vykreslení obrázků společně s jejich klasifikací	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/11_results.py
12	12_change_training_set.py	změna poměru rozdělení dat na tréninkovou a testovací množinu	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/12_change_training_set.py

13	13_blobs.py	použití funkce make_blobs pro vygenerování sady bodů v rovině sdružených do oblastí	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/13_blobs.py
14	14_swap_coords.py	úprava předchozího příkladu: prohození souřadnic na osách	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/14_swap_coords.py
15	15_blobs_scatter_plot.py	základní podoba bodového diagramu (scatter plot)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/15_blobs_scatter_plot.py
16	16_blobs_scatter_plot.py	úprava bodového diagramu při zobrazení většího množství bodů	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/16_blobs_scatter_plot.py
17	17_colorized_blobs.py	obarvení bodů podle oblastí	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/17_colorized_blobs.py
18	18_k-means.py	základní použití algoritmu K-means pro clustering	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/18_k-means.py
19	19_combination.py	zobrazení centroidů společně s původními body	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/19_combination.py
20	20_combinations.py	vizualizace clusteringu původní množiny bodů	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/20_combinations.py
21	21_other_settings.py	vizualizace clusteringu původní množiny bodů pro odlišnou množinu	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/21_other_settings.py
22	22_random_points.py	clustering pro náhodná data	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/22_random_points.py

23	23_circles.py	pseudonáhodné rozmístění bodů do kružnic, menší náhodnost výsledku	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/23_circles.py
24	24_more_noise_circles.py	pseudonáhodné rozmístění bodů do kružnic, větší náhodnost výsledku	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/24_more_noise_circles.py
25	25_moons.py	pseudonáhodné rozmístění bodů do tvaru dvou půlměsíců, menší náhodnost	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/25_moons.py
26	26_more_noisy_moons.py	pseudonáhodné rozmístění bodů do tvaru dvou půlměsíců, větší náhodnost	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/26_more_noisy_moons.py
27	27_circles_kmeans.py	výsledek clusteringu provedeného algoritmem K-means na „kružnice“	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/27_circles_kmeans.py
28	28_moons_kmeans.py	výsledek clusteringu provedeného algoritmem K-means na „půlměsíce“	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/28_moons_kmeans.py
29	29_blobs_spectral_clustering.py	spectral clustering pro body rozmístěné pomocí make_blobs	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/29_blobs_spectral_clustering.py
30	30_circles_spectral_clustering.py	spectral clustering pro body rozmístěné do kružnic	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/30_circles_spectral_clustering.py
31	31_moons_spectral_clustering.py	spectral clustering pro body rozmístěné do půlměsíců	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/31_moons_spectral_clustering.py
32	32_moons_spectral_clustering_limits.py	vyhledání limitů algoritmu spectral clustering	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/32_moons_spectral_clustering_limits.py

33	33_particles_load.py	načtení souřadnic částic uložených v souboru formátu CSV	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/33_particles_load.py

34	34_lorenz_attractor.py	zobrazení Lorenzova atraktoru formou bodů propojených úsečkami	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/34_lorenz_attractor.py
35	35_lorenz_attractor_points.py	Lorenzův atraktor vykreslený formou jednotlivých bodů s definovaným stylem zobrazení a velikostí stopy	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/35_lorenz_attractor_points.py
36	36_blobs_3d.py	vygenerování a zobrazení sady bodů v 3D prostoru	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/36_blobs_3d.py
37	37_spread_blobs_3d.py	vygenerování a zobrazení sady bodů v 3D prostoru, odlišné parametry při generování	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/37_spread_blobs_3d.py
38	38_views.py	různé pohledy na 3D graf	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/38_views.py
39	39_colorized_3d_blobs.py	obarvení bodů v prostoru na základě vstupních dat	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/39_colorized_3d_blobs.py
40	40_kmeans_3d_blobs.py	shluková analýza v 3D prostoru	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/40_kmeans_3d_blobs.py
41	41_kmeans_spread_3d_blobs.py	shluková analýza v 3D prostoru pro odlišnou množinu bodů	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/41_kmeans_spread_3d_blobs.py
42	42_kmeans_random_3d.py	shluková analýza pro body rozmístěné zcela náhodně v omezeném prostoru	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/42_kmeans_random_3d.py

43	43_speed_measurements.py	benchmark pro postupně rostoucí počet bodů tvořících shluky	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/43_speed_measurements.py
44	44_speed_measurements.py	benchmark pro postupně rostoucí počet bodů rozmístěných náhodně	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/44_speed_measurements.py
45	45_speed_measurements.py	benchmark pro stále stejný počet bodů, u jejichž rozmístění v prostoru se používá stále větší směrodatná odchylka	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/45_speed_measurements.py

46	46_iris_dataset.py	načtení datové kolekce	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/46_iris_dataset.py
47	47_iris_description.py	metadata o datové kolekci	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/47_iris_description.py
48	48_iris_data.py	tvar dat – počet záznamů a počet proměnných	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/48_iris_data.py
49	49_iris_targets.py	jména atributů, vztah mezi numerickou hodnotou atributu a jeho jménem	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/49_iris_targets.py

50	50_iris_scatter_plot₁.py	korelační diagram pro dvojici vybraných proměnných	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/50_iris_scatter_plot₁.py
51	51_iris_scatter_plot₂.py	příprava pro tvorbu složitějších grafů	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/51_iris_scatter_plot₂.py
52	52_iris_mutliplot.py	mřížka obsahující více korelačních diagramů	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/52_iris_mutliplot.py

53	53_iris_histograms.py	zobrazení základního histogramu pro data v sadě Iris	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/53_iris_histograms.py
54	54_iris_histograms.py	úprava histogramu	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/54_iris_histograms.py

55	55_pca.py	analýza hlavních komponent (PCA), výsledek zobrazený v 2D grafu	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/55_pca.py
56	56_pca_3d.py	analýza hlavních komponent (PCA), výsledek zobrazený v 3D grafu	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/56_pca_3d.py
57	57_kmeans.py	základní shluková analýza	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/57_kmeans.py
58	58_multiple_kmeans.py	větší množství výsledků shlukové analýzy pro různé atributy	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/58_multiple_kmeans.py
59	59_kmeans_errors.py	korektní a nekorektní výsledky základní shlukové analýzy	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/59_kmeans_errors.py

60	60_basic_classifier.py	aplikace jednoduchého modelu	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/60_basic_classifier.py
61	61_changed_model_parameters.py	změna parametrů modelu pro zjištění druhů rostil	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/61_changed_model_parameters.py
62	62_different_model.py	použití odlišného modelu pro zjištění druhů rostlin	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/62_different_model.py

63	63_verify_on_whole_data₁.py	otestování naučeného modelu s využitím tréninkových dat	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/63_verify_on_whole_data₁.py
64	64_verify_on_whole_data₂.py	využití funkce metrics.accuracy_score pro zjištění kvality modelu	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/64_verify_on_whole_data₂.py
65	65_basic_comparison.py	porovnání vlastností různých modelů (prozatím nekorektní řešení)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/65_basic_comparison.py
66	66_training_testing_split₁.py	rozdělení datové sady na trénovací data a testovací data (základní varianta)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/66_training_testing_split₁.py
67	67_training_testing_split₂.py	rozdělení datové sady na trénovací data a testovací data (náhodné rozdělení sady)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/67_training_testing_split₂.py
68	68_training_testing_split₃.py	rozdělení datové sady na trénovací data a testovací data (využití vestavěné funkce)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/68_training_testing_split₃.py
69	69_better_comparison.py	vylepšené porovnání vlastností různých modelů	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/69_better_comparison.py
70	70_multiple_runs.py	vliv generátoru náhodných čísel na změřené výsledky	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/70_multiple_runs.py
71	71_stable_multiple_runs.py	generátor náhodných čísel a použití hodnoty random_state	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/71_stable_multiple_runs.py

72	72_housings_dataset.py	načtení datové sady California housings	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/72_housings_dataset.py
73	73_housings_dataset_description.py	metainformace o datové sadě California housings	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/73_housings_dataset_description.py
74	74_housings_data.py	n-rozměrné pole s atributy jednotlivých domů/bloků	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/74_housings_data.py
75	75_housings_targets.py	jména atributů, ceny domů atd.	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/75_housings_targets.py
76	76_housings_scatter_plot.py	korelační diagram pro dvojici vybraných proměnných	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/76_housings_scatter_plot.py
77	77_housings_mutliplot.py	korelační diagram pro všechny kombinace dvojic proměnných	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/77_housings_mutliplot.py
78	78_scatter.py	dvourozměrné hodnoty reprezentované jako dvojice atributů	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/78_scatter.py
79	79_linear_regression_gen_data.py	model LinearRegression nad uměle vytvořenými daty	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/79_linear_regression_gen_data.py
80	80_linear_regression_predictions.py	predikce modelu provádějícího lineární regresi	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/80_linear_regression_predictions.py
81	81_linear_regression_random_data.py	chování modelu pro zcela náhodná data	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/81_linear_regression_random_data.py
82	82_linear_regression_housings.py	model LinearRegression pro datovou sadu California housings	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/82_linear_regression_housings.py
83	83_polynomial_regression_gen_data.py	polynomiální regrese (základní příklad)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/83_polynomial_regression_gen_data.py
84	84_polynomial_regression_housings.py	polynomiální regrese a datová sada California housings, první příklad	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/84_polynomial_regression_housings.py
85	85_polynomial_regression_housings₂.py	polynomiální regrese a datová sada California housings, druhý příklad	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/85_polynomial_regression_housings₂.py
86	86_polynomial_regression_housings₃.py	polynomiální regrese a datová sada California housings, třetí příklad	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/86_polynomial_regression_housings₃.py
87	87_linear_regression_errors.py	výpočet chyby a skóre modelu lineární regrese	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/87_linear_regression_errors.py
88	88_linear_regression_non_linear_data.py	lineární regrese nad nelineárními daty	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/88_linear_regression_non_linear_data.py
89	89_polynomial_regression_error.py		https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/89_polynomial_regression_error.py

90	90_housings_prediction₁.py	regresní analýza nad daty California housings	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/90_housings_prediction₁.py
91	91_housings_prediction₂.py	korektní natrénování modelu pro regresi	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/91_housings_prediction₂.py
92	92_housings_prediction₃.py	omezení množství atributů (proměnných), na kterých je model natrénován	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/92_housings_prediction₃.py
93	93_housings_prediction_errors₁.py	chybně natrénovaný model při náhodné volbě dat	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/93_housings_prediction_errors₁.py
94	94_housings_prediction_errors₂.py	omezení atributů + chybně natrénovaný model	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/94_housings_prediction_errors₂.py
95	95_housings_histograms.py	histogramy pro jednotlivé atributy (proměnné)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/95_housings_histograms.py
96	96_housings_statistic.py	statistické údaje pro jednotlivé atributy (proměnné)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/96_housings_statistic.py
97	97_housings_statistic_normalized.py	statistické údaje získané po normalizaci	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/97_housings_statistic_normalized.py

98	98_k_fold_help.py	zobrazení nápovědy ke třídě s realizací k-foldingu	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/98_k_fold_help.py
99	99_k_fold_old.py	původní (nepodporovaná) varianta provedení k-foldingu	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/99_k_fold_old.py
100	100_k_fold₁.py	interní chování algoritmu k-foldingu (základní parametry)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/100_k_fold₁.py
101	101_k_fold₂.py	interní chování algoritmu k-foldingu (odlišné parametry)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/101_k_fold₂.py
102	102_k_fold_selection.py	k-folding a výběr dat pro otestování modelů	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/102_k_fold_selection.py
103	103_average_score.py	realizace výpočtu průměrného skóre pro otestování modelů	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/103_average_score.py
104	104_hyperparams_score.py	změna hyperparametrů s výpočtem průměrného skóre (tabulka)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/104_hyperparams_score.py
105	105_hyperparams_score_plot.py	změna hyperparametrů s výpočtem průměrného skóre (graf)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/105_hyperparams_score_plot.py
106	106_model_selection.py	výběr nejlepšího modelu s využitím k-foldingu	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/106_model_selection.py
107	107_features_selection_basic.py	výběr atributů (proměnných) pro trénink modelu (základní varianta)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/107_features_selection_basic.py
108	108_features_selection_iris.py	výběr atributů (proměnných) pro trénink modelu (datová sada Iris)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/108_features_selection_iris.py
109	109_features_selection_houses.py	výběr atributů (proměnných) pro trénink modelu (datová sada California Housings)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/109_features_selection_houses.py
110	110_best_features_selection_houses.py	získání nejlepší sady atributů (proměnných)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/110_best_features_selection_houses.py
111	111_features_selection_graphical.py	výběr atributů (proměnných) pro trénink modelu (datová sada Iris), grafický výstup	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/111_features_selection_graphical.py

112	112_simplest_linear_regression.py	lineární regrese bodů ležících v rovině	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/112_simplest_linear_regression.py
113	113_linear_regression_no_intercept.py	lineární regrese při vynucení w₀=0 pro obecná data	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/113_linear_regression_no_intercept.py
114	114_linear_regression_from₀_0.py	lineární regrese při vynucení w₀=0 v případě, že vstupní body obsahují počátek souřadného systému	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/114_linear_regression_from₀_0.py
115	115_linear_regression_multiple_y.py	model předpovídající pro každou vstupní hodnotu dvě výstupní hodnoty (odpovědi)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/115_linear_regression_multiple_y.py
116	116_grid_operations.py	konstrukce matice obsahující souřadnice bodů v mřížce	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/116_grid_operations.py
117	117_linear_regression_multiple_x.py	proložení bodů v prostoru rovinou	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/117_linear_regression_multiple_x.py
118	118_linear_regression_multiple_x.py	proložení bodů s náhodnou výškou rovinou	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/118_linear_regression_multiple_x.py
119	119_linear_regression_multiple_x_and_y.py	proložení dvou sad bodů dvojicí rovin	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/119_linear_regression_multiple_x_and_y.py
120	120_linear_regression_multiple_x_and_y.py	proložení dvou sad bodů dvojicí rovin	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/120_linear_regression_multiple_x_and_y.py
121	121_linear_regression_poly.py	základní polynomická regrese	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/121_linear_regression_poly.py
122	122_linear_regression_poly_multiple_x.py	polynomická regrese a body v prostoru, první příklad	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/122_linear_regression_poly_multiple_x.py
123	123_linear_regression_poly_multiple_x.py	polynomická regrese a body v prostoru, druhý příklad	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/123_linear_regression_poly_multiple_x.py

124	124_iris_set_statistic.py	získání statistických informací o datové sadě Iris	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/124_iris_set_statistic.py
125	125_california_housings_statistic.py	získání statistických informací o datové sadě California Housings	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/125_california_housings_statistic.py
126	126_variance_threshold₁.py	výběr atributů pro trénink modelu pomocí VarianceThreshold	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/126_variance_threshold₁.py
127	127_variance_threshold₂.py	výběr atributů pro trénink modelu pomocí VarianceThreshold	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/127_variance_threshold₂.py
128	128_variance_threshold₃.py	výběr atributů pro trénink modelu pomocí VarianceThreshold	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/128_variance_threshold₃.py
129	129_select_best_iris.py	výběr nejvhodnějších atributů pro datovou sadu Iris	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/129_select_best_iris.py
130	130_select_best_housings.py	výběr nejvhodnějších atributů pro datovou sadu California Housings	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/130_select_best_housings.py
131	131_select_k_best_housings.py	výběr K nejvhodnějších atributů pro datovou sadu California Housings	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/131_select_k_best_housings.py
132	132_select_from_model.py	výběr atributů na základě k tomu určeného modelu	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/132_select_from_model.py
133	133_cross_validation₁.py	křížová validace po výběru (filtraci) modelů (datová sada Iris)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/133_cross_validation₁.py
134	134_cross_validation₂.py	křížová validace po výběru (filtraci) modelů (datová sada California Housings)	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/134_cross_validation₂.py
135	135_cross_validation₃.py	křížová validace po výběru (filtraci) modelů	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/135_cross_validation₃.py

136	136_mlp_classifier₀₁.py	použití neuronové sítě pro klasifikaci	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/136_mlp_classifier₀₁.py
137	137_mlp_classifier₀₂.py	výpočet úspěšnosti modelu založeného na neuronové síti	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/137_mlp_classifier₀₂.py
138	138_mlp_classifier₀₃.py	konfigurace vrstev neuronové sítě	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/138_mlp_classifier₀₃.py
139	139_mlp_classifier₀₄.py	proměnný počet neuronů ve vrstvách neuronové sítě	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/139_mlp_classifier₀₄.py
140	140_mlp_classifier₀₅.py	proměnný počet neuronů ve více vrstvách neuronové sítě	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/140_mlp_classifier₀₅.py

141	141_mlp_regression₁.py	použití neuronové sítě pro regresi	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/141_mlp_regression₁.py

V repositáři nalezneme taktéž projektový soubor a Jupyter Notebook s vysvětlením, jak lze modely využít pro rozpoznávání obsahu rastrových obrázků:

#	Příklad	Stručný popis	Adresa příkladu
1	pyproject.toml	projektový soubor (pro PDM) se všemi závislostmi	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/pyproject.toml

2	pdm.lock	lock soubor s konkrétními verzemi všech přímých i tranzitivních závislostí	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/pdm.lock

3	Rozpoznání_obrazu_scikit-learn.ipynb	Jupyter notebook s celým postupem	https://github.com/tisnik/most-popular-python-libs/blob/master/sklearn/Rozpoznání_obrazu_scikit-learn.ipynb

4	particle_life.py	emergence: příklad vzniku struktury	https://github.com/tisnik/most-popular-python-libs/blob/master/particles/particle_life.py

20. Odkazy na Internetu

Shluková analýza (clustering) a knihovna Scikit-learn
https://www.root.cz/clanky/shlukova-analyza-clustering-a-knihovna-scikit-learn/
Shluková analýza (clustering) a knihovna Scikit-learn (2)
https://www.root.cz/clanky/shlukova-analyza-clustering-a-knihovna-scikit-learn-2/
Shluková analýza (clustering) a knihovna Scikit-learn (z plochy do 3D prostoru)
https://www.root.cz/clanky/shlukova-analyza-clustering-a-knihovna-scikit-learn-z-plochy-do-3d-prostoru/
Rozpoznávání obrázků knihovnou Scikit-learn: první kroky
https://www.root.cz/clanky/rozpoznavani-obrazku-knihovnou-scikit-learn-prvni-kroky/
scikit-learn: Machine Learning in Python
https://scikit-learn.org/stable/index.html
Sklearn-pandas
https://github.com/scikit-learn-contrib/sklearn-pandas
sklearn-xarray
https://github.com/phausamann/sklearn-xarray/
Clustering
https://scikit-learn.org/stable/modules/clustering.html
Cluster analysis (Wikipedia)
https://en.wikipedia.org/wiki/Cluster_analysis
Shluková analýza (Wikipedia)
https://cs.wikipedia.org/wiki/Shlukov%C3%A1_anal%C3%BDza
K-means
https://cs.wikipedia.org/wiki/K-means
k-means clustering
https://en.wikipedia.org/wiki/K-means_clustering
Spectral clustering
https://en.wikipedia.org/wiki/Spectral_clustering
Emergence
https://cs.wikipedia.org/wiki/Emergence
Particle Life: Vivid structures from rudimentary rules
https://particle-life.com/
Hertzsprungův–Russellův diagram
https://cs.wikipedia.org/wiki/Hertzsprung%C5%AFv%E2%80%93Russell%C5%AFv_diagram
Using Machine Learning in an HR Diagram
https://cocalc.com/share/public_paths/08b6e03583cbdef3cdb9813a54ec68ff773c747f
Gaia H-R diagrams: Querying Gaia data for one million nearby stars
https://vlas.dev/post/gaia-dr2-hrd/
The Hertzsprung–Russell diagram
https://scipython.com/book2/chapter-9-data-analysis-with-pandas/problems/p92/the-hertzsprung-russell-diagram/
Animated Hertzsprung-Russell Diagram with 119,614 datapoints
https://github.com/zonination/h-r-diagram
Neuraxle Pipelines
https://github.com/Neuraxio/Neuraxle
scikit-learn: Getting Started
https://scikit-learn.org/stable/getting_started.html
Support Vector Machines
https://scikit-learn.org/stable/modules/svm.html
Use Deep Learning to Detect Programming Languages
http://searene.me/2017/11/26/use-neural-networks-to-detect-programming-languages/
Natural-language processing
https://en.wikipedia.org/wiki/Natural-language_processing
THE MNIST DATABASE of handwritten digits
http://yann.lecun.com/exdb/mnist/
MNIST database (Wikipedia)
https://en.wikipedia.org/wiki/MNIST_database
MNIST For ML Beginners
https://www.tensorflow.org/get_started/mnist/beginners
Stránka projektu Torch
http://torch.ch/
Torch: Serialization
https://github.com/torch/torch7/blob/master/doc/serialization.md
Torch: modul image
https://github.com/torch/image/blob/master/README.md
Data pro neuronové sítě
http://archive.ics.uci.edu/ml/index.php
Torch na GitHubu (několik repositářů)
https://github.com/torch
Torch (machine learning), Wikipedia
https://en.wikipedia.org/wiki/Torch_%28machine_learning%29
Torch Package Reference Manual
https://github.com/torch/torch7/blob/master/README.md
Torch Cheatsheet
https://github.com/torch/torch7/wiki/Cheatsheet
Neural network containres (Torch)
https://github.com/torch/nn/blob/master/doc/containers.md
Simple layers
https://github.com/torch/nn/blob/master/doc/simple.md#nn.Linear
Transfer Function Layers
https://github.com/torch/nn/blob/master/doc/transfer.md#nn.transfer.dok
Feedforward neural network
https://en.wikipedia.org/wiki/Feedforward_neural_network
Biologické algoritmy (4) – Neuronové sítě
https://www.root.cz/clanky/biologicke-algoritmy-4-neuronove-site/
Biologické algoritmy (5) – Neuronové sítě
https://www.root.cz/clanky/biologicke-algoritmy-5-neuronove-site/
Umělá neuronová síť (Wikipedia)
https://cs.wikipedia.org/wiki/Um%C4%9Bl%C3%A1_neuronov%C3%A1_s%C3%AD%C5%A5
PyTorch
http://pytorch.org/
JupyterLite na PyPi
https://pypi.org/project/jupyterlite/
JupyterLite na GitHubu
https://github.com/jupyterlite/jupyterlite
Dokumentace k projektu JupyterLite
https://github.com/jupyterlite/jupyterlite
Matplotlib Home Page
http://matplotlib.org/
Matplotlib (Wikipedia)
https://en.wikipedia.org/wiki/Matplotlib
Popis barvových map modulu matplotlib.cm
https://gist.github.com/endolith/2719900#id7
Ukázky (palety) barvových map modulu matplotlib.cm
http://matplotlib.org/examples/color/colormaps_reference.html
Galerie grafů vytvořených v Matplotlibu
https://matplotlib.org/3.2.1/gallery/
3D rendering
https://en.wikipedia.org/wiki/3D_rendering
3D computer graphics
https://en.wikipedia.org/wiki/3D_computer_graphics
Primary 3D view planes
https://matplotlib.org/stable/gallery/mplot3d/view_planes_3d.html
Getting started in scikit-learn with the famous iris dataset
https://www.youtube.com/watch?v=hd1W4CyPX58
Training a machine learning model with scikit-learn
https://www.youtube.com/watch?v=RlQuVL6-qe8
Iris (plant)
https://en.wikipedia.org/wiki/Iris_(plant)
Kosatec
https://cs.wikipedia.org/wiki/Kosatec
Iris setosa
https://en.wikipedia.org/wiki/Iris_setosa
Iris versicolor
https://en.wikipedia.org/wiki/Iris_versicolor
Iris virginica
https://en.wikipedia.org/wiki/Iris_virginica
Druh
https://cs.wikipedia.org/wiki/Druh
Iris subg. Limniris
https://en.wikipedia.org/wiki/Iris_subg._Limniris
Iris Dataset Classification with Python: A Tutorial
https://www.pycodemates.com/2022/05/iris-dataset-classification-with-python.html
Iris flower data set
https://en.wikipedia.org/wiki/Iris_flower_data_set
List of datasets for machine-learning research
https://en.wikipedia.org/wiki/List_of_datasets_for_machine-learning_research
Analýza hlavních komponent
https://cs.wikipedia.org/wiki/Anal%C3%BDza_hlavn%C3%ADch_komponent
Principal component analysis
https://en.wikipedia.org/wiki/Principal_component_analysis
Scikit-learn Crash Course – Machine Learning Library for Python
https://www.youtube.com/watch?v=0B5eIE_1vpU
calm-notebooks
https://github.com/koaning/calm-notebooks
Should you teach Python or R for data science?
https://www.dataschool.io/python-or-r-for-data-science/
nbviewer: A simple way to share Jupyter Notebooks
https://nbviewer.org/
AI vs Machine Learning (Youtube)
https://www.youtube.com/watch?v=4RixMPF4×is
Machine Learning | What Is Machine Learning? | Introduction To Machine Learning | 2024 | Simplilearn (Youtube)
https://www.youtube.com/watch?v=ukzFI9rgwfU
A Gentle Introduction to Machine Learning (Youtube)
https://www.youtube.com/watch?v=Gv9_4yMHFhI
Machine Learning vs Deep Learning
https://www.youtube.com/watch?v=q6kJ71tEYqM
Umělá inteligence (slajdy)
https://slideplayer.cz/slide/12119218/
Úvod do umělé inteligence
https://slideplayer.cz/slide/2505525/
Umělá inteligence I / Artificial Intelligence I
https://ktiml.mff.cuni.cz/~bartak/ui/
Matplotlib vs. seaborn vs. Plotly vs. MATLAB vs. ggplot2 vs. pandas
https://ritza.co/articles/matplotlib-vs-seaborn-vs-plotly-vs-MATLAB-vs-ggplot2-vs-pandas/
Matplotlib, Seaborn or Plotnine?
https://www.reddit.com/r/datascience/comments/jvrqxt/matplotlib_seaborn_or_plotnine/
@Rabeez: Rabeez/plotting_comparison.ipynb
https://gist.github.com/Rabeez/ffc0b59d4a41e20fa8d944c44a96adbc
Matplotlib, Seaborn, Plotly and Plotnine Comparison
https://python.plainenglish.io/matplotlib-seaborn-plotly-and-plotnine-comparison-baf2db5a9c40
Data Visualization 101: How to Choose a Python Plotting Library
https://towardsdatascience.com/data-visualization-101-how-to-choose-a-python-plotting-library-853460a08a8a
Data science in Python: pandas, seaborn, scikit-learn
https://www.youtube.com/watch?v=3ZWuPVWq7p4
7.2. Real world datasets
https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset
7.2.7. California Housing dataset
https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset
Comprehensive Guide to Classification Models in Scikit-Learn
https://www.geeksforgeeks.org/comprehensive-guide-to-classification-models-in-scikit-learn/
Tidy Data Visualization: ggplot2 vs seaborn
https://blog.tidy-intelligence.com/posts/ggplot2-vs-seaborn/
seaborn: statistical data visualization
https://seaborn.pydata.org/
Linear regression (Wikipedia)
https://en.wikipedia.org/wiki/Linear_regression
Lineární regrese (Wikipedia)
https://cs.wikipedia.org/wiki/Line%C3%A1rn%C3%AD_regrese
Iris Flower Classification with MLP Classifier
https://www.metriccoders.com/post/iris-flower-classification-with-mlp-classifier

Seriál: Datová analýza s využitím jazyka Python

Scikit-learn: jednoduchý a současně i univerzální model lineární regrese
Redukce atributů v datových sadách před tréninkem modelů ve scikit-learn
Neuronové sítě v knihovně scikit-learn: vytvoření a učení malé sítě

Přečtěte si všechny díly seriálu Datová analýza s využitím jazyka Python nebo sledujte jeho RSS

Vstoupit do diskuse

Pavel Tišnovský

Vystudoval VUT FIT a v současné době pracuje na projektech vytvářených v jazycích Python a Go.

Sdílet

Obsah

1. Redukce atributů v datových sadách před tréninkem modelů

2. Získání základních statistických informací o atributech v datových sadách Iris i California Housings

3. Získané statistické informace

4. Výběr atributů pro trénink modelu s využitím filtru VarianceThreshold

5. Získání jmen atributů původní datové sady a datové sady redukované

6. Výběr (filtrace) atributů pro různé mezní hodnoty (threshold)

7. Výběr K nejvhodnějších atributů pro trénink

8. Výběr čtyř nejvhodnějších atributů datové sady California Housings

9. Výběr atributů pro postupně rostoucí hodnotu K

10. Použití modelu pro výběr atributů

11. Ukázka využití modelu pro výběr atributů

12. Křížová validace modelu naučeného s využitím vyfiltrované skupiny atributů

13. Křížová validace pro model natrénovaný na datovou sadu Iris

14. Výsledky křížové validace pro datovou sadu Iris

15. Křížová validace pro model natrénovaný na datovou sadu California Housings

16. Výsledky křížové validace pro datovou sadu California housings

17. Výsledky křížové validace pro filtraci pomocí VarianceThreshold

18. Obsah navazujícího článku – neuronové sítě

19. Repositář s demonstračními příklady

20. Odkazy na Internetu

Scikit-learn: jednoduchý a současně i univerzální model lineární regrese