Aby to rozeznavalo lepe, je nutna hluboka sit a navic tam pridat i konvolucni a subsamplingove vrstvy. Taky vyladeni a uceni takove site neni na jeden pokus a je pomale (bez GPU to prakticky nejde - uz jsem zkousel ;).
Zkusim nekdy ukazat, jak to implementovat v Pytorchi