Gmail používá ke klasifikaci spamu strojové učení v TensorFlow s názvem RETVec (Resilient & Efficient Text Vectorizer). Spameři totiž v poslední době používají například záměnu znaků, které vypadají stejně nebo podobně, ale mají jiný kód a běžné statistické metody je tedy ne vždy zachytí.
RETVec pracuje s UTF-8 a umí více než 100 jazyků. Navíc je open-source s licencí Apache 2.0. Zdrojové kódy jsou na GitHubu. A Google také připravil návod pro ty, kteří chtějí RETVec nasadit, nebo si s ním pohrát.
(Zdroj: arstechnica)