Vůbec to není old-school. Naopak se jedná o subword-based tokenizaci, která se objevila v NLP v posledních cca 12 letech v souvislosti s neuronovými sítěmi a je to tokenizace používaná u (nejen) generativních modelů. Algoritmy pro tokenizaci se vyvíjely, ale podstata zůstala stejná - získat slovník subword tokenů zadané veikosti, které maximalizují kvalitu modelu. tiktoken je knihovna od OpenAI.
Super, na NLP se těším.
Pro začátečníky by se mohlo hodit několikrát zdůraznit, že pokud chcete sami tokenizovat, ale pak použít již existující váhy modelů (předtrénované modely), pak si nemůžete vybrat tokenizátor jaký chcete. Každý model může využívat jiný tokenizer a je důležité použít ten správný (jak je zmíněno až v částech 13 a 17).
Asi jediné užitečné speciálně na tiktokenu je, že si můžete předem spočítat kolik vás bude stát zpracování textu přes API openai, neboť tam se platí právě za token.