Jen tak pro zajímavost. Na jakém nejslabším GPU se vám podařilo rozjet nějaké LLM? Používám staré MSI s GTX960M a 16GB RAM jako server a byl jsem překvapen, že to vůbec něco dává. Nicméně např. prompt na Llama2-7b "Please create responsive HTML page", trvá 3-4 minuty.
21. 2. 2024, 07:11 editováno autorem komentáře
Divné.
Puvodni llama13b (ne v tomhle GUI) jede i na starém CPU (nějake P4), nejvíc času zabere načtení modelu (tak půl minuty, záleží na RAM jestli to neswapuje), samotné generování pár sekund na token (slovo).
Edit: Alespoň na prvotní test si stáhni starý dobrý dalai https://github.com/cocktailpeanut/dalai ať vyloučíš další problémy.
22. 2. 2024, 08:50 editováno autorem komentáře