Nově vydaný velký jazykový model Claude 3.5 Sonnet umožňuje ovládat aplikace v počítači. Funkcionalita se jmenuje computer use a je v betaverzi.
Computer use je postavený na jednoduchém protokolu, kdy model ovládá klientskou aplikaci pomocí následujících příkazů: key
, type
, mouse_move
, left_click
, left_click_drag
, right_click
, middle_click
, double_click
a screenshot
, cursor_position
.
Poslední dva příkazy screenshot
a cursor_position
vrací vstupy modelu. Na základě vstupů, tedy aktuální pozice myši a obsahu obrazovky, se model rozhodne, jakou další akci provede.
Akce jsou prováděny klientskou aplikací, její implementace je závislá na operačním systému a desktopovém prostředí. Klientská aplikace pro X11 (používá xdotool) je součástí dema.