Apple už nejaký čas spolupracuje s Nvidia na výskume rýchlejšieho výkonu LLM. „LLM sa čoraz viac používajú na napájanie výrobných aplikácií a zlepšenie efektivity odvodzovania môže ovplyvniť výpočtové náklady a znížiť latenciu používateľov,“ hovoria výskumníci strojového učenia Apple. „Vďaka novému prístupu ReDrafter k špekulatívnemu dekódovaniu integrovanému do rámca NVIDIA TensorRT-LLM môžu teraz vývojári ťažiť z rýchlejšieho generovania tokenov na GPU NVIDIA pre ich produkčné LLM aplikácie.“