Apple a annoncé une collaboration avec NVIDIA visant à améliorer considérablement les performances des grands modèles de langage (LLM) grâce à une nouvelle technique de génération de texte qui offre des gains de vitesse significatifs pour les applications d'IA.
Une nouvelle approche : Recurrent Drafter
Plus tôt cette année, Apple a publié et rendu open-source une approche appelée Recurrent Drafter (ReDrafter), qui combine deux méthodes :
- Beam search, qui explore plusieurs séquences de texte potentielles simultanément pour obtenir de meilleurs résultats.
- Tree attention, qui organise et élimine les chevauchements redondants entre ces séquences pour améliorer l'efficacité.
Intégration avec NVIDIA TensorRT-LLM
Apple a désormais intégré cette technologie au framework TensorRT-LLM de NVIDIA, qui optimise les LLM exécutés sur les GPU de NVIDIA. Selon Apple, cette intégration a permis d'atteindre des performances inégalées.
Lors des tests avec un modèle de production contenant des dizaines de milliards de paramètres, cette méthode a permis une augmentation de vitesse de 2,7x en termes de tokens générés par seconde.
Avantages de cette optimisation
Apple indique que ces améliorations réduisent non seulement la latence perçue par l'utilisateur, mais qu'elles entraînent également une diminution de l'utilisation des GPU et de la consommation énergétique.
Extrait du blog de recherche en apprentissage machine d'Apple :
"Les LLM sont de plus en plus utilisés pour alimenter des applications en production, et améliorer leur efficacité d'inférence peut à la fois réduire les coûts de calcul et la latence pour les utilisateurs. Avec l'approche novatrice de ReDrafter pour le décodage spéculatif, intégrée au framework NVIDIA TensorRT-LLM, les développeurs peuvent désormais bénéficier d'une génération de tokens plus rapide sur les GPU NVIDIA pour leurs applications LLM en production."
Les développeurs intéressés par la mise en œuvre de ReDrafter peuvent trouver des informations détaillées sur le site web d'Apple ainsi que sur le blog des développeurs de NVIDIA.