Dwarkesh Patel a interviewé Jeff Dean et Noam Shazeer de Google et un sujet qu'il a demandé ce que ce serait de fusionner ou de combiner la recherche Google avec l'apprentissage dans le contexte. Cela a abouti à une réponse fascinante de Jeff Dean.
Avant de regarder, voici une définition dont vous pourriez avoir besoin:
L'apprentissage dans le contexte, également connu sous le nom d'apprentissage à faible coup ou d'ingénierie rapide, est une technique où un LLM reçoit des exemples ou des instructions dans l'invite d'entrée pour guider sa réponse. Cette méthode exploite la capacité du modèle à comprendre et à s'adapter aux modèles présentés dans le contexte immédiat de la requête.
La fenêtre de contexte (ou «longueur de contexte») d'un modèle grand langage (LLM) est la quantité de texte, dans les jetons, que le modèle peut considérer ou «se souvenir» à tout moment. Une fenêtre de contexte plus grande permet à un modèle d'IA de traiter les entrées plus longues et d'incorporer une plus grande quantité d'informations dans chaque sortie.
Cette question et cette réponse commencent à la marque de 32 minutes de cette vidéo:
https://www.youtube.com/watch?v=v0gji__rycy
Voici la transcription si vous ne voulez pas lire ceci:
Question:
Je sais qu'une chose sur laquelle vous travaillez en ce moment est un contexte plus long. Si vous pensez à Google Search, il a tout l'index d'Internet dans son contexte, mais c'est une recherche très peu profonde. Et puis évidemment, les modèles linguistiques ont un contexte limité en ce moment, mais ils peuvent vraiment penser. C'est comme l'apprentissage de la magie noire et du contexte. Il peut vraiment penser à ce qu'il voient. Comment pensez-vous de ce que ce serait de fusionner quelque chose comme la recherche Google et quelque chose comme l'apprentissage dans le contexte?
Ouais, je vais prendre un premier coup de couteau parce que – j'y ai réfléchi un peu. L'une des choses que vous voyez avec ces modèles est qu'elles sont assez bonnes, mais elles ont des hallucine et ont parfois des problèmes de factualité. Une partie de cela est que vous vous êtes entraîné, par exemple, des dizaines de milliards de jetons, et vous avez remué tout cela ensemble dans vos dizaines ou des centaines de milliards de paramètres. Mais tout est un peu spongieux parce que vous avez produit tous ces jetons ensemble. Le modèle a une vision raisonnablement claire de ces données, mais elle est parfois confuse et donnera la mauvaise date pour quelque chose. Alors que les informations dans la fenêtre de contexte, dans l'entrée du modèle, sont vraiment nettes et claires car nous avons ce mécanisme d'attention vraiment agréable dans les transformateurs. Le modèle peut faire attention aux choses, et il connaît le texte exact ou les cadres exacts de la vidéo ou de l'audio ou de ce qu'il traite. À l'heure actuelle, nous avons des modèles qui peuvent gérer des millions de jetons de contexte, ce qui est beaucoup. Ce sont des centaines de pages de PDF, ou 50 articles de recherche, ou des heures de vidéo, ou des dizaines d'heures d'audio, ou une combinaison de ces choses, ce qui est assez cool. Mais ce serait vraiment bien si le modèle pouvait s'occuper de milliards de jetons.
Cela pourrait-il s'occuper de toute Internet et trouver les bonnes choses pour vous? Cela pourrait-il s'occuper de toutes vos informations personnelles pour vous? J'aimerais un modèle qui a accès à tous mes e-mails, à tous mes documents et à toutes mes photos. Lorsque je lui demande de faire quelque chose, cela peut en quelque sorte en utiliser, avec ma permission, pour aider à résoudre ce que je veux que je fasse.
Mais cela va être un grand défi de calcul parce que l'algorithme d'attention naïf est quadratique. Vous pouvez à peine le faire fonctionner sur un peu de matériel pour des millions de jetons, mais il n'y a aucun espoir de faire en sorte que naïvement aller à des milliards de jetons. Donc, nous avons besoin de tout un tas d'approximations algorithmiques intéressantes de ce que vous voudriez vraiment: un moyen pour le modèle de fréquenter conceptuellement beaucoup, beaucoup plus de jetons, des milliards de jetons. Peut-être que nous pouvons mettre toute la base de code Google en contexte pour chaque développeur Google, tout le code source du monde en contexte pour tout développeur open-source. Ce serait incroyable. Ce serait incroyable.
Voici où j'ai trouvé ceci:
Pertinent: pic.twitter.com/n8feckk36m
– Dejan (@dejanseo) 15 février 2025
Je suis amoureux de combiner de nombreuses approches. En voici quelques-uns intéressants et publics:
Diverses méthodes de récupération denses
TreeFormer (https://t.co/aplh2ts9dm)
Estimation supérieure approximative de rapports élevés (https://t.co/rvcym5vltu)
Diverses formes de quantification du cache KV et…
– Jeff Dean (@jeffdean) 15 février 2025
Discussion du forum à X.