Bien avant qu’OpenAI ne bouleverse l’industrie technologique avec la sortie de ChatGPT à l’automne 2022, Douwe Kiela comprenait déjà pourquoi les grands modèles de langage, à eux seuls, ne pouvaient offrir que des solutions partielles pour les cas d’utilisation clés de l’entreprise.
Le jeune PDG néerlandais de Contextual AI a été profondément influencé par deux articles fondateurs de Google et d’OpenAI, qui ont décrit ensemble la recette pour créer des modèles d’IA génératifs et des LLM rapides et efficaces basés sur des transformateurs.
Peu de temps après la publication de ces articles en 2017 et 2018, Kiela et son équipe de chercheurs en IA chez Facebook, où il travaillait à l’époque, ont réalisé que les LLM seraient confrontés à de profonds problèmes de fraîcheur des données.
Ils savaient que lorsque des modèles de base tels que les LLM étaient formés sur des ensembles de données massifs, la formation ne se contentait pas d’imprégner le modèle d’un « cerveau » métaphorique pour le « raisonnement » à travers les données. Les données de formation représentaient également l’intégralité des connaissances d’un modèle sur lesquelles il pouvait s’appuyer pour générer des réponses aux questions des utilisateurs.
L’équipe de Kiela a réalisé que, à moins qu’un LLM ne puisse accéder aux données pertinentes en temps réel de manière efficace et rentable, même le LLM le plus intelligent ne serait pas très utile pour les besoins de nombreuses entreprises.
Ainsi, au printemps 2020, Kiela et son équipe ont publié leur propre article fondateur, qui a présenté au monde la génération augmentée par récupération. RAG, comme on l’appelle communément, est une méthode permettant de mettre à jour de manière continue et rentable les modèles de fondation avec de nouvelles informations pertinentes, notamment à partir des propres fichiers d’un utilisateur et d’Internet. Avec RAG, les connaissances d’un LLM ne se limitent plus à ses données de formation, ce qui rend les modèles beaucoup plus précis, percutants et pertinents pour les utilisateurs de l’entreprise.
Aujourd’hui, Kiela et Amanpreet Singh, un ancien collègue de Facebook, sont PDG et CTO de Contextual AI, une startup basée dans la Silicon Valley, qui a récemment clôturé un cycle de série A de 80 millions de dollars, qui comprenait la branche d’investissement de NVIDIA, NVentures. Contextual AI est également membre de NVIDIA Inception, un programme conçu pour nourrir les startups. Forte d’une cinquantaine d’employés, l’entreprise prévoit de doubler sa taille d’ici la fin de l’année.
La plateforme proposée par Contextual AI s’appelle RAG 2.0. À bien des égards, il s’agit d’une version avancée et produitisée de l’architecture RAG que Kiela et Singh ont décrite pour la première fois dans leur article de 2020.
RAG 2.0 peut atteindre une précision et des performances des paramètres environ 10 fois supérieures à celles des offres concurrentes, explique Kiela.
Cela signifie, par exemple, qu’un modèle de 70 milliards de paramètres qui nécessiterait généralement des ressources de calcul importantes pourrait fonctionner sur une infrastructure beaucoup plus petite, conçue pour gérer seulement 7 milliards de paramètres sans sacrifier la précision. Ce type d’optimisation ouvre la voie à des cas d’utilisation de pointe avec des ordinateurs plus petits qui peuvent fonctionner à des niveaux nettement supérieurs aux attentes.
“Lorsque ChatGPT s’est produit, nous avons constaté une énorme frustration où tout le monde reconnaissait le potentiel des LLM, mais réalisait également que la technologie n’était pas encore là”, a expliqué Kiela. « Nous savions que RAG était la solution à de nombreux problèmes. Et nous savions également que nous pouvions faire bien mieux que ce que nous avions décrit dans le document original du RAG en 2020. »
Les récupérateurs intégrés et les modèles de langage offrent d’importants gains de performances
La clé des solutions de Contextual AI réside dans l’intégration étroite de son architecture de récupération, le « R » dans RAG, avec l’architecture d’un LLM, qui est le générateur, ou « G » dans le terme. La façon dont RAG fonctionne est qu’un récupérateur interprète la requête d’un utilisateur, vérifie diverses sources pour identifier les documents ou données pertinents, puis ramène ces informations à un LLM, qui raisonne à travers ces nouvelles informations pour générer une réponse.
Depuis 2020 environ, RAG est devenu l’approche dominante pour les entreprises qui déploient des chatbots basés sur LLM. En conséquence, un écosystème dynamique de startups axées sur RAG s’est formé.
L’une des façons dont l’IA contextuelle se différencie de ses concurrents est la manière dont elle affine et améliore ses récupérateurs grâce à la rétro-propagation, un processus d’ajustement des algorithmes – les poids et les biais – qui sous-tendent son architecture de réseau neuronal.
Et, au lieu de former et d’ajuster deux réseaux neuronaux distincts, à savoir le récupérateur et le LLM, l’IA contextuelle propose une plate-forme unifiée de pointe, qui aligne le récupérateur et le modèle linguistique, puis les ajuste tous deux en arrière-plan. propagation.
Il est difficile de synchroniser et d’ajuster les pondérations et les biais sur des réseaux neuronaux distincts, mais le résultat, selon Kiela, conduit à d’énormes gains en termes de précision, de qualité de réponse et d’optimisation. Et comme le récupérateur et le générateur sont si étroitement alignés, les réponses qu’ils créent sont fondées sur des données communes, ce qui signifie que leurs réponses sont beaucoup moins susceptibles que les autres architectures RAG d’inclure des données inventées ou « hallucinées », qu’un modèle pourrait offrir lorsqu’il ne « connaît » pas de réponse.
“Notre approche est techniquement très complexe, mais elle conduit à un couplage beaucoup plus fort entre le retriever et le générateur, ce qui rend notre système beaucoup plus précis et beaucoup plus efficace”, a déclaré Kiela.
S’attaquer aux cas d’utilisation difficiles grâce à des innovations de pointe
RAG 2.0 est essentiellement indépendant du LLM, ce qui signifie qu’il fonctionne sur différents modèles de langage open source, comme Mistral ou Llama, et peut s’adapter aux préférences de modèle des clients. Les récupérateurs de la startup ont été développés à l’aide du Megatron LM de NVIDIA sur un mélange de GPU NVIDIA H100 et A100 Tensor Core hébergés dans Google Cloud.
L’un des défis majeurs auxquels chaque solution RAG est confrontée est de savoir comment identifier les informations les plus pertinentes pour répondre à la requête d’un utilisateur lorsque ces informations peuvent être stockées dans divers formats, tels que texte, vidéo ou PDF.
L’IA contextuelle surmonte ce défi grâce à une approche de « mélange de récupérateurs », qui aligne les sous-spécialités des différents récupérateurs avec les différents formats dans lesquels les données sont stockées.
L’IA contextuelle déploie une combinaison de types RAG, ainsi qu’un algorithme de reclassement neuronal, pour identifier les informations stockées dans différents formats qui, ensemble, répondent de manière optimale à la requête de l’utilisateur.
Par exemple, si certaines informations pertinentes pour une requête sont stockées dans un format de fichier vidéo, alors l’un des RAG déployés pour identifier les données pertinentes serait probablement un Graph RAG, qui est très efficace pour comprendre les relations temporelles dans les données non structurées comme la vidéo. Si d’autres données étaient stockées au format texte ou PDF, un RAG vectoriel serait alors déployé simultanément.
Le reclasseur neuronal aiderait alors à organiser les données récupérées et les informations priorisées seraient ensuite transmises au LLM pour générer une réponse à la requête initiale.
“Pour maximiser les performances, nous n’utilisons presque jamais une seule approche de récupération – il s’agit généralement d’une approche hybride car elles ont des atouts différents et complémentaires”, a déclaré Kiela. « La bonne combinaison dépend du cas d’utilisation, des données sous-jacentes et de la requête de l’utilisateur. »
En fusionnant essentiellement les architectures RAG et LLM et en offrant de nombreuses voies permettant de trouver des informations pertinentes, l’IA contextuelle offre aux clients des performances considérablement améliorées. En plus d’une plus grande précision, son offre réduit la latence grâce à moins d’appels API entre les réseaux neuronaux du RAG et du LLM.
En raison de son architecture hautement optimisée et de ses demandes de calcul réduites, RAG 2.0 peut fonctionner dans le cloud, sur site ou entièrement déconnecté. Cela le rend pertinent pour un large éventail d’industries, depuis la technologie financière et la fabrication jusqu’aux dispositifs médicaux et à la robotique.
« Les cas d’utilisation sur lesquels nous nous concentrons sont les plus difficiles », a déclaré Kiela. « Au-delà de la lecture d’une transcription, de la réponse à des questions de base ou d’un résumé, nous nous concentrons sur les rôles à très haute valeur ajoutée et à forte intensité de connaissances qui permettront aux entreprises d’économiser beaucoup d’argent ou de les rendre beaucoup plus productives.