Gemini: tout savoir sur l'IA de Google qui veut détrôner GPT-4
La course effrénée vers l’intelligence artificielle connaît un nouveau tournant décisif avec l’arrivée fracassante de Gemini, le tout dernier modèle d’IA dévoilé par Google. Mercredi dernier, la société californienne a révélé les prouesses de ce nouvel outil, affirmant qu’il surpassait le référentiel GPT-4 sur plusieurs tests cruciaux. Ce modèle, doté de capacités multimodales, promet une révolution dans le domaine de l’intelligence artificielle.
Lire aussi : Tout savoir sur Sam Altman, le patron débarqué d’OpenAI et de ChatGPT
Gemini : La révolution multimodale
Google décrit Gemini comme un « large language model » (LLM) multimodal, une avancée majeure dans le domaine de l’IA. Sa particularité réside dans sa capacité à comprendre non seulement du texte, mais aussi des images et des vidéos, tout en étant capable de répondre à l’oral ou à l’écrit. La version ultra a même surpassé les attentes en remportant un test MMLU, mesurant la compréhension et les capacités de raisonnement dans divers domaines tels que le langage, les maths, l’histoire, la physique, la médecine, le droit et l’éthique.
Une démonstration captivante a illustré les capacités étendues de Gemini. En seulement 5 minutes, le système a analysé des objets, des dessins et des vidéos, commentant à l’oral ses observations, identifiant les objets, jouant de la musique et répondant à des questions nécessitant un raisonnement approfondi.
L’IA a su déduire rapidement qu’un croquis représentait un jouet en plastique de canard, a imaginé un jeu basé sur des emojis pour deviner des pays et a même proposé des objets à tricoter à partir de simples pelotes de laine de couleurs différentes. Dans une tentative de prédire la fin d’une vidéo mettant en scène un chat sautant sur une étagère, l’IA s’est trompée, mais la faute semblait davantage attribuable au chat qu’à la machine.
Vers une intelligence artificielle générale
Google, à l’instar d’OpenAI, vise à atteindre l’objectif ultime : une intelligence artificielle générale (AGI) rivalisant voire surpassant les capacités humaines. Certains experts spéculent que la puissance pourrait être la clé, mais d’autres restent sceptiques, soulignant les limites de l’intelligence machine dans sa compréhension du monde réel.
Pour résoudre ce défi, Google envisage d’intégrer son IA à des robots dotés de capacités sensorielles avancées, notamment le sens du toucher, pour améliorer sa perception et sa compréhension du monde physique.
L’étape à venir
L’arrivée de Gemini signifie un pas de plus vers l’avenir de l’intelligence artificielle. La version ultra, attendue pour début 2025, pourrait bien bouleverser l’équilibre établi par GPT-4, ouvrant la voie à une ère où les capacités de raisonnement des IA rivaliseront avec celles des humains.
Le défi ne fait que commencer : les prochaines étapes de développement et d’intégration de Gemini dans des applications concrètes dessineront le paysage futur de l’IA, un paysage où les limites entre la machine et l’humain pourraient devenir de plus en plus floues.