By Sean Chen, 10 novembre 2023
Lors de la conférence de lancement de l'OpenAI DevDay le 06/11/2023, le PDG d'OpenAI, Sam Altman, a une fois de plus dépassé les attentes, offrant aux développeurs d'IA de nouvelles possibilités. À travers cet article, découvrons ensemble ce qui rend le GPT-4 Turbo si attrayant pour les développeurs de logiciels.
OpenAI a organisé la conférence de lancement de l'OpenAI DevDay le 06/11/2023. Alors que d'autres grandes entreprises technologiques peinent à rattraper les performances de GPT-4, le PDG d'OpenAI, Sam Altman, a encore une fois dépassé les attentes, offrant aux développeurs d'IA de nouvelles possibilités, démontrant ainsi la position de leader d'OpenAI dans le domaine de l'intelligence artificielle.
Le contexte fait référence à la quantité totale de texte pour les invites et les dialogues avec le modèle de langage. Auparavant, la quantité maximale était de 32 000 tokens (disponible uniquement pour certains développeurs), mais GPT-4 Turbo permet jusqu'à 128 000 tokens, ce qui équivaut à entrer un livre de 300 pages en une seule fois pour que le modèle génère du contenu. En termes de vitesse, le principal défaut de GPT-4 était sa lenteur, ce qui consommait beaucoup de temps lors de la génération. Les entreprises utilisaient donc souvent GPT-3.5 pour résoudre la plupart des problèmes pratiques. GPT-4 Turbo résout ce problème en rendant la vitesse de génération proche de celle de GPT-3.5, enrichissant ainsi les scénarios d'intégration futurs. En termes de coût, par rapport à la version précédente de GPT-4, le coût des invites est deux fois moins cher (3x moins cher), et le coût du texte généré est également réduit de moitié (2x moins cher).
OpenAI a lancé plus tôt cette année la fonctionnalité "appel de fonction", qui permet aux développeurs d'appeler des fonctions de code personnalisées lors de l'utilisation de GPT. En d'autres termes, cela permet à l'IA intelligente de se connecter à divers API, augmentant considérablement les domaines d'utilisation d'OpenAI. La performance impressionnante de ce modèle réside dans le fait que, tant que les développeurs fournissent plusieurs interfaces de commande du programme, GPT peut décider par lui-même quelle commande appeler et exécuter avec les paramètres appropriés.
Exemple : Un développeur d'ampoules intelligentes fournit deux commandes : "définir la couleur" et "définir la période de détection". Les paramètres de la commande de couleur incluent trois options : lumière blanche, lumière naturelle et veilleuse. Lorsqu'une invite est entrée dans GPT : "Veuillez régler l'ampoule pour la nuit", GPT décide automatiquement d'utiliser la commande "définir la couleur" avec le paramètre "veilleuse", sans intervention humaine. Auparavant, il fallait utiliser la technologie NLP pour écrire une logique personnalisée pour atteindre cette fonctionnalité, mais maintenant, cela peut être réalisé simplement en appelant le programme GPT.
Cette mise à jour permet à GPT de déterminer plus précisément quelle commande et quels paramètres utiliser, tout en améliorant la capacité de GPT à appeler plusieurs commandes à la fois. Auparavant, lorsque le contexte était plus complexe, les développeurs devaient écrire un programme supplémentaire pour permettre plusieurs appels de fonction ; cette mise à jour permet à GPT d'exécuter plusieurs commandes en une seule fois et de transmettre les résultats de chaque commande. Par exemple, avec l'invite "Je me lève souvent la nuit pour boire de l'eau, veuillez régler l'ampoule en conséquence", GPT peut décider d'appeler les commandes "définir la couleur" et "définir la période de détection", en définissant le paramètre "période de détection" de 01:00 à 06:30, tout en utilisant "définir la couleur" avec le paramètre "veilleuse".
De plus, les réponses des modèles de langage étaient auparavant fournies sous forme de texte non formaté. Si un format spécifique était souhaité, il fallait le demander dans l'invite, par exemple "répondez en format XML" ; cependant, les développeurs rencontraient souvent des problèmes où le format de réponse n'était pas entièrement XML, avec parfois du texte brut mélangé, ce qui entraînait des erreurs de conversion de format. Cette fois, GPT-4 Turbo permet aux développeurs de définir le paramètre response_format, qui peut être défini en XML ou JSON, des formats de retour API courants, augmentant ainsi la stabilité du programme.
Enfin, OpenAI permet également aux utilisateurs de définir le paramètre Seed, qui détermine l'aléatoire du contenu retourné par GPT. En configurant ce paramètre, les développeurs peuvent s'assurer que les réponses du modèle de langage restent cohérentes, ce qui permet aux développeurs de rédiger des cas de test avec plus de confiance (éviter que le modèle de langage ne produise soudainement des réponses différentes), améliorant ainsi la testabilité et la qualité du programme.
En plus des deux points mentionnés ci-dessus, l'annonce de l'API Assistant est le point fort du DevDay en termes d'expansion des scénarios d'application.
Auparavant, pour développer des applications d'IA générative à l'aide de modèles de langage, il fallait utiliser des packages tiers comme LangChain pour donner aux modèles de langage des capacités avancées, telles que l'utilisation de plusieurs modèles de langage, la personnalisation des données, la mémoire et les agents (permettant à l'IA d'exécuter des tâches continues et de prendre des décisions continues), afin de réaliser des applications d'IA plus complexes.
L'API Assistant annoncée lors du DevDay intègre plusieurs de ces capacités dans l'API officielle, éliminant les tracas rencontrés par les développeurs lors de l'intégration de packages tiers. C'est également la première fois que l'officiel sort de l'optimisation pure des performances des modèles de langage pour explorer l'application des "agents". Les documents officiels indiquent qu'un assistant est une IA orientée vers un objectif, qui permet d'utiliser des commandes spécifiques, d'utiliser des données externes ou d'utiliser différents modèles de langage et outils pour exécuter des tâches.
La nouvelle API Assistant intègre également plusieurs outils, en plus de l'"appel de fonction" mentionné ci-dessus, elle propose également un "compilateur de code" et une "recherche de données".
Le "compilateur de code" de GPT-4 permet d'exécuter le code écrit dans un environnement sandbox (actuellement uniquement pris en charge pour Python). Auparavant, les ingénieurs devaient copier et coller le code écrit avec l'aide de GPT-4 dans leur propre environnement de développement pour le tester, mais l'environnement sandbox fourni par OpenAI permet à GPT-4 de vérifier lui-même si le code est correct, et de modifier progressivement le code en fonction des résultats d'exécution jusqu'à atteindre l'objectif.
Cependant, le rôle du compilateur de code va bien au-delà de "permettre à GPT-4 de vérifier l'exactitude de son propre code". Sa signification plus grande réside dans "permettre au modèle de langage d'avoir son propre ordinateur", qui peut exécuter la plupart des tâches. Maintenant, les modèles de langage peuvent interagir de manière programmatique, bien que l'exécution dans un environnement sandbox limité signifie que le compilateur de code ne peut utiliser que certains packages tiers, mais il est suffisant pour exécuter "la plupart des tâches que le langage Python est bon à traiter", telles que le traitement des données et les appels API, et peut lire des fichiers de code plus volumineux fournis par l'utilisateur. En termes de sécurité, l'environnement sandbox empêche l'utilisation abusive des puissantes capacités du modèle de langage, offrant ainsi une certaine garantie de sécurité.
La "recherche de données" permet aux utilisateurs de télécharger leurs propres données (par exemple, des données spécifiques à un secteur, des informations sur les produits ou des documents internes) et permet au modèle de langage de répondre en fonction de ces données, appliquées à leur secteur ou domaine. Cette fonctionnalité a été un point de focalisation depuis l'apparition de GPT-3. La recherche de données annoncée lors du DevDay est la première solution native officielle pour cette fonctionnalité, par exemple, pour permettre aux entreprises de créer des robots de connaissances internes, comme un chef de projet AI, un analyste système AI ; dans des domaines comme la santé, la finance, etc., les chatbots de service client nécessitaient auparavant l'utilisation de techniques complexes de traitement du langage pour être mis en œuvre. Maintenant, avec le puissant modèle de langage GPT-4 et la fonctionnalité de recherche de données fournie par OpenAI, les développeurs peuvent se concentrer sur la logique commerciale, la précision des données et l'ajustement des détails. De plus, l'utilisation de packages tiers nécessitait auparavant des bases de données vectorielles, un traitement par segments de données ou des algorithmes de recherche spécifiques, mais avec le support officiel d'OpenAI, il n'est plus nécessaire de traiter ces processus de développement et les coûts associés. OpenAI souligne également que les conversations et fichiers utilisés par l'API Assistant ne seront pas utilisés pour entraîner le prochain modèle d'OpenAI.
Dans l'ensemble, OpenAI continue d'optimiser l'efficacité du modèle tout en élargissant les applications des modèles de langage. Sam Altman a déclaré que GPT-5 ne serait pas lancé dans un avenir proche. Avec la précision actuelle de GPT-4, dépenser des ressources considérables pour entraîner un modèle de langage avec plus de paramètres semble peu nécessaire. Au contraire, améliorer les performances, la facilité d'utilisation et l'évolutivité de GPT-4 est la priorité actuelle d'OpenAI. Pour les développeurs, les entreprises et les consommateurs finaux, intégrer des IA puissantes et applicables dans la plupart des scénarios est devenu un point central de la transformation numérique de la prochaine génération. Le GPT créé par OpenAI est comme le cerveau du monde technologique futur, et nous croyons que les prochaines créations et progrès rendront l'intelligence artificielle plus apte à utiliser des outils, à "voir", "entendre", et à "parler" et "dessiner" de manière fluide.
Les termes « URL » et « domaine » se ressemblent un peu, mais ils sont différents ! Que se passe-t-il lorsque vous tapez google.com dans votre navigateur ? Comment cela est-il lié aux domaines et aux URL ? Cet article vous expliquera tout de manière claire et pratique !
EN SAVOIR PLUSSi vous faites partie de ceux qui oublient toujours combien ils ont dépensé en voyage et qui sont trop paresseux pour noter leurs dépenses, vous devez absolument essayer cette application super pratique — « SaySay Expense ».
EN SAVOIR PLUSLa commande en libre-service est devenue notre première étape en entrant dans un restaurant et un élément clé de notre expérience culinaire. Si nous ajoutons des éléments amusants, comme un assistant vocal IA, la commande pourrait devenir plus intuitive, amusante et même plus humaine !
EN SAVOIR PLUSCONTACTEZ-NOUS
Parlons de vos idées !
Donnez un coup de pouce à votre entreprise avec votre partenaire digital innovant. Nous vous répondrons sous un jour ouvré. (GMT+8)