By Sean Chen, 10. November 2023
Am 06.11.2023 fand die OpenAI DevDay-Veranstaltung statt, bei der OpenAI-CEO Sam Altman erneut die Grenzen von OpenAI überschritt und den AI-Entwicklern neue Möglichkeiten eröffnete. Lassen Sie uns in diesem Artikel gemeinsam herausfinden, welche Anziehungskraft das GPT-4 Turbo für Softwareentwickler hat.
Während andere große Technologieunternehmen noch versuchen, die Leistung von GPT-4 einzuholen, hat OpenAI-CEO Sam Altman erneut die Grenzen von OpenAI überschritten und den AI-Entwicklern neue Möglichkeiten eröffnet, was die führende Position von OpenAI im Bereich der künstlichen Intelligenz unterstreicht.
Der Kontext bezieht sich auf die Gesamttextmenge, die einem großen Sprachmodell als Eingabe und im Dialog bereitgestellt wird. Früher unterstützte die maximale Textmenge bis zu 32.000 Tokens (nur für einige Entwickler verfügbar), während GPT-4 Turbo bis zu 128.000 Tokens erlaubt, was bedeutet, dass ein 300-seitiges Buch auf einmal in GPT-4 Turbo eingegeben werden kann, um Inhalte zu generieren. In Bezug auf die Geschwindigkeit war die langsame Generierungsgeschwindigkeit das größte Manko von GPT-4, was dazu führte, dass Unternehmen häufig GPT-3.5 für praktische Anwendungen verwendeten. GPT-4 Turbo löst dieses Problem und erreicht eine Generierungsgeschwindigkeit, die der von GPT-3.5 nahekommt, was zukünftige Integrationen von GPT-4 Turbo bereichert. In Bezug auf die Kosten ist die Abrechnung für Eingabeaufforderungen im Vergleich zur vorherigen Version von GPT-4 dreimal günstiger, und die Abrechnung für die Ausgabe von Texten ist doppelt so günstig.
OpenAI hat Anfang dieses Jahres die Funktion „Funktionsaufruf“ eingeführt, die es Entwicklern ermöglicht, beim Einsatz von GPT benutzerdefinierte Codefunktionen aufzurufen. Mit anderen Worten, es ermöglicht der intelligenten KI, sich mit verschiedenen APIs zu verbinden, was die Einsatzmöglichkeiten von OpenAI erheblich erweitert. Die Stärke des Modells liegt darin, dass es Entwicklern ermöglicht, mehrere Schnittstellen für Programme bereitzustellen, und GPT kann selbst entscheiden, welche Anweisung aufgerufen werden soll und welche Parameter verwendet werden sollen.
Beispiel: Ein Entwickler eines intelligenten Sensorlichts bietet zwei Anweisungen an: „Farbe einstellen“ und „Sensorzeitraum einstellen“. Die Parameter für die Farbeinstellung sind Weißlicht, natürliches Licht und Nachtlicht. Wenn die Eingabeaufforderung an GPT lautet: „Bitte stellen Sie das Licht für die Nacht ein“, entscheidet GPT automatisch, die Anweisung „Farbe einstellen“ zu verwenden und den Parameter „Nachtlicht“ zu wählen, ohne dass menschliches Eingreifen erforderlich ist. Früher war es notwendig, benutzerdefinierte Logik mit NLP-Technologie zu schreiben, um diese Funktion zu erreichen, aber jetzt kann dies einfach durch den Aufruf des GPT-Programms erreicht werden.
Mit diesem Update kann GPT genauer bestimmen, welche Anweisung und welche Parameter verwendet werden sollen, und es wurde verbessert, dass GPT nur eine Anweisung auf einmal aufrufen kann. In der Vergangenheit mussten Entwickler bei komplexeren Szenarien zusätzliche Programme schreiben, um mehrere Funktionsaufrufe zu ermöglichen; mit diesem Update kann GPT mehrere Anweisungen gleichzeitig ausführen und die Ergebnisse jeder Anweisung miteinander verknüpfen. Zum Beispiel: Bei der Eingabeaufforderung „Ich stehe nachts auf, um Wasser zu trinken, bitte stellen Sie das passende Licht ein“ kann GPT entscheiden, die Anweisungen „Farbe einstellen“ und „Sensorzeitraum einstellen“ aufzurufen und den Parameter „Sensorzeitraum“ auf „01:00 bis 06:30 Uhr“ festzulegen, während der Parameter für „Farbe einstellen“ auf „Nachtlicht“ gesetzt wird.
Darüber hinaus waren die Antworten des Sprachmodells bisher immer in einem „nicht spezifizierten Textformat“, und wenn eine Antwort in einem bestimmten Format gewünscht wurde, musste dies in der Eingabeaufforderung angegeben werden, z.B. „Bitte im XML-Format antworten“; jedoch stießen Entwickler oft auf das Problem, dass die Antwort nicht vollständig im XML-Format war und oft Teile von reinem Text enthielt, was zu Fehlern bei der Formatkonvertierung führte. Mit GPT-4 Turbo können Entwickler nun den Parameter response_format einstellen, der auf gängige API-Rückgabeformate wie XML oder JSON gesetzt werden kann, was die Stabilität des Programms erhöht.
Schließlich erlaubt OpenAI den Benutzern auch, den Seed-Parameter einzustellen, der die Zufälligkeit der von GPT zurückgegebenen Inhalte bestimmt. Durch die Einstellung dieses Parameters können Entwickler sicherstellen, dass die Rückgabe des Sprachmodells konsistent bleibt, was ihnen mehr Sicherheit bei der Erstellung von Testfällen gibt (um zu vermeiden, dass das Sprachmodell plötzlich unterschiedliche Antworten liefert) und die Testbarkeit und Qualität des Programms erhöht.
Zusätzlich zu den oben genannten beiden Punkten ist die Veröffentlichung der Assistants API das Highlight des DevDay in Bezug auf die Erweiterung der Anwendungsszenarien.
In der Vergangenheit war es erforderlich, Drittanbieter-Tools wie LangChain zu verwenden, um generative AI-Anwendungen mit großen Sprachmodellen zu entwickeln, die den Modellen erweiterte Fähigkeiten verleihen, wie z.B. die Verwendung mehrerer Sprachmodelle, die Fähigkeit zur Anpassung von Daten, Gedächtnis und Agenten (Agenten, die es der KI ermöglichen, kontinuierliche Aufgaben und Entscheidungen auszuführen), um komplexere AI-Szenarien zu realisieren.
Die auf dem DevDay vorgestellte Assistants API integriert die oben genannten Fähigkeiten in die offizielle API und erspart Entwicklern die Mühen, die mit der Integration von Drittanbieter-Tools verbunden sind. Dies ist das erste Mal, dass die offizielle Seite über die reine Optimierung der Leistung großer Sprachmodelle hinausgeht und beginnt, die Anwendung von „Agenten“ zu erkunden. In den offiziellen Dokumenten heißt es: „Ein Assistent ist eine zielgerichtete KI, die es ermöglicht, spezifische Anweisungen zu verwenden, externe Daten zu nutzen oder verschiedene Sprachmodelle und Werkzeuge zur Ausführung von Aufgaben zu verwenden.“
Die neue Assistants API enthält auch mehrere integrierte Tools, darunter neben den oben genannten „Funktionsaufrufen“ auch einen „Code-Interpreter“ und „Datenabruf“.
Der „Code-Interpreter“ von GPT-4 ermöglicht es, selbstgeschriebenen Code in einer Sandbox-Umgebung auszuführen (derzeit nur Python unterstützt). Früher mussten Ingenieure den von GPT-4 unterstützten Code kopieren und in ihrer eigenen Entwicklungsumgebung testen, aber die von OpenAI bereitgestellte Sandbox-Umgebung reicht aus, damit GPT-4 den Code selbst auf Korrektheit überprüfen kann und den Code schrittweise selbst anpassen kann, bis das Ziel erreicht ist.
Der Code-Interpreter hat jedoch eine weit größere Bedeutung als nur „GPT-4 die Korrektheit seines eigenen Codes überprüfen zu lassen“; seine größere Bedeutung liegt darin, dass „das große Sprachmodell seinen eigenen Computer hat“, der in der Lage ist, die meisten Aufgaben auszuführen. Jetzt können große Sprachmodelle in Form von Anweisungsprogrammen interagieren, obwohl die Ausführung in einer eingeschränkten Sandbox-Umgebung den Code-Interpreter auf die Verwendung bestimmter Drittanbieter-Tools beschränkt, aber es reicht aus, um „die meisten Aufgaben, die Python-Programmiersprachen gut bewältigen können“, wie Datenverarbeitung und API-Aufrufe, auszuführen und größere vom Benutzer bereitgestellte Code-Dateien zu lesen. In Bezug auf die Sicherheit kann die Sandbox-Umgebung verhindern, dass die leistungsstarken Fähigkeiten des großen Sprachmodells missbraucht werden, und bietet somit ein gewisses Maß an Sicherheit.
Der „Datenabruf“ ermöglicht es Benutzern, ihre eigenen Daten hochzuladen (z.B. branchenspezifische Daten, Produktinformationen oder interne Dokumente) und das große Sprachmodell kann auf diese Daten antworten und in ihrer Branche oder ihrem Bereich angewendet werden. Diese Funktion war seit der Einführung von GPT-3 ein heiß umkämpftes Thema. Der auf dem DevDay vorgestellte Datenabruf ist die erste native Lösung für diese Funktion, die von der offiziellen Seite angeboten wird, z.B. um Unternehmen die Erstellung von internen Wissensrobotern zu ermöglichen, wie AI-Projektmanager, AI-Systemanalysten; in Bereichen wie Medizin, Finanzen usw. Kundenservice-Roboter, die in der Vergangenheit komplexe Sprachverarbeitungstechnologien erforderten, um sie zu realisieren, können nun mit dem leistungsstarken Sprachmodell GPT-4 und der von OpenAI offiziell bereitgestellten Datenabruf-Funktionalität umgesetzt werden, sodass Entwickler sich auf die Geschäftslogik, die Datenkorrektheit und die Feinabstimmung der Details konzentrieren können. Darüber hinaus sind die in der Vergangenheit erforderlichen Vektordatenbanken, Datensegmentierung oder spezifische Suchalgorithmen bei der Verwendung von Drittanbieter-Tools mit der Unterstützung von OpenAI nicht mehr erforderlich, was die Entwicklungskosten und den Aufwand erheblich reduziert. OpenAI betont auch, dass die mit der Assistants API verwendeten Gespräche und Dateien nicht zur Schulung des nächsten Modells von OpenAI verwendet werden.
Insgesamt optimiert OpenAI nicht nur kontinuierlich die Effizienz des Modells, sondern erweitert auch ständig die Anwendungsmöglichkeiten großer Sprachmodelle. Sam Altman sagte, dass GPT-5 in naher Zukunft nicht auf den Markt kommen wird, da die Notwendigkeit, ein größeres Sprachmodell mit mehr Parametern zu trainieren, angesichts der aktuellen Genauigkeit von GPT-4 nicht hoch zu sein scheint. Stattdessen liegt der Fokus von OpenAI derzeit darauf, die Leistung, Benutzerfreundlichkeit und Erweiterbarkeit von GPT-4 zu verbessern. Für Entwickler, Unternehmen und Endverbraucher ist die Einführung leistungsfähigerer KI, die in den meisten Szenarien angewendet werden kann, bereits ein Schwerpunkt der nächsten Generation der digitalen Transformation. Das von OpenAI geschaffene GPT ist wie das Gehirn der zukünftigen technologischen Welt, und wir glauben, dass die kommenden Innovationen und Fortschritte die künstliche Intelligenz dazu befähigen werden, Werkzeuge besser zu nutzen, „sehen“, „hören“ und fließend „sprechen“ und „zeichnen“ zu können.
Die Begriffe „URL“ und „Domain“ sehen ähnlich aus, sind aber nicht dasselbe! Was passiert eigentlich, wenn du google.com in deinen Browser eingibst? Wie hängen Domain und URL zusammen? Dieser Artikel erklärt es dir klar und praktisch!
READ MOREWenn du zu denjenigen gehörst, die auf Reisen immer vergessen, wie viel Geld sie ausgegeben haben und keine Lust haben, alles manuell zu erfassen, dann solltest du unbedingt diese äußerst praktische App ausprobieren – „SaySay Accounting“.
READ MORESelbstbedienungsbestellungen sind der erste Schritt beim Betreten eines Restaurants und ein wichtiger Bestandteil unseres Esserlebnisses geworden. Wenn wir ein paar interessante Elemente hinzufügen, wie z.B. einen KI-Sprachassistenten, könnte das Bestellen intuitiver, unterhaltsamer und sogar menschlicher werden!
READ MORECONTACT US
Let's talk about your ideas!
Jump-start your business with your innovated digital partner. We will reply within one business day. (GMT+8)