By Sean Chen, 2023年11月10日
2023年11月6日に開催されたOpenAI DevDayの発表会で、OpenAIのCEOであるSam Altmanは再びOpenAIを超越し、AI開発者に新たな可能性を提供しました。この記事を通じて、ソフトウェア開発者にとってGPT-4 Turboがどのような魅力を持っているのかを一緒に理解しましょう。
OpenAIは2023年11月6日にOpenAI DevDay発表会を開催し、他の大手テクノロジー企業がGPT-4の性能に追いつこうと苦戦している中、OpenAIのCEOであるSam Altmanは再びOpenAIを超越し、AI開発者に新たな可能性を提供しました。これにより、OpenAIは人工知能の分野でのリーダーシップをさらに強化しました。
コンテキストとは「大規模言語モデルに入力されるプロンプトと対話」の総テキスト量を指します。従来の最大テキスト量は32,000トークンまでサポートされていましたが(しかも一部の開発者のみ利用可能)、GPT-4 Turboは最大128,000トークンの総テキスト量を許可し、300ページの本を一度にGPT-4 Turboに入力して生成を行うことができます。速度に関しては、従来のGPT-4の最大の欠点は速度の遅さであり、生成を待つ間に多くの時間を費やすことが多かったため、企業は実際のアプリケーションでの問題解決にGPT-3.5を使用することが多かったのです。GPT-4 Turboはこの問題を解決し、生成速度をGPT-3.5に近づけ、将来のGPT-4 Turboの統合シナリオを豊かにしました。費用面では、前バージョンのGPT-4と比較して、プロンプトの料金が3倍安くなり、出力テキストの料金も2倍安くなりました。
OpenAIは今年初めに「関数呼び出し」機能を発表しました。この機能により、開発者はGPTを使用する際にカスタマイズされたコード関数を呼び出すことができます。つまり、AIをさまざまなAPIに接続することができ、OpenAIが使用できる領域を大幅に拡大します。このモデルの強力な性能は、開発者がプログラムの複数のコマンドインターフェースを提供するだけで、GPTがどのコマンドを呼び出すかを自動的に決定し、適切なパラメータを使用して実行できる点にあります。
例:スマートセンサー電球の開発者が「色の設定」と「センサーの時間帯設定」の2つのコマンドを提供します。色の設定コマンドのパラメータには、白光、自然光、小夜灯の3種類があります。GPTに「夜に適した電球を設定してください」と入力すると、GPTは自動的に「色の設定」コマンドを選択し、パラメータとして「小夜灯」を使用します。この決定プロセスには人間の介入は必要ありません。以前はNLP技術を使用してカスタマイズされたロジックを作成する必要がありましたが、今ではGPTプログラムを呼び出すだけで達成できます。
今回の更新により、GPTはどのコマンドとパラメータを使用すべきかをより正確に判断できるようになり、GPTが一度に1つのコマンドしか呼び出せないという制限も改善されました。以前は状況が複雑な場合、開発者はプログラムを別途作成して関数を複数回呼び出す必要がありましたが、今回の更新により、GPTは複数のコマンドを一度に実行し、各コマンドの結果を相互に伝達できるようになりました。例:プロンプト「私は夜中に起きて水分を補給する習慣があります。適した電球モードを設定してください」と入力すると、GPTは「色の設定」と「センサーの時間帯設定」の2つのコマンドを呼び出し、「センサーの時間帯」パラメータを「01:00から06:30」とし、「色の設定」パラメータを「小夜灯」と決定します。
さらに、言語モデルの応答は以前は「特定の形式ではないテキスト」で返されていましたが、特定の形式での応答を希望する場合はプロンプトで「xml形式で返してください」と要求する必要がありました。しかし、開発者がよく直面する問題は、応答形式が必ずしもxmlではなく、一部のプレーンテキストが混在しているため、形式変換でエラーが発生することです。今回のGPT-4 Turboでは、開発者がresponse_formatパラメータを設定し、xmlやjsonなどの一般的なAPI返却形式を指定できるようになり、プログラムの安定性が向上しました。
最後に、OpenAIはユーザーがSeedパラメータを設定できるようにしました。このパラメータは、GPTの応答内容のランダム性を決定します。このパラメータの設定により、開発者は言語モデルの応答を一貫性を保つことができ、テストケースを作成する際に安心して取り組むことができ(言語モデルが突然異なる答えを生成するのを防ぎ)、プログラムのテスト可能性と品質が向上します。
以上の2点の発表内容に加えて、アプリケーションシナリオの拡張という観点から、アシスタントAPIの発表がDevDayのハイライトです。
以前は、大規模言語モデルを利用して生成型AIアプリケーションを開発するには、LangChainなどのサードパーティライブラリを使用して、大規模言語モデルにより高度な能力を付与する必要がありました。例えば、多言語モデルの併用、カスタマイズデータの能力、記憶力、エージェント(AIが連続タスクを実行し、連続的な意思決定を行う能力)などです。これにより、より複雑なAIシナリオアプリケーションを実現できます。
DevDayで発表されたアシスタントAPIは、上記の複数の能力を公式APIに統合し、開発者がサードパーティライブラリの統合で直面するさまざまな問題を解消します。これにより、公式は単に大規模言語モデルの性能を最適化するだけでなく、「エージェント」のアプリケーションを探求し始めました。公式ドキュメントによると、「アシスタントは目標指向のAIであり、このAIは特定のコマンドを使用し、外部データを使用し、異なる言語モデルやツールを使用してタスクを実行することができます。」
新しいアシスタントAPIには、上記の「関数呼び出し」以外にも、「コードインタープリター」と「データリトリーバル」が内蔵されています。
GPT-4の「コードインタープリター」は、自分で書いたコードをサンドボックス環境で実行できるようにします(現在はPythonのみ対応)。以前はエンジニアがGPT-4の支援を受けて書いたコードを自分の開発環境でテストするためにコピー&ペーストする必要がありましたが、OpenAIが提供するサンドボックス環境では、GPT-4が自分のコードの正確性を自己検証し、実行結果に基づいてコードを段階的に自己修正し、目標を達成するまで続けることができます。
しかし、コードインタープリターの役割は「GPT-4が自分の書いたコードの正確性を検証する」以上のものであり、「大規模言語モデルが自分のコンピュータを持つ」ことにあります。コンピュータはほとんどのタスクを実行できるものです。現在、大規模言語モデルはコマンドプログラムの形で対話することができ、サンドボックス環境での制限により、コードインタープリターは特定のサードパーティライブラリのみを使用できますが、「Pythonプログラミング言語が得意とするほとんどのタスク」を実行するのに十分です。例えば、データ処理やAPI呼び出し、ユーザーが提供する大きなコードファイルの読み取りなどです。サンドボックス環境は安全性の観点から、大規模言語モデルの強力な能力が乱用されるのを防ぎ、安全性に一定の保証を提供します。
「データリトリーバル」は、ユーザーが自分のデータ(例:特定の産業分野のデータ、製品情報、内部文書など)をアップロードし、大規模言語モデルがこれらのデータに基づいて回答を行うことができるようにします。これにより、自分の産業や分野での応用が可能になります。この機能はGPT-3の登場以来、多くの企業が注目してきたポイントです。DevDayで発表されたデータリトリーバルは、公式が初めてこの機能に対するネイティブなソリューションを提供したものであり、企業が内部知識のロボットを構築する際に役立ちます。例えば、AIプロジェクトマネージャーやAIシステムアナリスト、医療や金融分野のカスタマーサポートロボットなどです。これまでは複雑な言語処理技術を使用して実現する必要がありましたが、今ではGPT-4の強力な言語モデルとOpenAIの公式提供のデータリトリーバル機能により、開発者はビジネスロジック、データの正確性、詳細の調整に集中できます。さらに、過去にサードパーティライブラリを使用する際に必要だったベクトルデータベース、データの分割処理、特定の検索アルゴリズムなどは、OpenAIの公式サポートにより、これらの開発手順やその派生費用を追加で処理する必要がなくなりました。OpenAIはまた、アシスタントAPIで使用される会話やファイルがOpenAIの次世代モデルのトレーニングに使用されないことを特に強調しています。
全体として、OpenAIはモデルの効率を絶えず最適化するだけでなく、大規模言語モデルの応用を拡大し続けています。Sam Altmanは、GPT-5が短期間で登場することはないと述べており、現在のGPT-4の精度を考えると、より大きなパラメータの言語モデルをトレーニングするために多額のコストをかける必要性は高くないように見えます。代わりに、GPT-4の性能、使いやすさ、拡張性を向上させることが、現在のOpenAIの重点です。開発者、企業、エンドユーザーにとって、より強力で多くのシナリオで応用可能なAIを導入することが、次世代のデジタルトランスフォーメーションの焦点となっています。OpenAIが創造したGPTは、未来のテクノロジー世界における脳のようなものであり、今後の創造と進歩が人工知能をよりツールの使用に長け、「見る」、「聞く」、流暢に「話す」そして「描く」ことができるようにするでしょう。
お問い合わせ
あなたのアイデアについて話しましょう!
革新的なデジタルパートナーと共にビジネスをスタートさせましょう。1営業日以内に返信いたします。(GMT+8)