OpenAIは一部のユーザーに対して、ChatGPTの新機能を試す機会を提供している。この機能は人工知能(AI)を用いてウェブブラウザを操作し、旅の予約や食料品の購入、セール情報の検索など、インターネット上の作業の多くを代行するものだ。
「Operator」と呼ばれるこの新しいツールは、いわゆる「AIエージェント」である。AIエージェントは文章と画像の両方で訓練されたAIモデルを用いてユーザーの指示を解釈し、ウェブブラウザをどのように操作して作業をこなすかを判断する。このAIエージェントには、日常的なタスクや仕事で発生する作業の多くを自動化できる可能性があると、OpenAIは説明している。
続々登場する「AIエージェント」
OpenAIのOperatorは、グーグルやAnthropicが先行して発表したウェブを操作できるAIエージェントに続くものだ。AIエージェントはチャットボットに次ぐAIの進化形態と世間では認識されており、多くの企業がこの分野の製品を宣伝し注目を集めている。しかし、大半のAIエージェントの機能は非常に限定的で、通常のソフトウェアで実行できる作業を言語モデルで自動化しているにすぎない。
「AIは、質問に答えるだけのツールから、実際に行動し、複数の工程がある複雑な作業をこなす存在へと進化しています」。OpenAIのプロダクト担当バイスプレジデントであるピーター・ウェリンダーはこう語る。「これは人々の生産性を大幅に向上させるだけでなく、仕事の質にも影響を与えるでしょう」
安全面の課題
OpenAIは、ChatGPTにウェブブラウザを使えるようにすることには新たなリスクが伴い、Operatorがときどき誤作動を起こす可能性があることを認めている。そのため、このツールにはさまざまな安全対策が施されているとOpenAIは説明しており、Operatorの機能は段階的に増やしていく計画だという。
ウェリンダーと、OpenAIのComputer Using Agent(コンピューターを操作するエージェント)のプロダクト兼開発責任者であるヤッシュ・クマールは、ユーザーがこのツールをどう使うかを学んでいく計画だと話す。2人は、このツールが不要な予約や商品購入をしてしまう可能性があることを認めている。リスクのある行動をOperatorがする前に、必ずユーザーに確認を求める設計にするため、多大な労力を注いできたと話す。「取り返しのつかない行動をとる前に必ずユーザーに確認を求める仕組みになっています」とクマールは語る。
OpenAIはOperatorの1月下旬の発表に伴い、Operatorで発生する可能性がある問題を説明する新たな「システムカード」も発表した。これにはOperatorが指示を誤解したり、ユーザーの意図していた作業から逸脱したりする可能性に加え、ユーザーによる悪用やサイバー犯罪の標的になるリスクについても記されている。
「このツールは安全面で非常に多くの課題をもたらします」とクマールは語る。「その理由は、攻撃の対象となる領域やリスクの範囲が大幅に広がるからです」
OpenAIはまず月額200ドル(約30,000円)の高額な有料プラン「Pro」に加入しているChatGPTユーザーに、「研究プレビュー版」としてOperatorを提供する予定だ。Operatorは利用中に間違いを起こす可能性があることから、ツールの提供は慎重に進め、利用者を徐々に拡大していく計画だと同社は説明している。
能動的なAIにできること
Operatorはいくつかのデモンストレーションを通じて、ウェブ上のアシスタントとしてより能動的な役割を担うAIの可能性を示した。このツールには、別のサーバー上で動作する「リモートウェブブラウザ」と、ユーザーとコミュニケーションをとるためのチャット画面が備わっている。
『WIRED』の依頼を受け、Operatorはコネチカット州ニューヘイブンからワシントンD.C.までの旅客鉄道「Amtrak」のチケットを予約するよう指示された。Operatorは正しいウェブサイトを開き、必要な情報を正しく入力して時刻表を表示させた後、ユーザーに次の指示を求めた。ユーザーがAmtrakのウェブサイト、あるいはプロフィールにクレジットカード情報を保存したブラウザにログインしている場合、Operatorはそのままチケットを予約することが可能だが、事前にユーザーの許可を求める仕組みになっている。
クマールは、サンフランシスコにあるレストランBerettaの席を予約するようOperatorに指示した。するとOperatorはレストランの予約サイトOpenTableにアクセスし、該当するレストランを見つけ、空き状況を確認した上で、次の指示をユーザーに求めた。Operatorが速やかに動作できるよう、OpenTableをはじめとする多くの人気サイトと提携しているとOpenAIは説明する。
この新しいツールは、ブラウザやウェブサイトを認識し、テキスト入力による対話が可能なOpenAIのAIモデル「GPT-4o」を基盤としている。これに加え、インターネット上でタスクを実行する方法を理解するために追加訓練も施されている。また、OpenAIはAPIを通じて、コンピューターが操作できるこのエージェント機能を提供する予定である。
(Originally published on wired.com, translated by Nozomi Okuma, edited by Mamiko Nakano)
※『WIRED』によるOpenAIの関連記事はこちら。
雑誌『WIRED』日本版 VOL.55
「THE WIRED WORLD IN 2025」発売中!
『WIRED』の「THE WIRED WORLD IN 20XX」シリーズは、未来の可能性を拡張するアイデアやイノベーションのエッセンスが凝縮された毎年恒例の大好評企画だ。ユヴァル・ノア・ハラリやオードリー・タン、安野貴博、九段理江をはじめとする40名以上のビジョナリーが、テクノロジーやビジネス、カルチャーなど全10分野において、2025年を見通す最重要キーワードを掲げている。本特集は、未来を実装する者たちにとって必携の手引きとなるだろう。 詳細はこちら。