コラム
劇的進化!使い道が広がったChat GPT-4o
次世代AIの進化
AIの進化で盛り上がっている昨今、OpenAIが新たに発表したGPT-4oは、これまでのGPTモデルに比べて大きな進化を遂げた次世代のAIです。
ちなみに、oはOmni オムニ(「全ての」や「総合的な」という意味)の略で、テキスト、画像、音声、全てのモダリティ(情報やデータの種類や形式)を組み合わせて使用できることを意味しているそうです。
ここでは、GPT-4oの特徴・前バージョンとの違い、そして具体的な応用例についてご紹介します。
GPT-4oの特徴
マルチモーダル対応、使用範囲が広くなった!
GPT-4oは、テキストだけでなく、音声、画像、ビデオにも対応しています。
音声からテキストへの変換、またはその逆、長時間の動画の要約、手書きのメモから情報を汲み取る、ExcelファイルをアップロードしてChat GPTに編集してもらう、などあらゆる場面で利用できます。
人間のようなレスポンスの速さ!
GPT-4oは、応答時間が圧倒的に短縮されました。
多くの同時ユーザーを扱う際にも高いパフォーマンスを維持できます。
特に音声入力に対しては人間の処理能力と近い232ミリ秒で応答できるため、ほぼリアルタイムで会話ができます。
高度な文脈理解、日本語の能力向上!
より複雑な指示を理解し、長文のテキストを一貫して生成する能力が向上。
以前までは英語ベースで訓練されていたため不自然な日本語もありましたが、今回は日本語を含む多言語データでの訓練が強化され、日本語の言語理解と生成の性能が大きく向上しました。
無料でも十分使える!
GPT-4oは無料ユーザーと有料ユーザーの両方に提供されており、
以前はサブスクリプションでしか利用できなかった高度な機能を無料で利用できるようになりました(画像生成は無料版非対応)。
今の時点では、5時間ごとに10回、5時間経つとまた10回使えるようになるとのこと。
実際にやってみた
・動画の内容の理解と翻訳、そして要約
上記のGPT-4oの動画をわかりやすくまとめてくれました。
やや抽象的で具体性が少ないですが、さらに指示を出せばブラッシュアップしてくれそうです。
動画を最後まで見なくても内容を理解でき時短になる上に、翻訳までしてくれます!
・文章の校正、誤字脱字、文法の訂正
上記はスキャンして画像化した英語の教科書を、無理やりOCR(画像からテキスト情報を読み取る)したテキストを校正してもらった例です。
OCRできちんと判別できなくて変な文字になってしまった文字も、ちゃんと「おかしいですよ」と指摘してくれました。
・プランニングAのコラムの売れっ子記事を分析してもらう
上記はプランニングAのWEBサイトで1番読まれているコラムを分析したものです。
予想以上に細かくてびっくり!
しかし、標準ではChat GPTにアナリティクスの権限は無いので、どこから仕入れた情報?
よくよく調べてもらうとChat GPTの嘘だったことが判明・・・
いくらバージョンアップしたとはいえ「普通にそれっぽい嘘を言う」というのは変わらずでしたので、
最後は人間によるチェックが必要ですね!
まとめ
AI技術の最先端を行くOpenAI。
GPT-4oは、AI技術の大きな進化を表しています。
これらにより、医療や教育、カスタマーサービスなど、さまざまな分野での利用が可能になり、ますます多くの場面で活用されるでしょう。
詳細については、以下のリンクから
OpenAI