Google最新AI「Gemini 」の特徴

2023年12月6日、GoogleがGeminiを公開しました。
参照:https://japan.googleblog.com/2023/12/gemini.html

今回発表されたGeminiもOpenAIが2022年11月に発表したChat GPT4.0もテキストや画像、音声、動画、ソースコードなどのマルチモーダルな情報を認識し理解できる、大規模言語モデルになります。
どちらのモデルもさまざまな用途に活用できる可能性を秘めていますが、それぞれに特徴やメリット・デメリットがあります。
この記事では、Gemini の特徴をわかりやすく解説します。

Geminiの特徴

Geminiの最大の特徴は、さまざまな種類の情報を処理できる点です。従来のAIモデルは、テキストや画像など、特定の種類の情報を処理することに特化していました。しかし、Geminiは、テキスト、画像、音声、動画など、さまざまな種類の情報を統合的に処理することができます。
そのため、Geminiは従来のAIモデルよりもより複雑なタスクを実行できるようになりました。
例えばテキストと画像の両方を組み合わせてより精度の高い、画像に関するプロンプトを行うことができます。
また、音声とテキストを組み合わせて、より自然な会話を実現することができます。

Geminiには3つのモデルがある

Ultra
UltraはGeminiのフルスペックモデルで、1.6兆パラメータで構成されています。Ultraは、まだ開発中ですが将来的には、より複雑なタスクを実行できるようになると期待されています。

Pro
Proは、Geminiのスタンダードモデルで、6000億パラメータで構成されています。Proは、すでに英語版の「Bard」として利用されており、テキストの生成や翻訳、質問への回答などのタスクを実行することができます。

Nano
こちらは、Geminiのミニマムモデルで、100億パラメータで構成されています。は、Pixel 8 Proなどのスマートフォンに搭載されており、カメラの画像認識や音声アシスタントの自然な会話などの機能を向上させるために活用されています。

Google AI Studiodでの利用方法

Google AI Studio は、生成モデルを使用したプロトタイピング用のブラウザベースの IDE です。
Gemini Proは、Webベースの開発者ツールGoogle AI Studioでで利用できます。
https://cloud.google.com/generative-ai-studio

また、Gemini Pro Visionも利用することができますのでぜひ試してみて下さい。

情報処理量の違い

Geminiは、テキスト、画像、音声、動画など、さまざまな種類の情報を処理できる能力を備えています。
この情報処理量は、従来のAIモデルと比較して非常に大きくなっています。
GeminiのフルスペックモデルであるUltraは、1.6兆パラメータで構成されています。これは、従来のAIモデルの最大パラメータ数である1000億パラメータの16倍に相当にあたります。
パラメータ数が多いということはより多くの情報を処理でき、複雑なタスクを実行できる様になります。

まとめ

GoogleのGeminiは、テキスト、画像、音声、動画などさまざまな種類の情報を処理できる能力を備えたGoogle AIの最新AIです。今後多くのGoogleサービスに実装される予定で、私達が日常的に使うサービスがさらに便利となり、Webサービス全体に革命を起こす可能性があります。
今後、学習を積み重ねることにより出力精度は向上すると思われますので、いまからチェックしておいてはいかがでしょうか。