最近話題のChatGPTを使って、世界中の人達がAIとテキスト文章ベースで会話チャットをしております。
いまはその会話がテキストベースではなく、画像認識させて会話できることをご存じでしょうか?
今回は自分が選んだ好きな画像をAIが認識して、回答をしてくれる「MiniGPT-4」についてご紹介します。
写真などをアップロードすると、AIがその画像の意味を理解して会話をしてくれます。
「MiniGPT-4」との会話方法は「ChatGPT」と同じですが、異なるのは画像を使って会話ができることです。
写真やイラストについて、色々質問をすることがきます!
実際にMiniGPT-4を使用すれば、「その精度の高さに驚かされる」ことは間違いないと思います!
この記事では、実際にいくつかの画像を利用した例も載せてあります。
本記事では、この「MiniGPT-4」の登録手順から利用方法までを誰でも分かるようにご説明致します。
利用にあたっては、「料金は一斉かからず、無料で使えて、登録なども必要ありません」。
画像を使って会話をするのではなく、画像編集をAIで試したい方は下記がおすすめです!
MiniGPT-4とは?
「MiniGPT-4」 は「ChatGPT」と似たAI システムでGitHub に投稿されたオープンソース プロジェクトです。
「MiniGPT-4」最大の特徴は、高度な大規模言語モデルによる視覚言語理解の強化されたモデルとなります。
現時点(2023年4月)ではOpenAIの「ChatGPT」は、この機能をまだリリースしておりません。
機能の概要としては、
- ChatGPTと同様にテキストベースの会話
- 好きな写真やイラストを通して会話
- アップロードした画像について説明が可能
利用するにあたって、
- 誰でも無料で使える
- 会員登録などは必要無し
ブラウザではなく、iPhoneのアプリで写真を認識させてChatGPTと会話したい方は以下がオススメ!!
利用方法
では、さっそく「MiniGPT-4」の利用方法について誰でも分かるように説明いたします。
実際の利用にあたっては、「サイトへアクセスするだけ」です!
サイトへアクセス
マイクロソフトのInternet Explorerでは「MiniGPT-4」がうまく動作しないことがあります。
よって、GoogleのChromeでサイトへアクセスすることを推奨いたします。
MiniGPT-4を利用するためのURLは以下となります。
URL : https://minigpt-4.github.io/
サイトのトップページに移動すると以下のような画面が表示されると思います。
英語のサイトですが、利用にあたってはそれほど英語力は必要ありません!
画像を認識する画面へ
先ほどのウェブサイトのトップよりDemo(下記画面を参照)のタブをクリックしてください。
MiniGPT-4は色々な機能を備えておりますが、今回はこのDemoを使用します。
クリックした後に以下の画面が表示されていれば、利用にあたっての準備は完了となります。
会員登録なども不要なので、あっというまでしたよね。
これで「MiniGPT-4」を利用する準備は完了となります。
もし、英語サイトに苦手意識があるかたは、画面上で右クリックを押して「日本語に翻訳」としてください。
少し違和感がある翻訳ですが、サイトが英語から日本語に変わります。
使用方法
利用するための準備は完了しましたので、次からは実際に画像を認識させてMiniGPT-4で会話してみます。
すでにChatGPTをご使用されている方なら、一瞬で理解できると思います。
好きな画像を選ぶ
まずは「MiniGPT-4」と会話をするために、自分の好きな写真やイラストを選んで追加してください。
下記の画面にある赤枠に対して、好きな画像をドラッグ&ドロップしてください。
今回はテスト的にフリー画像サイトから選んだ以下の写真を入力として使っていきたいと思います。
女性の方がリンゴを食べている写真です。
写真について聞いてみる
自分が選んだ画像を追加すると、写真が画面に表示されている(下記参照)のを確認してください。
この画面の確認が終わったら、実際に質問を入力していきます。
今回はテスト的なので、単純に「この写真はなんですか?」と英語で質問してみたいと思います。
日本語でも良いのですが、英語の方が精度が高くなります。
使用手順は以下となります。
1.画面にある「Upload & Start Chat」を押す
2.画面にある入力欄に質問を入れる
3.MiniGPT-4からの回答を待つ
ここで、1つだけ注意点があります。
- MiniGPT-4での画像を通した会話には時間が掛かることがある
さすがにAIとはいえ、画像を認識して回答するには多少時間がかかることもあるみたいですね。
写真に対しての回答を確認する
では、さきほど質問した内容 What’s this picture ?(この写真は何ですか?)に対しての回答を見てみましょう。
下記のスクリーンショットが実際のやりとりとなります。
いかがでしょうか?
入力した質問が、
What’s this picture ? (この写真は何ですか?)
に対して、
返信された回答は、
This is an image of a woman biting into an apple. (女性がリンゴをかじっている)
と認識しています。
MiniGPT-4が適格に写真を認識して理解をしております。
こんなことは、テキスト文章ベースのChatGPTにはできなかった機能ですよね。
写真について、もっと会話をしたい場合はさらに質問を入力してチャットを続けることも可能です。
この写真についてはこれくらいにしておいて、次はもっと色々な写真について質問をしてみます!
他の写真についても質問してみる
さきほどは抽象的な写真だったので、今度は具体的なものを認識して理解ができているか確認してみます。
使用する写真は誰もがしっている「ピラミッド」です。
下記スクリーンショットが実際に「MiniGPT-4」と「ピラミッドの写真」を通して会話した内容となります。
入力した質問が、
What’s this picture ? (この写真は何ですか?)
に対して、
返信された回答は、
This is a picture of the pyramids of giza in egypt. (エジプトにあるギザのピラミッド)
と認識しています。
完璧な答えをしてくれました!
答えが「三角形の建物」とか、「砂漠にある建造物」とかではなくギザのピラミッドという完全な理解です。
これでピラミッドについての会話がしたい人は、勘違いなくMiniGPT-4とチャットが成立することになります。
持っている情報量はずば抜けているので、しっかり「エジプト」とも記載していますね。
今度は写真を変えるだけでなく、質問も変更してMiniGPT-4が写真について何を感じるかを確認してみます。
質問する内容は「この写真について、どのように感じますか?」です。
下記スクリーンショットが実際に「MiniGPT-4」と「ピラミッドの写真」を通して会話した内容となります。
入力した質問が、
What are you feeling for this image ? (この写真について何を感じますか?)
に対して、
返信された回答が長いので要点をまとめると、
〇 私には感情がありません。 ただし、画像に関する情報を提供することはできます。
〇 男性と女性が床に座ってラップトップを見ているところを示しています。
〇 彼らは快適でリラックスしているように見えます。
〇 ラップトップを余暇や娯楽の目的で使用していることを示唆しています。
〇 女性の顔の真剣な表情は、目の前の仕事に集中していることを示唆しています。
と感じております。
1枚の写真からこんなにもたくさんの事を推測や分析をして、的確に答えを導き出してくれています。
最初に「私には感情がありません」も、正直ですよね。
人間の表情まで読みとることができているし、何をしているかも推測できているし、本当にお見事です。
AIの前ではウソがつけない時代もやって来るかもしれないですね。
これで「MiniGPT-4」の紹介を終わりとなります。
巷で話題の「ChatGPT」も驚くようなAIですが、「MiniGPT-4」もビジュアル分野ではとても優れています!
今後もこのようなAI技術が発展すれば、音声、画像ともに全てAIにお任せする日が来るかも (^^;)
結論
- MiniGPT-4は写真を認識できる
- MiniGPT-4は認識した写真を通して会話ができる
- MiniGPT-4は会員登録無し、且つ無料で使える
この記事を気に入って頂けましたら、「いいね」にクリックをお願い申し上げます。
また、コメント欄に感想を書いて頂けると今度の励みになります。
以上、お読みいただきありがとうございました。
コメント