Alibaba が画像入力に反応するAIチャットボットを発表

Alibaba Cloudは、OpenAIの「GPT-4」やGoogleの「Bard」と同様の機能を持つオープンソースのAIモデルとチャットボットを公開しました。

これは、画像入力が与えられたときに関連する回答を提供できる中国初のモデルです。Baiduの「Ernie Bot」もマルチモーダル機能を持つことが知られていますが、政府の認可の問題で正式リリースが遅れています。

AIモデルの「Qwen-VL」と「Qwen-VL-Chat」は画像を理解し、複雑な会話をすることができます。これらは、同社が4月にリリースした70億のパラメータを持つ大規模言語モデル「Tongyi Qianwen(通義千問)」を微調整したものです。

特に、Qwen-VL-Chatは、複数の画像入力を比較し、ストーリーを作成し、画像を生成し、入力された写真に基づいて写真に描かれた数式を解くなどのタスクを実行できます。

例えば、中国語を話せない外国人旅行者が治療のために病院を訪れ、院内案内ボードの写真を撮ったとします。そして、Qwen-VL-Chatに 「整形外科は何階にありますか?」と質問すると画像情報に基づいて、Qwen-VL-Chatはテキストによる回答を提供することができます。

Alibaba Cloudの2つのAIモデルは現在、同社の「ModelScope」と呼ばれるリポジトリから無料で配布されており、商用利用も可能で、この動きは、クラウド部門の新規株式公開を踏まえて、同社のユーザー基盤を拡大するためのものだと推測されてます。これは、同社が9月に予定されている大規模な再編成に向けて準備を進めていることを意味します。



W.Media (Jinny Kim記者 )より抄訳・転載



関連記事一覧

  • コメント ( 0 )

  • トラックバックは利用できません。

  1. この記事へのコメントはありません。