googleが開発した新しい画像生成AIツール「Whisk」が注目を集めています。Whiskは、従来のテキストベースの画像生成AIとは異なり、複数の画像を組み合わせて新しい画像を生成する革新的なツールです。まるで泡立て器(Whisk)のように画像を混ぜ合わせることから、この名前が付けられました。
Whiskの特徴と機能
Whiskの最大の特徴は、テキストプロンプトを必要とせず、画像のみを入力として使用できる点です。ユーザーは「テーマ」「シーン」「スタイル」の3つの要素を画像で指定することで、AIがそれらを組み合わせた新しい画像を生成します。
この直感的な操作方法により、言葉では表現しづらいイメージや複雑なデザインを、簡単にAIに伝えることができます。例えば、ペットの写真を「テーマ」に、公園の写真を「シーン」に、水彩画の作品を「スタイル」に設定することで、ペットが公園にいる水彩画タッチの新しい画像を生成できます。
最先端AIモデルの活用
WhiskはGoogleの最新AIモデルである「Imagen 3」と「Gemini」を組み合わせて開発されています。Geminiモデルが入力画像のキャプション(説明文)を自動で作成し、そのキャプションをImagen 3が読み取って新しい画像を生成するという仕組みです。
この2つの先進的なAIモデルの連携により、高度な画像理解と生成が実現されています。
Whiskの利用方法と可用性
現在、WhiskはGoogle Labsを通じて無料で体験することができます。ただし、現時点では米国居住者のみが利用可能となっています。今後、利用可能な地域が拡大されることが期待されています。
クリエイティブ表現の新たな可能性
Whiskは、プロのクリエイターだけでなく、イラストが得意ではない人でも自分のイメージに近い画像を簡単に作成できるツールです。これにより、アートやビジュアル表現の幅が大きく広がる可能性があります。
日本文化に特化したテンプレート
Whiskには、カプセルトイやお弁当など、日本文化に特化したテンプレートも用意されています。これにより、より身近な表現での画像生成が可能になり、日本のユーザーにとっても使いやすいツールとなっています。
今後の展開と期待
Whiskは現在実験的な段階にありますが、その革新的な機能と使いやすさから、今後の発展が大いに期待されています。画像生成AIの分野に新たな風を吹き込むWhiskが、クリエイティブな表現の可能性をさらに広げていくことでしょう。
コメント