画像生成AI、気が付けば日常ツールになっていた話

～NanobananaからChatGPT、そしてローカルAIへ～
最初に衝撃を受けたのはNanobanana
最近はChatGPT画像生成を使うことが増えた
でも、やりたい事が増えると限界も見えてくる
SD.NEXTを導入してみた
ただ、「作れる」と「伸びる」は別だった
それでもローカルAIへの興味は消えなかった
そして、AUTOMATIC1111へ

～NanobananaからChatGPT、そしてローカルAIへ～

ここ最近、画像生成AIの進化が本当にすごい。

少し前までは「AIが描いた画像」と聞くと、どこか不自然だったり、ネタ用途の印象が強かったのですが、最近では普通に実用レベル。
気が付けば、私自身もブログやYoutube制作で日常的に使うようになっていました。

特に現在は、

ブログのアイキャッチ画像
Youtube動画用画像
説明用イラスト
ネタ画像

など、かなりの頻度で画像生成AIを使っています。

最初に衝撃を受けたのはNanobanana

私が本格的に画像生成AIを使うようになったきっかけは、Gemini系の画像生成AI「Nanobanana」でした。

当時は、

「え、ここまで作れるの！？」

とかなり衝撃を受けました。

特に良かったのが、プロンプトを難しく考えなくても、かなり良い感じの画像を作ってくれるところ。

ブログ用のアイキャッチやYoutube用の画像を作るには十分すぎる性能で、
2カ月ほど前までは、私のアイキャッチ画像はほぼNanobanana製でした。

「画像生成AIって、もう実用レベルなんだな…」

と感じたのもこの頃です。

最近はChatGPT画像生成を使うことが増えた

ただ、ここ最近は状況がかなり変わってきました。

ChatGPTの画像生成機能が急激に進化したからです。

特に使っていて感じるのが、

日本語の理解力
修正指示の伝わりやすさ
会話しながら調整できること

この3つ。

例えば、

「もう少し表情を柔らかく」
「背景をシンプルに」
「この部分だけ変更したい」

といった内容が、かなり自然に伝わります。

画像生成AIというより、「会話しながら一緒に作っている感覚」に近い。

そのため最近は、ブログやYoutube用の画像も、ChatGPTで作ることがかなり増えてきました。

でも、やりたい事が増えると限界も見えてくる

そんな中で、Youtube動画用に「アハ画像」を作りたくなりました。

画像の一部だけが少しずつ変化する、あの脳トレ系の動画です。

ただ、この手の編集はWeb系の画像生成AIだと意外と難しい。

例えば、

一部分だけ変えたいのに全体が変わる
同じ構図を維持できない
微調整が難しい

など、細かな制御がなかなかできません。

そこで興味を持ったのが、ローカル画像生成AIでした。

SD.NEXTを導入してみた

私のPCはIntel製GPU。

画像生成AI界隈はNVIDIA前提の情報がかなり多く、正直かなり苦戦しました。

それでも調べていくと、Intel GPU対応も少しずつ進んでいる事を知り、ローカル画像生成AI「SD.NEXT」を導入してみることに。

最初は設定や用語だけでも大変。

checkpoint？
LoRA？
VAE？
ControlNet？

など、聞き慣れない単語だらけ。

ですが、ローカルAIならではの自由度はかなり魅力的でした。

実際にSD.NEXTを使って、アハ画像系のYoutube動画も数本作成しました。アハ画像を作りにはNanobananaやChatGPTだと元画像を編集して欲しい時、文字で伝えないといけません。SD.NEXTなら色々な機能がありますが、アハ画像ならインペイント最適。こちらは「画像の一部分だけを指定して修正・変化させる機能で、同じ構図を維持したまま、細かな違いを作れるのが特徴です。

やり方は簡単。元画像を読み込まし、変更箇所を塗りつぶします。今回は目の部分を。