画像生成AIとは? 生成の仕組みやビジネスでの活用例、現状の課題を解説

2023.10.12 株式会社システムインテグレータ

近年、ビジネスで画像生成AIを活用する企業が増加しています。SNSでも話題を集める画像生成AIについて、どのような技術であり、ビジネスにどう役立てられるのか気になる経営者や担当者も多いはずです。本記事では、画像生成AIの仕組みやビジネスでの活用例などを解説します。

画像生成AIとは?

画像生成AIとは? 生成の仕組みやビジネスでの活用例、現状の課題を解説 1

画像生成AIとは、テキストで仕上がりを指示された通りにイラストを作成する、生成系AIの一種です。たとえば、「お座りしている猫」とテキストを入力すれば、内容にマッチした画像をAIが自動で生成してくれます。

従来のAIが、学習したデータをもとに入力されたデータへの正誤判定や予測を返すのに対し、生成系AIは、入力されたデータから新たにオリジナルコンテンツを生み出す点が特徴です。近年、画像生成AIは多方面から注目を集めており、ビジネスでも活用しようとする動きが加速しています。

たとえば、オリジナルの画像を大量に用意しなければならないようなシーンにおいて、画像生成AIは有効です。指示した内容にしたがってオリジナル画像を生成してくれるため、画像収集の手間やコストなどを大幅に削減できる可能性があります。今後も、画像生成AIは多様なシーンで活用されると考えられます。

AIによる画像生成の仕組み

画像生成AIは、機械学習の一種であるディープラーニング（深層学習）を用いている点が特徴です。入力された膨大な学習データを自ら学習、分析し、そこからオリジナルのコンテンツを生成します。

画像生成AIの仕組みは大きく「教師あり学習」と「教師なし学習」の2つにわけられます。と呼ばれる仕組みが採用されています。教師なし学習は、手本や正解を与えずに自ら考えさせて答えを導き出させる手法です。

こうした技術によって、画像生成AIは大量の画像データを学習し、テキストで指示された内容にしたがって画像の生成を行います。

画像生成AIが注目されている背景

AIは、入力された画像に何が映っているのかを判定するなど、画像認識の分野で活用されてきた経緯があります。この技術は、異常検知や物体検出、物体認識などに活用されてきました。

画像生成AIが大きな注目を集めたのは、簡単な操作でプロのイラストレーターが描いたような画像を容易に生成できるためです。画像生成AIを一躍有名にしたのは、イギリスのStability AI社が2022年にリリースした「Stable Diffusion（ステーブルディフュージョン）」です。優れた画像生成AIである同サービスを無料でリリースしたことによって一躍注目を集めました。

なお、Stable Diffusion以前にも画像生成AIは存在しました。たとえば、OpenAI社がリリースした「DALL・E2」がよく知られています。「ChatGPT」を開発したことでも知られる同社がリリースした DALL・E2も優れた画像生成AIであったものの、有料であったためそれほど注目度は高くありませんでした。

Stable Diffusionがまたたくまに脚光を浴び、SNSなどでも話題になったのは、無料利用ができるだけに留まらず、商用利用も可能であるためです。この点に注目が集まり、一般層にまで浸透する結果となりました。

画像生成AIと画像編集AIの違い

画像生成AIと混同されやすいAIに、画像編集AIがあります。それぞれの違いは明確に定義づけられておらず、両者ともに生成AIの一種であることから、はっきりと区別はされていません。

強いて違いを挙げるのなら、画像生成AIは入力されたテキストにしたがってオリジナルの画像コンテンツを創造するのに対して、画像編集AIは既存の画像に加工や修正を行う、といった点です。

なお、画像編集ソフトのなかには、画像編集AIの機能を実装した製品もあります。代表的なのは「Adobe Photoshop」です。こちらの製品には「生成塗りつぶし」という機能が実装されており、AIによって画像にない要素を足す、別の画像に置き換えるなどさまざまな加工が可能です。

画像生成AIの技術手法

画像生成AIの技術手法には、CNNやVAE、GANなどがあります。それぞれどのような技術手法なのか、概要を知っておきましょう。

CNN（畳み込みニューラルネットワーク）

CNNはConvolutional Neural Networkの略であり、日本語では畳み込みニューラルネットワークと訳されます。畳み込みとは、フィルターをかけた画像を特徴マップに落とし込むことであり、そのうえで一致不一致などを判断します。

CNNは画像の特徴を高精度で抽出できるため、画像認識の分野で活用されてきました。画像生成技術にも多大な影響を及ぼしたほか、後述するVAEやGANでも畳み込みを用いた判定を行っています。

VAE（変分オートエンコーダ）

VAEは、Variational Autoencoderの略であり、日本語では変分オートエンコーダと訳されます。教師なし学習のディープラーニングによって画像を生成する点が特徴です。

VAEは、訓練データの学習によって特徴を抽出し、似ている画像を作成します。また、異常検知に強みをもつのもVAEの特徴です。実際に、構造が複雑な工業製品の異常検知に、VAEが活用されている事例が多々あります。

GAN（敵対的生成ネットワーク）

GANは、Generative Adversarial Networksの略であり、日本語では敵対的生成ネットワークと訳されます。生成モデル（Generator）と識別器（Discriminator）という2つのニューラルネットワークを意図的に競争させることによって、高品質な画像の生成を可能にする技術です。

画像の生成を担う生成モデルと、生み出された画像の真偽を判定する識別器がライバルとなって、互いに高めあうことで高品質な画像の生成を行います。

画像生成AIのモデル

画像生成AIのモデルとしては、Pix2PixやTransGAN、StyleGAN2などがあります。それぞれの特徴に目を通してみましょう。

Pix2Pix

GANをベースとするスタイル変換モデルで、2017年に発表された論文「Image-to-Image Translation with Conditional Adversarial Networks」で公開されました。画像から画像を意味するPix to Pixを、Pix2Pixと表現しています。

GANで生成した2つの画像をペアで学習させる点が特徴です。その結果、インプットされた画像とは異なるコンテンツを創造できます。

TransGAN

TransGANは、畳み込みを用いずにTransformer（自己注意機構）だけで画像生成できるモデルとして注目を集めました。2021年に登場したばかりの新たなモデルであることも、注目された理由です。CNNベースのGANに匹敵、もしくはそれを超える性能と成果が期待できると話題を集めています。

StyleGAN2

StyleGANは、高解像度の画像生成を可能とするGAN派生モデルのひとつです。実写と見分けがつかない画像を生成できるStyleGANは、写真が証拠になる時代は終わったと言われるほど高い評価を受けました。ただ、StyleGANにはノイズや部分的な不自然さの発生といった問題がありました。それを改善したのがStyleGAN2です。

DALL・E2（ダリ・ツー）

DALL・E2（ダリ・ツー）は、ChatGPTでまたたく間に名を馳せたOpenAI社が、2022年にリリースした画像生成モデルです。もともと、DALL・Eの名称で世にお披露目されましたが、より高品質なモデルとしてDALL・E2が発表されています。入力されたテキストにしたがい画像を生成する、Text to image（text-to-image）という機能が用いられています。

Stable Diffusion（ステーブルディフュージョン）

Stable Diffusion（ステーブルディフュージョン）は、Text to image（text-to-image）による画像生成が可能なモデルです。2022年8月にStability AI社がリリースしました。識別器を使用することなくノイズ画像から画像を生成できるのが特徴です。無料利用や商用利用もできることから画像生成AIの知名度を一気に高めました。

Midjourney（ミッドジャーニー）

Midjourney（ミッドジャーニー）は、アメリカのAI研究チームが開発したモデルで、2022年7月にベータ版がリリースされました。Text to image（text-to-image）による画像生成が可能なモデルで、写実的かつ芸術的な画像を生成できると、SNSでも話題を集めました。利用の際には、チャットサービスであるDiscord（ディスコード）のインストールとアカウント登録が必要です。

画像生成AIのビジネス活用例

ますます注目度が高まっている画像生成AIは、すでにビジネスでも活用が始まっています。製造業を営む企業も画像生成AIを活用することで、業務効率化や生産性向上などの効果が期待できます。

商品写真の生成

画像生成AIの活用によって、商品写真の生成が可能です。しかも、大量の商品写真を自動生成できるため、従来のような撮影の手間やコストを大幅に抑えられます。これまで、商品写真の撮影に自社のリソースを大量に費やしてきた企業であれば、画像生成AIの多大な恩恵を受けられます。

広告やバナーなどの作成補助

画像生成AIは、広告やバナーなどの作成補助に活用できるため、マーケティングの効率化にも有効です。自社で広告やバナーのデザインを作成しているケースでは、なかなかデザインが決まらずいたずらに時間をムダにしてしまうこともあります。

画像生成AIに十分なテキスト情報を与えたうえで画像を生成すれば、自社のターゲットに響く広告やバナーのデザイン生成が可能です。明確なターゲット像をテキスト化し、入力することでAIがターゲットにマッチしそうな画像を生成してくれる可能性があります。

なお、これは決して希望的観測ではなく、効果の裏づけもされています。ある企業が従来のバナー広告を画像生成AIで作り替えたうえで運用したところ、クリック率が約1.8倍にまで伸びたとのことです。

参照元：「画像生成AI」でマーケ激変？　Facebook広告でクリック率1.8倍

製品のデザイン案作成

製品のデザイン案を作成する際にも、画像生成AIを活用できます。理想的な製品デザインをテキスト化し、画像生成AIへインプットすれば、学習した膨大なデータを活用しつつデザイン案を創造してくれます。

優れた製品デザインを画像生成AIで作成できるのなら、専門職のデザイナーに作業を依頼する必要がありません。外部の専門家へデザインを依頼するとなれば、幾度にもわたる打ちあわせが発生するほか、費用もかかります。一方、画像生成AIであればテキストの入力だけでデザインを生み出せるため、手軽なうえに大幅なコストダウンが可能です。

画像生成AIを活用する上での課題

すでにビジネスでの活用が始まっている画像生成AIですが、いくつかの課題があります。知的財産権問題や法整備、フェイク画像による社会問題、学習データの偏りなどが現状で考えられる主な課題です。

知的財産権や法整備の問題

画像生成AIは、インプットされたテキストや学習データをもとに画像を生成します。その過程で、画家やアーティストの作品を参考にすることも考えられ、知的財産権の侵害につながる点に注意が必要です。事実、SNS上には著名な画家の画風をコピーしたと見られても不思議ではない、多くのAI生成画像が投稿されています。

AIで生成した画像には基本的に著作権が発生しないと考えられているものの、現状、画像生成AIで生成したコンテンツの扱いに関する法整備は進んでいません。

万が一、生成した画像が知的財産権を侵害していた場合、画家やアーティストから訴訟を起こされるリスクがあります。企業としての社会的な信用を失うおそれもあるため、活用には慎重な姿勢も必要です。

フェイク画像による社会的問題

画像生成AIを使えば、誰でも高精度な画像を生成できます。たとえば、東京の街中を猛獣が歩いているような画像の生成も可能です。このようなフェイク画像を、まるで本物であるかのように装いSNSなどで発信すると、人々を恐怖に陥れかねません。

実際、2023年の5月には、アメリカの国防総省近くで大規模な爆発が発生、といった文言とともに、爆発の様子を伝えるフェイク画像がインターネット上で拡散されました。AIで生成されたこの画像によって、ダウ平均株価が一時的に80ドル近く下落しています。

参照元：AI生成のフェイク画像でダウ平均株価が一時80ドル近く下落

学習データの偏り

学習データが偏ると、生成される画像にも影響を及ぼすおそれがあります。学習データが偏った結果、たとえば「看護師」と入力すると女性の画像ばかりが生成されてしまう、といったことも起こりかねません。性別や人種、宗教的な観点から問題に発展しかねないため、学習データの偏りが起きないよう注意が必要です。

まとめ

リアルで高精度な画像を生成できる画像生成AIは、ますます注目度が高まっています。ビジネスで活用されるケースも増えており、製造業を営む企業にもよい結果をもたらす可能性があります。一方で、知的財産権の侵害リスクや法整備の遅れといった課題があることも事実です。課題に注視しつつ、画像生成AIのビジネス利用を検討してみてはいかがでしょうか。

生成AIとは? 仕組みや種類、ビジネスでの活用例について解説

ハレーションとは? 発生の原理や似た言葉、対策･防止方法について解説

画像生成AIとは? 生成の仕組みやビジネスでの活用例、現状の課題を解説