Stable Diffusion

出典: フリー百科事典『ウィキペディア(Wikipedia)』
Stable Diffusion
A photograph of an astronaut riding a horse 2022-08-28.png
「乗馬する宇宙飛行士の写真」と指定して出力された画像
作者 Stability AI
初版 August 22, 2022
リポジトリ ウィキデータを編集
種別 Transformer language model
ライセンス CreativeML Open RAIL-M License
公式サイト github.com/CompVis/stable-diffusion
テンプレートを表示

Stable Diffusion(ステーブル・ディフュージョン)は、2022年8月に無償公開された描画AIである[1]。ユーザがテキストでキーワードを指定することで、それに応じて画像が自動生成される仕組みとなっている[2]。その画風はフォトリアルなものから肉筆的なタッチのものまで幅広く対応している[1]

DALL-E英語版などの競合モデルとは異なり、Stable Diffusionはソースコードが公開されているため[3]、生成する画像を人為的に制限していない[4]。 批評家は、このモデルがディープフェイクの作成に使用できると述べ、AI倫理に関する懸念を示した[5]。また、Stable DiffusionはGPUを備えた民生用のハードウェアで実行することができるため、PC Worldは「あなたが持つPCのための次のキラーアプリケーション」としてStable Diffusionを歓迎した[6]

開発[編集]

Stable Diffusionの開発は、オンライン上の研究コミュニティであるConpVisとLAION、およびロンドンを本拠とするAI企業Stability AIが行ない[1]、Stability AIはそのコード、ドキュメント、デモ版をAIコミュニティのHugging Faceで公開している[7]。学習データの作成にあたっては、「美しさ」を重視したデータセットのLAION Aestheticsを用い[8]NVIDIA A100 PCIe 40GBタイプ[† 1]を8基搭載した端末32台を使って[1]20億枚の画像とキーワードのペアが学習された[1]。これには延べ117万ステップ、15万時間の計算がAWSにおいて費やされた[1]。規模としてGoogleOpenAIには見劣りするものの[1]、特記すべきものになっている[1]。アルゴリズム方式の“Stable Diffusion”[† 2]はそのままプロジェクト名となった[1]。Stability AIの創業者であるエマード・モスタークは、描画AIで先行するDALL・E 2などより低スペックな一般消費者の端末でも実行可能な AI 作画環境を提供することにより「10億人をクリエイティブにする」と述べた[7]

利用[編集]

Stable Diffusionを利用するためにWebサービスのDreamStudioが用意されており[1]、また(2022年8月時点では)自分の端末にNVIDIA のGPUが乗っていればユーザ自身でStable Diffusionをインストールしローカル環境で実行することもできる[1]。Stable Diffusionは GoogleやOpenAIに比べると「不適切な画像」に対する制限が緩くなっているが[1]、これはユーザに重い責任を課すライセンスによってバランスがとられている[1]。作成された画像の権利はユーザが持ち[2]、商用利用することもできる[2]

著作権[編集]

絵柄や作風構図といったものは著作権の対象とならないため、Stable DiffusionをはじめとするAIの学習データに著作物が利用されること自体は問題ないと解釈されている[9]

論争[編集]

名探偵ピカチュウ』のクリーチャー・デザインに携わったR・J・パーマーは、Stable Diffusionが多くの現役クリエイターの作品を学習データに取り込んでおり、潜在的に彼らの仕事を奪いかねず権利侵害にあたると非難している[8]。DALL・E 2など他の画像生成サービスは、現代の風景写真家の作品を学習データから排除するなど、クリエイターとの協調関係に配慮を見せている[10]。またDiscordサーバーを通じて使えるStable Diffusionのホストバージョンは、他の画像生成サービスが禁止している政治的・宗教的にセンシティブな多くのテーマに関する画像[† 3]の生成を野放しにしているとTechCrunchは非難したが、モスタークは「違法なコンテンツは別として、フィルタリングは最小限に抑えられており、どのように Stable Diffusionを使用するのかはユーザー次第」とコメントするに留まった[8]

ギャラリー[編集]

画風の違い[編集]

様々な画像[編集]

脚注[編集]

注釈[編集]

  1. ^ 国内価格140万円程度[1]
  2. ^ 直訳すると“安定的な拡散”[1]
  3. ^ ウクライナでの戦争中国の台湾侵攻預言者ムハンマドの姿など[8]

出典[編集]

  1. ^ a b c d e f g h i j k l m n o 清水亮 (2022年8月26日). “Midjourneyを超えた? 無料の作画AI「 #StableDiffusion 」が「AIを民主化した」と断言できる理由”. Business Insider Japan. メディアジーン. 2022年8月28日閲覧。
  2. ^ a b c 石田賀津男 (2022年8月26日). “言葉で指示した画像を凄いAIが描き出す「Stable Diffusion」 ~画像は商用利用も可能【レビュー】”. 窓の杜. インプレス. 2022年8月28日閲覧。
  3. ^ Stable Diffusion Public Release”. Stability.Ai. 2022年8月31日閲覧。
  4. ^ Ready or not, mass video deepfakes are coming”. The Washington Post. 2022年8月31日閲覧。
  5. ^ Deepfakes for all: Uncensored AI art model prompts ethics questions”. TechCrunch. 2022年8月31日閲覧。
  6. ^ The new killer app: Creating AI art will absolutely crush your PC”. PCWorld. 2022年8月31日閲覧。
  7. ^ a b 菊池大介 (2022年8月25日). “「10億人をクリエイティブにする」──画像生成AI「Stable Diffusion」開発元が目指す世界”. DIAMOND SIGNAL. ダイヤモンド社. 2022年8月28日閲覧。
  8. ^ a b c d まるで人間のアーティストが描いたような画像を生成するAIが「アーティストの権利を侵害している」と批判される”. GIGAZINE. OSA (2022年8月15日). 2022年8月28日閲覧。
  9. ^ 蒼唯レン(VTuber) (2022年8月24日). “高性能画像生成AI「Stable Diffusion」無料リリース。「kawaii」までも理解し創造する画像生成AI” (日本語). AUTOMATON. 2022年8月31日閲覧。
  10. ^ 風景写真家がAI画像ジェネレーター「Stable Diffusion」で非実在美景を生成”. GIGAZINE. OSA (2022年8月19日). 2022年8月28日閲覧。

関連項目[編集]

外部リンク[編集]