DALL-E

DALL-E
	OpenAIのラボウェブサイトで生成されたDALL-E 2画像に示される透かし
	テキストプロンプト"Teddy bears working on new AI research underwater with 1990s technology"（1990年代のテクノロジーを使用して水中で新しいAI研究に取り組むテディベア）に基づいてDALL-E 2で生成された画像
作者	OpenAI
初版	2021年1月5日
種別	Transformer言語モデル
公式サイト	openai.com/blog/dall-e/
	テンプレートを表示

DALL-E (DALL·E) 及びDALL-E 2は、"prompts"と呼ばれる自然言語の記述からデジタル画像を生成する、OpenAIにより開発された深層学習モデル。2021年1月のOpenAIによるブログの投稿により明らかにされ、GPT-3の画像生成のために変更されたバージョンを使用する^[1]。2022年4月には、DALL-E 2が発表された。これは、「コンセプト、アトリビュート、スタイルを組み合わせることができる」より高い解像度でよりリアルな画像を生成するように設計された後継バージョンである^[2]。

OpenAIはいずれのモデルのソースコードも公開していない。2022年7月20日にDALL-E 2はベータ段階に入り、100万人の待機リストのメンバーに招待が送られた^[3]。ユーザは、毎月一定数の画像を無料で生成でき、有料でさらに行うことができる^[4]。以前は、倫理と安全性に関する懸念から研究プレビューのために事前選択されたユーザにアクセスが制限されていた^[5]^[6]。2022年9月28日に、DALL-E 2は誰でも利用可能になり、待機リストの要件は撤廃された^[7]。

2022年11月初旬、OpenAIはDALL-E 2をAPIとしてリリースし、開発者はモデルを自身のアプリケーションに統合できるようになった。マイクロソフトはBingとMicrosoft Edgeに含まれるDesignerアプリとImage CreatorツールにおけるDALL-E 2の実装を発表した。CALAとMixtilesは、DALL-E 2 APIを早期に採用した企業の1つである^[8]。APIは画像ごとのコストで動作し、価格は画像の解像度により異なる。OpenAIのエンタープライズチームと協力している企業は、ボリュームによるディスカウントを使うことができる^[9]。

名称は、ピクサー映画『ウォーリー』の主人公である同名のロボットと、スペインの芸術家サルバドール・ダリのかばん語である^[10]^[1]。

技術[編集]

GPTモデルは最初、2018年にOpenAIによりTransformerアーキテクチャを使用して開発された^[11]。GPTは、2019年にスケールアップされGPT-2が生成された^[12]。2020年にはさらにスケールアップされ、1750億のパラメータを有するGPT-3が作成された^[13]^[1]^[14]。DALL-EのモデルはGPT-3のマルチモーダルの実装であり^[15]、120億のパラメータを有し、インターネットから取得したテキストと画像のペアで訓練され、「テキストとピクセルを交換する」^[1]^[16]。DALL-E 2はDALL-Eよりも少ない35億のパラメータを使用する^[17]。

DALL-Eは、CLIP (Contrastive Language-Image Pre-training)^[16]と合わせて開発され、一般に公開された。CLIPは、インターネットからスクレイピングされたテキストキャプションつきの画像4億組で訓練されたゼロショット学習（英語版）に基づく分離モデルである^[1]^[16]^[18]。その役割は、データセットからランダムに選択された32,768個のキャプションのリスト（そのうち1つが正解）からどのキャプションが画像に最も適しているかを予測することにより、DALL-Eの出力を「理解しランクを付ける」ことである。このモデルは、最も適した出力を選択するために、DALL-Eにより生成された画像の大きい初期リストをフィルタリングするために使用される^[10]^[16]。

DALL-E 2は、CLIP画像埋め込みを条件とする拡散モデルを使用し、これは、推論中に以前のモデルによるCLIPテキスト埋め込みから生成される^[17]。

能力[編集]

写真のようなリアルな画像、絵画、絵文字など複数のスタイルの画像を生成できる^[1]。画像内のオブジェクトを「操作および再配置」することができ^[1]、明示的な指示なしにデザイン要素を新たな構成に正しく配置できる。特定のプロンプトがなくても適切な詳細を推測するために「空白を埋める」能力を示し、例えば一般的にお祝いに関連するプロンプトにクリスマスの画像を追加したり^[19]、画像に、言及されていない配置に基づく影を付けたりする^[20]。

さまざまな視点からさまざまな任意の記述の画像を生成できるが^[21]、ほとんど失敗しない^[10]。ジョージア工科大学のSchool of Interactive Computingの准教授であるMark Riedlは、DALL-Eが概念（人間の創造性の重要な要素として説明される）を融合できることを見出している^[22]^[23]。

レーヴン漸進的マトリックス（人間の知性を測定するために行われることが多い視覚的なテスト）を解決するのに十分な視覚的推論能力を有する^[24]^[25]。

DALL-E 2により生成された『真珠の耳飾りの少女』の2つのバリエーション

既存の画像が与えられると、DALL-E 2は元の画像に基づいて個々の出力として画像の「バリエーション」を生成し、画像を編集して変更または拡張することができる。DALL-E 2の"inpainting"と"outpainting"では、画像からのコンテクストを使用し、所与のプロンプトに従い元の画像と一致する媒体を使用して欠けている領域を埋める。これは例えば新しい被写体を画像に挿入したり、元の境界線を超えて画像を拡張したりするために使用できる^[26]。OpenAIによると、「Outpaintingは、元の画像のコンテクストを維持するために影、反射、テクスチャなど、画像の既存の視覚要素を考慮する」^[27]

倫理的懸念[編集]

DALL-E 2が公開データセットに依存していることは、その結果に影響を与え、ジェンダーに言及していない要求に対して女性よりも男性を多く生成するなど、場合によってはアルゴリズムバイアスにつながる^[28]。DALL-E 2の訓練データは、暴力的で性的な画像を除去するためにフィルタリングされているが、生成される女性の頻度が減るなど、場合によってはバイアスが増加することが分かっている^[29]。OpenAIは、これは訓練データにおいて女性の方が性的な扱いが多く、フィルタが結果に影響を与えたと仮説を立てている^[29]。2022年9月、OpenAIはザ・ヴァージにDALL-Eが結果のバイアスに対処するためにフレーズを見えない形でユーザプロンプトに挿入することを確認した。例えば"black man"（黒人）や"Asian woman"（アジア人女性）はジェンダーや人種を特定していないプロンプトに挿入される^[30]。

DALL-E 2及び同様の画像生成モデルに関する懸念は、ディープフェイクやその他の形式の誤報の伝播に使用される可能性がある点である^[31]^[32]。これを軽減するために、公人が関わるプロンプトや顔を含むアップロードを拒絶している^[33]。好ましくないコンテンツを含む可能性のあるプロンプトはブロックされ、アップロードされた画像が分析されて攻撃的な内容が検出される^[34]。プロンプトに基づくフィルタリングの欠点は、同様の出力を行う代替のフレーズを使用して簡単に迂回できることである。例えば、"blood"（血）という単語はフィルタリングされるが、"ketchup"（ケチャップ）や"red liquid"（赤い液体）はフィルタリングされない^[35]^[34]。

DALL-E 2や同様のモデルに関するもう1つの懸念は、精度や人気のために、アーティスト、写真家、グラフィックデザイナーが技術的に失業する可能性があることである^[36]^[37]。

技術的限界[編集]

DALL-E 2の言語理解には限界がある。"A yellow book and a red vase"（黄色い本と赤い花瓶）と"A red book and a yellow vase"（赤い本と黄色い花瓶）や"A panda making latte art"（ラテアートを作るパンダ）と"Latte art of a panda"（パンダのラテアート）を区別できない場合がある^[38]。"a horse riding an astronaut"（宇宙飛行士に乗った馬）というプロンプトが提示されると、"an astronaut riding a horse"（馬に乗った宇宙飛行士）の画像を生成する^[39]。また、さまざまな状況で正しい画像を生成できない。3つ以上のオブジェクト、否定、数字、および接続された文を要求すると、間違う可能性があり、間違ったオブジェクトにオブジェクトの特徴が現れる場合がある^[21]。限界には、テクストの処理（読みやすい文であるが、ほぼ夢のようなちんぷんかんぷんな文）や天文学や医療画像などの科学情報に対処するためには容量が限られていることがある^[40]。

出典[編集]

^ ^a ^b ^c ^d ^e ^f ^g Johnson, Khari (2021年1月5日). “OpenAI debuts DALL-E for generating images from text”. VentureBeat. 2021年1月5日時点のオリジナルよりアーカイブ。2021年1月5日閲覧。
^ “DALL·E 2” (英語). OpenAI. 2022年7月6日閲覧。
^ “DALL·E Now Available in Beta” (英語). OpenAI (2022年7月20日). 2022年7月20日閲覧。
^ Allyn, Bobby (2022年7月20日). “Surreal or too real? Breathtaking AI tool DALL-E takes its images to a bigger stage” (英語). NPR 2022年7月20日閲覧。
^ “DALL·E Waitlist” (英語). labs.openai.com. 2022年7月6日閲覧。
^ “From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art” (英語). the Guardian (2022年6月18日). 2022年7月6日閲覧。
^ “DALL·E Now Available Without Waitlist” (英語). OpenAI (2022年9月28日). 2022年10月5日閲覧。
^ “DALL·E API Now Available in Public Beta” (英語). OpenAI (2022年11月3日). 2022年11月19日閲覧。
^ Wiggers, Kyle (2022年11月3日). “Now anyone can build apps that use DALL-E 2 to generate images”. TechCrunch 2022年11月19日閲覧。
^ ^a ^b ^c Coldewey, Devin (2021年1月5日). “OpenAI's DALL-E creates plausible images of literally anything you ask it to”. 2021年1月6日時点のオリジナルよりアーカイブ。2021年1月5日閲覧。
^ “Improving Language Understanding by Generative Pre-Training”. OpenAI. pp. 12 (2018年6月11日). 2021年1月26日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。
^ Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). Language models are unsupervised multitask learners. 1. オリジナルの6 February 2021時点におけるアーカイブ。 2020年12月19日閲覧。.
^ Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 July 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]。
^ Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (24 February 2021). "Zero-Shot Text-to-Image Generation". arXiv:2102.12092 [cs.LG]。
^ Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). "Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models". arXiv:2102.02503 [cs.CL]。
^ ^a ^b ^c ^d Heaven, Will Douglas (2021年1月5日). “This avocado armchair could be the future of AI”. MIT Technology Review. 2021年1月5日閲覧。
^ ^a ^b Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022-04-12). Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv:2204.06125.
^ “'DALL-E' AI generates an image out of anything you describe” (英語). Engadget. 2022年7月18日閲覧。
^ Whitwam, Ryan (2021年1月6日). “OpenAI's 'DALL-E' Generates Images From Text Descriptions”. ExtremeTech. オリジナルの2021年1月28日時点におけるアーカイブ。 2021年3月2日閲覧。
^ Dent, Steve (2021年1月6日). “OpenAI's DALL-E app generates images from just a description”. Engadget. 2021年1月27日時点のオリジナルよりアーカイブ。2021年3月2日閲覧。
^ ^a ^b Marcus, Gary; Davis, Ernest; Aaronson, Scott (2 May 2022). "A very preliminary analysis of DALL-E 2". arXiv:2204.13807 [cs.CV]。
^ Shead, Sam (2021年1月8日). “Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab”. CNBC. 2021年3月2日閲覧。
^ Wakefield, Jane (2021年1月6日). “AI draws dog-walking baby radish in a tutu”. British Broadcasting Corporation. 2021年3月2日時点のオリジナルよりアーカイブ。2021年3月3日閲覧。
^ Markowitz, Dale (2021年1月10日). “Here's how OpenAI's magical DALL-E image generator works”. TheNextWeb. 2021年2月23日時点のオリジナルよりアーカイブ。2021年3月2日閲覧。
^ “DALL·E: Creating Images from Text” (英語). OpenAI (2021年1月5日). 2022年8月13日閲覧。
^ Coldewey, Devin (2022年4月6日). “New OpenAI tool draws anything, bigger and better than ever” (英語). TechCrunch. 2022年11月26日閲覧。
^ “DALL·E: Introducing Outpainting” (英語). OpenAI (2022年8月31日). 2022年11月26日閲覧。
^ STRICKLAND, ELIZA (2022年7月14日). “DALL-E 2's Failures Are the Most Interesting Thing About It” (英語). IEEE Spectrum. 2022年7月15日閲覧。
^ ^a ^b “DALL·E 2 Pre-Training Mitigations” (英語). OpenAI (2022年6月28日). 2022年7月18日閲覧。
^ James Vincent (2022年9月29日). “OpenAI's image generator DALL-E is available for anyone to use immediately”. The Verge. 2023年3月22日閲覧。
^ Taylor, Josh (2022年6月18日). “From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art” 2022年8月2日閲覧。
^ Knight, Will (13 July 2022). “When AI Makes Art, Humans Supply the Creative Spark”. Wired 2022年8月2日閲覧。.
^ Rose, Janus (2022年6月24日). “DALL-E Is Now Generating Realistic Faces of Fake People”. Vice 2022年8月2日閲覧。
^ ^a ^b OpenAI (2022年6月19日). “DALL·E 2 Preview - Risks and Limitations”. GitHub. 2022年8月2日閲覧。
^ Lane, Laura (1 July 2022). “DALL-E, Make Me Another Picasso, Please”. The New Yorker 2022年8月2日閲覧。.
^ Goldman, Sharon (2022年7月26日). “OpenAI: Will DALLE-2 kill creative careers?”. 2023年3月22日閲覧。
^ Blain, Loz (2022年7月29日). “DALL-E 2: A dream tool and an existential threat to visual artists”. 2023年3月22日閲覧。
^ Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara; Lopes, Rapha Gontijo; Salimans, Tim (23 May 2022). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arXiv:2205.11487 [cs.CV]。
^ Marcus, Gary (2022年5月28日). “Horse rides astronaut”. The Road to AI We Can Trust. 2022年6月18日閲覧。
^ Strickland, Eliza (2022年7月14日). “DALL-E 2's Failures Are the Most Interesting Thing About It” (英語). IEEE Spectrum. 2022年8月16日閲覧。

外部リンク[編集]

[vb-1] ^ ^a ^b ^c ^d ^e ^f ^g Johnson, Khari (2021年1月5日). “OpenAI debuts DALL-E for generating images from text”. VentureBeat. 2021年1月5日時点のオリジナルよりアーカイブ。2021年1月5日閲覧。

[2] “DALL·E 2” (英語). OpenAI. 2022年7月6日閲覧。

[:3-3] “DALL·E Now Available in Beta” (英語). OpenAI (2022年7月20日). 2022年7月20日閲覧。

[:4-4] Allyn, Bobby (2022年7月20日). “Surreal or too real? Breathtaking AI tool DALL-E takes its images to a bigger stage” (英語). NPR 2022年7月20日閲覧。

[5] “DALL·E Waitlist” (英語). labs.openai.com. 2022年7月6日閲覧。

[6] “From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art” (英語). the Guardian (2022年6月18日). 2022年7月6日閲覧。

[7] “DALL·E Now Available Without Waitlist” (英語). OpenAI (2022年9月28日). 2022年10月5日閲覧。

[8] “DALL·E API Now Available in Public Beta” (英語). OpenAI (2022年11月3日). 2022年11月19日閲覧。

[9] Wiggers, Kyle (2022年11月3日). “Now anyone can build apps that use DALL-E 2 to generate images”. TechCrunch 2022年11月19日閲覧。

[tc-10] Coldewey, Devin (2021年1月5日). “OpenAI's DALL-E creates plausible images of literally anything you ask it to”. 2021年1月6日時点のオリジナルよりアーカイブ。2021年1月5日閲覧。

[gpt1paper-11] “Improving Language Understanding by Generative Pre-Training”. OpenAI. pp. 12 (2018年6月11日). 2021年1月26日時点のオリジナルよりアーカイブ。2021年1月23日閲覧。

[gpt2paper-12] Radford, Alec; Wu, Jeffrey; Child, Rewon; Luan, David; Amodei, Dario; Sutskever, Ilua (14 February 2019). Language models are unsupervised multitask learners. 1. オリジナルの6 February 2021時点におけるアーカイブ。 2020年12月19日閲覧。.

[gpt3paper-13] Brown, Tom B.; Mann, Benjamin; Ryder, Nick; Subbiah, Melanie; Kaplan, Jared; Dhariwal, Prafulla; Neelakantan, Arvind; Shyam, Pranav; Sastry, Girish; Askell, Amanda; Agarwal, Sandhini; Herbert-Voss, Ariel; Krueger, Gretchen; Henighan, Tom; Child, Rewon; Ramesh, Aditya; Ziegler, Daniel M.; Wu, Jeffrey; Winter, Clemens; Hesse, Christopher; Chen, Mark; Sigler, Eric; Litwin, Mateusz; Gray, Scott; Chess, Benjamin; Clark, Jack; Berner, Christopher; McCandlish, Sam; Radford, Alec; Sutskever, Ilya; Amodei, Dario (22 July 2020). "Language Models are Few-Shot Learners". arXiv:2005.14165 [cs.CL]。

[dallepaper-14] Ramesh, Aditya; Pavlov, Mikhail; Goh, Gabriel; Gray, Scott; Voss, Chelsea; Radford, Alec; Chen, Mark; Sutskever, Ilya (24 February 2021). "Zero-Shot Text-to-Image Generation". arXiv:2102.12092 [cs.LG]。

[impact-15] Tamkin, Alex; Brundage, Miles; Clark, Jack; Ganguli, Deep (2021). "Understanding the Capabilities, Limitations, and Societal Impact of Large Language Models". arXiv:2102.02503 [cs.CL]。

[mittr-16] Heaven, Will Douglas (2021年1月5日). “This avocado armchair could be the future of AI”. MIT Technology Review. 2021年1月5日閲覧。

[:2-17] Ramesh, Aditya; Dhariwal, Prafulla; Nichol, Alex; Chu, Casey; Chen, Mark (2022-04-12). Hierarchical Text-Conditional Image Generation with CLIP Latents. arXiv:2204.06125.

[18] “'DALL-E' AI generates an image out of anything you describe” (英語). Engadget. 2022年7月18日閲覧。

[extreme-19] Whitwam, Ryan (2021年1月6日). “OpenAI's 'DALL-E' Generates Images From Text Descriptions”. ExtremeTech. オリジナルの2021年1月28日時点におけるアーカイブ。 2021年3月2日閲覧。

[engadget-20] Dent, Steve (2021年1月6日). “OpenAI's DALL-E app generates images from just a description”. Engadget. 2021年1月27日時点のオリジナルよりアーカイブ。2021年3月2日閲覧。

[:0-21] Marcus, Gary; Davis, Ernest; Aaronson, Scott (2 May 2022). "A very preliminary analysis of DALL-E 2". arXiv:2204.13807 [cs.CV]。

[cnbc-22] Shead, Sam (2021年1月8日). “Why everyone is talking about an image generator released by an Elon Musk-backed A.I. lab”. CNBC. 2021年3月2日閲覧。

[bbc-23] Wakefield, Jane (2021年1月6日). “AI draws dog-walking baby radish in a tutu”. British Broadcasting Corporation. 2021年3月2日時点のオリジナルよりアーカイブ。2021年3月3日閲覧。

[dale-24] Markowitz, Dale (2021年1月10日). “Here's how OpenAI's magical DALL-E image generator works”. TheNextWeb. 2021年2月23日時点のオリジナルよりアーカイブ。2021年3月2日閲覧。

[25] “DALL·E: Creating Images from Text” (英語). OpenAI (2021年1月5日). 2022年8月13日閲覧。

[26] Coldewey, Devin (2022年4月6日). “New OpenAI tool draws anything, bigger and better than ever” (英語). TechCrunch. 2022年11月26日閲覧。

[27] “DALL·E: Introducing Outpainting” (英語). OpenAI (2022年8月31日). 2022年11月26日閲覧。

[28] STRICKLAND, ELIZA (2022年7月14日). “DALL-E 2's Failures Are the Most Interesting Thing About It” (英語). IEEE Spectrum. 2022年7月15日閲覧。

[:1-29] “DALL·E 2 Pre-Training Mitigations” (英語). OpenAI (2022年6月28日). 2022年7月18日閲覧。

[30] James Vincent (2022年9月29日). “OpenAI's image generator DALL-E is available for anyone to use immediately”. The Verge. 2023年3月22日閲覧。

[Taylor-31] Taylor, Josh (2022年6月18日). “From Trump Nevermind babies to deep fakes: DALL-E and the ethics of AI art” 2022年8月2日閲覧。

[wired2-32] Knight, Will (13 July 2022). “When AI Makes Art, Humans Supply the Creative Spark”. Wired 2022年8月2日閲覧。.

[vice-33] Rose, Janus (2022年6月24日). “DALL-E Is Now Generating Realistic Faces of Fake People”. Vice 2022年8月2日閲覧。

[docs-34] OpenAI (2022年6月19日). “DALL·E 2 Preview - Risks and Limitations”. GitHub. 2022年8月2日閲覧。

[35] Lane, Laura (1 July 2022). “DALL-E, Make Me Another Picasso, Please”. The New Yorker 2022年8月2日閲覧。.

[36] Goldman, Sharon (2022年7月26日). “OpenAI: Will DALLE-2 kill creative careers?”. 2023年3月22日閲覧。

[37] Blain, Loz (2022年7月29日). “DALL-E 2: A dream tool and an existential threat to visual artists”. 2023年3月22日閲覧。

[38] Saharia, Chitwan; Chan, William; Saxena, Saurabh; Li, Lala; Whang, Jay; Denton, Emily; Ghasemipour, Seyed Kamyar Seyed; Ayan, Burcu Karagol; Mahdavi, S. Sara; Lopes, Rapha Gontijo; Salimans, Tim (23 May 2022). "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding". arXiv:2205.11487 [cs.CV]。

[39] Marcus, Gary (2022年5月28日). “Horse rides astronaut”. The Road to AI We Can Trust. 2022年6月18日閲覧。

[40] Strickland, Eliza (2022年7月14日). “DALL-E 2's Failures Are the Most Interesting Thing About It” (英語). IEEE Spectrum. 2022年8月16日閲覧。

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]

[15]

[16]

[17]

[18]

[19]

[20]

[21]

[22]

[23]

[24]

[25]

[26]

[27]

[28]

[29]

[30]

[31]

[32]

[33]

[34]

[35]

[36]

[37]

[38]

[39]

[40]