【保存版】Stable Diffusion(ステイブルディフュージョン)プロンプト完全ガイド
Stable Diffusion(ステイブルディフュージョン)は、テキストプロンプトを駆使してあらゆるイメージを生成できる革新的なAIツールです。
本ガイドでは、プロンプトの基本構造から始まり、品質向上のためのテクニック、ネガティブプロンプトの効果的な使い方、日本語と英語のプロンプトの違い、さらにはLoRAやControlNet、IP-Adapterとの連携といった最新トレンドまで、初心者から上級者まで役立つ情報を網羅的に解説します。具
体的なキーワードの選定や、段階的な試行錯誤によるプロンプトエンジニアリングの秘訣を理解することで、あなたのAI画像生成は飛躍的に進化するでしょう。これから、あなた自身の「魔法の呪文」を見つけ、理想の画像を実現する旅に出かけましょう!
また、弊社ではマッキンゼーやGAFA出身のAIエキスパートがAI導入に関する無料相談を承っております。
無料相談は先着20社様限定で「貴社のAI活用余地分析レポート」を無償でご提供するキャンペーンも実施中です。
ご興味をお持ちの方は、以下のリンクよりご連絡ください:
AI導入に関する無料相談はこちら
資料請求はこちら

AI導入.comを提供する株式会社FirstShift 代表取締役。トロント大学コンピューターサイエンス学科卒業。株式会社ANIFTYを創業後、世界初のブロックチェーンサービスを開発し、東証プライム上場企業に売却。その後、マッキンゼー・アンド・カンパニーにコンサルタントとして入社。マッキンゼー日本オフィス初の生成AIプロジェクトに従事後、株式会社FirstShiftを創業。
1. はじめに:Stable Diffusionのプロンプトとは?
Stable Diffusionとは、テキスト(呪文=プロンプト)を入力することでイメージを生成できるAIモデルです。プロンプトとは「生成したい画像の内容・スタイル・品質」をテキストで指定する最重要要素であり、以下のような特徴があります。
- 最新モデル群:SD 3.5、SDXL、FLUX.1など多様なモデルが登場し、それぞれ異なるプロンプト特性を持つ
- 初期モデル(v1系)は英語の学習データが多いため、英語プロンプトに強い
- 新世代モデルでは日本語プロンプトの理解力も大幅に向上
- 1~2行程度のキーワード列挙でも高度なイラストや写真風画像が作れる
- “具体的かつ的確”なキーワード記述が結果を大きく左右する
「こういう画像を生成したい!」という想いを余すところなくテキストで伝えることが、Stable Diffusionの出力をより理想に近づけるカギとなります。2025年現在、複数のモデルバリエーションと豊富なツールが利用可能で、プロンプトエンジニアリングの可能性は飛躍的に拡大しています。
2. プロンプトの基本構造:高品質生成のための要点
2-1. 何をどこまで指定すればいい?
プロンプトには、以下のような情報カテゴリを含めると有効です。ただし、必ずしも全てを入れる必要はありません。
カテゴリ | 例・説明 |
---|---|
主題(Subject) | 人物・風景・物体など「何を描きたいか」。例: a sorceress, a castle in the sky |
様式・媒体(Medium) | 油絵、イラスト、写真、3DCGレンダリングなど。例: oil painting, digital painting |
スタイル(Style) | 印象派、シュールレアリスム、ポップアート、超写実的など。例: fantasy style, anime style |
著名サイト/アーティスト | ArtStation、DeviantArt や特定アーティスト名。例: trending on ArtStation |
解像度・品質 | 4K, 8K, highly detailed, ultra detailed などで精細度を指定 |
追加の詳細 | 感情的要素や季節、背景要素。例: dark forest, summer atmosphere, emotional |
色彩(Color) | pastel colors, golden hue, monochrome など色合いの指定 |
ライティング(Lighting) | studio lighting, backlight, cinematic lighting など光源や明暗の指定 |
ポイント:
- 抽象的すぎるとモデルに解釈の自由度を与えすぎて狙いがブレがち
- カンマ区切りや箇条書きのように短いフレーズで要素を並べるとよい
- 1度で完璧を目指すより、試行錯誤しながら段階的に調整すると成功しやすい
2-2. プロンプト作成の手順と注意点
- 最小限のキーワードでざっくり生成: まずは主題・スタイル・品質タグなど必須事項のみ
- 出力を比較・分析: 4枚ほど生成し、良かったもの・足りない要素・余計な要素をチェック
- 要素を追加・削除: 1~2個ずつキーワードを加減し再生成
- 最終的に満足するまで繰り返す: 大抵は数回のイテレーションが必要
このように、段階的に磨き上げる「イテレーティブ開発」がプロンプトエンジニアリングの基本です。
3. 高品質な画像を生成するためのテクニック
3-1. 品質キーワードの活用
Stable Diffusionコミュニティでは、クオリティ向上フレーズを定型的に使うケースが多々あります。例として:
masterpiece, best quality, ultra detailed, 8K, highres, photorealistic
これらをプロンプトの先頭や末尾に付与することで、より精細で高解像度寄りの出力を引き出しやすくなります。ただし、モデルによる効果の違いに注意が必要です:
- SD 1.5系:従来の品質タグが効果的
- SDXL:過度な品質タグが効果薄な場合があり、より自然な記述が推奨
- SD 3.5:プロンプトの理解力向上により、具体的な描写が重要
- FLUX.1:自然言語に近い記述でも高品質な出力が可能
各モデルの特性を理解し、適切な品質タグを使用することが成功の鍵です。
3-2. 重み付け(Weight)と括弧構文
Automatic1111版WebUIなどでは、(キーワード:1.3)
のように数値で「キーワードの重要度」を指定できます。さらに丸括弧()
を多重化すると1.1倍ずつ、角括弧[]
で0.9倍という簡易指定も便利です。
例:「(beautiful face:1.5)」「(cinematic lighting)」「[3D render]」
(beautiful face:1.5)
→ 「美しい顔」の要素を強める[3D render]
→ 3Dレンダリング感をやや弱めにする
3-3. 構図や詳細のコントロール(Prompt Scheduling / マトリクス)
さらに高度な使い方として、生成プロセスの途中でプロンプトを切り替えるPrompt Schedulingや、一度に複数のキーワードパターンを試せるプロンプトマトリクス機能があります。
- Prompt Scheduling: 生成ステップの前半は「apple」、後半は「fire」…というように変化を与えて独創的イラストを生み出す
- プロンプトマトリクス:
(cat|dog|bird)
のような書き方で、一度にバリエーション出力
イメージの構造をより厳密にコントロールしたい方は試してみましょう。
3-4. IP-Adapter:画像プロンプトの活用
IP-Adapterは、テキストに加えて画像をプロンプトとして使用できる画期的な機能です。2025年現在、多くのツールで標準的に利用可能となっています。
IP-Adapterの主な活用方法:
- スタイル転送:参照画像のスタイルを新しい画像に適用
- 構図の維持:特定の構図やポーズを維持しながら内容を変更
- 一貫性の確保:同じキャラクターを異なるシーンで生成
プロンプト例:
テキスト:「beautiful landscape, mountains, sunset」
画像プロンプト:アニメ風の画像を参照
→ アニメ風の美しい山岳風景が生成される
3-5. その他パラメータ(CFG値・ステップ数・解像度など)
- CFGスケール: 高すぎると不自然な強調が出たり破綻しやすい。7~12が目安
- ステップ数: 20~50程度が一般的。それ以上増やしても差が出にくく計算負荷が増すことも
- 解像度: 512x512pxが標準だが、縦長・横長を使い分けることで全身像や背景を収めやすくなる
- Seed固定: 同じプロンプト・パラメータ・Seedで再現性を確保
- Batch出力: 一度に複数枚生成し、ベストなものを選ぶ
4. 日本語 vs 英語プロンプト:どちらが有利?
4-1. 英語プロンプトのメリット
初期のStable Diffusionは英語データ中心に学習されているため、英語プロンプトの方が幅広い単語を正しく認識してくれる傾向があります。
- "Mt. Fuji at sunrise, cherry blossoms" → 綺麗な富士山と桜が生成されやすい
4-2. 日本語プロンプトの進化
最新モデルでは日本語プロンプトの理解力が大幅に向上しています。特に以下のような発展があります:
- SD 3.5:日本語プロンプトの理解精度が大幅に改善
- FLUX.1:多言語対応が強化され、日本語でも自然な表現が可能
- 日本語特化モデル:rinna社のJapanese Stable Diffusionなど、日本語に最適化されたモデルが継続的に開発
2025年現在では、日本語プロンプトでも十分高品質な画像生成が可能となっており、細かいニュアンスの表現にも対応しています。
4-3. 最適な言語選択の指針
2025年現在の推奨アプローチ:
- 最新モデル(SD 3.5、FLUX.1)を使用する場合:日本語プロンプトでも十分な精度が期待できる
- 従来モデル(SD 1.5系)を使用する場合:英語プロンプトまたは翻訳ツールの活用を推奨
- 翻訳ツール: DeepLやGoogle翻訳で日本語→英語に変換
- 併用書き: 「透明な水の中の金魚, a goldfish in transparent water」のように日本語+英語を混ぜて補完
- モデル選択: 日本語を重視する場合は日本語特化モデルの選択を検討
5. ジャンル・スタイル別プロンプト最適化
5-1. アニメ調イラスト
- 使用モデル: Anything系、Counterfeit、AnimeSagaなどアニメ特化モデル
- タグ形式: 「1girl, long hair, blue eyes, school uniform」などDanbooruタグ風が有効
- 品質向上タグ:
(masterpiece), (best quality), (ultra detailed)
などを併用 - ネガティブ:
realistic, 3D, extra fingers, bad anatomy
など写真的要素や破綻排除
例プロンプト:
(masterpiece, best quality), 1girl, portrait, bright smile, long pink hair,
school uniform, anime style, flowers in background
5-2. リアル写真風
- 使用モデル: Realistic Vision, Photogenic vX, SDXLなどリアル系
- カメラ設定:
DSLR, 50mm lens, f/1.8, bokeh
- 照明:
natural light, studio lighting, golden hour
- ネガティブ:
anime, cartoon, painting, 3D render
などアニメ風を排除
例プロンプト:
a portrait photo of an elderly man with a wrinkled face, wearing a cowboy hat,
sitting in front of an old barn, golden hour light, 50mm lens, f/2.0 shallow depth of field,
ultra-realistic, 8K
5-3. ファンタジーアート
- 世界観: 中世、ハイファンタジー、ダークファンタジーなどを明示
- アーティスト引用:
by Greg Rutkowski, by WLOP, trending on ArtStation
など - 壮大さ:
epic, majestic, grand, panoramic
- 色彩・照明:
mystical glow, bioluminescent, golden sunset
例プロンプト:
a lone female warrior standing on a desolated battlefield, gigantic dragon carcass in the background,
burning castle, blood-red sky with lightning, digital painting, ultra-detailed,
trending on ArtStation, by greg rutkowski
5-4. SF・サイバーパンク
- 未来的要素:
cyberpunk city, neon lights, flying cars, dystopian
- 照明:
neon glow, rain-soaked streets, holograms
- アーティスト・映画風:
blade runner style, by Syd Mead
例プロンプト:
Nighttime aerial view of a sprawling cyberpunk city with towering neon-lit skyscrapers,
flying cars, holograms, heavy rain reflecting neon signs, cinematic composition,
ultra-detailed, blade runner aesthetic
5-5. その他(スチームパンク、ホラー、3Dレンダリング etc.)
スタイル | キーワード例 |
---|---|
スチームパンク | gears, steam, victorian era, brass machinery, airship, sepia tone |
ホラー/ゴシック | haunted, gothic, creepy, fog, blood, dimly lit, chiaroscuro lighting |
3Dレンダリング | 3D render, blender, octane render, pixar style, soft shadows |
抽象/超現実 | surreal, dreamlike, impossible geometry, vibrant abstract patterns |
6. ネガティブプロンプトの重要性と使い方
6-1. ネガティブプロンプトで品質向上
ネガティブプロンプトに「含めたくない要素」を指定すると、不要物の混入や破綻が抑えられる[^3]。例えば「text, watermark, low quality, blur, extra fingers, disfigured face」などが定番。
6-2. 汎用ネガティブリストと最新の埋め込み
コミュニティでは、使い回し可能な「万能ネガティブプロンプト」が多数シェアされています。また、EasyNegativeやFastNegativeV2などの学習済み埋め込みをネガティブに入れるだけで低品質要素を大幅に排除できます。
2025年推奨ネガティブプロンプト例:
worst quality, low quality, lowres, blurry, watermark, text, logo,
ugly, disfigured, deformed, extra limbs, extra fingers, missing fingers,
bad anatomy, bad proportions, jpeg artifacts, signature, username
人気の埋め込み(Embedding):
- EasyNegative: 最も定番の汎用ネガティブ埋め込み
- FastNegativeV2: より新しく、効果的とされる埋め込み
- BadDream + UnrealisticDream: 組み合わせて使う最新の埋め込みセット
6-3. 注意点と調整方法
- ネガティブを入れすぎると構図が硬直し無難すぎる結果になる恐れ
- 本来必要な要素まで否定してしまわないよう注意
- 生成結果を見ながら追加・削除しイテレーションする
7. プロンプト例:カテゴリー別リスト
ここでは、人物・背景・動物・画風・品質などのジャンルに分けて、1500種類以上のプロンプト例を厳選した関連記事をご用意しています。それぞれリンク先にて詳細な呪文や画像例をご紹介しています。
7-1. 人物(表情/視線/髪型/年齢/体型/服装/ポーズほか)
- 表情・顔:
smiling, angry expression, winking, surprised face
- 視線:
looking at viewer, looking away, downcast eyes
- 髪型・髪色:
long curly hair, ponytail, blonde hair, pink hair
- 年齢:
teenager, young adult, middle-aged, old person
- 体型・筋肉:
slender, muscular, chubby, toned
- 服装:
t-shirt, suit, fantasy armor, maid outfit
- ポーズ・構図:
peace sign pose, back view, top-down angle, dynamic pose
7-2. 背景・風景・光・色・品質指定
- 背景・風景:
cityscape, forest, beach at sunset, medieval castle
- 光・ライティング:
dramatic lighting, backlit, soft shadows, rim light
- 品質:
high quality, 4K, ultra detailed, masterpiece
- 色合い:
warm colors, pastel palette, vibrant neon, monochrome
7-3. 動物系・動物擬人化
- リアル動物:
photorealistic cat, dog, horse, tiger
- 擬人化・獣耳:
anthropomorphic fox, kemonomimi, furry style
7-4. AIグラビア/コスプレ/ギャル/イケメン男性
- AIグラビア:
gravure pose, swimsuit model, bikini pose
- AIコスプレ:
cosplay of [character name], cosplay outfit, real photo style
- ギャル:
tanned skin, bleached hair, flashy makeup, gyaru fashion
- イケメン男性:
handsome man, masculine features, sharp jawline, well-groomed hair
7-5. 画風・イラストスタイル・実写系モデル
- 画風:
anime style, watercolor style, pixel art, line art
- 実写系:
photorealistic, hyper-realistic, cinematic lighting, film photography
7-6. おすすめネガティブプロンプト例
- 汎用テンプレ: 上述のリスト
- ジャンル別: アニメ向け(
bad hands, extra digit, 3D
) / 写真向け(cartoon, painting
) など
8. 最新トレンドと事例紹介
8-1. 2025年の最新技術動向
注目の新技術・モデル:
- FLUX.1: Black Forest Labsが開発した最新モデル。高品質と自然言語理解力で注目
- SD 3.5: Stability AIの最新版。プロンプト忠実性が大幅に向上
- ComfyUI: ノードベースのワークフロー型UIが人気急上昇中
- IP-Adapter進化: FaceID Plus V2など、より高精度な画像プロンプト機能
8-2. LoRA・ControlNet・IP-Adapterの統合活用
最新の統合ワークフロー:
- LoRA: 特定キャラクターやスタイルの追加学習モデル
- ControlNet: ポーズ・構図・深度・エッジなどの精密制御
- IP-Adapter: 画像スタイル転送と一貫性確保
- Triple Combo: LoRA + ControlNet + IP-Adapterを組み合わせた高度な制御
8-3. 新しいプロンプト手法とコミュニティ発見
2025年の革新的手法:
- 自然言語プロンプト: FLUX.1などで長文の自然な記述が効果的
- レイヤー化記述: 背景・中景・前景を分けて記述する手法
- 感情描写重視: 単純な見た目より感情や雰囲気を重視する傾向
8-4. 最新コミュニティリソースとプラットフォーム
2025年現在の主要プラットフォーム:
- Civitai: 最大のモデル・LoRA配布サイト。レビューとプロンプト例が充実
- Hugging Face: 技術的なモデル配布。開発者向けリソースが豊富
- OpenArt: プロンプト共有とワークフロー配布の新興プラットフォーム
- ComfyUI Workflow Gallery: ComfyUI専用のワークフロー共有サイト
- 日本語コミュニティ: Twitter(X)、Discord、pixiv、ニコニコ静画での活発な情報交換
9. まとめ:プロンプトエンジニアリングを楽しもう
本記事では、Stable Diffusionのプロンプト設計に関する基礎から応用、そしてジャンル別の事例や最新トレンドまでを網羅的に解説しました。
プロンプトは“魔法の呪文”とも呼ばれ、試行錯誤によって自分だけの最適解を見つける楽しさがあります。ぜひ以下のポイントを意識しつつ、理想の画像生成を追求してください。
2025年版:プロンプトエンジニアリング成功の7つのポイント
- モデル特性の理解:SD 3.5、FLUX.1など各モデルの特徴を把握
- 具体的かつ的確なキーワードを使用
- ネガティブプロンプトを併用して不要要素を排除
- 試行錯誤(イテレーション)でブラッシュアップ
- LoRA・ControlNet・IP-Adapterの統合活用
- ComfyUIなどの新しいツールへの対応
- コミュニティリソースでの継続的な学習
AI画像生成技術は2025年も急速に進化を続けており、FLUX.1やSD 3.5などの新世代モデル、IP-AdapterやComfyUIなどの革新的ツールが登場しています。本ガイドを活用して、ぜひあなたの創造力とプロンプトエンジニアリングを最大限に発揮してください!
スマホでStable Diffusionを使用する方法についても解説しているので、ぜひチェックしてください。