「ImageFXで、複数のキャラクターが会話しているシーンや、背景にたくさんの小物が配置された賑やかな市場のような、複雑な画像を作ろうとすると、途端に難しくなる…」
「AさんとBさんを描かせたつもりなのに、服装や髪型がごちゃ混ぜになってしまう…」
ImageFXの旅を進める中で、このような「複雑さの壁」にぶつかっていませんか?
一つの要素を美しく描くスキルも大切ですが、複数の要素を調和させ、一つの豊かな世界として描き出すことは、まさに「達人」レベルの技術と言えるでしょう。しかし、ご安心ください。その壁を乗り越えるための強力な鍵は、私たちがこれまで学んできた「YAML」に隠されています。
この記事では、YAMLの持つ「階層構造」という力を最大限に引き出し、複雑なシーンや複数のキャラクターをAIに正確に認識させ、あなたの意図通りに描き分けるための、まさに達人レベルのYAMLプロンプト術を伝授します。
この記事をマスターすれば、あなたはImageFXで、まるで映画監督のように、自在に世界を創造できるようになるはずです。
なぜAIは「ごちゃごちゃ」が苦手?複雑な指示が難しい理由

AI画像生成ツールは驚くべき進化を遂げていますが、それでもなお、複数の要素が複雑に絡み合うシーンの描写には課題を抱えています。なぜAIは「ごちゃごちゃ」とした状況が苦手なのでしょうか。その理由は、AIがプロンプトを解釈する方法にあります。
多くの場合、AIはプロンプトに含まれる単語やフレーズを一つの連続した流れとして捉えようとします。そのため、複数の対象物が存在する場合、どの指示がどの対象物に対応するのかを正確に紐づけるのが難しくなるのです。これが、以下のような典型的な失敗例を生み出します。
- 属性の混同(Attribute Bleeding)
「赤い帽子のAさんと、青いスカーフのBさん」と指示したのに、Aさんが青い帽子をかぶったり、Bさんが赤いスカーフを巻いたりする現象です。 - 指示の無視・簡略化
背景にある「たくさんの本が並んだ本棚」や「窓の外に見える遠くの山」といった細かい指示が、主要な被写体に比べて優先度が低いと判断され、無視されたり、非常に簡略化されたりすることがあります。 - 関係性の誤解釈
「AさんがBさんに向かって微笑んでいる」と指示しても、お互いが無関係な方向を向いていたり、意図しない表情になったりすることがあります。
これらの問題は、プロンプトが長くなり、含まれる情報が多くなるほど発生しやすくなります。単純な文章の羅列(フラットなプロンプト)では、AIが情報の「構造」や「区別」を正確に理解するのが困難になるためです。
秩序こそ力!YAMLの「階層構造」が複雑さを制する仕組み

ここで、私たちの強力な味方であるYAMLの真価が発揮されます。YAMLの最大の特徴であるインデント(字下げ)による階層構造は、AIに対して情報の「まとまり」と「関係性」を視覚的かつ論理的に示すための、これ以上ないほど優れた方法です。まるで文章に見出しや段落を設けるように、プロンプトにも明確な「秩序」を与えることができるのです。
この力を最大限に活かすために、私たちは「映画監督」のようにプロンプトを考えるアプローチを取り入れます。一つのシーンを構成する要素を、以下のように体系的に分解し、YAMLで記述していくのです。
シーン全体:
(場所、時間、天気、全体的なムード)登場人物:
人物A:
(役割、外見、服装、ポーズ、行動、表情)人物B:
(役割、外見、服装、ポーズ、行動、表情)群衆:
(もし存在する場合)
小道具_背景:
前景:
(カメラに最も近いもの)中景:
(主要な被写体がいるあたり)背景:
(最も遠くにあるもの)
演出:
(照明の種類と方向、カメラのアングルとショット、特殊効果)
このように、各要素を明確なキー(項目名)で定義し、関連する情報をインデントで下位に配置することで、AIは「これはシーン全体の設定」「これは人物Aの情報」「これは背景の一部」といった形で、情報の構造を理解しやすくなります。これにより、前述した「属性の混同」や「指示の無視」といった問題を大幅に軽減し、複雑なシーンを意図通りにコントロールする道が開けるのです。
【上級テク1】YAMLで描く映画のワンシーン!複雑な背景・小物を制御する方法

まずは、シーン全体の「舞台」となる背景や小物を詳細に、かつ秩序立てて設定するためのYAMLテクニックを3つのステップで見ていきましょう。
ステージ設定:場所・時間・天候を定義する
シーンの最も基本的な骨格となるのが、場所、時間、天候、そして全体的なムードです。
これらをまず、YAMLのトップレベルに近い階層で明確に定義します。こうすることで、AIに対して「これから描くのは、こういう基本的な世界ですよ」という大枠を最初に伝えることができます。例えば、「雨の降る夜の、ネオンきらめくサイバーパンク都市」といった設定を、YAMLで具体的に記述します。
シーン設定:
場所: サイバーパンク都市
時間帯: 夜
天候: 雨
全体ムード: 退廃的, ハイテク, 孤独感
シーン設定:
という親キーの下に、具体的な要素を子キーとして配置することで、基本的な情報を整理します。
小道具配置:前景・中景・背景と関係性を定義する
次に、シーンに深みとリアリティを与える「小道具」や「背景要素」を配置します。
ここで重要なのは、画面の奥行きを意識して「前景」「中景」「背景」に分けて記述することです。これにより、AIは空間的な配置を理解しやすくなります。さらに、各オブジェクトの位置関係(例:「テーブルの上に置かれた」「壁にかかっている」)も可能な限り記述しましょう。
空間構成:
前景:
- 種類: 濡れたアスファルト
特徴: ネオンサインが反射している
中景:
- 種類: 古びた屋台
特徴: 湯気が立っている
- 種類: ゴミ箱
特徴: 溢れている
背景:
- 種類: 超高層ビル群
特徴: 巨大なホログラム広告が表示されている
- 種類: 空飛ぶ車
状態: 複数台が飛行中
階層とリストを組み合わせることで、複雑な空間も整理して指示できます。
雰囲気演出:高度な照明とカメラ効果を定義する
最後に、シーンの雰囲気を決定づける「照明」と「カメラワーク」を設定します。
単に「明るい」や「暗い」だけでなく、光源の種類、色、方向、影の強さなどを具体的に指示します。また、カメラのアングルやショットの種類、さらには被写界深度(背景のボケ具合)やモーションブラー(動きのブレ)といった映画的な効果を指定することで、よりドラマチックで印象的なシーンを創り出すことができます。
演出:
照明:
主要光源: ネオンサイン, 街灯
色: 青, ピンク, 紫
特徴: 湿った空気に光が拡散, 強いコントラスト
影: 深く濃い
カメラ:
アングル: 少しローアングル
ショット: ワイドショット (都市の広がりを見せる)
レンズ効果:
- 被写界深度: 深い (全体にピントが合う)
- レンズフレア: 少しあり
演出要素を細かく指定することで、単なる風景画ではない、物語を感じさせるシーンへと昇華させることが可能です。
【上級テク2】もう混ざらない!YAMLで複数キャラクターを完璧に描き分ける術

さて、次はいよいよ、多くのユーザーが苦労する「複数キャラクターの描き分け」に挑戦します。YAMLの構造化能力を最大限に活かし、AIの混乱を防ぎながら、それぞれのキャラクターを個性豊かに描くテクニックです。
「登場人物リスト」方式:キャラクターを個別に定義する
複数のキャラクターを描き分けるための最も重要な原則は、各キャラクターの情報を完全に独立させて記述することです。これを実現する最適な方法が、YAMLの「リスト」機能を使うことです。
登場人物:
というキーの下に、ハイフン (-
) を使って、一人ひとりのキャラクターを別々の項目として定義します。
登場人物: - # ここにキャラクターAの情報を書く - # ここにキャラクターBの情報を書く - # ここにキャラクターCの情報を書く
この構造により、AIに対して「ここにいるのは3人の、それぞれ異なる存在ですよ」ということを強く、明確に伝えることができます。これが、属性の混同を防ぐための第一歩であり、最も基本的な防御策となります。
詳細「キャラクターシート」:外見・服装・行動を徹底指定
各キャラクターをリスト項目として分離したら、次はその内部を詳細な「キャラクターシート」のように記述していきます。
名前:
や 役割:
といった識別子のほか、外見:
(髪、目、肌の色、体格など)、服装:
(上、下、靴、アクセサリーなど)、ポーズ:
、行動:
、表情:
といった項目を、できる限り具体的に、そして他のキャラクターと明確に区別できるように記述します。
登場人物: - 名前: エリナ (Elina) 役割: エルフの魔法使い 外見: { 髪: '銀色の長い髪', 目: 'エメラルドグリーン', 耳: '長く尖っている' } 服装: { 上: '豪華な刺繍のローブ', 色: '深い青', 装飾: '月のシンボル' } ポーズ: 杖を構えている 表情: 真剣 - 名前: グロム (Grom) 役割: ドワーフの戦士 外見: { 髪: '赤毛の編み込み髭', 目: '茶色', 体格: 'がっしりしている' } 服装: { 上: '鋼鉄の鎧', 色: 'シルバー', 装飾: 'ハンマーの紋章' } ポーズ: 斧を肩に担いでいる 表情: 不敵な笑み
重要なのは、曖昧な表現を避け、対比を明確にすることです。例えば、両方に「黒い服」と指示するのではなく、「光沢のある黒いドレス」と「色褪せた黒いジャケット」のように、具体的な違いを記述します。
関係性を描く:キャラクター間の相互作用を記述するヒント
複数のキャラクターを描く場合、彼らが互いにどのように関わっているのかを表現したいことも多いでしょう。
各キャラクターの行動:
や ポーズ:
の項目で、他のキャラクターの存在に言及するのが一つの方法です。
登場人物: - 名前: アリス # ... (アリスの他の情報) 行動: ボブの方を向いて話しかけている ポーズ: 右手をボブに向けて差し出している - 名前: ボブ # ... (ボブの他の情報) 行動: アリスの話を腕を組んで聞いている ポーズ: 少し後ろにのけぞっている
ただし、AIがこの「関係性」の指示を100%正確に理解し、描写するのは依然として難しい場合があります。そのため、この方法と合わせて、構図の指示(例:「アリスは左側に、ボブは右側に配置」「二人は向かい合っている」)を併用したり、プロンプトを何度か微調整したりすることが、成功の確率を高める鍵となります。
【実践ケーススタディ】ファンタジー市場をYAMLで作る(エルフとドワーフ編)

それでは、これまで学んだテクニックを組み合わせて、実際に複雑なシーンを構築してみましょう。
お題は「活気あふれるファンタジー世界の市場で、美しいエルフの宝石商人が、頑固そうなドワーフの客と宝石の値段について交渉しているシーン」です。
1. シーン設定:
シーン設定: 場所: ファンタジー世界の屋外市場 時間帯: 日中 天候: 快晴 全体ムード: 活気がある, 賑やか, 少し異国情緒
2. 空間構成:
空間構成: 前景: - 種類: 木製の露店のカウンター 特徴: 様々な宝石や装飾品が並んでいる 中景: - # ここに登場人物を配置 背景: - 種類: 他の露店 - 種類: 石畳の道 - 種類: 様々な種族の買い物客 (シルエット程度) - 種類: 中世風の建物
3. 登場人物:
登場人物: - 名前: ルシエル (Luthiel) 役割: エルフの宝石商人 (店主) 外見: { 髪: '金髪の三つ編み', 目: '青いアーモンド形の目', 肌: '白い' } 服装: { 上: '緑色のシルクのブラウス', 装飾: '精巧な銀のアクセサリー' } ポーズ: カウンターの内側に立ち、手のひらにルビーを乗せている 行動: ドワーフに向かって、穏やかに話しかけている 表情: 優しいが、商売上手な微笑み - 名前: ボルガン (Borin) 役割: ドワーフの客 外見: { 髪: '灰色の長い髭 (編み込み)', 目: '鋭い黒い目', 体格: '背が低く屈強' } 服装: { 上: '革製のベスト', 下: '頑丈なズボン', 装飾: '鉄のバックル' } ポーズ: カウンターの外側に立ち、腕を組んでルビーを睨んでいる 行動: エルフの話を聞いている 表情: 頑固そう, 疑い深い
4. 演出:
演出: 照明: 明るい太陽の光, 宝石がキラキラと反射する光 カメラ: アングル: 登場人物の目線に近い高さ ショット: ミディアムショット (二人の上半身とカウンターが中心) レンズ効果: { DOF: '少し浅い (背景がややぼける)' }
完成YAML (上記を統合):
テーマ: ファンタジー市場でのエルフとドワーフの交渉シーン
シーン設定:
場所: ファンタジー世界の屋外市場
時間帯: 日中
天候: 快晴
全体ムード: 活気がある, 賑やか, 少し異国情緒
空間構成:
前景:
- 種類: 木製の露店のカウンター
特徴: 様々な宝石や装飾品が並んでいる
中景: # 登場人物を配置
背景:
- 種類: 他の露店
- 種類: 石畳の道
- 種類: 様々な種族の買い物客 (シルエット程度)
- 種類: 中世風の建物
登場人物:
- 名前: ルシエル (Luthiel)
役割: エルフの宝石商人 (店主)
位置: カウンターの内側 (左側)
外見: { 髪: '金髪の三つ編み', 目: '青いアーモンド形の目', 肌: '白い' }
服装: { 上: '緑色のシルクのブラウス', 装飾: '精巧な銀のアクセサリー' }
ポーズ: カウンターの内側に立ち、手のひらにルビーを乗せている
行動: ドワーフに向かって、穏やかに話しかけている
表情: 優しいが、商売上手な微笑み
- 名前: ボルガン (Borin)
役割: ドワーフの客
位置: カウンターの外側 (右側)
外見: { 髪: '灰色の長い髭 (編み込み)', 目: '鋭い黒い目', 体格: '背が低く屈強' }
服装: { 上: '革製のベスト', 下: '頑丈なズボン', 装飾: '鉄のバックル' }
ポーズ: カウンターの外側に立ち、腕を組んでルビーを睨んでいる
行動: エルフの話を聞いている
表情: 頑固そう, 疑い深い
演出:
照明: 明るい太陽の光, 宝石がキラキラと反射する光
カメラ:
アングル: 登場人物の目線に近い高さ
ショット: ミディアムショット (二人の上半身とカウンターが中心)
レンズ効果: { DOF: '少し浅い (背景がややぼける)' }
スタイル_画風:
全体: 写実的なファンタジーアート
特徴:
- 高精細
- 豊かな色彩

このYAMLを元にプロンプトを作成すれば、二人のキャラクターがそれぞれの特徴を保ちつつ、市場の活気の中で交渉している、非常にリッチなシーンが生成されることが期待できます。
「達人」への道:よくある問題とトラブルシューティング

YAMLを使っても、時にはAIが意図通りに動いてくれないこともあります。ここでは、複雑なシーンで起こりがちな問題と、その対処法をいくつかご紹介します。
Q1. やっぱりキャラクターの服装や特徴が混ざってしまう!
A. まず、YAML内の各キャラクターの記述で、対比をさらに強調してみてください。
例えば、色を「赤」と「青」のような補色にしたり、服装のスタイルを「豪華」と「質素」のように大きく変えたりします。
また、「左側にいる金髪のエルフ」「右側にいる茶髪のドワーフ」のように、位置関係と特徴をセットで記述するのも有効です。それでも混ざる場合は、シーンを少し単純化するか、究極的には一人ずつ生成して後から画像編集ソフトで合成するという方法もあります。
Q2. 背景の細かい指示が無視される、または前景に出てきてしまう…
A. プロンプトが長すぎると、AIが後半の指示を軽視することがあります。
背景要素の中でも特に重要なものに絞って記述するか、背景要素のキーワードを増やして強調してみましょう。YAML内で前景:
中景:
背景:
の階層を明確に分けることも重要です。また、ImageFXのプロンプトでは、重要な要素を前方に持ってくるという基本的なセオリーも有効です。
Q3. YAML構造は複雑になるけど、ImageFXへの入力はどうするの?
A. 現状のImageFXでは、YAMLを直接入力することはできません。基本的には、作成したYAMLの各要素を繋ぎ合わせて、自然な文章(またはキーワードの羅列)のプロンプトに変換する必要があります。
この変換作業を効率化するために、ChatGPTを活用するのが非常に有効です。作成したYAMLをChatGPTに渡し、「このYAMLの内容を元に、ImageFXで最高の画像を生成するための、詳細かつ自然な英語のプロンプトを作成してください」と指示すれば、高品質なプロンプト案を生成してくれます。(※詳しくは[ChatGPT連携でプロンプトを生成!参照画像からYAMLを作成]を参照)
まとめ:YAMLを制する者はImageFXを制す!複雑な世界を創造しよう!

今回は、ImageFXプロンプト作成における「達人」レベルのテクニックとして、YAMLを活用した複雑なシーン制御と、複数キャラクターの描き分け術について詳しく解説しました。
- AIが苦手とする「ごちゃごちゃ」は、YAMLの階層構造によって「秩序」を与えることで克服できる。
- シーンは「ステージ設定」「小道具配置」「雰囲気演出」に分けて定義する。
- 複数キャラクターは「登場人物リスト」と「詳細キャラクターシート」で明確に分離・記述する。
- YAMLは複雑なプロンプトの設計図であり、AIとの高度な対話を可能にする。
YAMLをここまで使いこなせるようになれば、あなたはもはや単なるImageFXユーザーではありません。AIという強力な絵筆を自在に操り、頭の中に広がる複雑で無限の世界を、具体的なビジュアルとして生み出すことができる「創造主」です。
もちろん、最初から完璧にコントロールできるわけではありません。AIにはまだ気まぐれな側面もあります。しかし、YAMLという強力な羅針盤と設計図があれば、試行錯誤のプロセスそのものが、より論理的で、より楽しく、そしてより実り多いものになるはずです。
ImageFXプロンプトの全体像を再確認するには「YAML形式を使ったプロンプト作成・管理の完全ガイド【ImageFX】」が役立つでしょう。
YAMLを制し、ImageFXを制し、あなただけの複雑な世界を、今こそ創造しましょう!
早速ImageFXを使ってみる → ImageFX公式ページ