画像生成AIの進化は目覚ましいですが、実は今でも**「物理法則の理解」「細部の複雑な構造」「複数の要素の正確な配置」といった、AI特有の苦手分野が存在します。今回は、多くの人が手軽に利用できるChatGPT(無料版)**を使い、なぜAIにとってこれらが難しいのか、その理由を紐解きながら実戦的なプロンプトで精度を検証しました。
AIが特定の描写を苦手とする理由
AIが画像を作る際、私たち人間のように「物の仕組み」を理解しているわけではありません。以下の理由が、精度の限界を生んでいます。
- 「構造」ではなく「パターン」で描いている: AIは膨大なデータから「指の近くには指がある」というパターンを学習していますが、「骨格的に指は5本である」というルールを理解しているわけではありません。
- 3D空間の欠如: AIは2次元の画像データのみを学習しているため、物体が重なった時の前後関係や、重力などの物理法則を無視した描写(めり込みなど)が起こりやすくなります。
- 文字を「記号」として認識している: 文字を「意味のある言葉」ではなく「複雑な形の絵」として捉えるため、綴りが崩れたり架空の文字が混ざったりします。
1. 基本精度の検証:複雑な条件の同時指定
検証環境:ChatGPT(無料版) ChatGPTの無料版でも、DALL-E 3のモデルを利用した高度な画像生成が可能です。まずは、AIが最も混乱しやすい「複数の具体的数値」を含む指示を出しました。
検証プロンプト: 左手で3本の指を立て、右手で看板を持っている人物。看板には『HELLO』とはっきり書かれている。背景には5匹の猫がいて、それぞれ色が違う(赤、青、緑、黄、白)。

AIが各要素(指・文字・数・色)を混同せずに描き分けられるかを確認します。特に「5匹に別々の色を塗る」という指示は、情報の混ざり(プロンプト漏れ)が起きやすい難所ですが、ChatGPTはプロンプトの理解力が非常に高く、無料版でも精度の高い結果が得られました。
2. 動的描写の検証:走行シーンへの書き換え
次に、ChatGPTの強みである「文脈の理解」を検証します。前の画像を引き継ぎながら、アクションを指示しました。
追加プロンプト: この人を走らせて

ポーズが変わっても、先ほどのキャラクターの特徴(服や顔立ち)が維持されているか、背景との整合性が取れているかを確認します。対話型であるChatGPTは、特定のキャラクターを維持したままシチュエーションを変える指示に強い傾向があります。
3. 応用検証:複数キャラクターの相互作用
追加プロンプト: 鬼と戦わせて

自分以外の対象(鬼)が登場した際、武器の持ち方や「叩く」「防ぐ」といった物理的な接触が破綻なく描けているかを検証しました。物理法則の理解度が最も試されるフェーズですが、無料版でも迫力あるバトルシーンを生成することができました。
まとめ
- ChatGPT(無料版)の実力: 複雑なプロンプトでも意図を正確に汲み取り、文字や指の数といった難所も高い水準でクリア可能。
- 構造の弱点: 依然として指の形などは「いじわるなプロンプト」への耐性が試されるポイント。
- 一貫性の進化: 連続したチャット形式の指示により、キャラクターの特徴を保持する力が向上している。
AIの特性を理解し、ChatGPTのように対話できるツールを使ってあえて「苦手なこと」をさせてみることで、そのモデルの真の精度が見えてきます。
AIが描く「手」の不自然さの理由 この動画では、画像生成AIがなぜ手の構造や物理的な動きを再現するのが難しいのかを、物理法則の観点から詳しく解説しています。
ふ