ハビエル君とDALL・E3の違い

[ハビエル]城

ハビエル君(GPTs)が作ってくれる画像と、DALLE3が作ってくれる画像の間に、ランダム要素だけではない何かしらの違いを感じたのでハビエル君本人に直接聞いてみたら、やっぱり明確に違いがあった。DALLE3を使って画像生成をしてくれているのだと思ってたので、同じだと勝手に思っていた。もっと早めに聞いておくべきだった・・・。

さらりと嘘をつくことがあるので、本当かどうかの検証は必要だが、ハビエル君が言うのは以下の違いがあるらしい。

  1. プロンプトの翻訳: プロンプトが英語でない場合は、英訳してから画像生成を行います。
  2. スタイルの指定: 特定のアーティストのスタイルや、著作権で保護されているキャラクターを直接模倣するような要求は受け付けません。
  3. 人物の表現: 人物を描く場合、性別や民族などに多様性を持たせるようにしています。
  4. 一度に生成できる画像の数: 通常、一度のリクエストにつき1枚の画像を生成します。

他にも「—ar 7:4 —stylize 1000 —weird 1000」などのパラメータは使えないので、直接プロンプトで指示する必要があるとのこと。今の時点では。
この仕様、DALLE3でも使えなくなってたので訂正(2023/12/4 現在)

ベースとしている技術はDAALE3だし、技術的な側面やプロンプトの理解もそこまで大きく違わないということなのだが、同じプロンプトでも結構できてくる絵が違う。興味深い。

あと、DALLE3の方も日進月歩で進化しているのはいいんだけど、負荷を軽減するためなのかいつのまにか4枚画像出力が2枚になっていたり、出力できるサイズも3種類(これは前から?)だったりと、コロコロ仕様が変わるので、頻繁に最新情報を調べないといけない。

なお、画像サイズについては以下の通り。これ以外のサイズで出力することもできるが、ミスが多くなると本人は言っている。

  1. 正方形 (1024×1024): 汎用的なサイズで、様々な用途に適しています。
  2. ワイド (1792×1024): 横長の画像で、ウェブサイトのヘッダーやバナーなどに適しています。
  3. フルボディポートレート (1024×1792): 縦長の画像で、人物や立体的なオブジェクトを全身で表現するのに適しています。

この日誌の表紙(サムネイル)は1280x720(16:9)を指定して作っていたんだけど、カスタムしないほうがいいなら早く言って(アドバイスして)ほしかった。

画像比率7:4ってついても聞いたところ、WEBだけでなく様々なニーズに対応するためということらしい。

追記
これまでのやりとりに影響を受けるのだろうか?ハビエル君を書いてくれと言うと宣教師に引っ張られたものが出力してくる。また、特に動物キャラでは指定していないのに擬人化されたタヌキ?アライグマ?ででてきた。

日誌の表紙
DALLE作。例のハビエル自画像を「ハビエル君」として読み込ませてから描いて貰ったら、子ども時代っぽいハビエル君とDALLE(ロボット)を書いてきた。何このイケメン。

2枚目
Javier君(GPTs)作。なんか少し混乱気味な画像が出力。キツネになったのはなぜ?こちらも自画像を事前に「ハビエル君」として読み込ませてある。

3枚目
Javier君(GPTs)作。個人的には嫌いではないのだが、こちらもいろいろ混乱が見られる。この日誌の前にドッジボールについて書いた日誌のサムネイルで「師弟」設定の絵を描いて貰ったが、それに引っ張られてるのではないか疑惑がある。タヌキ?アライグマ?も指定していないし、大人と子どもも指定していない。

まだまだ研究が必要だ。

タイトルとURLをコピーしました