画像拡大マスター:超解像セットアップシリーズ④ 超画像モデルの比較

超解像シリーズは全部で4編書きます。
1. MAX Image Resolution Enhancer
2. GFPGAN
3. VQFR
4. 1~3の比較

この超解像シリーズでは、いくつかの超解像技術をピックアップして、それぞれの環境構築方法を中心にご紹介します。

今回は、MAX Image Resolution Enhancer(SRGAN), GFPGAN, VQFRの3つの超解像技術を比較します。

注意

  • 画像比較の性質上、PCでの閲覧を推奨します。
  • 大量の画像が存在するため、通信量が多くなります。

元画像

出力結果

感想

論文の発表年順に、SRGAN, GFPGAN, VQFRを試してみました。
SRGANは、良くも悪くも、小さい画像をそのまま拡大しているような感じがします。
SRGANにくらべ、GFPGANとVQFRは顔に特化している分、顔の拡大には優れているように感じます。

しかしながら、VQFRは過度に顔の修復をしている感じがします。
おそらくデータセットに存在した顔の特徴を、他の顔にも適用しているのではないでしょうか?

GFPGANが元画像を忠実に超解像しているのに対し、VQFRでは顔が変わってしまっています。
また、両者ともに、はっきりした二重瞼を「創作」する傾向がありそうです。
このようなハルシネーションを起こさないSRGANを選択する、というのも一つの手かもしれません。
(SRGANもハルシネーションを起こします。追加実験2023年10月24日を参照して下さい。)

今回の比較実験で判明しましたが、GFPGANとVQFRは、入力画像として500X500ピクセルのサイズを期待しているようです。
そこから外れた場合、Segmentation faultを起こしてしまいます。
入力画像サイズについて、両者ともREADMEに記載がないので、注意が必要です。

以上です。ありがとうございました。

追加実験:2023年10月24日

SRGAN, GFPGAN, VQFRの3つの超解像技術において、元画像がどのような劣化(ぼかし)を受けているかにより、出力結果が変わることを確認しました。

元画像

  • BLUR
  • FILM
  • MOSAIC

SRGAN

  • BLUR
  • FILM
  • MOSAIC

GFPGAN

  • BLUR
  • FILM
  • MOSAIC

VQFR

  • BLUR
  • FILM
  • MOSAIC

追記:2023年10月26日

超解像の例

よく映画やドラマで、監視カメラの映像を拡大して、犯人の顔を特定するシーンがあります。

Blade Runner Enhance Scene
(クリックして再生)

このようなシーンをGFPGANにて再現してみました。
米メーン州で複数の銃撃事件 16人死亡、50人超けが 容疑者は逃走中

4倍で超解像した結果。

犯人の顔がくっきりと見えてきましたね。
しかしながら、GFPGANは顔の特徴を「創作」する傾向があることが、この記事の実験で判明しています。
そのため、GFPGANで特定した顔が、本当に犯人の顔として手配することは、非常に危険です。

以上です。ありがとうございました。