画像拡大マスター:超解像セットアップシリーズ④ 超画像モデルの比較
超解像シリーズは全部で4編書きます。
1. MAX Image Resolution Enhancer
2. GFPGAN
3. VQFR
4. 1~3の比較
この超解像シリーズでは、いくつかの超解像技術をピックアップして、それぞれの環境構築方法を中心にご紹介します。
今回は、MAX Image Resolution Enhancer(SRGAN), GFPGAN, VQFRの3つの超解像技術を比較します。
注意
- 画像比較の性質上、PCでの閲覧を推奨します。
- 大量の画像が存在するため、通信量が多くなります。

元画像




出力結果


感想
論文の発表年順に、SRGAN, GFPGAN, VQFRを試してみました。
SRGANは、良くも悪くも、小さい画像をそのまま拡大しているような感じがします。
SRGANにくらべ、GFPGANとVQFRは顔に特化している分、顔の拡大には優れているように感じます。
しかしながら、VQFRは過度に顔の修復をしている感じがします。
おそらくデータセットに存在した顔の特徴を、他の顔にも適用しているのではないでしょうか?

GFPGANが元画像を忠実に超解像しているのに対し、VQFRでは顔が変わってしまっています。
また、両者ともに、はっきりした二重瞼を「創作」する傾向がありそうです。このようなハルシネーションを起こさないSRGANを選択する、というのも一つの手かもしれません。
(SRGANもハルシネーションを起こします。追加実験2023年10月24日
を参照して下さい。)

今回の比較実験で判明しましたが、GFPGANとVQFRは、入力画像として500X500ピクセルのサイズを期待しているようです。
そこから外れた場合、Segmentation faultを起こしてしまいます。
入力画像サイズについて、両者ともREADMEに記載がないので、注意が必要です。
以上です。ありがとうございました。
追加実験:2023年10月24日
SRGAN, GFPGAN, VQFRの3つの超解像技術において、元画像がどのような劣化(ぼかし)を受けているかにより、出力結果が変わることを確認しました。
元画像
- BLUR
- FILM
- MOSAIC
SRGAN
- BLUR
- FILM
- MOSAIC
GFPGAN
- BLUR
- FILM
- MOSAIC
VQFR
- BLUR
- FILM
- MOSAIC
追記:2023年10月26日
超解像の例
よく映画やドラマで、監視カメラの映像を拡大して、犯人の顔を特定するシーンがあります。
Blade Runner Enhance Scene
(クリックして再生)

このようなシーンをGFPGANにて再現してみました。
米メーン州で複数の銃撃事件 16人死亡、50人超けが 容疑者は逃走中
4倍で超解像した結果。
犯人の顔がくっきりと見えてきましたね。
しかしながら、GFPGANは顔の特徴を「創作」する傾向があることが、この記事の実験で判明しています。
そのため、GFPGANで特定した顔が、本当に犯人の顔として手配することは、非常に危険です。
以上です。ありがとうございました。