2023年11月4日 / 最終更新日時 : 2023年11月4日 --- コラム

画像拡大マスター：超解像セットアップシリーズ④ 超画像モデルの比較

超解像シリーズは全部で4編書きます。
1.　MAX Image Resolution Enhancer
2.　GFPGAN
3.　VQFR
4.　1~3の比較

この超解像シリーズでは、いくつかの超解像技術をピックアップして、それぞれの環境構築方法を中心にご紹介します。

今回は、MAX Image Resolution Enhancer（SRGAN）, GFPGAN, VQFRの3つの超解像技術を比較します。

目次

1 注意
2 元画像
3 出力結果
4 感想
5 追加実験：2023年10月24日
6 追記：2023年10月26日
- 6.1 超解像の例

注意

画像比較の性質上、PCでの閲覧を推奨します。
大量の画像が存在するため、通信量が多くなります。

元画像

出力結果

感想

論文の発表年順に、SRGAN, GFPGAN, VQFRを試してみました。
SRGANは、良くも悪くも、小さい画像をそのまま拡大しているような感じがします。
SRGANにくらべ、GFPGANとVQFRは顔に特化している分、顔の拡大には優れているように感じます。

しかしながら、VQFRは過度に顔の修復をしている感じがします。
おそらくデータセットに存在した顔の特徴を、他の顔にも適用しているのではないでしょうか？

GFPGANが元画像を忠実に超解像しているのに対し、VQFRでは顔が変わってしまっています。
また、両者ともに、はっきりした二重瞼を「創作」する傾向がありそうです。
~~このようなハルシネーションを起こさないSRGANを選択する、というのも一つの手かもしれません。~~
（SRGANもハルシネーションを起こします。追加実験2023年10月24日を参照して下さい。）

今回の比較実験で判明しましたが、GFPGANとVQFRは、入力画像として500X500ピクセルのサイズを期待しているようです。
そこから外れた場合、Segmentation faultを起こしてしまいます。
入力画像サイズについて、両者ともREADMEに記載がないので、注意が必要です。

以上です。ありがとうございました。

追加実験：2023年10月24日

SRGAN, GFPGAN, VQFRの3つの超解像技術において、元画像がどのような劣化（ぼかし）を受けているかにより、出力結果が変わることを確認しました。

元画像

BLUR
FILM
MOSAIC

SRGAN

BLUR
FILM
MOSAIC

GFPGAN

BLUR
FILM
MOSAIC

VQFR

BLUR
FILM
MOSAIC

追記：2023年10月26日

超解像の例

よく映画やドラマで、監視カメラの映像を拡大して、犯人の顔を特定するシーンがあります。

Blade Runner Enhance Scene
（クリックして再生）

このようなシーンをGFPGANにて再現してみました。
米メーン州で複数の銃撃事件 16人死亡、50人超けが容疑者は逃走中

4倍で超解像した結果。

犯人の顔がくっきりと見えてきましたね。
しかしながら、GFPGANは顔の特徴を「創作」する傾向があることが、この記事の実験で判明しています。
そのため、GFPGANで特定した顔が、本当に犯人の顔として手配することは、非常に危険です。

以上です。ありがとうございました。

カテゴリー: コラム

タグ: 超解像

前の記事

画像拡大マスター：超解像セットアップシリーズ③ VQFR

2023年11月4日

次の記事

CUDA 12.0, Pytorch 2.1.0の組み合わせにおける__nvJitLinkAddData_12_1が見つからないエラーと回避方法

2023年11月19日

PAGE TOP