【解説&実験】 CNNによるパンシャープニング

※本記事は2018/10/08に公開した記事を

向けに加筆・修正したものになります。

はじめに

アドベントカレンダーの他の記事を眺めると、航空宇宙関連の話題からタンパク質構造といった一見航空宇宙とは関係なさそうな(!?)話題までカバーされていて改めてすごいなと感じています。*1 *2

さて、私が今回の題材ですが色々と迷った末*3、パンシャープニングについて書くことにしました。冒頭でも述べているように、この記事は以前に公開したものを書き直したものになります。記事に大きな間違いがあったことに気づいていたのですが、中々直す機会がなかったのでこれを機に書き直すことができてよかったです。ちなみに、先日の日本リモートセンシング学会*4のポスターセッションで「ブログ読みました！」と声をかけられたのには驚きました。嬉しかった反面、大きな間違えを放置しておくことの危険性を実感しました。

パンシャープニングとは

パンシャープニングを一言で言うと、低解像度マルチバンド画像と高解像度単バンド画像(パンクロマティック)から高解像度マルチバンド画像を合成することです。(図１参照)

f:id:dl-kento:20181008205458p:plain — 図1 パンシャープニングの例 (引用元: G. Masi et al. "Pansharpening by convolutional neural networks", Remote Sensing, 2016. (https://www.mdpi.com/2072-4292/8/7/594/htm) )

リモートセンシング画像の品質を定めるパラメータの中に空間分解能とスペクトル分解能があります。空間分解能が高いほど画像を詳細なスケールで解析することができます。また、スペクトル分解能が高いほど画像の1ピクセルから得られる情報量は大きくなります。例えば、スペクトル波形を解析することによって地表面の植物や鉱物の種類を知ることができます。他には時間分解能というパラメータがあり、これは観測頻度を表します。

エネルギー保存の法則から空間分解能 (spatial resolution) とスペクトル分解能 (spectral resolution) にはトレードオフの関係があるため、一つのセンサーにより得られた画像では望ましい性能を達成できないことがあります。そのような場合異なる性能のセンサーのデータを組み合わせることによってそれぞれのデータの「良いとこどり」をした画像を生成することができます。図1の例では二つの画像を組み合わせることにより建物一つ一つの解像度を捉えられる分解能を持ったカラー画像を合成しています。

パンシャープニングのアルゴリズム

多くのstate-of-the-artのパンシャープニングの手法は以下の式の最適化により行われています。

$\mathcal{L} = \lambda_1 f_1(\mathbf{X}, \mathbf{P}) + \lambda_2 f_2(\mathbf{X}, \mathbf{M}) + f_3(\mathbf{X}) \tag{1}$

ただし、

$\mathbf{X} :$ パンシャープニング画像

$\mathbf{P}:$ パンクロマティック画像

$\mathbf{M}:$ 低解像度マルチバンド画像

です。

つまり、第1項はパンクロ画像との空間情報の一貫性、第2項はマルチスペクトル画像とのスペクトル情報の一貫性を意味しています。第3項は正則化項です。

CNNによるパンシャープニング

CNNによるパンシャープニングの手法は様々なものが紹介されていますが、今回は新たな手法として(1)式を最適化する方法を検討しようと思います。

CNNを用いた手法の代表的な先行研究はRemote Sensingというジャーナルで発表されたPNN*5 やICCV2017で発表されたPanNet *6 で、元スケールの画像を教師としてダウンサンプルした画像を用いたパンシャープニングを学習します。これらの手法は、CNNを用いた超解像の手法を参考にしています。個人的にはこれらの手法は学習フェーズと実用フェーズで画像のスケールが変わってしまうので微妙な気がしています。*7

提案手法はCNNによりマルチスペクトル画像とパンシャープン画像の差分をResNetにより推定します(式 (2))。 $f_w$ はCNNによる写像を表しています。また、 $\mathbf{M}$ はパンクロマティック画像の分解能に合わせてアップサンプリングしています。( $\uparrow$ がアップサンプリングに対応しています。)