Skip to content

Local Gradients Smoothing: Defense against localized adversarial attacks #8

@palloc

Description

@palloc

公開日

2018-07-03

1. 概要

LaVANやadversarial pathなど様々なDNNに対する攻撃を防御する Local Gradients Smoothing(LGS) 手法を提案。

↓サンプル

screen shot 2018-07-21 at 17 22 31

2. 新規性・差分

3. 手法

LaVANやadversarial pathなどは、特定の位置に高周波ノイズを埋め込んでいて、画像の勾配領域で非常にノイズが強くなる。そこで、分類するのに必要な低周波画像領域に影響を与えずに高周波領域を除去することにより、ノイズの影響を大幅に低減させる。

画像勾配を以下の式で求める。

screen shot 2018-07-21 at 17 06 58

次に、画像全体で正規化する。

screen shot 2018-07-21 at 17 07 25

これにより、入力データ画像の高周波数の細部が平滑化される。
また、雑音抑圧は以下の式で行われる。

screen shot 2018-07-21 at 17 07 29

λはLGSの平滑化係数で、0≦λ*g(x)≦1 である。
この操作をグローバルに行うと、そもそもの分類器の精度が低下してしまうため、block-wizeアプローチをする。
以下のように勾配の大きさのマップをK個の同じサイズτに分ける。そして、閾値γでフィルタをかけ、adversarial noiseがある可能性が最も高い活性化領域を推定する。(以下の式で表せる)

screen shot 2018-07-21 at 17 07 34

4. 結果

screen shot 2018-07-21 at 17 25 36

95*95のパッチを当てた時の精度比較は以下の通り

screen shot 2018-07-21 at 17 27 26

計算コストの比較は以下の通り

screen shot 2018-07-21 at 17 28 18

5. 議論

分類器は以下のような決定段階を備える必要があると考えられる。

  1. 検知:制限がなければ基本的に任意の防御システムをバイパスすることができるが、通常のデータからかけ離れているためadversarialな入力だと検知する方が楽なので検知システムを入れる。
  2. 変換:adversarialなのを防ぐために今回のLGSのような手法を用いて入力データを変換する。
  3. 分類:adversarial trainingで堅牢性を高めたモデルで分類する。

6. コメント

DNN使ってる製品がだいぶ出回り始めたので、プロダクトを作ってる人たちは議論に書いた3つの段階をちゃんと実装しましょうという気持ちになった。

論文情報・リンク

https://arxiv.org/pdf/1807.01216.pdf

Metadata

Metadata

Assignees

No one assigned

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions