Pregled Deep Learning Papers - Universal Adversarial Patch

V tem članku bom na začetku razpravljal o ustvarjanju neželenih slik, nato pa bom počasi usmerjal razpravo k zanimivemu prispevku, ki so ga objavili raziskovalci v Googlu Brain, o adversarialni slikovni popravki (https://arxiv.org/pdf/1712.09665 .pdf). V tem prispevku je predstavljen splošni obliž slik, ki bi lahko povzročil, da bi jih nevronska mreža napačno razvrstila. Sami avtorji prispevka so to dokazali z youtube videom:

Najprej ugotovimo, zakaj se takšni nasprotniki lahko oblikujejo.

Slabosti nevronskih mrež

Globoko nevronsko omrežje v zadnjem času zagotovo daje rezultate "visoke natančnosti" za prepoznavanje predmetov. Kljub temu lahko nekdo Neural Net napačno razvrsti sliko z minimalnimi motnjami. Oglejmo si možne razloge:

  • Globoke nevronske mreže so usposobljene na fiksnem naboru podatkov, zato lahko zaradi preoblikovanja vhodnih signalov, kot sta prevod ali vrtenje, ni mogoče razvrstiti. To pomeni tudi, da lahko majhna količina hrupa, dodanega vhodnemu signalu, povzroči napačno razvrstitev. Na primer, dodajanje majhne količine hrupa vhodni sliki lahko povzroči, da Nevronska mreža napačno razvrsti sliko, čeprav človeško oko ne bi zaznalo nobene spremembe slike. Ta slika bi vam dala idejo:

[Pred kratkim je bilo nekaj dela o Capsule Networks Geoff Hinton, ki so invazivne na preobrazbe slike. Kljub temu so kapsule ranljive za druge vrste napadov. Pa tudi Convneti so bolj ali manj obsežni in transformacijski invariant]

  • Tudi današnji klasifikatorji, ki temeljijo na poglobljenem učenju, so večinoma tudi delno linearni. Tudi najbolj priljubljene funkcije za aktiviranje, kot je ReLu (in to so različice), so delno linearne. Tu se izključujejo druge funkcije aktivacije, kot sta Sigmoid in Tanh, saj povzročajo težave, kot je "težava z nestajajočimi gradienti". Čeprav so nevronske mreže „nelinearni klasifikatorji“, to tako imenovano nelinearnost dosežejo skozi več „linearnih“ regij

Te pomanjkljivosti Nevronskih mrež so povzročile celotno polje, imenovano »Adversarial Deep Learning« (na splošno »Adversarial Machine Learning« za katero koli vrsto vhodnega signala)

Ustvarjanje neželenih slik

Ustvarjanje neželenih slik za norčevanje s klasifikatorjem Nevronske mreže ni nova težava. V preteklosti je bilo veliko predlaganih metod za ustvarjanje neprimernih primerov. Najpreprostejši način za to bi bila sprememba vrednosti posameznih slikovnih pik slike, dokler se ne poveča največja verjetnost novega razreda. Matematično oz.

Enostavna matematična enačba za gradnjo nasprotnih slik

(Večina raziskovalcev običajno nadomesti zgornji verjetnostni izraz z verjetnostjo dnevnika)

Obstajajo tudi iterativne metode, ki temeljijo na gradientu, kot so metoda hitrega gradientnega znaka (FGSM), metoda iterativnega gradientnega znaka in Iterativna metoda najmanjšega verjetnega razreda za izdelavo primerjalnih primerov. Te metode uporabljajo predvsem gradient stroškov (J) izhodnega razreda glede na vhodno sliko, da iterativno spremenijo vhodno sliko glede na gradient. Oglejmo si matematično enačbo FGSM:

FGSM

Na kratko, FGSM iterativno poveča vhodni signal za majhno količino v smeri naklona stroškov glede na vhod.

Poleg zgoraj omenjenih tehnik so seveda na voljo tudi priljubljeni GAN-ji (Generative adversarial network) za ustvarjanje kontraverznih slik.

Medtem ko zgornje metode ustvarjajo zadovoljive nasprotne primere, niso dovolj močne za delo na enakovredno preoblikovanih slikah. Ta članek z naslovom „Mehanizmi, ki temeljijo na fovizaciji, odpravlja nasprotne primere“ Luo et. al, kaže, da zgornji nasprotni primeri niso uspešni, ko so obrezani vzdolž predmeta, ki nas zanima (Foveated). To je zato, ker je Convnets močan pri spreminjanju in prevajanju. Toda takšno pravilo preoblikovanja ne velja za hrup ali vznemirjenje, ki je dodano sliki, tj. Motnje niso dovolj močne, da bi Convnet zavedele tudi po preoblikovanju slike. Drug članek z naslovom "NI treba skrbeti zaradi nadomestnih primerov zaznavanja predmetov v avtonomnih vozilih" ima skoraj enako namero.

Ali je sploh mogoče izdelati trden nabor nasprotnih slik? No, v zadnjem času je bilo nekaj zanimivih prispevkov, ki razpravljajo o ustvarjanju trdnih nasprotniških primerov. Ogledali si bomo nekatere od njih:

  • Sintetiziranje močnih primerov konkurence (s pričakovanjem preoblikovanja)
  • Nadzorni obliž
  • Proti neopaznim in trdnim primerom napadov na nevronske mreže

Pregledali bomo predvsem prva dva prispevka.

Pričakovanje o transformaciji (EOT)

Delo iz prvega prispevka (t. I. Sintetiziranje močnih nepristranskih primerov) ustvari adverzarne primere, ki so dovolj robustni, da lahko "prevarajo" klasifikator Nevronske mreže pod večino preobrazb slike. V bistvu se tukaj zgodi, da je pričakovana verjetnost razreda za vse možne funkcije transformacije (t ~ T) čim večja, z omejitvijo na Pričakovano učinkovito razdaljo med spremenjeno izvirno in preoblikovano moteno sliko. Poskusimo razumeti, kaj to pomeni.

V EOT je dana podoba prvič nadomestna z eno od zgoraj omenjenih metod. Zdaj definiramo transformacijski prostor „T“, v katerem so pretvorbe, kot so vrtenje, skaliranje, prevajanje in tako naprej. Nato izračunamo pričakovanje verjetnosti dnevnika želene oznake razreda. Tako izgleda matematično:

Pričakovana verjetnost dnevnika želenega razreda glede na transformacije

Nato poskušamo povečati to pričakovano verjetnost pod omejitvijo, da je pričakovana efektivna razdalja med spremenjenim izvirnikom in spremenjeno moteno sliko manjša od neke vrednosti 'ε'. Torej, če upoštevamo pričakovano verjetnost (ali verjetnost dnevnika), upoštevamo vse transformacije, prisotne v transformacijskem prostoru. Omejitev pa je zagotoviti, da so ustvarjene slike čim bližje prvotni transformaciji. Tako izgleda končna enačba:

Nadzorni obliž

Iz zgornjega videoposnetka je razvidno, da lovimo na "univerzalni" obliž slike, ki bo, ko bo dodan kateri koli sliki, Nevronsko mrežo napačno razvrstil sliko. Za to je najprej definiran operatorA (). Operater A vzame obliž, sliko, koordinira v sliki (da se obliž postavi) in na obliž uporabi pretvorbe, kot so prevajanje, vrtenje in skaliranje.

Intuicija za upravljavcem »A«

Za iskanje optimalnega popravka se za določeno oznako uporabi Expectation on Transformation, da se poveča verjetnost napačnega razvrščanja. Matematično je videti tako:

V prvotnem papirju je bil kot točilni razred "Toaster" in končni obliž je izgledal tako:

Ena od omejitev tega neželenega popravka je, da modelov za zaznavanje objektov (modelov, ki na sliki prepoznajo različne predmete) ne morete zavajati. Na primer., Pred kratkim sem poskušal naložiti sliko s tem obližem na Facebook (: P). Ker Facebook navaja vse napovedi o sliki v atributu alt oznake img, v kateri je hiša, lahko preverite njene napovedi takoj, ko sliko naložite. Tukaj sem poskusil:

Levo: Moja objava na facebooku, desno: Orodja za Chrome Dev

(: P)

[Tretji prispevek na zgornjem seznamu, tj. "Proti neopaznim in trdnim primerom napadov na nevronska omrežja", je izšel pred približno tednom dni. V tem prispevku so upoštevali človeški zaznavni sistem pri ustvarjanju nasprotnih primerov]

Povzetek

  • Ustvarjanje neželene vsebine: V bistvu povečujemo verjetnost napačnih razvrstitev s ponavljajočim se dodajanjem hrupa. Nekatere priljubljene tehnike, kot je FGSM, uporabljajo znak naklona stroškov, da dodajo hrup
  • Slabost: Te metode niso dovolj močne, da bi "neumno" zaznali Nevronsko omrežje, ko se vhodna motena slika preoblikuje (arxiv: 1511.06292 in arxiv: 1707.03501)
  • Pričakovanje o preoblikovanju: Najprej ustvarimo kontraverzno sliko z eno od zgornjih metod. Nato maksimiramo pričakovano verjetnost dnevnika razreda za dano preobrazbo motene slike. To pričakovanje je nad vsemi preobrazbami v prostoru za transformacijo 'T'
  • Nadzorni obliž: določi operaterja 'A', ki na dan podobo namesti obliž. Nato se pričakovanje preoblikovanja uporabi za povečanje verjetnosti dnevnika novega razreda, pod omejitvijo, da ne odstopa preveč od začetnega popravka