Novo razumevanje serijske normalizacije

Paketna normalizacija (BN) je bila [1] uvedena v letu 2015. Od takrat se uporablja v najbolj poglobljenih učnih modelih za izboljšanje usposabljanja in trdnosti pri izbiri stopnje učenja in tudi zagon parametrov.

BN je bil zasnovan za zmanjšanje notranjega kovarijatnega premika (ICS) vnosa vsake plasti z normalizacijo prvih dveh trenutkov - srednjo in odstopanje. Hkrati ne vpliva na zmožnost omrežja, da ustvari želeno porazdelitev aktivacije s pomočjo para učljivih parametrov (gama in beta).

Nedavni prispevek [2] osvetljuje BN in povečanje učinkovitosti, pridobljene s tehniko normalizacije. Na podlagi poskusov poroča:

  • ICS ni dober napovedovalec uspešnosti treninga
  • Izboljšanje učinkovitosti, pridobljeno z uporabo BN, ne izvira iz zmanjšanja ICS
  • BN raje daje gladek učinek na krajino optimizacije, kar izboljša robustnost modelov do hiperparametra, kot je stopnja učenja.

Preizkus 1

Slika 1 spodaj (vzeta iz [2]) prikazuje tri sklope usposabljanja mreže VGG. Prva mreža je usposobljena brez BN, druga pa z BN; nazadnje, tretje omrežje vbrizga distribucijsko nestabilnost po vsakem uporabljenem BN-ju z dodajanjem časovno spremenljivega, ničelnega srednjega in nevencijskega hrupa. Hrup v bistvu povzroči visok ICS, morda višji od standardne nastavitve.

Slika 1 [2], rezultati poskusa 1

Rezultati kažejo, da tudi pri povečanem ICS z dodajanjem hrupa še vedno dobimo zmogljivost (roza črta). To kaže na zmanjšanje ICS, ki ni dejavnik, ki povzroča izboljšanje učinkovitosti.

Preizkus 2

Za vsak sloj nevronske mreže ICS zajame spremembo same težave z optimizacijo, ki jo povzroči sprememba vhodov v vsak sloj, ko se parametri prejšnjih slojev posodabljajo z gradient spuščanjem. Kot reakcija na to premiko mora vsak sloj prilagoditi svoje parametre, kar pogosto povzroči izginjanje ali eksplozijo gradientov [1].

Zamisel o spremembi optimizacijske pokrajine bi se odražala tudi s spremembami gradientov parametrov plasti. Večja sprememba v naklonu bi odražala večje spremembe v optimizacijski pokrajini. [2] to zajame z merjenjem razlike med gradienti vsake plasti pred (G) in po posodobitvah vseh prejšnjih plasti (G '). Manjša vrednost razlike l2 bi kazala na manjši ICS, saj pokrajina ostaja podobna.

Slika 2 [2], rezultati eksperimenta 2

[2] nadalje raziskuje povezavo med ICS in BN z risanjem l2 razlike (in kosinusnega kota) obeh gradientov, prikazanih na sliki 2. Iz zgornje slike je razvidno, da uporaba BN ne kaže zmanjšanja ICS.

Kaj torej počne serijska normalizacija?

Optimizacijska krajina globoke nevronske mreže je lahko sestavljena iz številnih ravnih področij in ostrih premikov, zaradi katerih težava ni konveksna. Takšne regije vodijo do izginjajočega naklona (ravne regije) ali eksplozije naklona (ostri nagibi). To poveča občutljivost za hitrost učenja in inicializacijo parametrov, zaradi česar je optimizacija nestabilna.

[2] se nanaša na višjo Lipschitzness gradientov z uporabo BN, kar dejansko pomeni večjo gladkost optimizacijske pokrajine. To lahko opazimo na sliki 3, ki izračuna nagib izgube na stopnji treninga in meri, kako se izguba spreminja vzdolž te naklona.

Slika 3 [2]

S slike 3 BN podaja bolj gladek profil. Zaradi tega je gradient bolj predvidljiv, torej je na vsakem koraku bolj verjetno, da gradient ostane podoben tudi pri bližnjih prihodnjih korakih. Takšna predvidljivost omogoča večje korake v smeri naklona, ​​ne da bi pri tem izgubili stabilnost.

Nazadnje [2] ugotavlja tudi, da je učinek glajenja BN lahko razlog za boljšo posplošitev omrežij. To je lepo, ker BN optimizacijo potisne k ravnim minimumom.

Reference:
[1] Ioffe S, Szegedy C. Normalizacija šarž: Pospeševanje treninga globokega omrežja z zmanjšanjem notranjega kovariata. prednastavitev arXiv arXiv: 1502.03167. 2015 11. februar.
[2] Santurkar S, Tsipras D, Ilyas A, Madry A. Kako normalizacija šarže pomaga pri optimizaciji? (Ne, ne gre za notranji kovariatni premik). prednastavitev arXiv arXiv: 1805.11604. 2018 29. maja.