A tétel-normalizálás új megértése

A kötegelt normalizálást (BN) 2015-ben vezették be [1]. Azóta ezt alkalmazzák a legmélyebb tanulási modellekben a képzés és a tanulási sebesség kiválasztásának, valamint a paraméterek inicializálásának robusztusabbá tételére.

A BN-t úgy tervezték, hogy csökkentse az egyes rétegek bemenetének belső kovariációs eltolódását (ICS) az első két momentum - átlag és variancia normalizálásával. Ugyanakkor nem befolyásolja a hálózat azon képességét, hogy megtanulható paraméterek (gamma és béta) segítségével aktiválja az aktiváció kívánt eloszlását.

Egy nemrégiben írt cikk [2] új fényt derít a BN-re és a teljesítménynövekedésre, amelyet a normalizálási technika alkalmazásával kaptak. Kísérletek alapján jelentést készít:

  • Az ICS nem jó előrejelző az edzés teljesítményére
  • A BN alkalmazásával elért teljesítménynövekedés nem az ICS csökkenéséből származik
  • A BN inkább simító hatást gyakorol az optimalizálási tájra, ami javítja a modellek robusztusságát a hiperparaméterhez, például a tanulási sebességet.

1. kísérlet

Az alábbi 1. ábra (a [2] -ből) a VGG hálózat három képzési sorozatát mutatja. Az első hálózatot BN nélkül képzik, a másodikot a BN-vel képzik; végül a harmadik hálózatot elosztási instabilitással injektálják minden felhasznált BN után, időbeli változó, nullától eltérő és nem egységbeli varianciazaj hozzáadásával. A zaj alapvetően magas ICS-t okoz, esetleg magasabb, mint a standard beállítás.

1. ábra [2], az 1. kísérlet eredményei

Az eredmények azt mutatják, hogy még a megnövekedett ICS mellett a zaj hozzáadásával a teljesítménynövekedés továbbra is megtörténik (rózsaszín vonal). Ez arra utal, hogy az ICS csökkenése nem a teljesítmény javulását okozó tényező.

2. kísérlet

Az egyes neurális hálózati rétegekre az ICS rögzíti az optimalizálási probléma változását, amelyet az egyes rétegek bemeneteinek változása okozott, mivel az előző rétegek paramétereit gradiens leszármazással frissítik. Ennek a „eltolásnak” a reakciójaként minden rétegnek módosítania kell a paramétereit, gyakran eltűnést vagy a gradiensek robbanását okozva [1].

Az optimalizálási táj változásának ezt a gondolatát a réteg paramétereinek gradienseinek megváltozása tükrözi. A gradiens nagyobb változása az optimalizálási táj nagyobb változását tükrözi. [2] ezt rögzíti az egyes rétegek gradiensei közötti különbség megmérésével (G) és az összes korábbi réteg frissítésével (G '). Az L2 különbség kisebb értéke kisebb ICS-t jelez, mivel a táj hasonló marad.

2. ábra [2], a 2. kísérlet eredménye

[2] tovább vizsgálja az ICS és a BN közötti kapcsolatot a két gradiens L2 különbségének (és koszinuszszögének) ábrázolásával, a 2. ábrán látható. A fenti ábrából látható, hogy a BN használata nem jelenti az ICS csökkenését.

Tehát mit csinál a kötegek normalizálása?

A Mély Neurális Hálózat optimalizálási tája számos sík régióból és éles kincsekből állhat, amelyek miatt a probléma nem domború. Az ilyen régiók eltűnő gradienshez (lapos régiók) vagy gradiens robbanáshoz (éles lejtők) vezetnek. Ez növeli az érzékenységet a tanulási sebességre és a paraméterek inicializálására, ezáltal az optimalizálás instabilsá válik.

[2] a BN használatával a gradiensek magasabb Lipschitznessére utal, ami gyakorlatilag az optimalizálási táj nagyobb simaságát jelenti. Ez megfigyelhető a 3. ábrán, amely ábrákkal kiszámítja a veszteség gradienst egy edzési lépésben, és megméri, hogy a veszteség hogyan változik ezen a gradiens irányban.

3. ábra [2]

A 3. ábra szerint a BN simább profilt ad. Ez a gradienst kiszámíthatóbbá teszi, vagyis minden lépésnél valószínűbb, hogy a gradiens hasonló marad a közeljövőbeni lépéseknél. Ez a kiszámíthatóság lehetővé teszi nagyobb lépések megtételét a gradiens irányában anélkül, hogy a stabilitást elvesztenék.

Végül [2] azt is megállapítja, hogy a BN simító hatása lehet a hálózatok jobb általánosításának oka. Ennek oka az, hogy a BN egyenes minimumok felé tolja az optimalizálást.

Irodalom:
[1] Ioffe S, Szegedy C. A tételek normalizálása: A mély hálózati képzés felgyorsítása a belső kovariációs eltolódás csökkentésével. arXiv preprint arXiv: 1502.03167. 2015. február 11.
[2] Santurkar S, Tsipras D, Ilyas A, Madry A. Hogyan segít a kötegelt normalizálás az optimalizálásban? (Nem, ez nem a belső kovariáta eltolódásáról szól). arXiv preprint arXiv: 1805.11604. 2018 május 29.