Uusi erä normalisoinnin erästä

Erän normalisointi (BN) otettiin käyttöön [1] vuonna 2015. Siitä lähtien sitä on käytetty syvin oppimismalleissa koulutuksen ja tukevuuden parantamiseksi oppimisnopeuden valinnassa sekä parametrien alustamisessa.

BN on suunniteltu vähentämään kunkin kerroksen sisääntulon sisäistä muuttujaa (ICS) normalisoimalla kaksi ensimmäistä hetkeä - keskiarvo ja varianssi. Samanaikaisesti se ei vaikuta verkon kykyyn tuottaa haluttu aktivointijakauma käyttämällä paria opittavia parametreja (gamma ja beeta).

Äskettäisessä lehdessä [2] havaitaan jonkin verran uutta valoa BN: lle ja suorituskyvyn voitolle, joka on saatu käyttämällä normalisointitekniikkaa. Kokeilujen perusteella se raportoi:

  • ICS ei ole hyvä harjoittelijan suorituskyvyn ennustaja
  • BN: llä saatu suorituskyvyn kasvu ei johdu ICS: n laskusta
  • BN tarjoaa pikemminkin tasoitusvaikutuksen optimointimaisemaan, mikä parantaa mallien kestävyyttä hyperparametrien, kuten oppimisnopeuden, kannalta.

Koe 1

Alla oleva kuva 1 (otettuna kohdasta [2]) esittää kolme VGG-verkon harjoittelua. Ensimmäinen verkko koulutetaan ilman BN: tä, toinen koulutetaan BN: n kanssa; viimeiseksi, kolmanteen verkkoon injektoidaan jakauman epävakautta kunkin käytetyn BN: n jälkeen lisäämällä aikavaihteleva, nollasta poikkeava keskiarvo ja yksikön ulkopuolinen varianssikohina. Melu aiheuttaa olennaisesti korkean ICS: n, mahdollisesti korkeamman kuin vakioasetus.

Kuvio 1 [2], kokeen 1 tulokset

Tulokset osoittavat, että jopa lisäämällä ICS: tä lisäämällä kohinaa, suorituskyvyn lisäys saavutetaan (vaaleanpunainen viiva). Tämä osoittaa, että ICS: n lasku ei ole tekijä, joka aiheuttaa suorituskyvyn paranemisen.

Koe 2

Kullekin hermoverkkokerrokselle ICS kaappaa optimointiongelman muutoksen, joka johtuu tulojen muutoksista jokaisessa kerroksessa, kun edellisten kerrosten parametrit päivitetään käyttämällä gradientin laskeutumista. Tämän "muutoksen" reaktiona jokaisen kerroksen on mukautettava parametrejaan aiheuttaen usein hajoamisen tai räjähdysmäisten kaltevuuksien [1].

Tämä ajatus optimointimaaston muutoksesta heijastuu myös tason parametrien kaltevuuksien muutoksissa. Suurempi muutos kaltevuudessa heijastaisi suurempaa muutosta optimointimaastossa. [2] kaappaa tämän mittaamalla ero kunkin kerroksen kaltevuuksien välillä ennen (G) ja päivityksen jälkeen kaikkiin aiempiin kerroksiin (G '). Pienempi l2-eron arvo tarkoittaisi pienempää ICS: tä, koska maisema pysyy samanlaisena.

Kuvio 2 [2], kokeen 2 tulokset

[2] tutkii edelleen ICS: n ja BN: n välistä yhteyttä piirtämällä kuvion 2 mukaisen kahden kaltevuuden l2-eron (ja kosinin kulman). Yllä olevasta kuvasta voidaan nähdä, että BN: n käyttö ei tarkoita ICS: n vähenemistä.

Joten mitä erän normalisointi sitten tekee?

Syvän neuroverkon optimointimaisema voi koostua lukuisista tasaisista alueista ja terävistä kinkkuista, jotka tekevät ongelmasta kuperan. Tällaiset alueet johtavat kaltevuuden häviämiseen (tasaiset alueet) tai kaltevuusräjähdykseen (terävät rinteet). Tämä lisää herkkyyttä oppimisnopeudelle ja parametrien alustamiselle, mikä tekee optimoinnista epävakaa.

[2] viittaa BN: tä käyttävien kaltevuuksien korkeampaan Lipschitznessiin, mikä tarkoittaa käytännössä optimointimaaston suurempaa sileyttä. Tämä voidaan havaita kuviossa 3, joka kuvaaja laskee tappion gradientin harjoitusvaiheessa ja mittaa kuinka häviö muuttuu kyseisen kaltevuuden suuntaan.

Kuva 3 [2]

Kuviosta 3 BN antaa tasaisemman profiilin. Tämä tekee kaltevuudesta ennustettavamman, eli jokaisessa vaiheessa on todennäköisempää, että kaltevuus pysyy samanlaisena lähitulevaisuuden vaiheissa. Tällainen ennustettavuus mahdollistaa suuremman askeleen ottamisen kaltevuuden suuntaan menettämättä vakautta.

Viimeiseksi [2] todetaan myös, että BN: n tasoittava vaikutus voi olla syy verkkojen paremmalle yleistymiselle. Tämä johtuu siitä, että BN työntää optimointia kohti tasaisia ​​minimiä.

Viitteet:
[1] Ioffe S, Szegedy C. Erän normalisointi: Syvän verkon harjoituksen nopeuttaminen vähentämällä sisäistä kovariaattivesiä. arXiv preprint arXiv: 1502.03167. 2015 11. helmikuuta.
[2] Santurkar S, Tsipras D, Ilyas A, Madry A. Kuinka erän normalisointi auttaa optimointiin? (Ei, se ei koske sisäistä kovariaattiventymää). arXiv preprint arXiv: 1805.11604. 2018 29. toukokuuta.