Opi muistamaan: synaptisen plastisuuden ohjattu kehys jatkuvaan oppimiseen

Oleksiy Ostapenko, Tassilo Klein, Moin Nabi (ML Research)

Ihmisillä on poikkeuksellinen kyky oppia jatkuvasti koko elinaikanaan. Kyky soveltaa aiemmin opittua tietoa uusiin tilanteisiin, ympäristöihin ja tehtäviin ovat ihmisen älykkyyden keskeinen piirre. Biologisella tasolla tämä johtuu yleensä kyvystä varastoida ja hallita muistoja selektiivisesti riittävän pitkän ajanjakson hermosoluissa, joita kutsutaan synapsiksi. Toisin kuin biologiset aivot, tavanomaisilla keinotekoisilla hermostoverkoilla (ANNs) ei ole kykyä hallita neuronien välisten synaptisten yhteyksien voimakkuutta. Tämä johtaa erittäin lyhyisiin muistiaikoihin ANNsissa - vaikutus, joka tunnetaan katastrofaalisena unohtamisena.

Viimeisen vuosikymmenen aikana suurin osa keinotekoisen älykkyyden (AI) tutkimuksesta oli suunnattu ihmisten tason ylittämiseen eristetyissä, selkeästi määritellyissä tehtävissä, kuten tietokonepeleissä, roskapostien lajittelussa, koirien kissojen luokittelussa ja puheen tunnistamisessa. muutamia mainitakseni. Seurauksena on, että suurimpaan osaan jokapäiväisessä elämässämme olevaa AI: tä voidaan kutsua keinotekoisena kapeana älykkyytenä tai heikkona AI: na. Vahva AI tarkoittaa sitä vastoin ihmisen kaltaista AI: ta, joka pystyy suorittamaan mitä tahansa älykkäitä tehtäviä samalla kun pystyy oppimaan jatkuvasti, unohtamaan valikoivasti, samalla kun sopeutuu nopeasti uusiin tehtäviin ja hyödyntää aiempia kokemuksia. AI-tutkijat ovat vasta äskettäin saaneet huomiota näihin ominaisuuksiin.

Miksi jatkuva oppiminen? Avain jatkuvasti muuttuviin skenaarioihin

Unohtaminen ja puuttuva tiedonsiirto ovat yksi päähaasteista matkalla heikosta AI: sta vahvaan AI: hen. Toisin kuin ihmiset, jotka unohtaa selektiivisesti, koneet unohda katastrofaalisesti. Vastaavasti, kun ”vauva oppii indeksoimaan, kävelemään ja sitten juoksemaan” (~ Dave Waters), AI unohtaa indeksoida kokonaan, kun se on oppinut kävelemään, ja unohtaa kävellä, kun oppi juoksemaan. Ennen kuin tarkastellaan mahdollisia ratkaisuja jatkuvan elinikäisen oppimisen haasteeseen, pohditaan yksinkertaista esimerkkiä AI-pohjaisesta vaateluettelohausta.

Koneoppimismalli, joka on koulutettu kauden (A) vaatteita sisältävällä aineistolla, toimisi erittäin hyvin etsiessään tämän kauden (A) tuotteita. Kuitenkin vuodenajan muuttuessa myös muotisuuntaukset saattavat muuttua. Kun muotisuuntaukset muuttuvat, luetteloon voidaan lisätä uusia tuoteryhmiä, malleja ja tyylejä (esimerkiksi korkokengät lenkkarien sijaan, pitkät takit lyhyiden takien sijaan jne.). Ensimmäisen kauden (A) tietojen perusteella koulutettu malli ei toimisi hyvin, kun etsitään kohteita, jotka on lisätty uudelle kaudelle. Itse asiassa pelkkä mallimme kouluttaminen uuden kauden tietojen perusteella johtaisi katastrofaalisesti unohtamiseen mahdollisuus etsiä edellisen kauden kohteita.

Yleinen tapa unohtaa?

Yksi varhaisimmista tekniikoista katastrofaalisen unohtumisen lieventämiseksi ANNS: ssä tunnetaan nimellä kokemuksen uusinta tai ”harjoitus”. Jatkamalla luettelohakutoimintoamme, jotta voidaan ylläpitää ensimmäisellä kaudella opittua tietoa, koneoppimismalli yksinkertaisesti siirretään tyhjästä molempien vuodenaikojen tietojen seoksesta, ts. Aiemmin opitut tiedot toistetaan mallille, jota koulutetaan uuden kauden tiedot. Yleensä mallin uudelleenkouluttaminen joka kerta, kun tiedonjakelu ”siirtyy”, johtaisi älykkäiden järjestelmien ylläpitämiseen tarvittaviin tietojen tallennuskustannuksiin ja ponnisteluihin, puhumattakaan järjestelmän skaalautuvuuden dramaattisesta vähentämisestä. Viimeisimpien tehtävien raakadatan tallentaminen voi rikkoa suurelta osin reaalimaailman sovelluksen tietosuojavaatimuksia.

Tässä yhteydessä monet tutkijat ovat keskittyneet hermojen plastilisuuden simulointiin ANN: issa ja siten vähentäneet raakadatan säilyttämistarvetta (1,2,3,4,5,6). Tämä tehdään yleensä ns. ”Tehtävän kasvava” -asetus, jossa jokaista äskettäin lisättyä datapalaa pidetään erillisenä tehtävänä ja tehtävän tunnistetta koskevien tietojen oletetaan olevan käytettävissä testiaikana. Palaa takaisin luettelohakuesimerkkiin, tämä vaatisi kausitunnisteen (tehtävämerkinnän) tiedot sisällyttävän jokaiseen kyselyyn; Siksi tietyn vaatekappaleen luokittelu vaatisi etukäteen tietoja vuodenajasta, johon se kuuluu (tehtävämerkintä). Tällaisen ”tehtävämerkinnän” saaminen vähentäisi mallin tuotoksen automaattisesti luokkiin, jotka kuuluvat oletettuun tehtävään. Edellä olevassa esimerkissä se rajoittaisi mallin vain tiettyyn vuodenaikaan. Nämä oletukset voidaan toteuttaa harvoin reaalimaailman sovelluksissa.

Erillinen linja käsittelee todellisemman skenaarion skenaariota. Tässä ”luokan mukaan kasvavassa” skenaariossa mallin luokitteluulostuloa jatketaan jatkuvasti uusien luokkien oppimisen myötä. Tässä yhteydessä yleinen strategia on tuoda esiin ns. Generatiivinen muistikomponentti (esim. 7,8,9). Raakadatan tallentamisen sijaan täällä koulutetaan generatiivinen malli, kuten GAN tai VAE (katso edellinen blogin viesti) tuottamaan toistettavia kokemuksia. Siksi luetteloesimerkissä ensimmäisen kauden tuotteet (vastaavan luokan kanssa) luodaan ja toistetaan mallille.

Nykyiset generatiivisen muistin lähestymistavat luottavat pääosin syvään generatiiviseen uusintatoimenpiteeseen, jossa generatiivista mallia koulutetaan toistuvasti nykyisen saatavilla olevan todellisen datan (uusi kausi) ja edellisen generaattorin syntetisoimien toistojaksojen (viimeinen kausi) sekoituksella. Sen lisäksi, että nämä lähestymistavat ovat erittäin tehottomia koulutuksessa, nämä lähestymistavat ovat alttiita vakavasti vaikutukselle, joka tunnetaan nimellä "semanttinen ajautuminen". ”Semanttinen ajelehtiminen” viittaa jokaisessa muistin toistossa tuotettujen kuvien laatuun aiemmin luotujen kuvien mukaan, mikä aiheuttaa alttiuden virheen leviämiselle ja johtaa siten laadun heikkenemiseen ja unohtumiseen.

Ehdotettu ratkaisu - Plastivuuden oppiminen generatiivisessa muistiverkossa

Toistaiseksi olemme oppineet, että kokemusten uusinta on yksinkertainen ja hyödyllinen strategia unohtamisen voittamiseksi yleensä Annissa, etenkin haastavassa ”luokan mukaan kasvavassa” tilanteessa. Tätä strategiaa sovelletaan kuitenkin vain silloin, kun toistojaksoja ei pidetä raakatiedoina, vaan asiaankuuluvien ja tehokkaasti tallennettujen muistikuvioiden muodossa.

Tämän ratkaisemiseksi ehdotimme äskettäisessä työssämme Dynamic Generative Memory (DGM) -nimistä menetelmää, joka on päästä päähän -harjoitettava jatkuvan oppimisen kehys, joka simuloi synaptista plastisuutta oppivilla kovan huomion maskeilla, joita käytetään generatiivisen verkon (GAN) parametreihin. . Kovan huomion peittäminen tunnistaa ne verkkosegmentit, jotka ovat välttämättömiä nykyisen opitun tiedon tallentamiseksi ja estävät niiden päivitykset tulevan oppimisen aikana. Verkkoa kannustetaan edelleen käyttämään aiemmin opittua tietoa, joka oli tallennettu sellaisiin ”varattuihin” verkkosegmentteihin, jotka tuottivat positiivisen tiedonsiirron eteenpäin. Siksi tuoteluetteloesimerkissämme tietoa edellisen kauden katalogituotteista voitiin käyttää tehokkaasti uudelleen oppiessaan uuden kauden tuotteista. Kaiken kaikkiaan DGM voi oppia uusista tehtävistä tarvitsematta korvata vanhaa tietoa, mikä parantaa koulutuksen tehokkuutta ja tulee entistä vahvemmaksi katastrofaalisen unohtamisen yhteydessä.

Näin ollen DGM voi tuottaa informatiivisia ja monipuolisia näytteitä aiemmin oppineista luokista missä tahansa jatkuvan oppimisen vaiheessa, kuten alla olevassa kuvassa näkyy. Näiden näytteiden korvaaminen tehtävänratkaisumallilla (D) tuottaa mallin, joka voi säilyttää korkean luokitustuloksen kaikissa luokissa, jotka on nähty jatkuvan oppimisprosessin aikana.

Skaalautuvuus

Rajoitetun verkon koon vuoksi on väistämätöntä, että oppimistehtävien lisääntyessä mallin kapasiteetti on jossain vaiheessa ehtynyt. Tämä ongelma pahenee, kun simuloidaan hermojen plastilisuutta parametritasolla kovan huomion peittämisellä. Jotta taataan riittävä kapasiteetti ja jatkuvan ilmaisevan tehon pohjaverkossa, DGM pitää "ilmaisten" parametrien määrän (ts. Kerran, joka voidaan tosiasiallisesti päivittää) vakiona laajentamalla verkkoa tarkalleen niiden parametrien lukumäärällä, jotka varattiin edelliselle tehtävä. Keskeinen idea tässä on, että tietyn positiivisen tiedonsiirron eteenpäin (ts. Parametrien uudelleenkäytettävyys) kanssa uusien tehtävien parametrien varausten määrän tulisi vähentyä ajan myötä ja verkon kasvun tulisi kyllästyä tietyssä pisteessä.

Tekniset yksityiskohdat DGM-menetelmästä ovat arXivia koskevassa täydellisessä asiakirjassa.

Vaikka DGM on vielä kaukana katastrofaalisen unohtamisen kokonaan ratkaisemisesta ja useista rajoituksista huolimatta, se osoittaa verkon tehokkaan kasvun ja kestävyyden katastrofaalisen unohtumisen vaikeissa haasteellisissa ”luokan kasvavissa” kokoonpanoissa. Uskomme, että esitelty tutkimus voi auttaa meitä parantamaan ymmärrystämme jatkuvasta oppimisesta - olennainen kyky matkalla kohti vahvaa AI: ta, joka kykenee oppimaan (ja unohtamaan) mukautuvasti ja asteittain ajan kuluessa.

Elinikäisen oppimisen työmme esitellään CVPR 2019: ssä.

Tietoja kirjoittajasta: SAP-koneoppimistutkimusryhmän apulaistutkija Oleksiy Ostapenko työskentelee jatkuvan elinikäisen oppimisen haasteiden suhteen, joista keskustellaan tässä viestissä hänen julkaisussaan, joka esitellään tämän vuoden CVPR: ssä.