Kielen syntyminen moniagenttipeleillä: Oppiminen kommunikoimaan symbolisarjojen kanssa

Serhii Havrylov ja Ivan Titov (ML: n tutkimuskumppanit Edinburghin yliopistosta / Amsterdamin yliopisto)

Kieli on ollut tärkeä työkalu ihmisen sivilisaatiolle tiedon siirtämiseksi uusille sukupolville. Kielen alkuperä on kiehtonut ihmisten mieliä vuosisatojen ajan, ja se on johtanut useisiin tutkimuksiin.

Viime aikoihin saakka melkein kaikki matemaattiset mallit kielen syntymisen tutkimiseksi oli kuitenkin rajoitettava pienen ulottuvuuden, yksinkertaisiin havaintoalueisiin algoritmisten ja laskennallisten rajoitusten takia. Viime vuosina syväoppimisyhteisö on osoittanut suurta kiinnostusta tähän ongelmaan. Seuraava viesti sisältää tärkeimmät panoksemme kielitieteen ja koneoppimisen aloilla, jotka muodostuivat SAP: n koneoppimistutkimusryhmän kanssa tehdyn yhteisen tutkimusprojektimme aikana.

Viitepelin pelaaminen

Yksi kielen käytön keskeisimmistä haasteista on viitata määriteltyihin asioihin. Siksi ei ole yllättävää, että viitepeli on menossa asetukseksi oppimisen ja kommunikoinnin kentässä. Koostuen useista rajoitetuista interaktiivisista päättelytehtävistä, näitä pelejä käytetään tutkimaan koneiden käytännöllisiä päätelmiä hallitussa ympäristössä. Vaikka moniin jatkoihin ensisijaiseen viitepeliin on mahdollista, päätimme jatkaa seuraavan pelin asennusta:

  1. Kohdekuva valitaan joukosta kuvia, joissa \ (K \) on häiritseviä kuvia.
  2. Agentteja on kaksi: lähettäjä ja vastaanottaja.
  3. Kohdekuvan näkemisen jälkeen lähettäjän on keksiä viesti, jota edustaa symbolisarja kiinteän koon sanastosta. Jakson pituus on suurin mahdollinen.
  4. Koska generoitu viesti ja häiritsevistä kuvista koostuva kuvasarja ja kohdekuva, vastaanottimen tulisi tunnistaa oikea kohdekuva.

Tästä syystä voidakseen menestyä tässä viitepelissä lähettäjän on valittava sanat huolellisesti ja laitettava ne sarjaan, jonka avulla vastaanottajan on helppo tunnistaa oikein, mikä kuva lähettäjälle näytettiin. Asetus on olennaisesti erilainen kuin aiemmat tutkimukset tällä alalla, koska lähestymistapanamme käyttää esimerkiksi sekvenssejä yksittäisten symbolien sijasta viestien generointiin, mikä tekee asettelustamme realistisemman ja haastavamman oppimisen näkökulmasta.

agents

Molemmat agentit, lähettäjä ja vastaanottaja, toteutetaan toistuvina hermoverkoina, nimittäin pitkinä lyhytaikaisina muistiverkoina, jotka ovat yksi vakiovälineitä sekvenssien luomiseen ja käsittelemiseen. Seuraava kuva näyttää mallin luonnosta, jossa kiinteät nuolet edustavat deterministisiä laskelmia. Katkoviivat osoittavat aiemmin saatujen sanojen kopioimisen. Ja viimeiseksi, timantin muotoiset nuolet edustavat sanan näytteenottoa sanastosta.

Todennäköisesti tämä on mallin tärkein ja ongelmallisin osa. Yhtäältä, se on ratkaiseva tekijä, koska tämä on paikka, jossa lähettäjä päättää, mitä sanoa seuraavaksi. Toisaalta se on hankala, koska se on stokastinen. Valitettavasti kaikkialla läsnä oleva tavanomainen uusintaalgoritmi perustuu siihen, että hermostoverkon jokaisessa kerroksessa on jatkuvien erilaistuvien toimintojen ketjut. Tämä tietty arkkitehtuuri sisältää kuitenkin erottamattoman näytteenoton diskreetistä todennäköisyysjakaumasta, mikä tarkoittaa, että emme voi käyttää reprodulaatiota heti.

Lähettäjän visuaalinen järjestelmä toteutetaan konvoluutiona hermoverkkona (CNN). Tapauksessamme kuvia edustavat CNN: n viimeisen viimeisen piilotetun kerroksen tulokset. Kuten yllä olevasta kuvasta voidaan nähdä, viesti saadaan näytteittämällä peräkkäin, kunnes suurin mahdollinen pituus on saavutettu tai erityinen merkki "viestin loppu" on luotu.

oppiminen

Vastaanottajaagentin käyttäytyminen on suhteellisen helppo oppia viitepelin yhteydessä. Koska se on erotettavissa päästä päähän, häviöfunktion kaltevuudet suhteessa sen parametreihin voidaan arvioida tehokkaasti. Todellinen haaste on oppia lähettäjäagentti. Sen laskennallinen kuvaaja sisältää näytteenoton, mikä tekee siitä erottamattoman. Perustasona otimme käyttöön REINFORCE-algoritmin. Tämä menetelmä tarjoaa yksinkertaisen tavan estää häviöfunktion kaltevuudet stokastisen politiikan parametreihin nähden. Vaikka se on puolueeton, sillä on yleensä valtava varianssi ja tämä tosiasia hidastaa mallin oppimista. Onneksi viime vuonna kaksi ryhmää löysi itsenäisesti puolueellisen, mutta matalan varianssin estimoijan - Gumbel-Softmax -estimaattorin (GS-estimaattori). Se mahdollistaa alkuperäisen erillisen muuttujan rentouttamisen jatkuvalla vastineellaan. Tämä tekee kaikesta erotettavissa olevan, mikä sallii jälkikasvausalgoritmin soveltamisen. Koska tämä aihe on melko suuri ja ansaitsee oman viestin, kehotamme sinua lukemaan yhden tämän menetelmän kirjoittajien blogin.

Havainnot

Ensimmäinen asia, jonka tutkimme mallin oppimisen jälkeen, oli viestinnän onnistumisaste. Pidämme kahden agentin välistä viestintää onnistuneena, kun kohdekuva tunnistetaan oikein. Kuten alla olevasta kuvasta voidaan nähdä, Gumbel-Softmax -estimaattoria (punainen ja sininen käyrä) käyttävät tulokset ovat parempia kuin REINFORCE-algoritmissa (keltainen ja vihreä käyrä), paitsi jos edustajien sallitaan kommunikoida vain yhdellä sanalla.

Oletetaan, että tässä suhteellisen yksinkertaisessa tilanteessa REINFORCE-variaatio ei ole ongelma ja puolueettomuuden ominaisuus kannattaa. Samanaikaisesti GS-estimaattorin esijännitys ajautti sen pois optimaalisesta ratkaisusta. Lisäksi tämä juoni kulkee käsi kädessä intuition kanssa ja osoittaa selvästi, että lisää sanoja käyttämällä kuvataan kuvaa tarkemmin.

Tutkimme myös kuinka monta vuorovaikutusta edustajien välillä on suoritettava viestintäprotokollan oppimiseksi. Paljon yllätykseksi näimme, että koulutuksen lähentymisen edellyttämien päivitysten määrä GS-arvioijalla (vihreä käyrä) vähenee, kun annamme lähettäjälle käyttää pidempiä viestejä. Tämä käyttäytyminen on lievästi vastaintuitiivinen, koska voidaan olettaa, että on vaikeampaa oppia protokollaa, kun viestintäprotokollien hakutila on suurempi. Toisin sanoen pidempien sekvenssien käyttäminen auttaa oppimaan viestintäprotokollan nopeammin. Tätä ei kuitenkaan käytetä REINFORCE-estimaattorissa (punainen käyrä): Konvergointi vie yleensä viisinkertaisesti enemmän päivityksiä verrattuna GS-arvioijaan. Myöskään konvergenssiin tarvittavien päivitysten määrän ja viestin enimmäispituuden välillä ei ole selvää riippuvuutta.

Lisäksi piirrämme kooderin hämmentävyyden, joka väitetysti mittaa, kuinka monta vaihtoehtoa lähettäjän on valittava jokaisessa aikavaiheessa näytteistettäessä todennäköisyysjakaumaa sanastoon. Voimme nähdä, että GS-arvioijalle (vihreä käyrä) vaihtoehtojen lukumäärä on suhteellisen suuri ja kasvaa lauseiden pituuden myötä, kun taas REINFORCE-algoritmissa (punainen käyrä) hämmennyksen lisääntyminen ei ole yhtä nopeaa. Tämä merkitsee redundanssia koodauksissa, mikä tarkoittaa, että on olemassa useita parafraaseja, jotka koodaavat samaa semanttista sisältöä.

Miltä oppinut kieli näyttää? Pyrimme ymmärtämään paremmin tämän kielen luonnetta ja tarkistimme mallin tuottaman pienen lauseiden alajoukon, joiden suurin mahdollinen viestin pituus oli 5 yksikköä. Ensin otimme satunnaisen valokuvan kohteesta ja tuotimme viestin. Sitten iteroimme tietojoukon ja satunnaisesti valittujen kuvien kanssa viesteillä, joilla on 1, 2 ja 3 symbolin etuliitteet generoidun viestin kanssa.

Esimerkiksi vasemman kuvan ensimmäisellä rivillä, jossa käytetään eläinkuvien osajoukkoa, näytetään joitain näytteitä, jotka vastaavat koodia (5747 * * * *). Tässä * tarkoittaa mitä tahansa sanaa sanakirjasta tai lauseen lopun pehmusteesta.

Vaikuttaa kuitenkin siltä, ​​että koodin (* * * 5747 *) kuvat eivät vastaa mitään ennalta määritettyä luokkaa. Tämä viittaa siihen, että sanajärjestys on ratkaisevan tärkeä kehittyneellä kielellä. Erityisesti sana 5747 ensimmäisessä paikassa koodaa eläimen läsnäoloa kuvassa. Samasta kuvasta näkyy, että viesti (5747 5747 7125 * *) vastaa tiettyä karhulajia, mikä osoittaa, että kehitetty kieli toteuttaa jonkinlaista hierarkkista koodausta. Tämä on erittäin kiinnostavaa, koska mallia ei ollut nimenomaisesti rajattu käyttämään mitään hierarkkista koodausjärjestelmää. Oletettavasti tämä menetelmä voi auttaa mallia kuvaamaan tehokkaasti näkymättömiä kuvia. Silti luonnollinen kieli käyttää muita periaatteita koostumuksen varmistamiseksi. Malli näyttää yleisesti sovellettavalta, koska se osoittaa samanlaista käyttäytymistä ruoka-alueen kuvissa (oikea kuva yllä olevassa kuvassa).

Tutkimuksessamme olemme osoittaneet, että hermoverkkojen avulla mallinnetut agentit voivat menestyksekkäästi keksiä tehokkaan kielen, joka koostuu erillisistä merkkijonoista. Havaitsimme myös, että edustajat voivat kehittää viestintäprotokollan nopeammin, kun annamme heidän käyttää pidempiä symbolisekvenssejä. Lisäksi havaitsimme, että indusoitu kieli toteuttaa hierarkkisen koodausjärjestelmän ja että esiintyy useita parafraaseja, jotka koodaavat samaa semanttista sisältöä. Tulevassa työssä haluamme laajentaa tätä lähestymistapaa tavoitteellisten vuoropuhelujärjestelmien mallintamiseen.

Chatbotit ja keskustelukykyiset AI-alustat ovat kasvaneet yhä tärkeämmäksi yrityssektorilla, etenkin pankki-, vakuutus- ja televiestinnän alalla. Nykyiset lähestymistavat näiden tekniikoiden rakentamiseksi tukeutuvat kuitenkin edelleen laajaan ihmisen valvontaan. Ihmisten on joko rakennettava säännöt tai annettava esimerkkejä onnistuneista vuoropuheluista, joita käytetään älykkäiden avustajien kouluttamiseen. Tätä on vaikea skaalata monimutkaisiin tehtäviin, koska laadunvalvonta on kallista ja aikaa vievää. Lisäksi ihmisen lähestymistavat voivat olla epäjohdonmukaisia ​​tai voi olla tehokkaampia tapoja ratkaista tehtävät. Lähestymistaplamme on lupaava mahdollisuus korvata tai täydentää tätä vakioskenaariota: chatbotit voisivat sitten käyttää palautetta tehtävien suorittamisesta mahdollistaen kustannustehokkaan lisävalvonnan. Jossain vaiheessa tämä saattaa auttaa rakentamaan menestyviä digitaalisia avustajia lyhyemmässä ajassa ja pienemmillä kuluilla. Odotamme myös, että tämä auttaisi koneita selviytymään uusista skenaarioista ja muutoksista olemassa olevissa asetuksissa ilman nimenomaista ihmisen puuttumista tai uusien tietojoukkojen tarpeellisuutta.

Esittelimme työtämme NIPS’17: ssä. Lisätietoja: