A nyelv megjelenése több ügynöki játékokkal: A szimbólumok szekvenciáival való kommunikáció megtanulása

Serhii Havrylov és Ivan Titov (az ML kutatási partnerei az Edinburghi Egyetemen / az Amszterdami Egyetem)

A nyelv az emberi civilizáció nélkülözhetetlen eszköze az ismeretek új generációk számára történő átadása szempontjából. A nyelv eredete évszázadok óta elbűvöli az emberek gondolatait, és számos tanulmányhoz vezetett.

A közelmúltban azonban a nyelv kialakulásának vizsgálatához szinte minden matematikai modellt az algoritmikus és a számítási korlátozások miatt az alacsony dimenziójú, egyszerű megfigyelési terekre kellett korlátozni. Az elmúlt években a mélyen tanuló közösség jelentős érdeklődést mutatott e probléma iránt. A következő üzenet ismerteti a nyelvészet és a gépi tanulás terén elért fő hozzájárulásainkat, amelyeket az SAP gépi tanulási kutatócsoportjával folytatott közös kutatási projektünk során alakítottak ki.

Referenciajáték játék

A nyelvhasználat egyik legalapvetőbb kihívása a meghatározott dolgokra való hivatkozás. Ezért nem meglepő, hogy a referenciajáték a kommunikáció elsajátításának területén megy keresztül. Számos korlátozott, interaktív érvelési feladatból áll, ezeket a játékokat arra használják, hogy ellenőrizzék a gépek gyakorlati következtetéseit. Bár az elsődleges referenciajáték számos kiterjesztése lehetséges, úgy döntöttünk, hogy folytatjuk a következő játékbeállítást:

  1. A célképet a \ (K \) elvonó képeket tartalmazó képek gyűjteményéből választják.
  2. Két ügynök létezik: egy küldő és a fogadó.
  3. A célkép megtekintése után a feladónak üzenetet kell előállítania, amelyet egy rögzített méretű szókincs szimbólumainak sorozata reprezentál. A sorozat maximális lehetséges hossza van.
  4. Tekintettel a generált üzenetre, valamint a figyelmeztető képeket és a célképet tartalmazó képsorra, a vevőnek azonosítania kell a helyes célképet.

Következésképpen, annak érdekében, hogy sikeres legyen ebben a referenciális játékban, a feladónak gondosan meg kell választania a szavakat, és azokat egy sorrendbe kell helyeznie, amely megkönnyíti a címzettet abban, hogy helyesen azonosítsák, milyen képet mutattak a feladónak. A beállítás alapvetően különbözik az ezen a téren korábban végzett tanulmányoktól, mivel megközelítésünk például a szekvenciákat használja, nem pedig egyetlen szimbólumot az üzenetek generálására, ami beállításunk realisztikusabbá és kihívást jelentővé teszi a tanulás szempontjából.

minőségben

Mindkét ügynököt, mind a küldőt, mind a vevőt, visszatérő ideghálózatként, nevezetesen hosszú távú memóriahálózatként valósítják meg, amelyek a szekvenciák létrehozásának és feldolgozásának egyik szokásos eszköze. Az alábbi ábra egy modell vázlatát mutatja, ahol a szilárd nyilak determinisztikus számításokat képviselnek. Szaggatott nyilak ábrázolják egy korábban beszerzett szót. És végül: a gyémánt alakú nyilak jelképeznek egy szót a szókincsből.

Valószínűleg ez a modell legfontosabb és leginkább zavaró része. Egyrészt ez döntő fontosságú elem, mert itt feladja a feladó a következő mondatokkal kapcsolatos döntéseit. Másrészt zavaró, mert sztochasztikus. Sajnos egy mindenütt jelen levő backpropagation algoritmus arra támaszkodik, hogy a neurális hálózat minden rétegében folyamatosan megkülönböztethető funkciók lánca legyen. Ez a konkrét architektúra azonban a megkülönböztethetetlen mintavételt tartalmazza a diszkrét valószínűség-eloszlás alapján, ami azt jelenti, hogy nem tudjuk azonnal használni a visszapótlást.

A feladó vizuális rendszerét konvolúciós neurális hálózatként (CNN) valósítják meg. Esetünkben a képeket a CNN utolsó előtti rejtett rétegének kimenete képviseli. Amint az a fenti ábrából látható, egy üzenetet egymás utáni mintavétel útján kap, amíg a maximális lehetséges hosszúságot el nem érik, vagy pedig a „üzenet vége” speciális token nem jön létre.

Tanulás

Viszonylag könnyű megtanulni egy fogadó ügynök viselkedését a referencia játék során. Mivel ez végponttól végig differenciálható, a veszteségfüggvény gradiensei paramétereikhez viszonyítva hatékonyan becsülhetők meg. Az igazi kihívás az, hogy megtanuljuk a küldő ügynököt. Számítási gráfja tartalmaz mintavételt, ami megkülönböztethetetlenné teszi. Kiindulópontként egy REINFORCE algoritmust valósítottunk meg. Ez a módszer egy egyszerű módszert kínál a veszteségfüggvény gradienseinek becslésére a sztochasztikus politika paraméterei alapján. Annak ellenére, hogy elfogulatlan, általában hatalmas szórású, és ez a tény lelassítja a modell tanulását. Szerencsére az elmúlt évben két csoport egymástól függetlenül fedezte fel torz, de alacsony variációjú becslést - a Gumbel-Softmax becslést (GS becslés). Ez lehetővé teszi az eredeti különálló változó ellazítását folyamatos párjával. Ez mindent megkülönböztethetővé tesz, ami lehetővé teszi a backpropagation algoritmus alkalmazását. Mivel ez a téma elég nagy, és megérdemli a saját üzenetét, javasoljuk, hogy olvassa el a módszer egyik szerzőjének blogbejegyzését.

Megállapításaink

Az első dolog, amelyet a modell megtanulása után vizsgáltunk, a kommunikáció sikerességi aránya volt. Két ügynök közötti kommunikáció akkor tekinthető sikeresnek, ha a célképet helyesen azonosítják. Amint az az alábbi ábrából kitűnik, a Gumbel-Softmax becslő (vörös és kék görbe) alkalmazásával kapott eredmények jobbak, mint a REINFORCE algoritmus eredményei (sárga és zöld görbék), kivéve, ha az ügynökök csak egy szót használhatnak.

Feltételezzük, hogy ebben a viszonylag egyszerű környezetben a REINFORCE varianciája nem kérdés, és az elfogulatlanság tulajdonsága megtérül. Ugyanakkor a GS becslõ torzítása elmozdította az optimális megoldástól. Ez a cselekmény együtt jár az intuícióval, és egyértelműen megmutatja, hogy több szó használatával pontosabban leírható egy kép.

Azt is megvizsgáltuk, hogy hány interakciót kell végrehajtani az ügynökök között a kommunikációs protokoll megismerése érdekében. Nagyon meglepő módon, láttuk, hogy a GS becsléssel (zöld görbe) történő konvergencia eléréséhez szükséges frissítések száma csökken, ha hagyjuk, hogy a feladó hosszabb üzeneteket használjon. Ez a viselkedés kissé ellentétes, mivel feltételezhető, hogy nehezebb megtanulni a protokollt, ha a kommunikációs protokollok keresési területe nagyobb. Más szavakkal: hosszabb sorozatok használata elősegíti a kommunikációs protokoll gyorsabb megtanulását. A REINFORCE becslésnél (piros görbe) azonban nem ez a helyzet: általában ötször több frissítésre van szükség a konvergenciához, mint a GS becsléshez. Ezenkívül nincs egyértelmű függőség az összehangoláshoz szükséges frissítések száma és az üzenet maximális lehetséges hossza között.

Ezenkívül felvázoljuk a kódoló zavarát, amely vitathatóan azt méri, hogy hány opciót kell választania egy feladónak az egyes időpontokban, miközben mintavételezést végez a szókincs valószínűségi eloszlása ​​alapján. Láthattuk, hogy a GS becslő (zöld görbe) esetében az opciók száma viszonylag magas és növekszik a mondat hosszával, míg a REINFORCE algoritmus (piros görbe) esetében a perplexitás növekedése nem olyan gyors. Ez a kódolások redundanciáját vonja maga után, ami azt jelenti, hogy több parafázis létezik ugyanazt a szemantikai tartalmat kódolva.

Hogyan néz ki a tanult nyelv? A nyelv természetének jobb megértése céljából megvizsgáltunk egy, a modell által előállított mondatok egy kis részhalmazát, amelynek maximális lehetséges üzenet hossza 5 egység lehet. Először véletlenszerűen fényképeztünk egy objektumot, és generáltunk egy üzenetet. Ezután az adatkészlet és a véletlenszerűen kiválasztott képek átjátszásakor üzeneteket küldtünk, amelyek 1, 2 és 3 szimbólum előtagokat tartalmaznak a generált üzenettel.

Például, a bal oldali ábra első sorában az állati képek egy részhalmaza néhány olyan mintát mutat, amelyek megfelelnek a kódnak (5747 * * * *). A „*” itt minden szót jelent a szókincsből vagy a mondatvég-kitöltésből.

Úgy tűnik azonban, hogy a (* * * 5747 *) kód képei nem felelnek meg egy előre meghatározott kategóriának. Ez arra utal, hogy a szórend rendkívül fontos a fejlett nyelvben. Különösen az 5747 szó az első helyzetben egy állat jelenlétét kódolja a képen. Ugyanez az ábra azt mutatja, hogy az üzenet (5747 5747 7125 * *) egy adott medvefajnak felel meg, ami azt állítja, hogy a fejlett nyelv valamilyen hierarchikus kódolást hajt végre. Ez nagy érdeklődésre számít, mivel a modell nem volt kifejezetten korlátozva bármilyen hierarchikus kódolási séma használatára. Valószínűleg ez a séma segíthet a modellnek az ismeretlen képek hatékony leírásában. Ennek ellenére a természetes nyelv más alapelveket is használ a kompozíció biztosításához. Úgy tűnik, hogy a modell általánosan alkalmazható, mivel hasonló viselkedést mutat az élelmiszerek tartományában lévő képeknél (jobb kép a fenti ábrán).

Tanulmányunkban kimutattuk, hogy az ideghálózatokkal modellezett ágensek sikeresen feltalálhatnak egy hatékony nyelvet, amely diszkrét tokenek sorozatából áll. Megállapítottuk azt is, hogy az ügynökök gyorsabban fejleszthetik ki a kommunikációs protokollt, ha megengedjük nekik, hogy hosszabb szimbólumszekvenciákat használjanak. Megállapítottuk továbbá, hogy az indukált nyelv hierarchikus kódolási sémát valósít meg, és létezik több parafázis, amelyek ugyanazt a szemantikai tartalmat kódolják. A jövőbeni munkánkban ezt a megközelítést ki szeretnénk terjeszteni a célorientált párbeszéd rendszerek modellezésére is.

A csevegőbotok és a beszélgető AI platformok egyre jelentősebbé válnak a vállalati szférában, különösen a banki, biztosítási és telekommunikációs szektorban. Ezen technológiák építésének jelenlegi megközelítései azonban továbbra is a széles körű emberi felügyeletre támaszkodnak. Az embereknek szabályokat kell kidolgozniuk, vagy példákat kell mutatniuk a sikeres párbeszédekre, amelyeket az intelligens asszisztensek kiképzésére használnak. Ezt nehéz összetetni a komplex feladatokkal, mivel a minőségi felügyelet drága és időigényes. Sőt, az emberi megközelítések lehetnek inkonzisztensek, vagy hatékonyabbak lehetnek a feladatok megoldására. Megközelítésünknek ígéretes lehetősége van ennek a szcenáriónak a helyettesítésére vagy kiegészítésére: a csevegőbotok ezután visszajelzést adhatnak a feladat elvégzéséről, lehetővé téve további költséghatékony felügyeletet. Ez egy bizonyos ponton elősegítheti a sikeres digitális asszisztensek felépítését rövidebb idő alatt és kevesebb költséggel. Arra számítunk, hogy ez lehetővé tenné a gépek számára, hogy megbirkózzanak az új forgatókönyvekkel és a meglévő beállítások változásaival kifejezett emberi beavatkozás vagy új adatkészletek szükségessége nélkül.

Bemutattuk munkánkat a NIPS'17-en. További információt és tanulmányunk technikai részleteit kérjük, ellenőrizze: Nyelv kialakulása multi-agent játékokkal: A szimbólumok szekvenciáival való kommunikáció megtanulása.