Diferenciálisan magánföderált tanulás: Ügyfélszintű perspektíva

Robin Geyer, Tassilo Klein és Moin Nabi (ML Research Berlin)

Általában a szokásos gépi tanulási megközelítések szükségessé teszik a képzési adatok egy központi helyen történő tárolását. Ugyanakkor a magánélet védelmének a gépi tanulásban történő közelmúltbeli emelkedésével egy új kutatási terület, az úgynevezett szövetségi tanulás, felkeltette a globális érdeklődést. Ebben a blogbejegyzésben bemutatjuk első eredményeinket a magánélet megőrzésével kapcsolatos együttműködő gépi tanulással kapcsolatban, majd az előző blogbejegyzésünk nyomon követésével három különféle megközelítést vezetünk be az ezen a területen fennálló adatvédelmi problémák kezelésére.

Mielőtt azonban mélyebben belemerülnénk a javasolt megközelítésbe, térjen vissza újra a koncepció főbb pontjaira. Az egyesített tanulás célja a gépi tanulási modellek képzése anélkül, hogy kifejezetten megosszák volna az adatokat vagy elrejtsék a képzésben való részvételt. Ez a forgatókönyv releváns mind az iparág egészében, mind a személyes szinten, és különösen fontos az olyan helyzetekben, amikor a rosszindulatú ügyfelek esetleg szeretnék következtetni egy másik ügyfél részvételére.

Egy egyszerű példaként vegye figyelembe a kórházak és a biztosítások együttműködését, egy univerzális modell képzésén keresztül az egyéni páciens és az ügyfél adataival, hogy jobb áttekintést kapjon a jelenlegi betegségekről, diagnózisokról és az egészségügyi költségekről. Képzelje el, hogy az egyik részt vevő biztosítás szeretne csatlakozni ehhez az együttműködéshez, abban a reményben, hogy megismerheti a hozzájáruló kórház adatkészletéhez tartozó betegekkel kapcsolatos részleteket. Ha a kórház bizalmas adatokat tár fel az általános gépi tanulási képzés során, akkor megsértik a betegek magánéletét, míg a biztosítás ezeket az indokokat használhatja egyes betegek magasabb árának felszámítására.

Egy másik lehetséges helyzet akkor merül fel, amikor az ügyfelek arra törekszenek, hogy leiratkozzanak egy olyan szolgáltatásról, amelyhez a modell képzéséhez hozzájárultak, anélkül, hogy a modell túlzottan specifikus adat ujjlenyomatát hagynák hátra. Visszatérve a kórházak és a biztosítások példájához, ha az egyik biztosítás abba kívánja hagyni a modell képzéséhez való hozzájárulást, visszavonása olyan bizalmas ügyfélinformációkat tárt fel, amelyeket felhasználhattak a modellben szereplő többi versengő biztosítás számára.

Röviden: a magánélet védelme érdekében a gépi tanulás során meg kell akadályoznunk a modellhez hozzájáruló egyes ügyfelek visszakeresésének lehetőségét. Ez különösen akkor válik kulcsfontosságúvá, ha a modell képzési példánya nem túl nagy. Megállapításaink ezért különös aggodalomra adnak okot az olyan intézmények számára, mint például a kórházak vagy a biztosítások, amelyek az általános predikciós modellek előnyeit szeretnék igénybe venni, de az ügyfelek ingadozása nagy, és ugyanakkor szigorú adatvédelmi követelményekkel járnak.

Egyesített tanulás - néhány részlet

Fontosnak tartjuk az egyesített tanulási környezetet, ahol egy megbízható kurátor decentralizált módon optimalizált paramétereket gyűjt több olyan ügyfél számára, akiknek adatai jellemzően nem iidiek, kiegyensúlyozatlanok és tömegesen eloszlanak. A kapott modellt ezután minden ügyfél számára elosztják, végül egy közös reprezentatív modellré konvertálva anélkül, hogy az ügyfeleknek kifejezetten meg kellene osztaniuk az adatokat.

Minden új kommunikációs kör és egy új központi modell kiosztása esetén az ügyfelek adatainak szivárgásaival kapcsolatos információk. Következésképpen a kiszivárogtatott információk és ezáltal a magánélet elvesztése a képzés során halmozódik fel. Noha ez a valószínűség végtelenül kicsi, a gépi tanulási modellt általában több forduló során képzik, ami azt jelenti, hogy az ilyen adatvédelmi szivárgás jelentősen hozzájárulhat.

Ebben a helyzetben a kurátor és az ügyfelek közötti kommunikáció korlátozott lehet és / vagy érzékeny lehet az elhallgatásra, ezért az egyesített tanulás célja egy olyan modell meghatározása, amelynek minimális információterhelése van az ügyfelek és a kurátor között. Annak ellenére, hogy elérte ezt a minimalizált fölényt, a protokoll még mindig érzékeny a különféle támadásokra, amelyek bármely, a szövetségi tanulási folyamatban részt vevő féltől származhatnak. Egy ilyen támadás során az elosztott paraméterek elemzése révén felfedezhető az ügyfél hozzájárulása az edzéshez, valamint az adatkészletével kapcsolatos információk.

Figyelembe véve ezt a problémát, javasolunk egy algoritmust az ügyféloldali adatvédelem számára az összevont tanulás megőrzése érdekében. A cél az ügyfelek hozzájárulásának elrejtése a képzés során, egyensúlyba hozva a magánélet elvesztése és a modell teljesítményét. Első megvalósíthatósági tanulmányunk eredményei azt sugallják, hogy egyre több részt vevő ügyféllel a javasolt eljárás tovább optimalizálhatja az ügyfélszintű adatvédelmet.

A mi megközelítésünk

A gépi tanulási algoritmusokat annyira vonzóvá teszi az, hogy előrejelzési modelljüket úgy vonják le, hogy az adatokból mintákat vonnak le, anélkül, hogy kifejezetten programoznák őket. Ennek eredményeként ezek az algoritmusok nagymértékben támaszkodnak az adatokban kódolt információkra, ezért a magánélet védelme érdekében szükség van bizonyos tulajdonságokkal való csatolásra.

Itt játszik szerepet a differenciált adatvédelem meghatározása. Ez érzékenységi mutatónak tekinthető az adatok változásaival szemben. Pontosabban, garantálja az effektus jelenlétének vagy hiányának korlátait, amelyeket az egyes adatelemek az algoritmus végső kimeneténél gyakorolhatnak. Intuitív módon a különféleképpen magánképes gépi tanulási megközelítés nem változtatja meg jelentősen prediktív viselkedését abban az esetben, ha egy elemet eltávolítanak az edzéskészletből. Az előző példára utalva ez azt jelentené, hogy minden hozzájáruló biztosítás és kórház továbbra is számíthat az univerzális modell nagy teljesítményére és információ pontosságára, bár az egyik kórház elkerüli az információ megadását vagy kiszedését egy adott betegre vonatkozóan.

A javasolt megközelítésben arra törekszünk, hogy a magánélet differenciáltságát új szintre vigye, figyelembe véve az egyetlen adatelemen kívüli adatokat, és ezáltal szigorítsa az érzékenységet. Célunk annak biztosítása, hogy az ügyfél eltávolítása az összes adatelemmel ne befolyásolja jelentősen az algoritmus eredményét. Példánkban ez azt jelenti, hogy ha egy nagyszámú beteg kórház úgy dönt, hogy abbahagyja a központi modell képzéséhez való hozzájárulását, akkor az nem károsítja a többi részt vevő intézmény munkáját.

Pontok összekapcsolása - differenciált adatvédelem az egyesített tanulás megőrzése mellett

A szövetségi tanulási protokoll védelme érdekében a lehetséges differenciált támadások ellen egy úgynevezett adatvédelmi könyvelő nyomon követi a magánélet elvesztését és a képzés leállítását, amikor a meghatározott küszöbértéket elérik.

Ebben az összefüggésben egy véletlenszerű mechanizmus alkalmazását javasoljuk, amely két lépésből áll: Minden kommunikációs forduló elején egy véletlenszerű ügyfélhalmazt választanak a hozzájáruláshoz. Csak ezek az ügyfelek kapják meg a központi modellt, és megosztják a frissítéseket. Ezután Gauss-féle mechanizmussal torzítják a frissítések átlagát, mielőtt az új központi modellt elosztják. Ennek célja az egy ügyfél hozzájárulásának elrejtése az összesítésen, és így a teljes decentralizált tanulási eljáráson belül.

A 2. ábra a javasolt megközelítést alkalmazó kommunikációs kört szemlélteti. Ebben az optimalizált egyesített tanulási beállításban egy véletlenszerű ügyfél abbahagyja a közreműködést a kommunikációs kör során, míg a többi ügyfél folytatja a modell frissítését. Egy közreműködő visszavonása azonban nem vezet az adatok feltárásához, és nem befolyásolja a modell teljesítményét.

A kísérleti beállítás

A decentralizált beállítást szimuláljuk a javasolt algoritmus tesztelésére. Képminősítő modell kiképzése mellett döntöttünk a protokoll összehasonlításával a legkorszerűbb technikákkal szemben a centralizált tanulásban. Az egyesített, nem iid beállítás biztosítja, hogy minden ügyfél csak korlátozott számú mintát kapjon, ahol az egyes ügyfelek mintái csak az általános osztályok töredékéhez társulnak. Ilyen beállítás esetén egyetlen ügyfél soha nem tudna olyan modellt kiképzni, amely az összes osztályt rögzíti, csak az egyedi adatok alapján. Két követelményt állítottunk fel a differenciáltan magán szövetségi tanulási folyamatra:

  • Lehetővé teszi az ügyfeleknek, hogy közösen tanuljanak egy olyan modellt, amely eléri a magas osztályozási pontosságot
  • A tanulás során elrejti, hogy az egyes ügyfelek milyen adatokat tárolnak a magánélet megőrzése érdekében

Megállapításaink

Végül munkánk két hozzájárulást terjeszt elő. Először bebizonyítjuk, hogy elegendő számú fél bevonása esetén az algoritmusunk magas modell pontosságot ér el, összehasonlítva a központosított tanulási beállításokkal. Ugyanakkor a javasolt modellünk különbözõen magántulajdonban marad az ügyfelek szintjén. Bár más tanulmányok hasonló eredményeket mutatnak, a kísérleti felépítésünk különbözik az elemszintű adatvédelmi intézkedések határozott integrációja miatt. Másodszor azt javasoljuk, hogy a decentralizált tanulási folyamat során a differenciált adatvédelem megőrzési mechanizmusát dinamikusan adaptálják a modell teljesítményének további növelésére. Noha ez módosítja a legfrissebb eredményeket a differenciált adatvédelem alkalmazásával központosított beállításokban, azt állítottuk, hogy az egyesített tanulási beállításokban a színátmenetek eltérő érzékenységet mutatnak a zajhoz és a kötegmérethez.

Általában megállapításaink különféle iparágakban alkalmazhatók. Egy napon a tanulmány megközelítése lehetővé teheti a vállalatok számára, hogy közösen tanuljanak előrejelzési modelleket, vagy, mint a mi példánkban, több kórháznak segítsenek diagnosztikai modellek kidolgozásában. A javasolt algoritmus lehetővé tenné ezeknek a különféle szereplőknek, hogy részesüljenek egy sokféle közreműködő adataival megtanult egyetemes modell előnyeiből, anélkül, hogy adatközpontosításra kellene törekedniük vagy a magáninformációk kitettségének kockázatát vállalnák.

A decentralizált tanulás területén a magánélet védelmével kapcsolatos előrelépéseinket a NIPS 2017 műhelyen mutattuk be: Gépi tanulás telefonon és más fogyasztói eszközökön. Az alábbiakban látható a NIPS-en bemutatott poszterünk. További információ itt található.

Munkáinkkal kapcsolatos részletekért kérjük, olvassa el az eredeti tanulmányt: https://arxiv.org/abs/1712.07557