Erillisesti yksityinen yhdistynyt oppiminen: asiakastason näkökulma

Robin Geyer, Tassilo Klein ja Moin Nabi (ML Research Berlin)

Yleensä tavalliset koneoppimismenetelmät luovat tarpeen tallentaa harjoitustiedot yhteen keskeiseen kohtaan. Äskettäisen yksityisyyden suojan nousun myötä koneoppimisessa uusi tutkimusala, joka tunnetaan nimellä liittovaltion oppiminen, on kuitenkin herättänyt maailmanlaajuista kiinnostusta. Tässä blogiviestissä esittelemme ensimmäiset tulokset koskien yksityisyyden säilyttämistä koskevaa yhteistyökoneoppimista seuraamalla edellistä blogiviestiemme esittelyä kolmea erilaista lähestymistapaa yksityisyyden ongelmien ratkaisemiseksi tällä alueella.

Ennen kuin sukeltamme syvemmälle ehdotettuun lähestymistapaan, vangitsemme kuitenkin konseptin pääkohdat. Yhdistetyn oppimisen idea on kouluttaa koneoppimismalleja jakamatta nimenomaisesti tietoja tai kätkemättä harjoitteluun osallistumista. Tämä skenaario on merkityksellinen sekä teollisuudessa että henkilökohtaisella tasolla, ja siitä tulee erityisen tärkeä tilanteissa, joissa pahantahtoiset asiakkaat saattavat haluta päätellä toisen asiakkaan osallistumisesta.

Yksinkertaisena esimerkkinä voidaan pitää useiden sairaaloiden ja vakuutusten yhteistyötä, joka kouluttaa universaalimallin potilaan ja asiakkaan tietojen kanssa saadakseen paremman kuvan nykyisistä sairauksista, diagnooseista ja lääketieteellisistä kustannuksista. Kuvittele nyt, että yksi osallistuvista vakuutuksista haluaisi liittyä tähän yhteistyöhön toivoen löytävänsä tarkat tiedot potilaista, jotka kuuluvat rahoittavan sairaalan tietojoukkoon. Jos sairaala paljasti luottamuksellisia tietoja yleisen koneoppimisprosessin aikana, sen potilaiden yksityisyyttä loukataan, kun taas vakuutus saattaa käyttää näitä perusteita tietyiltä potilailta veloittaakseen korkeamman hinnan.

Toinen mahdollinen tilanne syntyy, kun asiakkaat yrittävät lopettaa tilaamansa palvelun, johon he ovat osallistuneet mallikoulutuksen yhteydessä, jättämättä jälkeensä mallin liian tarkkaa tietojen sormenjälkeä. Palaamalla sairaaloiden ja vakuutusten esimerkkiin, jos yksi vakuutus haluaisi lopettaa osallistumisen mallin koulutukseen, sen peruuttaminen paljastaisi joitain luottamuksellisia asiakastietoja, joita voitaisiin käyttää mallin muiden kilpailevien vakuutusten eduksi.

Lyhyesti sanottuna yksityisyyden turvaamiseksi koneoppimisessa meidän on estettävä mahdollisuus jäljittää malliin osallistuvia yksittäisiä asiakkaita. Tästä tulee erityisen tärkeä, kun mallin koulutuskertojen määrä ei ole kohtuuttoman suuri. Tuloksemme ovat siis erityisen huolestuneita laitoksille, kuten sairaaloille tai vakuutuksille, jotka haluavat hyötyä yleisistä ennustemalleista, mutta joilla on suuri asiakasvaihtelu ja jotka samalla sitoutuvat tiukkoihin tietosuojavaatimuksiin.

Yhdistetty oppiminen - joitain yksityiskohtia

Pidämme hajautettua oppimisympäristöä, jossa luotettava kuraattori kerää parametrit, jotka on hajautetusti optimoitu useiden asiakkaiden välillä, joiden tiedot ovat tyypillisesti keskittymättömiä, epätasapainoisia ja massiivisesti jaettuja. Tuloksena oleva malli jaetaan sitten takaisin kaikille asiakkaille, lopulta konvergoidessaan yhteiseen edustavaan malliin ilman, että asiakkaiden on jaettava tiedot nimenomaisesti.

Jokaista uutta viestintäkierrosta ja uuden keskusmallin varaamista varten tietoja asiakkaiden tietovuodoista. Näin ollen vuotanut tieto ja siten yksityisyyden menetys kertyy koulutuksen aikana. Vaikka tämä todennäköisyys saattaa olla äärettömän pieni, koneoppimismalli koulutetaan tyypillisesti useiden kierrosten aikana, mikä tarkoittaa, että tällainen yksityisyyden vuotaminen voi lisätä huomattavasti.

Tässä ympäristössä kuraattorin ja asiakkaiden välinen viestintä voi olla rajoitettua ja / tai haavoittuvaa sieppaamiselle, minkä vuoksi yhdistyneen oppimisen tavoitteena on määrittää malli, jolla on mahdollisimman vähän tietoa asiakkaiden ja kuraattorin välillä. Siitä huolimatta, että saavutetaan tämä minimoitu yleiskuvaus, protokolla on kuitenkin edelleen alttiina erilaisille hyökkäyksille, jotka voivat olla peräisin jokaiselta osapuolelta, joka osallistuu liittoutuneen oppimisprosessin aikana. Tällaisessa hyökkäyksessä asiakkaan panos koulutuksen aikana sekä tiedot heidän tietojoukostaan ​​voidaan paljastaa hajautettujen parametrien analyysin avulla.

Kun otetaan huomioon tämä ongelma, ehdotamme algoritmia asiakaspuolen erotukselliselle yksityisyydelle yhdistyneen oppimisen säilyttämiseksi. Tavoitteena on piilottaa asiakkaiden panos koulutuksen aikana tasapainottamalla kompromissi yksityisyyden menettämisen ja mallin suorituskyvyn välillä. Ensimmäisen toteutettavuustutkimuksemme tulokset viittaavat siihen, että kasvavan määrän osallistuvien asiakkaiden kanssa ehdotetulla menettelyllä voidaan edelleen optimoida asiakastason ero yksityisyyttä.

Lähestymistapamme

Koneoppimisalgoritmit tekevät niin houkuttelevasta, että ne johtavat ennustemallinsa päätelemällä malleja tiedoista ilman, että niitä on nimenomaisesti ohjelmoitu. Seurauksena on, että nämä algoritmit ovat suuresti riippuvaisia ​​tietoihin koodatuista tiedoista, mikä aiheuttaa tarpeen liittää niihin tietyt ominaisuudet yksityisyyden suojaamiseksi.

Tässä kohtaa tulee yksityisyyden erottelun määritelmä. Sitä voidaan pitää herkkyysmittarina suhteessa tietojen muutoksiin. Tarkemmin sanottuna se antaa takuun niiden vaikutusten esiintymisen tai puuttumisen rajoista, jotka yksittäisellä dataelementillä voi olla algoritmin lopullisessa ulostulossa. Intuitiivisesti, erilaisesti yksityinen koneoppimismenetelmä ei muuta merkittävästi ennustavaa käyttäytymistään, jos esine poistetaan harjoitusjoukosta. Edelliseen esimerkkiin tämä merkitsisi sitä, että kaikki osallistuvat vakuutukset ja sairaalat voisivat silti luottaa yleismaailmallisen mallin korkeaan suorituskykyyn ja tietojen tarkkuuteen, vaikka yksi sairaaloista välttää tarjoamasta tai ottamasta tietoja tietystä potilaasta.

Ehdotetussa lähestymistavassa pyrimme siirtämään yksityisyyden erotuksen uudelle tasolle ottaen huomioon yksittäisen tietoerän ulkopuolella olevat tiedot ja kiristämällä siten herkkyyttä. Pyrimme varmistamaan, että asiakkaan poistaminen kaikilla sen tietoaineistoilla ei vaikuta merkittävästi algoritmin lopputulokseen. Esimerkissämme tämä tarkoittaa, että jos sairaala, jolla on suuri määrä potilaita, päättää lopettaa osallistumisen keskusmallin koulutukseen, se ei vahingoita muiden osallistuvien laitosten työtä.

Pisteiden yhdistäminen - erilainen yksityisyys säilyttäen yhdistetyn oppimisen

Suojaakseen yhdistettyä oppimisprotokollaa mahdollisilta erilaisilta hyökkäyksiltä ns. Yksityisyyden suojaa käsittelevä kirjanpitäjä pitää kirjaa tapahtuneesta tietosuojamenetyksestä ja lopettaa harjoituksen, kun määritelty kynnysarvo on saavutettu.

Tässä yhteydessä ehdotamme, että käytetään satunnaistettua mekanismia, joka koostuu kahdesta vaiheesta: Jokaisen viestintäkierroksen alussa valitaan osallistujien satunnainen alajoukko. Vain nämä asiakkaat saavat keskusmallin ja jakavat päivitykset. Sitten Gaussin mekanismia käytetään vääristämään päivitysten keskiarvo ennen uuden keskitetyn mallin allokointia. Tämä tehdään piilottamaan yhden asiakkaan panos aggregoinnissa ja siten koko hajautetussa oppimismenettelyssä.

Kuvio 2 havainnollistaa ehdotettua lähestymistapaa omaavaa viestintäkierrosta. Tässä optimoidussa yhdistetyssä oppimisasetuksessa satunnainen asiakas lopettaa osallistumisensa viestintäkierroksen aikana, kun taas muut asiakkaat jatkavat mallin päivittämistä. Yhden osallistujan vetäytyminen ei kuitenkaan johda tietojen paljastamiseen eikä vahingoita mallin suorituskykyä.

Kokeellinen asennus

Simuloimme hajautettua asetusta ehdotetun algoritmin testaamiseksi. Valintamme kouluttaa kuvaluokittelumalli antaa mahdollisuuden vertailla protokollaa uusimpaan tekniikkaan keskitetyssä oppimisessa. Yhdistetty, ei-iid-asetus varmistaa, että jokainen asiakas saa vain rajoitetun määrän näytteitä, jolloin kunkin asiakkaan näytteet assosioituvat vain murto-osaan kokonaisluokista. Tällaisessa asennuksessa yksittäinen asiakas ei koskaan pystyisi kouluttamaan mallia, joka kaappaisi kaikki luokat, koska yksilölliset tiedot yksinään. Asetimme kaksi vaatimusta erilaisesti yksityiselle yhdistyneelle oppimisprosessille:

  • Salli asiakkaiden oppia yhdessä malli, joka saavuttaa korkean luokitustarkkuuden
  • Piilota oppimisen aikana, mitä tietoja yksittäisellä asiakkaalla on yksityisyyden suojaamiseksi

Havainnot

Viime kädessä työmme esittää kaksi kommenttia. Ensinnäkin osoitamme, että kun riittävä määrä osapuolia on mukana, algoritmimme saavuttaa korkean mallitarkkuuden, joka on verrattavissa keskitetyn oppimisen kokoonpanoon. Samaan aikaan ehdotettu malli pysyy erilaisesti yksityisenä asiakastasolla. Vaikka muut tutkimukset osoittavat samanlaisia ​​tuloksia, kokeellinen asennus eroaa johtuen siitä, että elementtitasoiset tietosuojatoimenpiteet integroidaan selvästi. Toiseksi ehdotamme yksityisyyden suojaavan mekanismin dynaamista mukauttamista hajautetun oppimisprosessin aikana mallin suorituskyvyn parantamiseksi edelleen. Vaikka tämä muuttaa viimeisimpiä tuloksia käyttämällä erillistä yksityisyyttä keskitetyissä asetuksissa, väitämme, että hajautettujen oppimisasetusten gradienteilla on erilainen herkkyys kohinalle ja eräkokolle.

Yleensä havaintomme ovat sovellettavissa eri toimialoille. Jonain päivänä tutkimuksen lähestymistapa saattaa antaa yrityksille mahdollisuuden oppia yhdessä ennustemalleja tai, kuten esimerkissämme, auttaa useita sairaaloita kouluttamaan diagnoosimalleja. Ehdotetun algoritmin avulla nämä erilaiset toimijat voisivat hyötyä monien vertaisarvioijien tietojen perusteella opitusta universaalisesta mallista tarvitsematta keskittää tietoja tai ottaa riskiä paljastaa yksityisiä tietoja.

Esittelimme tietosuojamme edistystä hajautetussa oppimisessa NIPS 2017 -työpajassa: Koneoppiminen puhelimessa ja muissa kuluttajalaitteissa. Alla näet NIPS-esittelyssä julistemme. Lisätietoja löytyy täältä.

Lisätietoja työstämme on alkuperäisessä tutkimuksessa: https://arxiv.org/abs/1712.07557