Vuotta tietokonevisioissa - osa 2/4

- Osa 2: segmentointi, superresoluutio / värjäys / tyylinsiirto, toiminnan tunnistus

Huomaa: Jos haluat roboteja kotisi ja haluat nähdä, että tapahtuu ennemmin kuin myöhemmin, ota siis hyvin lyhyt kyselymme. Vastauksesi auttavat ohjaamaan simuloitua ympäristötutkimusta ja robottiprojekteja

Anna 3 minuuttia ajasta: https://forms.gle/hPiP1p3sJ734Hzk19
Kiitos ystävällisesti!
Seuraava kappale on peräisin äskettäisestä julkaisusta, jonka tutkimusryhmämme on koonnut Computer Vision -alalle. Ensimmäinen ja toinen osa ovat saatavana verkkosivustoltamme, ja loput osat (kolme ja neljä) julkaistaan ​​lähitulevaisuudessa.

Koko julkaisu on saatavana ilmaiseksi verkkosivuillamme lähiviikkoina, osat 1–2 ovat nyt saatavana osoitteessa: www.themtank.org

Kannustamme lukijoita tarkastelemaan teosta oman verkkosivustomme kautta, koska mukana on upotettu sisältö ja helppo navigointitoiminto, jotta raportti olisi mahdollisimman dynaaminen. Verkkosivumme ei tuota joukkueelle tuloja, ja sen tarkoituksena on yksinkertaisesti tehdä materiaaleista mahdollisimman houkuttelevia ja intuitiivisia lukijoille. Kaikki palautteet siellä olevasta esityksestä ovat tervetulleita sydämestämme!

Seuraa, jaa ja tue työtäsi millä tahansa suosikkikanavillasi (ja taputtele sydämesi sisältöä!). Ota rohkeasti yhteyttä toimittajiin kaikilla kysymyksillä tai saadaksesi tietoa mahdollisesta tulevien teosten myötävaikutuksesta: info@themtank.com

jakautuminen

Keskeinen tietokonenäkö on segmentointi, joka jakaa kokonaiset kuvat pikseliryhmiin, jotka voidaan sitten merkitä ja luokitella. Lisäksi semanttinen segmentointi menee pidemmälle yrittämällä ymmärtää semanttisesti jokaisen kuvan pikselin roolia esimerkiksi onko se kissa, auto tai jokin muu luokka? Esimerkkien segmentointi vie tämän vielä pidemmälle segmentoimalla luokkien eri esiintymät esimerkiksi merkitsemällä kolme eri koiraa kolmella eri värillä. Se on yksi Computer Vision -sovellusten padosta, jota nykyisin käytetään autonomisissa ajoteknologiasarjoissa.

Ehkä jotkut parhaimmista parannuksista segmentoinnin alalla ovat FAIR: n, joka jatkaa DeepMask-työnsä kehittämistä vuodesta 2015 lähtien, kohteliaisuus [46]. DeepMask luo karkeita 'naamioita' esineiden päälle segmentoinnin alkumuodona. Fair 2016 esitteli vuonna 2016 SharpMaskin [47], joka tarkentaa DeepMaskin tarjoamia ”maskeja” korjaaen yksityiskohtien menetykset ja parantaen semanttista segmentointia. Tämän lisäksi MultiPathNet [48] tunnistaa kunkin maskin rajaamat objektit.

”Yleisen esinemuodon kaappaamiseksi sinulla on oltava korkeatasoinen käsitys katsomastasi (DeepMask), mutta asettaaksesi rajat tarkasti taaksepäin alemman tason ominaisuuksiin aina pikseleihin asti ( SharpMask). ”- Piotr-dollari, 2016. [49]
Kuva 6: FAIR-tekniikoiden osoittaminen toiminnassa
Huomaa: Yllä olevat kuvat esittävät FAIR: n käyttämiä segmentointitekniikoita. Näihin kuuluvat DeepMask-, SharpMask- ja MultiPathNet-tekniikoiden soveltaminen, joita sovelletaan tässä järjestyksessä. Tämä prosessi mahdollistaa tarkan segmentoinnin ja luokittelun useissa kohtauksissa. Lähde: Dollar (2016) [50]

Videon etenemisverkot [51] yrittävät luoda yksinkertaisen mallin etenemään ensimmäisessä kehyksessä osoitetut tarkat objektimaskit koko videosekvenssin läpi yhdessä joidenkin lisätietojen kanssa.

Vuonna 2016 tutkijat etsivät vaihtoehtoisia verkkokonfiguraatioita edellä mainittujen laajuus- ja lokalisointikysymysten ratkaisemiseksi. DeepLab [52] on yksi tällainen esimerkki, jolla saavutetaan rohkaisevia tuloksia semanttisen kuvan segmentointitehtävissä. Khoreva et ai. (2016) [53] perustuu Deeplabin aikaisempaan työhön (noin 2015) ja ehdottaa heikosti valvottua koulutusmenetelmää, jolla saavutetaan vertailukelpoiset tulokset täysin valvottuihin verkkoihin.

Computer Vision tarkensi edelleen hyödyllisen tiedon lähestymistavan verkonjakoa päästä päähän -verkkojen avulla, mikä vähentää useiden monisuuntaisten alatehtävien laskentavaatimuksia luokittelulle. Kaksi keskeistä asiakirjaa, jotka käyttävät tätä lähestymistapaa, ovat:

  • 100 kerrosta Tiramisu [54] on täysin konvoluutioinen DenseNet, joka yhdistää jokaisen kerroksen jokaiseen toiseen kerrokseen eteenpäin. Se saavuttaa myös SOTA: n useilla vertailutietojoukkoilla, joissa on vähemmän parametreja ja koulutus / käsittely.
  • Täysin konvoluutioinen instanssitietoinen semanttinen segmentointi [55] suorittaa esiintymämaskin ennustamisen ja luokittelun yhdessä (kaksi osatehtävää).
    COCO-segmentointihaasteen voittaja MSRA. 37,3% AP.
    9,1% absoluuttinen hyppy MSRAVC: stä vuonna 2015 COCO-haasteessa.

Vaikka ENet [56], reaaliaikaisen semanttisen segmentoinnin DNN-arkkitehtuuri, ei kuulu tähän luokkaan, se osoittaa kaupalliset hyödyt laskutuskustannusten vähentämisessä ja mobiililaitteiden paremman pääsyn tarjoamisessa.

Työmme haluaa liittää niin suuren osan näistä saavutuksista takaisin konkreettisiin julkisiin sovelluksiin. Tämä huomioon ottaen seuraava sisältää segmentin segmentoinnin mielenkiintoisimmat sovellukset vuonna 2016;
  • Vertailuarvo kolonoskopiakuvien endoluminaalisen kohtauksen segmentoinnille [57]
  • 3D-täysin konvoluutioverkot subkortikaaliselle segmentoinnille MRT: ssä: laajamittainen tutkimus [58]
  • Puolivalvottu oppiminen Denoising Autoencodereilla aivovaurioiden havaitsemiseen ja segmentointiin [59]
  • 3D-ultraäänikuvan segmentointi: tutkimus [60]
  • Täysin konvoluutioinen neuroverkkoon perustuva rakenteellinen ennustetapa kohti verkkokalvon segmentointia [61]
  • Kolmiulotteiset konvoluutiohermostoverkot glioblastooman segmentointiin [62]

Yksi suosituimmista kvasi-lääketieteellisistä segmentointisovelluksistamme on FusionNet [63] - syvä täysin jäännöskonvoluutiohermoverkko kuvan segmentointiin kytkentätekniikassa [64], joka on vertailtu SOTA-elektronimikroskopian (EM) segmentointimenetelmiin.

Superresoluutio, tyylinsiirto ja värjäys

Kaikkia Computer Vision -yrityksen tutkimuksia ei käytetä koneiden näennäiskognitiivisten kykyjen laajentamiseen, ja hermoverkkojen epätodennäköinen muokattavuus sekä muut ML-tekniikat tarjoavat itsensä monille muille julkisissa tiloissa leviäville uusille sovelluksille. Viime vuoden edistykset superresoluutiossa, tyylien siirrossa ja värjäyksessä miehittivat kyseisen tilan meille.

Superresoluutiolla tarkoitetaan prosessia, jolla arvioidaan korkearesoluutioinen kuva matalan resoluution vastineesta, ja myös kuvan ominaisuuksien ennustamista erilaisilla suurennuksilla, jota ihmisen aivot voivat tehdä melkein vaivattomasti. Alun perin superresoluutio suoritettiin yksinkertaisilla tekniikoilla, kuten bicubic-interpolointi ja lähimmät naapurit. Kaupallisten sovellusten osalta halu ylittää matalan resoluution rajoitukset, jotka johtuvat lähteen laadusta ja 'CSI Miami' -tyylisen kuvanparannuksen toteutuksesta, on ajoittanut alan tutkimusta. Tässä on joitain vuoden edistyksistä ja niiden mahdollisista vaikutuksista:

  • Neural Enhance [65] on Alex J. Champandardin aivoriihe ja yhdistää neljään erilaiseen tutkimustyöhön liittyviä lähestymistapoja superresoluutiomenetelmänsä saavuttamiseksi.

Real-Time Video Super Resolution -yritystä yritettiin myös vuonna 2016 kahdessa huomattavassa tapauksessa; [66], [67]

  • RAISR: Googlen nopea ja tarkka kuvan erittäin suuri resoluutio [68] välttää hermoverkkoon liittyvien lähestymistapojen kalliita muisti- ja nopeustarpeita kouluttamalla suodattimia, joissa on matala- ja korkearesoluutioiset kuvaparit. RAISR on oppimispohjaisena viitekehyksenä kaksi suuruusluokkaa nopeampi kuin kilpailevat algoritmit ja sillä on minimaaliset muistivaatimukset verrattuna hermoverkkoon perustuviin lähestymistapoihin. Siksi superresoluutio voidaan laajentaa henkilökohtaisiin laitteisiin. Täältä löytyy tutkimusblogi. [69]
Kuva 7: Erittäin resoluutioinen SRGAN-esimerkki
Huomautus: Vasemmalta oikealle: kaksisububinen interpolointi (tarkennuksen tavoite huonoin objektiivinen suorittaja), syvä jäännösverkko optimoitu MSE: lle, syvä jäännösgeneratiivinen keskusteluverkosto optimoitu ihmisen havainnoille herkempää menetystä varten, alkuperäinen korkean resoluution (HR) kuva. Vastaava huippusignaalin ja kohinan välinen suhde (PSNR) ja rakenteellinen samankaltaisuus (SSIM) esitetään kahdessa hakasulkeessa. [4 x skaalaus] Lukija saattaa haluta lähentää kahta keskimmäistä kuvaa (SRResNet ja SRGAN) nähdäksesi kuvan tason ja realistisempien hienojen yksityiskohtien välisen eron.
Lähde: Ledig et ai. (2017) [70]

Generatiivisen kilpailevien verkkojen (GAN) käyttö edustaa nykyistä SOTA: ta superresoluutiolla:

  • SRGAN [71] tarjoaa fotorealistisia kuvioita voimakkaasti alimmaistetuista kuvista julkisissa vertailuarvoissa käyttämällä erotteluverkkoa, joka on koulutettu erottamaan superresoluutioisten ja alkuperäisten fotorealististen kuvien välillä.

Laadullisesti SRGAN suorittaa parhaiten, vaikka SRResNet toimii parhaiten huipun-signaali-kohinasuhteen (PSNR) mittarilla, mutta SRGAN saa hienommat tekstuuritiedot ja parhaimman keskiarvon mielipidepisteen (MOS). ”Tietojemme mukaan se on ensimmäinen kehys, jonka avulla voidaan päätellä fotorealistisia luonnollisia kuvia 4-kertaisille skaalaustekijöille.” [72] Kaikissa aikaisemmissa lähestymistavoissa ei pystytä palauttamaan hienompia tekstuuritietoja suurilla skaalauskertoimilla.

  • Poistettu MAP-päätelmä kuvan superresoluutiolle [73] ehdottaa menetelmää maksimaalisen posteriori (MAP) -käytön laskemiseksi käyttämällä konvoluutiohermoverkkoa. Heidän tutkimuksessaan esitetään kuitenkin kolme optimointimenetelmää, jotka kaikki GAN: t toimivat tällä hetkellä huomattavasti paremmin todellisessa kuvatiedossa.
Kuva 8: Tyylinsiirto Nikulinilta ja Novakilta
Huomaa: Eri tyylien siirtäminen kissan valokuvaan (alkuperäinen vasemmalla).
Lähde: Nikulin & Novak (2016)

Epäilemättä Style Transfer edustaa hermoverkkojen uutta käyttöä, joka on uppoutunut julkisuuteen erityisesti viime vuoden facebook-integraatioiden ja Prisma [74] ja Artomatix [75] kaltaisten yritysten kautta. Tyylinsiirto on vanhempi tekniikka, mutta muutettiin neuroverkkoiksi vuonna 2015 julkaisemalla taiteellisen tyylin neuraalgoritmi [76]. Siitä lähtien Nikulin ja Novak ovat laajentaneet tyylinsiirron käsitettä [77], ja sitä on sovellettu myös videoihin [78], samoin kuin Computer Visionin yleinen eteneminen.

Kuva 9: ​​Lisää esimerkkejä tyylien siirrosta
Huomaa: Ylärivi (vasemmalta oikealle) edustaa taiteellista tyyliä, joka siirretään alkuperäisiin kuviin, jotka näytetään ensimmäisessä sarakkeessa (Woman, Golden Gate Bridge ja Meadow Environment). Ehdollisen ilmentymän normalisoinnin avulla yksi tyylinsiirtoverkko voi kaapata 32 tyyliä samanaikaisesti, joista viisi näytetään tässä. Täydellinen kuvasarja saatavana lähdepaperin liitteessä. Tämä työ esiintyy kansainvälisessä oppimisedustusten konferenssissa (ICLR) 2017.
Lähde: Dumoulin et ai. (2017, s. 2) [79]

Tyylinsiirto aiheena on melko intuitiivinen visualisoituna; ota kuva ja kuvittele se eri kuvan tyylillä. Esimerkiksi kuuluisan maalauksen tai taiteilijan tyyliin. Tänä vuonna Facebook julkaisi Caffe2Gon, [80] syvän oppimisjärjestelmänsä, joka integroituu mobiililaitteisiin. Google julkaisi myös mielenkiintoisia töitä, joiden tarkoituksena oli sekoittaa useita tyylejä täysin ainutlaatuisten kuvatyylien luomiseksi: Tutkimusblogi [81] ja koko artikkeli [82].

Mobiiliintegraatioiden lisäksi tyylinsiirrolla on sovelluksia peliesineiden luomiseen. Tiimimme jäsenet pitivät äskettäin Artomatixin perustajan ja teknologiajohtaja Eric Risserin esitelmää, jossa keskusteltiin tekniikan uudesta sovelluksesta sisällön luomiseen peleissä (tekstuurimutaatio jne.), Ja minimoi näin ollen dramaattisesti tavanomaisen tekstuuritaiteilijan työn .

Värjäys on prosessi, jossa yksiväriset kuvat vaihdetaan uusiin värillisiin versioihin. Alun perin tämä tapahtui manuaalisesti ihmisten keskuudessa, jotka huolellisesti valitsivat värejä edustamaan tiettyjä pikseliä jokaisessa kuvassa. Vuonna 2016 on mahdollista automatisoida tämä prosessi säilyttäen samalla realismin ulkonäkö, joka viittaa ihmisenkeskeiseen värjäysprosessiin. Vaikka ihmiset eivät välttämättä edusta tarkasti tietyn kohtauksen todellisia värejä, heidän todellisen maailman tietonsa sallivat värien soveltamisen tavalla, joka on yhdenmukainen kuvan ja toisen henkilön kanssa, joka katselee kyseistä kuvaa.

Värjäysprosessi on mielenkiintoinen siinä mielessä, että verkko osoittaa todennäköisimmän värityksen kuville perustuen ymmärrykseen objektin sijainnista, tekstuurista ja ympäristöstä, esim. se oppii, että iho on vaaleanpunaista ja taivas on sinertävä.

Kolme vuoden vaikutusvaltaisinta teosta ovat mielestämme seuraavat:
  • Zhang et ai. tuotti menetelmän, joka pystyi huijaamaan ihmisiä onnistuneesti 32 prosentilla kokeistaan. Niiden metodologia on verrattavissa ”väritys-Turing-testiin”. [83]
  • Larsson et ai. [84] automatisoi täysin niiden kuvan värjäysjärjestelmän käyttämällä Deep Learning for Histogram -estimointia.
  • Lopuksi Lizuka, Simo-Serra ja Ishikawa [85] osoittavat värjäysmallin, joka perustuu myös CNN: iin. Teos ylitti nykyisen SOTA: n, meillä [joukkueella] tuntuu siltä, ​​että tämä työ on myös laadullisesti paras, vaikuttaen realistisimmalta. Kuvio 10 tarjoaa vertailut, mutta kuva on otettu Lizukasta et ai.
Kuvio 10: Värivärintutkimuksen vertailu
Huomaa: Ylhäältä alas - sarake yksi sisältää alkuperäisen yksivärisen kuvan tulon, joka väritetään myöhemmin eri tekniikoilla. Jäljellä olevat sarakkeet esittävät tulokset, jotka on saatu muista merkittävistä väritystutkimuksista vuonna 2016. Vasemmalta oikealle katsottuna nämä ovat Larsson et al. [84] 2016 (sarake kaksi), Zhang et ai. [83] 2016 (sarake kolme) ja Lizuka, Simo-Serra ja Ishikawa. [85] 2016, johon kirjoittajat viittaavat myös

"Lisäksi arkkitehtuurimme voi käsitellä minkä tahansa resoluution kuvia, toisin kuin useimmat nykyiset CNN: ään perustuvat lähestymistavat."

Kokeessa nähdäkseen kuinka luonnollinen heidän värjäytymisensä oli, käyttäjille annettiin satunnainen kuva malleistaan ​​ja heiltä kysyttiin, "näyttääkö tämä kuva sinulle luonnollista?"

Heidän lähestymistapansa saavutti 92,6%, perustaso saavutti noin 70% ja maa-totuuden (todelliset värikuvat) katsottiin olevan 97,7% ajasta luonnollista.

Toiminnan tunnustaminen

Toiminnan tunnistamisen tehtävä tarkoittaa sekä toiminnan luokittelua tietyssä videokehyksessä että viime aikoina algoritmeja, jotka pystyvät ennustamaan vuorovaikutuksen todennäköiset tulokset, jotka on annettu vain muutamalla kehyksellä ennen toiminnan suorittamista. Tässä suhteessa näemme viimeaikaisen tutkimuksen yrittävän upottaa kontekstin algoritmisiin päätöksiin, samoin kuin muiden Computer Vision -alueiden. Joitakin tämän alueen keskeisiä asiakirjoja ovat:

  • Pitkän aikavälin ajalliset käännökset toiminnan tunnistamiseksi [87] hyödyntävät ihmisen toimintojen väliaikaista rakennetta, ts. Erityistä liikettä ja kestoa, toimintojen tunnistamiseksi oikein CNN-varianttia käyttämällä. CNN: ien pidemmän aikavälin toimintojen epäoptimaalisen ajallisen mallinnuksen voittamiseksi kirjoittajat ehdottavat neuraaliverkkoa, jolla on pitkäaikaisia ​​ajallisia rakenteita (LTC-CNN) toiminnan tunnistamisen tarkkuuden parantamiseksi. Yksinkertaisesti sanottuna, LTC: t voivat katsoa suurempia osia videota tunnistamaan toiminnot. Heidän lähestymistapansa käyttää ja laajentaa 3D-CNN: ää "toiminnan esityksen mahdollistamiseksi täydellisessä ajallisessa mittakaavassa".

"Raportoimme huipputeknologian tuloksia kahdesta haastavasta vertailukohdasta ihmisten toiminnan tunnustamiselle UCF101 (92,7%) ja HMDB51 (67,2%)."

  • Alueemporaaliset jäännösverkot videotoimintojen tunnistukseen [88] soveltavat kahden virta-CNN: n muunnelmaa toiminnan tunnistamiseen, joka yhdistää tekniikat sekä perinteisistä CNN-lähestymistavoista että äskettäin suosituista jäännösverkoista (ResNets). Kaksivirtainen lähestymistapa saa inspiraationsa neurotieteellisestä hypoteesista visuaalisen aivokuoren toiminnasta, ts. Erillisillä reiteillä tunnistetaan kohteen muoto / väri ja liike. Kirjoittajat yhdistävät ResNetsin luokitteluedut lisäämällä jäännösyhteyksiä kahden CNN-virran välille.

”Jokainen virta suorittaa aluksi videotunnistuksen yksinään ja lopullista luokitusta varten softmax-pisteet yhdistetään myöhäisellä fuusioilla. Tähän päivään mennessä tämä lähestymistapa on tehokkain tapa soveltaa syvää oppimista toiminnan tunnustamiseen, etenkin rajallisilla harjoitustiedoilla. Työssämme muunnamme suoraan ConvNets-kuvan 3D-arkkitehtuureiksi ja osoitamme huomattavasti parantunutta suorituskykyä kaksivirran perustasolla. ”- 94% UCF101: ssä ja 70,6% HMDB51: ssä. Feichtenhofer et ai. teki parannuksia perinteisiin parannettuihin tiheän trajektorin (iDT) menetelmiin ja tuotti parempia tuloksia käyttämällä molempia tekniikoita.

  • Leimaamattoman videon visuaalisten esitysten ennakointi [89] on mielenkiintoinen asia, vaikkakaan ei tiukasti toimintojen luokittelu. Ohjelma ennakoi toiminnan, joka todennäköisesti tapahtuu, kun videokuvien sarja on enintään sekunti ennen toimintoa. Lähestymistavassa käytetään visuaalisia esityksiä pikseleiden pikseliluokituksen sijasta, mikä tarkoittaa, että ohjelma voi toimia ilman leimattua dataa hyödyntämällä syvien neuroverkkojen ominaisuuksien oppimisominaisuuksia [90].

”Lähestymistapamme keskeinen ajatus on, että voimme kouluttaa syvät verkot ennustamaan kuvien visuaalisen esityksen tulevaisuudessa. Visuaaliset esitykset ovat lupaava ennustekohde, koska ne koodaavat kuvia semanttisella korkeammalla tasolla kuin pikselit, mutta ovat laskettavissa automaattisesti. Käytämme sitten tunnistusalgoritmeja ennustettuun esitykseemme esineiden ja toimien ennakoimiseksi ”.

Thumos Action Recognition Challengen [91] järjestäjät julkaisivat tutkimuksen, jossa kuvataan toiminnan tunnistamisen yleisiä lähestymistapoja viimeisiltä vuosilta. Artikkelissa esitetään myös haasteiden vuosien 2013–2015 tarkastelu, haasteen tulevaisuuden suunnat ja ideat kuinka antaa tietokoneille kokonaisvaltaisempi käsitys videosta toiminnan tunnistuksen avulla. Toivomme, että Thumos Action Recognition Challenge palaa vuonna 2017 (näennäisesti) odottamattoman tauon jälkeen.

Seuraa profiilia profiilillamme seuraavaa erää varten - Osa 3/4: Kohti 3D-ymmärtämistä maailmasta.
Voit vapaasti laittaa kaikki palautteet ja ehdotukset kommenttiosaan, ja palaamme niin pian kuin mahdollista. Vaihtoehtoisesti voit ottaa meihin yhteyttä suoraan: info@themtank.com

Koko teos on saatavana osoitteessa www.themtank.org/a-year-in-computer-vision

Paljon kiitoksia,

M-säiliö

Viitteet ulkonäköjärjestyksessä

[46] Pinheiro, Collobert ja Dollar. 2015. Oppiminen jakamaan kohde ehdokkaita. [Online] arXiv: 1506.06204. Saatavana: arXiv: 1506.06204v2

[47] Pinheiro et ai. 2016. Oppia tarkentamaan objektisegmenttejä. [Online] arXiv: 1603,08695. Saatavana: arXiv: 1603.08695v2

[48] ​​Zagoruyko, S. 2016. Monitieverkko objektien havaitsemiseksi. [Online] arXiv: 1604.02135v2. Saatavana: arXiv: 1604.02135v2

[49] Dollar, P. 2016. Segmenttien oppiminen. [Blogi] FAIR. Saatavana: https://research.fb.com/learning-to-segment/

[50] Dollar, P. 2016. Kuvien segmentointi ja hienosäätö SharpMaskilla. [Online] Facebook-koodi. Saatavana: https://code.facebook.com/posts/561187904071636/segmenting-and-refining-images-with-sharpmask/

[51] Jampani et ai. 2016. Videon etenemisverkot. [Online] arXiv: 1612.05478. Saatavana: arXiv: 1612.05478v2

[52] Chen et al., 2016. DeepLab: Semanttinen kuvan segmentointi syvällä konvoluutioverkolla, hälyttävä konvoluutio ja täysin kytketyt CRF: t. [Online-tilassa] arXiv: 1606.00915. Saatavana: arXiv: 1606.00915v1

[53] Khoreva et ai. 2016. Yksinkertainen tekee: heikosti valvottu tapaus ja semanttinen segmentointi. [Online] arXiv: 1603.07485v2. Saatavana: arXiv: 1603.07485v2

[54] Jégou et ai. 2016. Sata kerrosta Tiramisu: Täysin konvoluutioiset DenseNet-seanttinen segmentointi. [Online] arXiv: 1611.09326v2. Saatavana: arXiv: 1611.09326v2

[55] Li et ai. 2016. Täysin konvoluutiokohtainen tietoinen semanttinen segmentointi. [Online-tilassa] arXiv: 1611.07709v1. Saatavana: arXiv: 1611.07709v1

[56] Paszke et ai. 2016. ENet: Syvän neuraalisen verkkoarkkitehtuurin reaaliaikainen semanttinen segmentointi. [Online] arXiv: 1606.02147v1. Saatavana: arXiv: 1606.02147v1

[57] Vázquez et ai. 2016. Vertailuarvo kolonoskopiakuvien endoluminaalisen kohtauksen segmentoinnille. [Online] arXiv: 1612.00799. Saatavana: arXiv: 1612.00799v1

[58] Dolz et ai. 2016. 3D: n täysin konvoluutioverkot subkortikaaliselle segmentoinnille MRI: Laajamittainen tutkimus. [Online] arXiv: 1612.03925. Saatavana: arXiv: 1612.03925v1

[59] Alex et ai. 2017. Puolivalvottu oppiminen Denoising Autoencodereilla aivovaurioiden havaitsemiseen ja segmentointiin. [Online] arXiv: 1611.08664. Saatavana: arXiv: 1611.08664v4

[60] Mozaffari ja Lee. 2016. 3D-ultraäänikuvan segmentointi: tutkimus. [Online] arXiv: 1611.09811. Saatavana: arXiv: 1611.09811v1

[61] Dasgupta ja Singh. 2016. Täysin konvoluutioinen neuroverkkoon perustuva rakenteellinen ennustetapa kohti verkkokalvon segmentointia. [Online] arXiv: 1611.02064. Saatavana: arXiv: 1611.02064v2

[62] Yi et ai. 2016. Glioblastooman segmentoinnin 3D-konvoluutiohermostoverkot. [Online] arXiv: 1611.04534. Saatavana: arXiv: 1611.04534v1

[63] Quan et ai. 2016. FusionNet: Syvä täysin jäljelle jäävä konvoluutiohermoverkko kuvan segmentointiin kytkentätekniikassa. [Online] arXiv: 1612.05360. Saatavana: arXiv: 1612.05360v2

[64] Connectomiikka viittaa kaikkien yhteyksien, eli neuronien ja niiden yhteyksien, kartoittamiseen organismin hermostossa.

[65] Champandard, A.J. 2017. Neural Enhance (viimeisin sitoutuminen 30.11.2016). [Online] Github. Saatavana: https://github.com/alexjc/neural-enhance [Käytetty: 02.11.2017]

[66] Caballero et ai. 2016. Reaaliaikaisen videon superresoluutio tila-ajallisilla verkoilla ja liikekompensoinnilla. [Online] arXiv: 1611.05250. Saatavana: arXiv: 1611.05250v1

[67] Shi et ai. 2016. Reaaliaikaisen yhden kuvan ja videon superresoluutio tehokkaalla subpikselin konvoluutiohermosverkolla. [Online] arXiv: 1609.05158. Saatavana: arXiv: 1609.05158v2

[68] Romano et ai. 2016. RAISR: Nopea ja tarkka kuvan superresoluutio. [Online] arXiv: 1606.01299. Saatavana: arXiv: 1606.01299v3

[69] Milanfar, P. 2016. Paranna! RAISR-terävät kuvat koneoppimisella. [Blogi] Google-tutkimusblogi. Saatavana: https://research.googleblog.com/2016/11/enhance-raisr-sharp-images-with-machine.html [Pääsy: 20.03.2017].

[70] ibid

[71] Ledig et ai. 2017. Photo-realistinen yhden kuvan superresoluutio generatiivisen kilpailevan verkon avulla. [Online] arXiv: 1609.04802. Saatavana: arXiv: 1609.04802v3

[72] ibid

[73] Sønderby et ai. 2016. Poistettu MAP-päätelmä kuvan superresoluutiolle. [Online] arXiv: 1610.04490. Saatavana: arXiv: 1610.04490v1

[74] Prisma. 2017. [Verkkosivusto] Prisma. Saatavana: https://prisma-ai.com/ [Pääsy: 1.7.2017].

[75] Artomatix. 2017. [Verkkosivusto] Artomatix. Saatavana: https://services.artomatix.com/ [Pääsy: 1.7.2017].

[76] Gatys et ai. 2015. Taiteellisen tyylin neuraalgoritmi. [Online] arXiv: 1508.06576. Saatavana: arXiv: 1508.06576v2

[77] Nikulin ja Novak. 2016. Taiteellisen tyylin neuraalgoritmin tutkiminen. [Online] arXiv: 1602.07188. Saatavana: arXiv: 1602.07188v2

[78] Ruder et ai. 2016. Taiteellisen tyylin siirto videoille. [Online] arXiv: 1604.08610. Saatavana: arXiv: 1604.08610v2

[79] ibid

[80] Jia ja Vajda. 2016. Reaaliaikaisen AI: n toimittaminen kämmenellesi. [Online] Facebook-koodi. Saatavana: https://code.facebook.com/posts/196146247499076/delivering-real-time-ai-in-the-palm-of-your-hand/ [Katsottu: 20.01.2017].

[81] Dumoulin et ai. 2016. Supercharging Style Transfer. [Online] Google Research Blog. Saatavana: https://research.googleblog.com/2016/10/supercharging-style-transfer.html [Pääsy: 20.01.2017].

[82] Dumoulin et ai. 2017. Oppinut esitys taiteellisesta tyylistä. [Online] arXiv: 1610.07629. Saatavana: arXiv: 1610.07629v5

[83] Zhang et ai. 2016. Värikkäiden kuvien väritys. [Online-tilassa] arXiv: 1603.08511. Saatavana: arXiv: 1603.08511v5

[84] Larsson et ai. 2016. Opiskelijaesitykset automaattista väritystä varten. [Online] arXiv: 1603.06668. Saatavana: arXiv: 1603.06668v2

[85] Lizuka, Simo-Serra ja Ishikawa. 2016. Olkoon väri !: Globaalien ja paikallisten kuvankäyttäjien yhteinen oppiminen automaattista kuvan väritystä varten samanaikaisella luokituksella. [Online] ACM-tapahtuma grafiikalla (SIGGRAPH: n proc.), 35 (4): 110. Saatavilla: http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/

[86] ibid

[87] Varol et ai. 2016. Toiminnan tunnustamisen pitkän aikavälin ajattelutavat. [Online-tilassa] arXiv: 1604.04494. Saatavana: arXiv: 1604.04494v1

[88] Feichtenhofer et ai. 2016. Spatiotemporal jäännösverkot videotoimintojen tunnistukseen. [Online] arXiv: 1611.02155. Saatavana: arXiv: 1611.02155v1

[89] Vondrick et ai. 2016. Visuaalisten esitysten ennakointi leimaamattomasta videosta. [Online] arXiv: 1504.08023. Saatavana: arXiv: 1504.08023v2

[90] Conner-Simons, A., Gordon, R. 2016. Opetuskoneet ennustamaan tulevaisuutta. [Online] MIT UUTISET. Saatavana: https://news.mit.edu/2016/teaching-machines-to-predict-the-future-0621 [Pääsy: 02.02.2017].

[91] Idrees et ai. 2016. THUMOS-haaste toimintojen tunnustamiselle videoille ”luonnossa”. [Online] arXiv: 1604.06182. Saatavana: arXiv: 1604.06182v1