Egy év a számítógépes látásban - 2/4 rész

- Második rész: Szegmentálás, Szuper-res / Színezés / Stílusátadás, Akciófelismerés

Megjegyzés: Ha robotokat szeretne otthonába, és szeretné látni, hogy ezek inkább hamarosan, mint később történnek meg, kérjük, vegye figyelembe nagyon rövid felmérésünket. Válaszai segítik a szimulált környezetkutatási és robotikai projektek irányítását our

Adj 3 percet az idejéről: https://forms.gle/hPiP1p3sJ734Hzk19
Köszönöm szépen!
A következő cikk a kutatócsoportunk által a Számítógépes látás területén összeállított, nemrégiben kiadott kiadványból származik. Az első és a második alkatrész jelenleg elérhető a weboldalunkon, a fennmaradó részeket (három és negyedik) a közeljövőben teszik közzé.

A teljes kiadvány ingyenesen elérhető lesz weboldalunkon az elkövetkező hetekben, az 1–2. Rész elérhető most a következő címen: www.themtank.org

Arra biztatjuk az olvasókat, hogy tekintsék meg a darabot a saját weboldalunkon keresztül, mivel beágyazott tartalmat és könnyű navigációs funkciókat tartalmaznak, hogy a jelentés a lehető legdinamikusabb legyen. Webhelyünk nem generál bevételt a csapat számára, egyszerűen csak arra törekszik, hogy az anyagokat a lehető legérdekesebbé és intuitívabbá tegye az olvasók számára. A bemutatóval kapcsolatos bármilyen visszajelzést szívből üdvözöljük!

Kérjük, kövesse, ossza meg és támogassa munkánkat bármelyik kívánt csatornán (és tapsoljon a szívetek tartalmához!). Bármilyen kérdése van, kérjük, vegye fel a kapcsolatot a szerkesztőkkel, vagy hogy megismerje a jövőbeni munkákhoz való esetleges hozzájárulást: info@themtank.com

szegmentálás

A számítógépes látás központi eleme a szegmentálás folyamata, amely a teljes képeket pixelcsoportokra osztja, amelyeket fel lehet címkézni és osztályozni. Sőt, a szemantikus szegmentálás tovább megy, amikor megpróbálja szemantikailag megérteni az egyes képpontok szerepét a képen, pl. macska, autó vagy más típusú osztály? Az példányszegmentálás tovább tovább veszi az osztályok különböző példányainak szegmentálásával, pl. három különböző kutya három különböző színű címkézése. Ez a Computer Vision alkalmazások egyik akadálya, amelyet jelenleg az autonóm vezetéstechnikai lakosztályokban alkalmaznak.

Talán a szegmentálás terén elért legjobb fejlesztések közül néhányat a FAIR jóvoltából adnak, akik 2015-től folytatják a DeepMask munkájukra építkezésüket [46]. A DeepMask durva „maszkokat” generál az objektumok felett a szegmentálás kezdeti formájaként. 2016-ban a Fair bemutatta a SharpMask [47] alkalmazást, amely finomítja a DeepMask által nyújtott „maszkokat”, kijavítva a részletek elvesztését és javítva a szemantikai szegmentálást. Ezen felül a MultiPathNet [48] azonosítja az egyes maszkok által körülhatárolt objektumokat.

„Az általános objektumforma rögzítéséhez magas szintű ismeretekkel kell rendelkeznie arról, hogy mit néz (DeepMask), de ahhoz, hogy pontosan el tudja helyezni a határokat, vissza kell térnie az alsóbb szintű szolgáltatásokra egészen a pixelekig ( SharpMask). ”- Piotr dollár, 2016. [49]
6. ábra: A FAIR technikák bemutatása működésben
Megjegyzés: A fenti képek bemutatják a FAIR által alkalmazott szegmentálási technikákat. Ezek magukban foglalják a DeepMask, SharpMask és MultiPathNet technikák alkalmazását, amelyeket ebben a sorrendben alkalmaznak. Ez a folyamat lehetővé teszi a pontos szegmentálást és osztályozást különféle jelenetekben. Forrás: Dollar (2016) [50]

A Video Propagation Networks [51] megkísérel egy egyszerű modellt létrehozni az első képkockánál megadott pontos objektummaszkok terjesztésére a teljes videó sorozaton keresztül, néhány további információval együtt.

2016-ban a kutatók alternatív hálózati konfigurációk keresésén dolgoztak a fenti méretarány és lokalizáció kérdéseinek kezelésére. A DeepLab [52] erre példa, amely biztató eredményeket ér el a szemantikus kép szegmentálási feladatok során. Khoreva et al. (2016) [53] épít a Deeplab korábbi munkájára (2015 körül), és javaslatot tesz egy gyengén felügyelt képzési módszerre, amely összehasonlítható eredményeket érhet el a teljesen felügyelt hálózatokkal.

A Computer Vision továbbfejlesztette a hasznos információk megközelítésének hálózati megosztását végpontok közötti hálózatok használatával, amelyek csökkentik a többirányú alosztályok számítási követelményeit a besoroláshoz. Két kulcsfontosságú dokumentum, amely ezt a megközelítést használja:

  • 100 réteg A Tiramisu [54] egy teljesen konvolúciós DenseNet, amely minden réteget és minden más réteget összekapcsol előremenő módon. Ez a SOTA több referenciaérték-adatkészletben is elérhető kevesebb paraméterrel és képzéssel / feldolgozással.
  • A teljesen konvolúciós példány-tudatos szemantikus szegmentálás [55] a példánymaszk előrejelzését és osztályozását együttesen hajtja végre (két részfeladat).
    A COCO szegmentációs kihívás győztese, az MSRA. 37,3% AP.
    9,1% -os abszolút ugrás az MSRAVC-től 2015-ben a COCO kihívás során.

Míg az ENet [56], a valósidejű szemantikai szegmentáláshoz használt DNN architektúra nem tartozik ebbe a kategóriába, igazolja a számítási költségek csökkentésének és a mobil eszközökhöz való nagyobb hozzáférés biztosításának kereskedelmi előnyeit.

Munkánk ezen előrelépések minél nagyobb részét vissza kívánja kapcsolni a kézzelfogható nyilvános alkalmazásokhoz. Ezt szem előtt tartva az alábbiak tartalmazzák a szegmentálás 2016 legérdekesebb egészségügyi alkalmazását;
  • A kolonoszkópia képeinek endoluminális jelenet szegmentációjának referenciaértéke [57]
  • 3D teljesen konvolúciós hálózatok szubkortikális szegmentáláshoz az MRI-ben: nagyszabású tanulmány [58]
  • Félig felügyelt tanulás Denoising Autoencoderek segítségével az agyi léziók kimutatására és szegmentálására [59]
  • 3D ultrahang kép szegmentálás: felmérés [60]
  • Teljesen konvolúciós neuronhálózaton alapuló, strukturált előrejelzési megközelítés a retina érének szegmentációja felé [61]
  • Háromdimenziós konvolúciós neurális hálózatok a glioblastoma szegmentálásához [62]

Az egyik kedvenc kvázi-orvosi szegmentálási alkalmazásunk a FusionNet [63] - egy mély, teljesen reziduális konvolúciós neurális hálózat a kép szegmentálásához a kapcsolatrendszerben [64], összehasonlítva a SOTA elektronmikroszkópos (EM) szegmentálási módszerekkel.

Szuper felbontás, stílusátvitel és színezés

A Computer Vision nem minden kutatása szolgál arra, hogy kiterjessze a gépek ál-kognitív képességeit, és az ideghálózatok, valamint az egyéb ML technikák valószínű hibáztathatósága gyakran számos újszerű alkalmazás számára rejlik, amelyek átjutnak a nyilvános térbe. A tavalyi szuperfelbontás, stílusátvitel és színezés terén elért eredmények elfoglalták ezt a helyet számunkra.

A szuperfelbontás arra utal, hogy a nagy felbontású képet becsüljük meg az alacsony felbontású párosból, és a képjellemzők különböző nagyításokkal történő becslésére is utal, amit az emberi agy szinte könnyedén meg tud tenni. A szuperfelbontást eredetileg egyszerű technikákkal hajtották végre, például bicubic-interpolációval és a legközelebbi szomszédokkal. A kereskedelmi alkalmazások szempontjából a forrás minőségéből és a „CSI Miami” stílusú képjavításból fakadó alacsony felbontású korlátozások leküzdésének vágya a kutatást támogatta a területen. Íme néhány az év előrelépése és azok lehetséges hatása:

  • A Neural Enhance [65] Alex J. Champandard gondolata, és négy különféle kutatási cikk megközelítéseit ötvözi a szuperfelbontási módszer elérése érdekében.

A valós idejű videó szuperfelbontást 2016-ban két figyelemre méltó esetben is megkísérelték; [66], [67]

  • RAISR: A Google gyors és pontos képfelbontású képessége [68] elkerüli az ideghálózati megközelítések költséges memória- és sebességigényét az alacsony és nagy felbontású képpárokkal rendelkező szűrők kiképzésével. A RAISR, mint tanulási alapú keret, két nagyságrenddel gyorsabb, mint a versengő algoritmusok, és minimális memóriaigényt igényel, összehasonlítva a neurális hálózat alapú megközelítésekkel. Ezért a szuperfelbontás kiterjeszthető a személyes eszközökre is. Itt található egy kutatási blog. [69]
7. ábra: Szuper felbontású SRGAN példa
Megjegyzés: Balról jobbra: bicubic interpoláció (a fókuszálás szempontjából a legrosszabb objektív teljesítő), az MSE-re optimalizált mély maradványhálózat, az emberi észlelésre érzékenyebb veszteségre optimalizált, mély maradék generációs párhuzamos hálózat, eredeti nagy felbontású (HR) kép. A megfelelő csúcsjel-zaj arány (PSNR) és a szerkezeti hasonlóság (SSIM) két zárójelben látható. [4 x nagyítás] Az olvasó nagyítani szeretné a két középső képet (SRResNet és SRGAN), hogy megértse a kép simaságának és a valósághűbb finom részleteknek a különbségét.
Forrás: Ledig et al. (2017) [70]

A Generatív Versenytárs Hálózatok (GAN) használata képviseli a jelenlegi SOTA-t a szuperfelbontás szempontjából:

  • Az SRGAN [71] fotórealisztikus textúrákat készít a nagymértékben lefelé vett mintákból a nyilvános referenciaértékeken, egy diszkrimináló hálózat segítségével, amely különbséget tesz a szuperfelbontású és az eredeti fotorealisztikus képek között.

Minőségileg az SRGAN teljesíti a legjobban, bár az SRResNet a csúcs-jel-zaj arány (PSNR) mutatóval a legjobban, de az SRGAN a finomabb textúrájú részleteket kapja és a legjobb átlagos véleményt (MOS) kapja meg. “Tudomásunk szerint ez az első keret, amely képes a foto-realisztikus természeti képek következtetésére 4 × nagyítási tényezőkre.” [72] Valamennyi korábbi megközelítés nem képes helyreállítani a finomabb textúra részleteket nagy felfutási tényezőknél.

  • Amortizált MAP következtetés a kép szuperfelbontáshoz [73] egy módszert javasol a maximális posteriori (MAP) következtetés kiszámításához egy konvolúciós neurális hálózat felhasználásával. Kutatásuk azonban három optimalizálási megközelítést mutat be, amelyek jelenleg a GAN-k lényegesen jobban teljesítenek a valós képadatoknál.
8. ábra: Stílusátadás a Nikulin & Novak-tól
Megjegyzés: Különböző stílusok átvitele egy macska fotójára (az eredeti bal felső rész).
Forrás: Nikulin és Novak (2016)

Kétségkívül a Style Transfer a neurális hálózatok újszerű használatát testesíti meg, amely a köztulajdonba került, különös tekintettel a tavalyi facebook-integrációkra és olyan vállalatokra, mint a Prisma [74] és az Artomatix [75]. A stílusátvitel egy régebbi módszer, amelyet 2015-ben neurális hálókká alakítottak át, a művészi stílus neurális algoritmusának közzétételével [76]. Azóta Nikulin és Novak kibővítette a stílusátvitel fogalmát [77], és a videóra is alkalmazta [78], ahogy a Computer Vision általánosan alkalmazott folyamat.

9. ábra: További példák a stílusátadásról
Megjegyzés: A felső sor (balról jobbra) a művészi stílust ábrázolja, amelyet az első oszlopban megjelenő eredeti képekre helyeznek át (Nő, Aranykapu híd és Rétkörnyezet). A feltételes példány normalizálásával egyetlen stílusátviteli hálózat egyszerre 32 stílust képes elfogni, amelyek közül öt jelenik meg itt. A teljes képcsomag megtalálható a forrásanyag függelékében. Ez a munka szerepel a Tanulási Képviseletek Nemzetközi Konferenciáján (ICLR) 2017.
Forrás: Dumoulin et al. (2017, 2. o.) [79]

A stílusátvitel mint téma meglehetősen intuitív, ha megjelenik; készítsen egy képet, és képzelje el egy másik kép stilisztikai jellemzőivel. Például egy híres festmény vagy művész stílusában. Ebben az évben a Facebook kiadta a Caffe2Go-t, [80] mély tanulási rendszerüket, amely integrálódik a mobil eszközökbe. A Google kiadott néhány érdekes munkát is, amely több stílus összekeverését tűzte ki célul, hogy teljesen egyedi képstílusokat hozzon létre: Research blog [81] és a teljes cikk [82].

A mobil integrációk mellett a stílusátvitel alkalmazásokkal is rendelkezik a játék eszközök létrehozásában. Csapatunk tagjai nemrégiben láthatták az Artomatix alapítója és műszaki vezetője, Eric Risser előadását, aki megvitatta a technika új alkalmazását a játékok tartalom generálására (textúrák mutációja stb.), És ezáltal drasztikusan minimalizálja a hagyományos texturált művészek munkáját. .

A színezés a monokróm képeket új, színes színűre változtatja. Eredetileg ezt manuálisan tettek az emberek, akik gondosan kiválasztották a színeket, hogy az egyes képekben meghatározott pixeleket képviseljenek. 2016-ban lehetővé vált ez a folyamat automatizálása, miközben megőrizte az emberközpontú színeződésre utaló realizmus megjelenését. Noha az emberek nem feltétlenül mutatják pontosan az adott jelenet valódi színét, valós ismereteik lehetővé teszik a színeknek a képet és a képet megtekintő személyekkel összhangban álló módon történő alkalmazását.

A színezés folyamata érdekes, mivel a hálózat a képek valószínűbb színezését rendeli az objektum helyének, textúrájának és környezetének megértése alapján, pl. megtanulja, hogy a bőr rózsaszínű és az ég kékes.

Az év három legbefolyásosabb munkája véleményünk szerint a következő:
  • Zhang és munkatársai. elkészített egy olyan módszert, amely a kísérletek 32% -ánál képes sikeresen becsapni az embereket. Módszereik összehasonlíthatók egy „colourisation Turing testtel”. [83]
  • Larsson és mtsai. [84] teljes mértékben automatizálják kép-színező rendszerüket a Deep Learning for Histogram becslés segítségével.
  • Végül, Lizuka, Simo-Serra és Ishikawa [85] bemutatják a CNN-ekre is támaszkodó színezési modellt. A munka felülmúlta a meglévő SOTA-t, úgy gondoljuk, hogy [a csapat], hogy ez a munka minõségileg is a legjobb, a legreálisabbnak látszónak. A 10. ábra összehasonlításokat nyújt, azonban a kép Lizuka és mtsai.
10. ábra: Színeződés-kutatás összehasonlítása
Megjegyzés: Fent lefelé - az első oszlop tartalmazza az eredeti monokróm képbemenetet, amelyet később különféle technikákkal színeznek. A fennmaradó oszlopok a 2016-ban más kiemelkedő színtelenítési kutatások eredményeit mutatják. Balról jobbra nézve ezek Larsson et al. [84] 2016 (második oszlop), Zhang et al. [83] 2016 (harmadik oszlop), valamint Lizuka, Simo-Serra és Ishikawa. [85] 2016, amelyet a szerzők is a miénknek neveznek (negyedik oszlop). A színezés minőségi különbsége leginkább a harmadik sorban (felülről) látható, amely fiatal fiúk csoportját ábrázolja. Úgy gondoljuk, hogy Lizuka és mások munkája minőségileg jobb (4. oszlop). Forrás: Lizuka et al. 2016 [86]

"Ezenkívül architektúránk bármilyen felbontású képet képes feldolgozni, ellentétben a legtöbb jelenlegi CNN-alapú megközelítéssel."

A tesztelés során annak ellenőrzésére, hogy a színezés milyen természetes, a felhasználók véletlenszerű képet kaptak a modellekről, és azt kérdezték: „Ez a kép számodra természetesen számodra?”

Megközelítésük 92,6% -ot, az alapvonal megközelítőleg 70% -ot ért el, és az alapvető igazságot (a tényleges színes fényképeket) az idő 97,7% -ának tekintették természetesnek.

Akciófelismerés

A fellépés-felismerés feladata mind a művelet besorolását egy adott videókeretben, mind pedig az utóbbi időben algoritmusokat, amelyek meg tudják jósolni az interakciók várható kimenetelét, csak néhány képkockánál, mielőtt a művelet megtörténik. Ebben a tekintetben a közelmúltban végzett kutatások során megpróbáljuk beágyazni a kontextust az algoritmikus döntésekbe, hasonlóan a Computer Vision többi területéhez. Néhány kulcsfontosságú dokumentum ezen a téren:

  • A cselekvés felismerésére szolgáló hosszú távú időbeli konvolúciók [87] kihasználják az emberi cselekmények térbeli-időbeli szerkezetét, azaz az adott mozgást és időtartamot, hogy a műveletek helyesen felismerhetők legyenek egy CNN-változat segítségével. A hosszabb távú cselekvések CNN-k szuboptimális időbeli modellezésének kiküszöbölésére a szerzők hosszú távú időbeli konvolúciókkal (LTC-CNN) rendelkező neurális hálózatot javasolnak a művelet felismerésének pontosságának javítása érdekében. Egyszerűen fogalmazva: az LTC-k a videó nagyobb részeit megnézhetik a műveletek felismerése érdekében. Megközelítésük felhasználja és kiterjeszti a 3D CNN-ket, „hogy lehetővé tegyék a műveletek reprezentációját teljes időbeli skálán”.

"A legmodernebb eredményeket az UCF101 (92,7%) és a HMDB51 (67,2%) emberi kihívások felismerésére szolgáló két kihívást jelentő referenciaértéken számoljuk be."

  • A mozgásfelismeréshez használt térbeli időbeli maradékhálózatok [88] két folyamú CNN-változatot alkalmaznak az akciófelismerés feladatára, amely ötvözi a hagyományos CNN-megközelítések és a nemrégiben népszerűsített maradékhálózatok (ResNets) technikáit. A kétáramú megközelítés a látókéreg működésére vonatkozó tudományos hipotézisből származik, azaz a különféle útvonalak felismerik a tárgy alakját / színét és mozgását. A szerzők egyesítik a ResNets osztályozási előnyeit azáltal, hogy maradék kapcsolatokat injektálnak a két CNN adatfolyam között.

„Az egyes folyamok kezdetben önállóan végzik el a videó felismerést, és a végső osztályozáshoz a softmax eredményeket késői fúzióval kombinálják. A mai napig ez a megközelítés a leghatékonyabb megközelítés a mély tanulás alkalmazásának az akciófelismeréshez történő alkalmazására, különösen korlátozott képzési adatokkal. Munkánkban közvetlenül átalakítjuk a ConvNets képet 3D architektúrákká, és jelentősen jobb teljesítményt mutatunk a kétáramú alapvonalhoz képest. ”- 94% az UCF101-en és 70,6% a HMDB51-en. Feichtenhofer et al. továbbfejlesztette a hagyományos, továbbfejlesztett sűrű pálya (iDT) módszereket, és mindkét technika alkalmazásával jobb eredményeket hozott.

  • Érdekes cikk a vizuális reprezentációk előre nem látható videóból [89], bár nem szigorúan a műveletek osztályozása. A program előrejelzi azt a műveletet, amely valószínűleg sor kerül egy adott videókeret sorozatának egy másodpercig tartó elérésére egy művelet előtt. A megközelítés a képpontonkénti osztályozás helyett vizuális reprezentációkat használ, ami azt jelenti, hogy a program képes címkézett adatok nélkül működni, kihasználva a mély idegi hálózatok tulajdonságainak tanulási tulajdonságait [90].

„Megközelítésünk alapvető gondolata az, hogy mély hálózatokat képezzünk ki a képek vizuális megjelenítésének jövőbeni előrejelzésére. A vizuális ábrázolás ígéretes előrejelzési cél, mivel a képeket magasabb szemantikai szinten kódolják, mint a pixelek, de automatikusan kiszámíthatók. Ezután felismerési algoritmusokat alkalmazunk az előrejelzett reprezentációnkra az objektumok és tevékenységek előrejelzésére. ”

A Thumos Akciófelismerési Kihívás szervezői [91] kiadtak egy papírt, amely leírja az Akciófelismerés általános megközelítéseit az elmúlt években. A cikk emellett ismerteti a Kihívások 2013–2015 közötti időszakát, a kihívás jövőbeli irányait és ötleteket arra vonatkozóan, hogyan lehet a számítógépek számára a videofelvételek holisztikusabb megértését biztosítani az Akciófelismerés révén. Reméljük, hogy a Thumos Action Recognition Challenge (látszólag) váratlan időszak után 2017-ben visszatér.

Kövesse közepes méretű profilunkat a következő részlethez - 3/4. Rész: A világ 3D-s megértése felé.
Kérjük, nyugodtan helyezze el az összes visszajelzést és javaslatot a megjegyzés rovatba, és mi minél hamarabb visszatérünk. Alternatív megoldásként közvetlenül is kapcsolatba léphet velünk: info@themtank.com

A teljes darab a következő címen érhető el: www.themtank.org/a-year-in-computer-vision

Nagyon köszönöm,

Az M tartály

Hivatkozások megjelenés sorrendje szerint

[46] Pinheiro, Collobert és dollár. 2015. Az objektum-jelöltek szegmentálásának megtanulása. [Online] arXiv: 1506.06204. Elérhető: arXiv: 1506.06204v2

[47] Pinheiro et al. 2016. Az objektumszegmensek finomításának megtanulása. [Online] arXiv: 1603,08695. Elérhető: arXiv: 1603.08695v2

[48] ​​Zagoruyko, S. 2016. MultiPath hálózat az objektumok detektálásához. [Online] arXiv: 1604.02135v2. Elérhető: arXiv: 1604.02135v2

[49] Dollar, P., 2016. A szegmentálás tanulása. [Blog] HATÁS. Elérhető: https://research.fb.com/learning-to-segment/

[50] Dollar, P. 2016. Képek szétválasztása és finomítása a SharpMask segítségével. [Online] Facebook kód. Elérhető: https://code.facebook.com/posts/561187904071636/segmenting-and-refining-images-with-sharpmask/

[51] Jampani et al. 2016. Videó szaporító hálózatok. [Online] arXiv: 1612.05478. Elérhető: arXiv: 1612.05478v2

[52] Chen és munkatársai, 2016. DeepLab: Szemantikus képszegmentálás mély konvolúciós hálóval, ámulatos konvolúcióval és teljesen csatlakoztatott CRF-ekkel. [Online] arXiv: 1606.00915. Elérhető: arXiv: 1606.00915v1

[53] Khoreva et al. 2016. Egyszerűen csinálja: Gyengén felügyelt példány és szemantikus szegmentálás. [Online] arXiv: 1603.07485v2. Elérhető: arXiv: 1603.07485v2

[54] Jégou et al. 2016. A száz rétegű Tiramisu: Teljesen konvolúciós DenseNets a szemantikus szegmentáláshoz. [Online] arXiv: 1611.09326v2. Elérhető: arXiv: 1611.09326v2

[55] Li et al. 2016. Teljesen konvolúciós példákra figyelő szemantikus szegmentálás. [Online] arXiv: 1611.07709v1. Elérhető: arXiv: 1611.07709v1

[56] Paszke et al. 2016. ENet: Mély neurális hálózati architektúra a valós idejű szemantikus szegmentáláshoz. [Online] arXiv: 1606.02147v1. Elérhető: arXiv: 1606.02147v1

[57] Vázquez et al. 2016. A kolonoszkópia képeinek endoluminális jelenet szegmentálásának referenciaértéke. [Online] arXiv: 1612.00799. Elérhető: arXiv: 1612.00799v1

[58] Dolz és mtsai. 2016. 3D teljesen konvolúciós hálózatok szubkortikális szegmentálásra az MRI-ben: Nagyszabású tanulmány. [Online] arXiv: 1612.03925. Elérhető: arXiv: 1612.03925v1

[59] Alex et al. 2017. Félig felügyelt tanulás Denoising Autoencoderek segítségével az agyi léziók kimutatására és szegmentálására. [Online] arXiv: 1611.08664. Elérhető: arXiv: 1611.08664v4

[60] Mozaffari és Lee. 2016. 3D ultrahang kép szegmentálás: A felmérés. [Online] arXiv: 1611.09811. Elérhető: arXiv: 1611.09811v1

[61] Dasgupta és Singh. 2016. Teljesen konvolúciós neuronhálózaton alapuló, strukturált előrejelzési megközelítés a retina érének szegmentációja felé. [Online] arXiv: 1611.02064. Elérhető: arXiv: 1611.02064v2

[62] Yi és munkatársai. 2016. 3-D konvolúciós neurális hálózatok a glioblastoma szegmentálásához. [Online] arXiv: 1611.04534. Elérhető: arXiv: 1611.04534v1

[63] Quan és mtsai. 2016. FusionNet: Mélyen maradéktalan konvolúciós neurális hálózat a kép szegmentálásához a connectomikában. [Online] arXiv: 1612.05360. Elérhető: arXiv: 1612.05360v2

[64] A connectomika a szervezet idegrendszerén belüli összes kapcsolat, azaz neuronok és kapcsolataik feltérképezésére utal.

[65] Champandard, A.J. 2017. Neural Enhance (legutóbbi kötelezettségvállalás: 2016.11.30.). [Online] Github. Elérhető: https://github.com/alexjc/neural-enhance [Hozzáférés: 2017.02.11.]

[66] Caballero et al. 2016. Real-time Video Super-Resolution tér-időbeli hálózatokkal és mozgáskompenzációval. [Online] arXiv: 1611.05250. Elérhető: arXiv: 1611.05250v1

[67] Shi és munkatársai. 2016. Valós idejű egy kép és videó szuperfelbontás egy hatékony subpixel konvolúciós neurális hálózat felhasználásával. [Online] arXiv: 1609.05158. Elérhető: arXiv: 1609.05158v2

[68] Romano et al. 2016. RAISR: Gyors és pontos képfelbontás. [Online] arXiv: 1606.01299. Elérhető: arXiv: 1606.01299v3

[69] Milanfar, 2016. o. RAISR éles képek gépi tanulással. [Blog] Google kutatási blog. Elérhető: https://research.googleblog.com/2016/11/enhance-raisr-sharp-images-with-machine.html [Hozzáférés: 2017.03.20.].

[70] Uo

[71] Ledig és mtsai. 2017. Photo-realisztikus egy kép-szuper-felbontás egy generációs versenytárs-hálózat segítségével. [Online] arXiv: 1609.04802. Elérhető: arXiv: 1609.04802v3

[72] Uo

[73] Sønderby és mtsai. 2016. Amortized MAP következtetés a kép szuper felbontására. [Online] arXiv: 1610.04490. Elérhető: arXiv: 1610.04490v1

[74] Prizma. 2017. [Weboldal] Prisma. Elérhető: https://prisma-ai.com/ [Hozzáférés: 2017.04.01.]

[75] Artomatix. 2017. [Weboldal] Artomatix. Elérhető: https://services.artomatix.com/ [Hozzáférés: 2017.04.01.]

[76] Gatys és mtsai. 2015. A művészi stílus neurális algoritmusa. [Online] arXiv: 1508,06576. Elérhető: arXiv: 1508,06576v2

[77] Nikulin és Novak. 2016. A művészi stílus neurális algoritmusának feltárása. [Online] arXiv: 1602.07188. Elérhető: arXiv: 1602.07188v2

[78] Ruder és mtsai. 2016. Művészi stílus átadása videókhoz. [Online] arXiv: 1604.08610. Elérhető: arXiv: 1604.08610v2

[79] Uo

[80] Jia és Vajda. 2016. Valós idejű AI kézbesítés a tenyerével. [Online] Facebook kód. Elérhető: https://code.facebook.com/posts/196146247499076/delivering-real-time-ai-in-the-palm-of-your-hand/ [Hozzáférés: 2017.01.20.].

[81] Dumoulin és mtsai. 2016. Töltő stílusátvitel. [Online] Google kutatási blog. Elérhető: https://research.googleblog.com/2016/10/supercharging-style-transfer.html [Hozzáférés: 2017.01.20.].

[82] Dumoulin és mtsai. 2017. A művészi stílus megtanult ábrázolása. [Online] arXiv: 1610.07629. Elérhető: arXiv: 1610.07629v5

[83] Zhang és munkatársai. 2016. Színes kép színezése. [Online] arXiv: 1603.08511. Elérhető: arXiv: 1603.08511v5

[84] Larsson és mtsai. 2016. Tanulási reprezentációk az automatikus színezéshez. [Online] arXiv: 1603,06668. Elérhető: arXiv: 1603.06668v2

[85] Lizuka, Simo-Serra és Ishikawa. 2016. légy színe !: A globális és a helyi képpontok együttes tanulása az automatikus képszínezéshez egyidejű osztályozással. [Online] ACM tranzakció a grafikán (a SIGGRAPH gyártója), 35 (4): 110. Elérhető: http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/

[86] Uo

[87] Varol és munkatársai. 2016. hosszú távú időbeli konverziók az akciófelismeréshez. [Online] arXiv: 1604.04494. Elérhető: arXiv: 1604.04494v1

[88] Feichtenhofer és mtsai. 2016. Spatiotemporal maradványhálózatok a video művelet felismeréséhez. [Online] arXiv: 1611.02155. Elérhető: arXiv: 1611.02155v1

[89] Vondrick et al. 2016. A jelöletlen videó vizuális megjelenítésének előrejelzése. [Online] arXiv: 1504.08023. Elérhető: arXiv: 1504.08023v2

[90] Conner-Simons, A., Gordon, R. 2016. Tanítógépek a jövő előrejelzésére. [Online] MIT HÍREK. Elérhető: https://news.mit.edu/2016/teaching-machines-to-predict-the-future-0621 [Hozzáférés: 2017.02.03.]

[91] Idrees és mtsai. 2016. THUMOS kihívás az akciófelismeréshez a „vadonban” videóknál. [Online] arXiv: 1604.06182. Elérhető: arXiv: 1604.06182v1