Leto v računalniškem vidu - 2. del od 4

- Drugi del: Segmentacija, Super-res / Barvanje / Prenos stila, Prepoznavanje akcij

Opomba: Če želite, da so v vašem domu roboti, in bi radi videli, da se to zgodi slej ko prej, prosimo, da vzamete našo zelo kratko raziskavo. Vaši odgovori pomagajo usmerjati naše simulirane okoljske raziskave in projekte robotike

Posvetite si 3 minute svojega časa: https://forms.gle/hPiP1p3sJ734Hzk19
Hvala lepo!
Naslednji del je vzet iz nedavne publikacije, ki jo je pripravila naša raziskovalna skupina in se nanaša na področje računalniškega vida. Prvi in ​​dva dela sta trenutno na voljo na naši spletni strani, preostali deli (tri in štirje) pa bodo objavljeni v bližnji prihodnosti.

Celotna publikacija bo v naslednjih tednih brezplačno na voljo na naši spletni strani, deli 1–2 pa so zdaj na voljo preko: www.themtank.org

Bralce bi spodbudili, da si delo ogledajo prek lastnega spletnega mesta, saj vključujemo vdelano vsebino in enostavne navigacijske funkcije, da bo poročilo čim bolj dinamično. Naše spletno mesto ne ustvarja prihodkov za ekipo in si preprosto prizadeva, da bi bili materiali čim bolj zanimivi in ​​intuitivni za bralce. Kakršne koli povratne informacije o tamkajšnji predstavitvi nas iskreno pozdravljajo!

Sledite, delite in podpirajte naše delo prek ne glede na vaše najljubše kanale (in ploskajte vsebini v srcu!). Če imate kakršna koli vprašanja, se obrnite na urednike ali si oglejte, kako lahko prispevate k prihodnjim delom: info@themtank.com

Segmentacija

Osrednji del računalniškega vida je proces segmentacije, ki razdeli celotne slike v skupine pikslov, ki jih je mogoče nato označiti in razvrstiti. Poleg tega gre za semantično segmentacijo s poskusom semantičnega razumevanja vloge vsakega piksla v sliki, npr. gre za mačko, avto ali kakšno drugo vrsto razreda? Segmentacija primerkov to še bolj poveča s segmentiranjem različnih primerkov razredov, npr. označevanje treh različnih psov s tremi različnimi barvami. Gre za eno od aplikacij Computer Vision, ki so trenutno zaposlene v apartmajih za avtonomno vožnjo.

Morda je nekaj najboljših izboljšav na področju segmentacije z vljudnostjo FAIR, ki nadaljujejo z nadgradnjo svojega dela DeepMask od leta 2015 [46]. DeepMask ustvari grobe maske nad predmeti kot začetno obliko segmentacije. Leta 2016 je Fair predstavil SharpMask [47], ki izboljšuje „maske“, ki jih je zagotovil DeepMask, in popravil izgubo podrobnosti ter izboljšal pomensko segmentacijo. Poleg tega MultiPathNet [48] identificira predmete, razmejene z vsako masko.

"Če želite zajeti splošno obliko predmeta, morate dobro razumeti, kaj gledate (DeepMask), vendar natančno postavite meje, ki jih morate pogledati nazaj na funkcije nižjega nivoja vse do pik ( SharpMask). "- Piotr Dollar, 2016. [49]
Slika 6: Predstavitev tehnik FAIR v akciji
Opomba: zgornje slike prikazujejo tehnike segmentacije, ki jih uporablja FAIR. Ti vključujejo uporabo tehnik DeepMask, SharpMask in MultiPathNet, ki se uporabljajo v tem vrstnem redu. Ta postopek omogoča natančno segmentacijo in razvrščanje v različne prizore. Vir: Dollar (2016) [50]

Video Propagation Networks [51] poskušajo ustvariti preprost model za širjenje natančnih mask predmeta, dodeljenih v prvem kadru, skozi celoten video zaporedje in nekaj dodatnih informacij.

Leta 2016 so raziskovalci delali pri iskanju alternativnih omrežnih konfiguracij za reševanje zgoraj omenjenih vprašanj obsega in lokalizacije. DeepLab [52] je en tak primer tega, ki dosega spodbudne rezultate pri nalogah semantiranja semantične slike. Khoreva et al. (2016) [53] temelji na prejšnjem delu Deeplaba (okoli leta 2015) in predlaga šibko nadzorovan način usposabljanja, ki dosega primerljive rezultate s popolnoma nadzorovanimi omrežji.

Computer Vision je še bolj izpopolnil mrežni dostop do uporabnih informacij s pristopom z uporabo končnih omrežij, ki zmanjšujejo računske potrebe večnamernih podzdajnih vrst za razvrščanje. Dva načina, ki uporabljata ta pristop, sta:

  • 100 slojev Tiramisu [54] je popolnoma konvolucijski DenseNet, ki povezuje vsako plast z vsako drugo plastjo. SOTA dosega tudi na več zbirkah podatkov z referenčnimi vrednostmi z manj parametri in usposabljanjem / obdelavo.
  • Semantična segmentacija, ki se zaveda popolnoma instanc [55], izvaja napovedovanje in klasifikacijo maske primerkov skupaj (dva podvloga).
    Zmagovalec izzivov COCO segmentacije MSRA. 37,3% AP.
    9,1% absolutni skok MSRAVC-ja v letu 2015 v izzivu COCO.

Medtem ko ENet [56], DNN arhitektura za semantično segmentacijo v realnem času ne spada v to kategorijo, vendar kaže komercialne prednosti zmanjšanja računskih stroškov in večjega dostopa do mobilnih naprav.

Naše delo želi čim več tega napredka povezati z oprijemljivimi javnimi aplikacijami. Upoštevajoč to vsebuje nekaj najzanimivejših aplikacij segmentacije v zdravstvu v letu 2016;
  • Merila za segmentacijo slik s kolonoskopijo na endoluminalnem prizoru [57]
  • 3D popolnoma konvolucionarna omrežja za subkortikalno segmentacijo pri MRI: obsežna študija [58]
  • Napol pod nadzorom učenja z uporabo denoising avtoenkoderjev za zaznavanje in segmentacijo možganske lezije [59]
  • Segmentacija 3D ultrazvočne slike: anketa [60]
  • Postopke strukturiranega napovedovanja, ki temelji na popolnoma konvolucijski nevronski mreži, do segmentacije mrežnice mrež [61]
  • 3-D konvolucijska nevronska omrežja za segmentacijo glioblastoma [62]

Ena izmed naših najljubših aplikacij za kvaziedicinsko segmentacijo je FusionNet [63] - globoka popolnoma preostala konvolucionarna nevronska mreža za segmentacijo slike v konekomiki [64], ki se meri glede na metode segmentacije elektronske mikroskopije (EM) SOTA.

Super ločljivost, prenos stila in barvanje

Niso vse raziskave računalniškega vida namenjene širjenju psevdo-kognitivnih sposobnosti strojev, pogosto pa so tudi neusmiljene zmotnosti nevronskih omrežij in drugih ML-tehnik podvržene številnim drugim novim aplikacijam, ki se širijo v javni prostor. Lanskoletni napredek v Super-ločljivosti, Prenosu stilov in Barvanju je zasedel ta prostor za nas.

Super ločljivost se nanaša na postopek ocenjevanja slike z visoko ločljivostjo od kolega z nizko ločljivostjo in tudi na napovedovanje značilnosti slike pri različnih povečavah, kar lahko človeški možgani naredijo skoraj brez truda. Prvotno je bila super ločljivost izvedena z enostavnimi tehnikami, kot je dvokomunikacijska interpolacija in najbližji sosedje. Kar zadeva komercialne aplikacije, je želja po preseganju omejitev z nizko ločljivostjo, ki izhajajo iz kakovosti virov in uresničevanja izboljšanja slike v slogu CSI Miami, spodbudila raziskave na tem področju. Tu je nekaj napredka v letu in njihov potencialni vpliv:

  • Neural Enhance [65] je zamisel Alexa J. Champandarda in združuje pristope štirih različnih raziskovalnih člankov, da bi dosegel svojo metodo Super-ločljivosti.

Video Resolucija v realnem času je bila v letu 2016 poskušana tudi v dveh pomembnih primerih; [66], [67]

  • RAISR: Hitra in natančna slika Super-ločljivost slike [68] iz Googla se izogne ​​dragim zahtevam za pomnilnik in hitrost nevronskih omrežnih pristopov s treniranjem filtrov s slikovnimi pari nizke in visoke ločljivosti. RAISR je kot okvir, ki temelji na učenju, za dva reda večji od konkurenčnih algoritmov in ima minimalne potrebe po pomnilniku v primerjavi s pristopi, ki temeljijo na nevronskih omrežjih. Zato je super ločljivost razširljiva na osebne naprave. Tu je na voljo raziskovalni blog. [69]
Slika 7: Primer SRGAN super ločljivosti
Opomba: od leve proti desni: bikubična interpolacija (objektivno najslabši izvajalec za fokus), globoka preostala mreža, optimizirana za MSE, globoka preostala generativna adversarna mreža, optimizirana za izgubo, bolj občutljivo na človeško percepcijo, izvirna slika visoke ločljivosti (HR). Ustrezno vršno razmerje signal / šum (PSNR) in strukturna podobnost (SSIM) sta prikazana v dveh oklepajih. [4 x povečavo] Bralnik bo morda želel povečati srednji dve sliki (SRResNet in SRGAN), da bi videl razliko med gladkostjo slike in bolj realističnimi finimi podrobnostmi.
Vir: Ledig et al. (2017) [70]

Uporaba Generative Adversarial Networks (GAN) predstavlja trenutno SOTA za super ločljivost:

  • SRGAN [71] ponuja fotorealistične teksture z močno upodobljenih slik na javnih referenčnih mestih z uporabo diskriminatorne mreže, usposobljene za razlikovanje med super ločljivimi in izvirnimi fotorealističnimi slikami.

Kvalitativno je SRGAN najboljši, čeprav SRResNet deluje najbolje z metriko največjega razmerja med signalom in šumom (PSNR), SRGAN pa dobi natančnejše podrobnosti o teksturi in doseže najboljši rezultat povprečnega mnenja (MOS). "Kolikor vemo, je to prvi okvir, ki lahko sklepa fotorealistične naravne slike za 4 × povečave." [72] Vsi prejšnji pristopi ne uspejo obnoviti natančnejših teksturnih podrobnosti pri velikih faktorjih povečave.

  • Amortizirani MAP sklep za super ločljivost slike [73] predlaga metodo za izračun sklepa Maximum a Posteriori (MAP) z uporabo konvolucijske nevronske mreže. Vendar pa njihove raziskave predstavljajo tri pristope za optimizacijo, vsi GAN-ji pa na trenutnih slikovnih podatkih trenutno delujejo bistveno bolje.
Slika 8: Prenos sloga iz Nikulina in Novaka
Opomba: Prenos različnih slogov na fotografijo mačke (originalno zgoraj levo).
Vir: Nikulin & Novak (2016)

Nedvomno Style Transfer predstavlja novo uporabo nevronskih omrežij, ki so se razširila v javno dobo, zlasti prek lanskih facebook integracij in podjetij, kot sta Prisma [74] in Artomatix [75]. Prenos stila je starejša tehnika, vendar je leta 2015 z nevronskimi algoritmi umetniškega sloga preoblikovan v nevronske mreže [76]. Od takrat sta Nikulin in Novak [77] razširila koncept prenosa slogov in ga uporabila tudi za video [78], kot je to skupno napredovanje v računalniški viziji.

Slika 9: Nadaljnji primeri prenosa sloga
Opomba: Zgornja vrstica (od leve proti desni) predstavlja umetniški slog, ki je prenesen na izvirne slike, ki so prikazane v prvem stolpcu (Ženska, most Golden Gate in travniško okolje). S pogojno normalizacijo primerkov lahko eno samo omrežje za prenos s slogom hkrati zajame 32 slogov, od tega jih je pet prikazanih. Celoten nabor slik, ki so na voljo v dodatku k izvirnemu papirju. To delo bo predstavljeno na mednarodni konferenci o predstavitvah učenja (ICLR) 2017.
Vir: Dumoulin et al. (2017, str. 2) [79]

Prenos stila kot tema je enkratno vizualiziran dokaj intuitivno; vzemite sliko in si jo predstavljajte s slogovnimi značilnostmi drugačne podobe. Na primer v slogu znane slike ali umetnika. Letos je Facebook izdal Caffe2Go, [80] njihov sistem globokega učenja, ki se integrira v mobilne naprave. Google je izdal tudi nekaj zanimivega dela, ki je poskušalo zliti več slogov in ustvariti povsem edinstvene sloge slik: Raziskovalni blog [81] in celoten papir [82].

Poleg mobilnih integracij prenašanje stilov uporablja tudi aplikacije za ustvarjanje sredstev za igre. Člani naše ekipe so pred kratkim videli predstavitev ustanovitelja in direktorja organizacije Artomatix, Eric Risser, ki je razpravljal o novi tehniki uporabe za ustvarjanje vsebine v igrah (mutacija teksture itd.) In s tem dramatično zmanjša delo običajnega izvajalca tekstur .

Barvanje je postopek spreminjanja enobarvnih slik v nove barvne različice. Prvotno so to ročno storili ljudje, ki so marljivo izbrali barve za prikaz določenih pik na vsaki sliki. V letu 2016 je bilo mogoče ta postopek avtomatizirati, hkrati pa ohraniti videz realizma, ki kaže na človekocentričen postopek barvanja. Čeprav si ljudje morda ne predstavljajo resničnih barv določenega prizora, njihovo znanje v resničnem svetu omogoča uporabo barv na način, ki je skladen s sliko in drugo osebo, ki jo gleda.

Postopek barvanja je zanimiv po tem, da omrežje dodeli najverjetnejšo barvo slikam na podlagi njegovega razumevanja lokacije predmeta, tekstur in okolja, npr. se nauči, da je koža rožnate barve in nebo modrikasto.

Po našem mnenju so tri najvplivnejša dela leta:
  • Zhang in sod. ustvaril metodo, s katero je bilo mogoče na 32% njihovih preskusov uspešno preslepiti človeka. Njihova metodologija je primerljiva s "Turingovim testom barvitve." [83]
  • Larsson in sod. [84] v celoti avtomatizirajo svoj sistem barvanja slik z uporabo globinskega učenja za oceno histograma.
  • Nazadnje Lizuka, Simo-Serra in Ishikawa [85] prikazujejo model kolorizacije, ki temelji tudi na CNN-jih. Delo je prekašalo obstoječo SOTA in menimo, da je to delo kakovostno tudi najboljše in se zdi najbolj realistično. Slika 10 prikazuje primerjave, vendar je slika vzeta od Lizuka et al.
Slika 10: Primerjava raziskovanja barvitve
Opomba: od zgoraj navzdol - v stolpcu je izvirni enobarvni vhod slike, ki je pozneje obarvan z različnimi tehnikami. V preostalih stolpcih so prikazani rezultati, ki so jih ustvarili druge vidne raziskave barvitve v letu 2016. Če jih gledamo od leve proti desni, so to Larsson in sod. [84] 2016 (stolpec dva), Zhang in sod. [83] 2016 (tretji stolpec) ter Lizuka, Simo-Serra in Ishikawa. [85] 2016, ki so jih avtorji imenovali tudi »naše« (stolpec četrti). Razlika v kakovosti barv je najbolj vidna v tretji vrstici (od zgoraj), ki prikazuje skupino mladih fantov. Verjamemo, da je delo Lizuke in drugih v kvalitativni kvaliteti boljše (stolpec četrti). Vir: Lizuka idr. 2016 [86]

"Poleg tega lahko naša arhitektura obdeluje slike katere koli ločljivosti, za razliko od večine obstoječih pristopov, ki temeljijo na CNN."

V testu, da bi videli, kako naravno je njihovo obarvanje, so uporabniki dobili naključno sliko iz svojih modelov in vprašali so, "ali je ta slika tebi videti naravna?"

Njihov pristop je dosegel 92,6%, izhodišče je bilo približno 70%, osnovna resnica (dejanske barvne fotografije) pa je 97,7% časa štela za naravno.

Prepoznavanje akcije

Naloga prepoznavanja dejanj se nanaša na klasifikacijo dejanja znotraj danega video okvira, v zadnjem času pa na algoritme, ki lahko napovedujejo verjetne izide interakcij, dane le nekaj kadrov pred izvedbo dejanja. V tem pogledu vidimo nedavne poskuse raziskav, da bi kontekst vtisnili v algoritmične odločitve, podobno kot druga področja računalniškega vida. Nekaj ​​ključnih prispevkov v tem prostoru je:

  • Dolgoročni časovni zamiki za prepoznavanje akcij [87] izkoriščajo prostorsko-časovno strukturo človeških dejanj, tj. Določeno gibanje in trajanje, da pravilno prepoznajo dejanja z uporabo CNN variante. Za premagovanje optimalnega časovnega modeliranja dolgoročnih dejanj s strani CNN avtorji predlagajo nevronsko mrežo z dolgoročnimi časovnimi zavoji (LTC-CNN), da bi izboljšali natančnost prepoznavanja dejanj. Preprosto povedano, LTC-ji lahko pregledujejo večje dele videa in prepoznajo dejanja. Njihov pristop uporablja in razširja 3D-CNN-je, "da omogočijo akcijsko predstavitev na popolnejši časovni lestvici".

"Poročamo o najsodobnejših rezultatih o dveh zahtevnih merilih za prepoznavanje človeškega delovanja UCF101 (92,7%) in HMDB51 (67,2%)."

  • Prostornotemporalna preostala omrežja za prepoznavanje video akcij [88] uporabljajo nalogo prepoznavanja dveh tokov CNN, ki združuje tehnike iz tradicionalnih pristopov CNN in nedavno populariziranih preostalih omrežij (ResNets). Pristop z dvema tokoma črpa iz neznanstvene hipoteze o delovanju vidne skorje, tj. Ločene poti prepoznavajo obliko / barvo in gibanje predmeta. Avtorja združujeta prednosti klasifikacije ResNets z vbrizgavanjem preostalih povezav med obema CNN tokoma.

»Vsak tok sprva izvaja video prepoznavanje sam, za končno uvrstitev pa se ocene softmaxa združijo s poznim zlivanjem. Doslej je ta pristop najučinkovitejši pristop uporabe globokega učenja za prepoznavanje akcij, zlasti z omejenimi podatki o usposabljanju. Pri svojem delu neposredno pretvorimo image ConvNets v 3D arhitekture in pokažemo zelo izboljšano delovanje v primerjavi z dvotokovno osnovno črto. "- 94% na UCF101 in 70,6% na HMDB51. Feichtenhofer et al. izboljšali tradicionalne metode izboljšanih gosto usmeritev (iDT) in ustvarili boljše rezultate z uporabo obeh tehnik.

  • Predvidevanje vizualnih predstavitev iz neoznačenega videoposnetka [89] je zanimiv članek, čeprav ni povsem akcijska klasifikacija. Program napoveduje dejanje, ki se bo najbrž izvedlo glede na zaporedje video okvirjev do ene sekunde pred dejanjem. Pristop uporablja vizualne predstavitve in ne klasifikacijo po pikslih, kar pomeni, da lahko program deluje brez označenih podatkov, tako da izkoristi lastnosti učnih lastnosti globokih nevronskih mrež [90].

„Ključna ideja našega pristopa je, da lahko usposobimo globoke mreže za napovedovanje vizualne predstavitve slik v prihodnosti. Vizualne predstavitve so obetaven cilj napovedovanja, saj kodirajo slike na višji semantični ravni kot piksli, vendar so samodejno za računanje. Nato na predvideni predstavitvi uporabimo algoritme za prepoznavanje za predvidevanje predmetov in dejanj. "

Organizatorji Thumos Action Recognition Challenge [91] so objavili članek, v katerem so opisali splošne pristope za akcijsko prepoznavanje iz zadnjih številnih let. V prispevku je tudi pregled izzivov 2013–2015, prihodnja navodila za izziv in ideje, kako računalnikom omogočiti bolj celovito razumevanje videoposnetka z akcijskim prepoznavanjem. Upamo, da se Thumos Action Recognition Challenge v letu 2017 vrne po (na videz) nepričakovanem hipu.

Za naslednji obrok sledite našemu profilu - 3. del od 4. dela: Do 3D-razumevanja sveta.
Prosimo, da vse povratne informacije in predloge postavite v razdelek za komentarje in vrnili se bomo takoj, ko bomo lahko. Lahko pa nas tudi neposredno kontaktirate preko: info@themtank.com

Celoten kos je na voljo na: www.themtank.org/a-year-in-computer-vision

Najlepša hvala,

Tank M

Reference po vrstnem redu videza

[46] Pinheiro, Collobert in dolar. 2015. Učenje segmentiranja kandidatov za predmet. [Na spletu] arXiv: 1506.06204. Na voljo: arXiv: 1506.06204v2

[47] Pinheiro in sod. 2016. Učenje za izboljšanje predmetnih segmentov. [Na spletu] arXiv: 1603.08695. Na voljo: arXiv: 1603.08695v2

[48] ​​Zagoruyko, S. 2016. Mreža več poti za zaznavanje predmetov. [Na spletu] arXiv: 1604.02135v2. Na voljo: arXiv: 1604.02135v2

[49] Dollar, P. 2016. Učenje segmentiranja. [Blog] FAIR. Dostopno: https://research.fb.com/learning-to-segment/

[50] Dollar, P. 2016. Segmentiranje in izpopolnjevanje slik s programom SharpMask. [Na spletu] Facebook Code. Na voljo: https://code.facebook.com/posts/561187904071636/segmenting-and-refining-images-with-sharpmask/

[51] Jampani in sod. 2016. Omrežja za širjenje videov. [Na spletu] arXiv: 1612.05478. Na voljo: arXiv: 1612.05478v2

[52] Chen in sod., 2016. DeepLab: semantična segmentacija slike z globokimi konvolucijskimi mrežami, atrozno konvolucijo in popolnoma povezanimi CRF. [Na spletu] arXiv: 1606.00915. Na voljo: arXiv: 1606.00915v1

[53] Khoreva in sod. 2016. Preprosto to počne: šibko nadzorovan primer in semantična segmentacija. [Na spletu] arXiv: 1603.07485v2. Na voljo: arXiv: 1603.07485v2

[54] Jégou in sod. 2016. Tristomiselna plast Tiramisu: popolnoma konvolucijska gosta mreža za semantično segmentacijo. [Na spletu] arXiv: 1611.09326v2. Na voljo: arXiv: 1611.09326v2

[55] Li in sod. 2016. Semantična segmentacija, ki se zaveda popolnoma instanc. [Na spletu] arXiv: 1611.07709v1. Na voljo: arXiv: 1611.07709v1

[56] Paszke in sod. 2016. ENet: Globoka nevronska mrežna arhitektura za semantiranje v realnem času. [Na spletu] arXiv: 1606.02147v1. Na voljo: arXiv: 1606.02147v1

[57] Vázquez in sod. 2016. Primerjalna točka za segmentacijo slik s kolonoskopijo na endoluminalnem prizorišču. [Na spletu] arXiv: 1612.00799. Na voljo: arXiv: 1612.00799v1

[58] Dolz in sod. 2016. 3D popolnoma konvolucionarna omrežja za subkortikalno segmentacijo pri MRI: obsežna študija. [Na spletu] arXiv: 1612.03925. Na voljo: arXiv: 1612.03925v1

[59] Alex in sod. 2017. Polunadzorno učenje z uporabo denoising avtoenkoderjev za zaznavanje in segmentacijo možganske lezije. [Na spletu] arXiv: 1611.08664. Na voljo: arXiv: 1611.08664v4

[60] Mozaffari in Lee. 2016. Segmentacija 3D ultrazvočne slike: anketa. [Na spletu] arXiv: 1611.09811. Na voljo: arXiv: 1611.09811v1

[61] Dasgupta in Singh. 2016. Strukturno napovedni pristop, ki temelji na popolnoma konvolucijski nevronski mreži, k segmentaciji mrežnice. [Na spletu] arXiv: 1611.02064. Na voljo: arXiv: 1611.02064v2

[62] Yi et al. 2016. 3-D konvolucijska nevronska omrežja za segmentacijo glioblastoma. [Na spletu] arXiv: 1611.04534. Na voljo: arXiv: 1611.04534v1

[63] Quan in sod. 2016. FusionNet: Globoka popolnoma preostala konvolucionarna nevronska mreža za segmentacijo slike v connectomics. [Na spletu] arXiv: 1612.05360. Na voljo: arXiv: 1612.05360v2

[64] Connectomics se nanaša na preslikavo vseh povezav v živčnem sistemu organizma, tj. Nevronov in njihovih povezav.

[65] Champandard, A.J. 2017. Neural Enhance (zadnja zaveza 30.11.2016). [Na spletu] Github. Dostopno: https://github.com/alexjc/neural-enhance [Dostopano: 2. 11. 2017]

[66] Caballero in sod. 2016. Super-ločljivost video v realnem času s prostorsko-časovnimi omrežji in kompenzacijo gibanja. [Na spletu] arXiv: 1611.05250. Na voljo: arXiv: 1611.05250v1

[67] Shi et al. 2016. Super-ločljivost posamične slike in videoposnetka v realnem času z uporabo učinkovitega podpiksalnega nevronskega omrežja. [Na spletu] arXiv: 1609.05158. Na voljo: arXiv: 1609.05158v2

[68] Romano in sod. 2016. RAISR: Hitra in natančna slika Super ločljivost. [Na spletu] arXiv: 1606.01299. Na voljo: arXiv: 1606.01299v3

[69] Milanfar, P. 2016. Izboljšaj! Ostre slike RAISR s strojnim učenjem. [Blog] Google Research Blog. Dostopno: https://research.googleblog.com/2016/11/enhance-raisr-sharp-images-with-machine.html [Dostopano: 20.3.2017].

[70] prav tam

[71] Ledig in sod. 2017. Foto-realistična posamična super-ločljivost z uporabo generativne adversarialne mreže. [Na spletu] arXiv: 1609.04802. Na voljo: arXiv: 1609.04802v3

[72] prav tam

[73] Sønderby in sod. 2016. Amortizirani MAP sklep za super resolucijo slike. [Na spletu] arXiv: 1610.04490. Na voljo: arXiv: 1610.04490v1

[74] Prisma. 2017. [Spletna stran] Prisma. Dostopno: https://prisma-ai.com/ [Dostopano: 1. 1. 2017].

[75] Artomatix. 2017. [Spletna stran] Artomatix. Dostopno: https://services.artomatix.com/ [Dostopano: 1. 1. 2017].

[76] Gatys in sod. 2015. Nevronski algoritem likovnega sloga. [Na spletu] arXiv: 1508.06576. Na voljo: arXiv: 1508.06576v2

[77] Nikulin & Novak. 2016. Raziskovanje nevronskega algoritma likovnega sloga. [Na spletu] arXiv: 1602.07188. Na voljo: arXiv: 1602.07188v2

[78] Ruder in sod. 2016. Umetniški slog prenosa za video posnetke. [Na spletu] arXiv: 1604.08610. Na voljo: arXiv: 1604.08610v2

[79] prav tam

[80] Jia in Vajda. 2016. Dostava AI v realnem času na dlani. [Na spletu] Facebook Code. Dostopno: https://code.facebook.com/posts/196146247499076/delivering-real-time-ai-in-the-palm-of-your-hand/ [Dostopano: 20. 1. 2017].

[81] Dumoulin in sod. 2016. Supercharging Transfer Style. [Online] Google Research Blog. Dostopno: https://research.googleblog.com/2016/10/supercharging-style-transfer.html [Dostopano: 20. 1. 2017].

[82] Dumoulin in sod. 2017. Učena reprezentanca za umetniški slog. [Na spletu] arXiv: 1610.07629. Na voljo: arXiv: 1610.07629v5

[83] Zhang in sod. 2016. Barvna slika Kolorizacija. [Na spletu] arXiv: 1603.08511. Na voljo: arXiv: 1603.08511v5

[84] Larsson in sod. 2016. Učne predstavitve za samodejno barvanje. [Na spletu] arXiv: 1603.06668. Na voljo: arXiv: 1603.06668v2

[85] Lizuka, Simo-Serra in Ishikawa. 2016. Naj bo barva !: Skupno učenje od konca do konca globalnih in lokalnih slikovnih prioritet za samodejno barvanje slike s hkratno klasifikacijo. [Online] ACM Transaction on Graphics (Proc. Of SIGGRAPH), 35 (4): 110. Dostopno: http://hi.cs.waseda.ac.jp/~iizuka/projects/colorization/en/

[86] prav tam

[87] Varol in sod. 2016. Dolgoročni časovni zamiki za prepoznavanje akcij. [Na spletu] arXiv: 1604.04494. Na voljo: arXiv: 1604.04494v1

[88] Feichtenhofer in sod. 2016. Prostorno-časovne preostale mreže za prepoznavanje video akcij. [Na spletu] arXiv: 1611.02155. Na voljo: arXiv: 1611.02155v1

[89] Vondrick in sod. 2016. Predvidevanje vizualnih predstavitev iz neoznačenega videa. [Na spletu] arXiv: 1504.08023. Na voljo: arXiv: 1504.08023v2

[90] Conner-Simons, A., Gordon, R. 2016. Učni stroji za napovedovanje prihodnosti. [Na spletu] MIT NEWS. Dostopno: https://news.mit.edu/2016/teaching-machines-to-predict-the-future-0621 [Doseženo: 02.02.2017].

[91] Idrees in sod. 2016. THUMOS izziv za prepoznavanje akcij za videoposnetke "v naravi". [Na spletu] arXiv: 1604.06182. Na voljo: arXiv: 1604.06182v1