101 PAPÍR - Hogyan tanulott meg egy AI a sötétben?

Üdvözlet, Nishank vagyok, és üdvözlöm a PAPERS 101-es sorozatot, ahol új és izgalmas kutatásokat folytatunk a gépi tanulás és a mesterséges intelligencia területén!

Szeretnék köszönetet mondani a Két perces újságnak és Zsolnai-Fehér Károlynak, aki bemutatta nekem ezt a munkát a YouTube-csatornákon keresztül.

Mielőtt elkezdenénk, ne felejtsd el feliratkozni hírlevelünkre, hogy soha ne hagyj ki egy történetet a clickbaitből!

Mi a fene?

Az okostelefon-kamerák korában a gyenge fényviszonyok melletti fényképezés kötelező. Az összes zászlóshajós telefon támogatja a gyenge fényviszonyok közötti fényképezést, de amint már észrevetted, az eredmények nem olyan jók.

Ennek oka az, hogy leginkább a hagyományos denoising- és blurring-technikákat alkalmazzák, amelyek hatékonyan távolítják el a zajt, de szélsőséges körülmények között, például sötétségben, sajnálatosan kudarcot vallnak, ami nagy kihívás.

Ez a cikk megoldást kínál erre a kihívásra.

A Számítógépes látás egy olyan mesterséges intelligencia olyan terület, amely a vizuális bemenet megszerzésén és annak forgatásán alapul, hogy megértse a vett bemenetet, vagy valamilyen módon manipulálja az adott bemenetet a kívánt kimenet elérése érdekében. Az itt aggódó cikk a második felhasználási esetre vonatkozik.

A „Tanulás látni a sötétben” című tanulmányukban Chen Chen (UIUC), Qifeng Chen (Intel Labs), Jia Xu (Intel Labs) és Vladlen Koltun (Intel Labs) kutatók olyan modellt javasoltak, amely rendkívül gyenge fényviszonyok mellett is látható. olyan körülmények, amelyek szinte összehasonlíthatók a sötétséggel, egy új képfeldolgozó csővezeték segítségével, a Convolutional Neural Network segítségével.

Az eredmények elképesztő!

Ha fényképeket készít olyan fényképezőgéppel, amely nem rendelkezik rossz fényviszonyokkal (alacsony ISO), úgy néz ki valami ilyesmi:

Ha ugyanazon a képre kattint egy gyenge megvilágítású kamerával, mint például a zászlóshajó okostelefonokban, az eredmény valami hasonló lenne az alább láthatóhoz. Vegye figyelembe, hogy milyen finom a kép olyan méretező szűrők miatt, mint a BM3D és az alacsonyabb ISO.

Méretezés + BM3D Denoising

Most pedig a teljesen konvolúciós hálózat elkészíti az első képet, és feldolgozza, hogy az alábbi képet kapja (Igen! Nem viccelek.)

Kép feldolgozása a CNN-en keresztül

Várj, mi!

A modell itt egy végtől-végig kiképzett, teljesen konvolúciós hálózatot használ, amely nyers rövid expozíciós éjszakai képek adatkészletét használja a megfelelő hosszú expozíciós referenciaképekkel. Ez a szélsőséges forgatókönyvek, például az éjszakai fényképezés eredményeinek megkönnyítését és hatékonyságát teszi lehetővé, összehasonlítva a hagyományos denoising- és blurring-technikákkal.

Hogyan képzik a CNN-t?

A CNN képkészlet két képkészletén van kiképezve.

  1. Halványan megvilágított (szinte sötét) jelenet vagy rövid expozíciós kép bemenetként.
  2. Megfelelő normál világítási jelenet vagy hosszú expozíciós kép ugyanazon jelenetről, mint a cél.

A neurális hálózatot egy 5094 nyers rövid expozíciós képet és a hozzájuk tartozó hosszú expozíciós képeket tartalmazó adatkészlet képezi.

Tehát ha a hálózat kiképzését szeretné elvégezni, akkor először kattintania kell egy fényképet normál megvilágítási körülmények között, amelyet célváltozóként fog használni a hálózat hibájának eléréséhez.

Ezután rá kell kattintania egy alacsony expozíciós fényképre ugyanabból a jelenetből, hogy sötét legyen. Ezt bemenetileg kapják a hálózathoz edzés közben.

E két fénykép párja egy (bemeneti, kimeneti) párot hoz létre a hálózat számára, amelyre kiképzik, hogy azt gyenge fényviszonyú tesztképeken való felhasználásra képezzék.

FCN csővezeték

Az edzést L1 veszteséggel és Adam Optimizer alkalmazásával végezték, amely kivételes minőségű eredményeket adott és a modell hatékonyságát eddig hatékonyabbá tette!

Mennyire jó?

Ez a modell szégyentelteti a tradicionális adagolás-eltávolítás módszereket. Itt egy összehasonlítás a hagyományos BM3D zavarral -

Kép a hagyományos méretezés használatávalKép méretezés + BM3D Denoising használatávalKép feldolgozása a CNN-en keresztül

Azonnal észreveheti a különbséget.

Ha összehasonlítjuk a CNN teljesítményét a zászlóshajókkal ellátott mobil kamerákkal, különféle paraméterek, például expozíció és megvilágítás felhasználásával, az eredmények meglephetnek!

Fontoljuk meg azt a forgatókönyvet, amikor 8 gyertyát világítanak egy sötét szobában, és a változások megfigyelhetők egy manöken fotójában, különféle kamerák által, mivel a gyertyák száma minden alkalommal felére csökken.

8 gyertya4 gyertya

Vegye figyelembe, hogy a fénykép minősége romlik az iPhone X-ben és a Google Pixel 2-ben a Sony a7S-hez képest. Ennek oka az, hogy egyrészt a Sony fényképezőgép jobb ISO-értékkel rendelkezik, mint mindkét mobil kamera, a mobil kamerák pedig a hagyományos zavargás- és zavargási technikákat használják, hogy a nyers adatokból gyenge fényviszonyokból álló fényképet kapjanak.

2 gyertya1 gyertya

Most a fénykép szinte sötét mindkét okostelefon-kamerában, és meggyőző, hogy extrém körülmények között, például sötétségben, kudarcot vallottak.

A Sony fényképezőgépén lévő fénykép azonban még mindig tiszta, mivel - amint már észrevetted - okosan megváltoztatta az expozíciós idejét 0,8 másodpercről 1,6 másodpercre, így több fény jut be, és így jobb fénykép készül.

Ez okostelefon-kameráknál nem praktikus, mivel homályos képet adna, és csak drága, csúcskategóriás fényképezőgépeknél használható, amelyek jobb fényvisszaverő lencsével és rendkívül hatékony érzékelővel rendelkeznek.

De nézzük meg, mi történik, ha az expozíciós időt másodperc 1/30-ra csökkentjük, azaz hogy a kamerák miként teljesítenek rendkívül alacsony fényviszonyok mellett és alacsony expozíciós időben.

1 gyertya - alacsony expozíció

Mint látható ebben a szakaszban az összes kamera meghibásodott, és megfigyeltük a teljes sötétséget. Ennek két különböző oka van -

  1. A mobil kamerákban ez azért történt, mert tradicionális felhordási és denzírozási technikákat alkalmaznak, mint például a BM3D denoising, amelyek kudarcot vallanak, ha a fénymennyiség nagyon kevés, és nincs semmi köze hozzá.
  2. A Sony fényképezőgépben ez a rövidebb expozíciós idő miatt történt, így kevesebb fényt engedtek a kamerába, tehát egy sötét képet.

De várj. Meg tudunk csinálni valamit, hogy jobb képet kapjunk az expozíciós idő másodpercének 1/30-ból és rendkívül gyenge fényviszonyok között (<0,1 lux)?

Legyen kész lenyűgözni, mivel ez a papír pontosan azt tette, amit akarunk!

Ha a fenti kép nyers érzékelőjeit (a legsötétebb képekkel), 1 gyertyával és alacsony expozícióval bevisszük a teljesen konvolúciós hálózatba, akkor kapunk egy ilyen kimenetet!

Mit! Viccelsz velem!

Meglepődött? Én is!

Remélem, hogy ezt a technológiát hamarosan alkalmazni fogják az okostelefon-kamerákban, és élvezni fogja a rendkívül gyenge fényviszonyok mellett készített fényképeket, amelyeket a gépi tanulás kínálhat!

És ez a gépi tanulás és a neurális hálózatok ereje.

Az ilyen alkalmazások ilyenek motiválják egyre több embert a gépi tanulás és a neurális hálózatok tanulmányozására. Pontosan ez az oka annak, hogy elkezdtem a clickbait-et, és miért lépett életbe a PAPERS 101!

Nyugodtan tedd közzé a megjegyzésekben, mit gondolsz erről a papírról.

Ezenkívül a PAPERS 101 és a clickbait általános javaslatait és elismerését üdvözöljük a megjegyzésekben.

Nos, erre a hétre, és legközelebb!

Adios!