AI szeszfőzde (1. rész): AI kutatás madártávlatból

Különböző lencsék az AI-n keresztül; motivációk és bevezetés webes alkalmazásunkba

Megjegyzés: Ha robotokat szeretne otthonába, és szeretné látni, hogy ezek inkább hamarosan, mint később történnek meg, kérjük, vegye figyelembe nagyon rövid felmérésünket. Válaszai segítik a szimulált környezetkutatási és robotikai projektek irányítását our

Adj 3 percet az idejéről: https://forms.gle/hPiP1p3sJ734Hzk19
Köszönöm szépen!

Az MTanknál két cél elérésére törekszünk. (1) Az AI-n belüli ismeretek modellezése és desztillálása. (2) Haladjon az igazán intelligens gépek létrehozása felé. Ezen erőfeszítések részeként kiadunk darabokat munkáinkról, hogy az emberek élvezzék és tanuljanak. Ha tetszik a munkánk, kérjük, mutassa meg támogatását a szamár követésével, megosztásával és tapsolásával. Előre is köszönöm!

  • 1. rész: A madártávlatból az AI kutatás
  • 2. rész: Desztillálás beágyazással

Mi ez és miért csinálta?

Üdvözöljük az AI Szeszfőzde projekt első részletében, ahol MTank csapatunk, csalódva az AI kutatás világméretű mennyiségéről, megpróbálja megoldani a megoldást az olvashatatlan napi papír halomunkra. Előző látásblogunkban játékosan és pontosan írtuk le a globális AI kutatási publikációk kötetét hihetetlenül nagy mennyiségű tűzoltó tömegként, de olyan közeggel, amely megakadályozza a szomjúság megfelelő elfojtását. Tehát úgy döntöttünk, hogy megpróbáljuk megtanulni az akvaduktúrát, amely az AI és a kapcsolódó területek frissítő betekintését eredményezi.

Miért kérdezed? Nos, először is azt gondoltuk, hogy érdekes probléma. Másodszor, hallottuk (és egyeztettük) a kutatók kínozott sírjait, amelyek zavartak voltak képességüktől, hogy lépést tartsanak a haladással, még az AI al-alterületeinek legelőszerezettebb részén sem. Gyakran a kutatónak meg kell osztania idejét az olvasás, a kódolás, az adminisztráció, a tanítás stb. Között. És amikor a dolgokat határidő előtt kell írni, a szerzők bölcsen beismerik, hogy esetleg hónapok óta nem olvasnak új dokumentumokat egy idő, amíg felkészülnek a benyújtásra.

A tudományos ismereteket nagyrészt egy fő formátumban terjesztik: tudományos cikkeket. A közelmúltban a hivatkozásokat lehetővé tevő nyilvános online tárházak, például az ArXiv, a tudományos tartalom gyors közzétételének széles körben alkalmazott módszerévé vált (lásd Yann LeCun tweetét). A papírok továbbra is elsőbbséget élveznek abban, hogy hogyan továbbítjuk az ismereteket a tudományon belül - ez a paradigma azonban még jelentősen megváltozik. Ezeket a cikkeket elfogadják folyóiratokban és konferenciákon, vagy csak a közösségi médiában szerepelnek. Jelenleg az ArXiv az, amely az AI-n belül a legnagyobb dokumentumok nagy részében jóval a szakértői értékelés előtt készül.
Egy mondatban a célunk:
A tudás automatikus modellezése és lepárlása az AI-n belül

Ez a cél nagy, homályos és tökéletes az olyan munkához, amelyet szeretnénk elvégezni az elkövetkező néhány évben. Ez természetesen magában foglalja azt a munkát, amelyet kézzel végeztünk az előző két felmérési kiadványunkban: Az év a számítógépes látásban és a multimodális módszerek. Publikációk, amelyek írása közben becsaptak bennünket, hogy megpróbáljuk hozzáadni a legjobb és legfrissebb (SOTA) cikkeket ezen almezőkhöz, amíg rájöttünk, milyen hiábavaló ez.

Az AI-előrehaladt fenyegető szörnyetegének könyörtelen az előrelépése, amikor kétségbeesetten megpróbáltuk megemészteni, számszerűsíteni és írni a kalandjairól. Az AI Distillery esetében azonban a cél az, hogy kibővítsük megközelítésünket és más szempontból kezeljük a kutatást - automatikusan felhívjuk a figyelmét a szóra.

Talán itt az ideje alkalmazni az AI-t az AI-re, és automatizálni a tudás kurálását és összefoglalását a terepen? Tudjuk, hogy sok csodálatos erőforrás található az AI kutatására, például a distill.pub, de az ilyen források összeállítása, szerkesztése és kreatív folyamata nagyon időigényes. Van még egy módja annak, hogy a passzív betekintést hozzuk létre?
A hálózati tudomány területe elkötelezett a nagy hivatkozási hálózatok közötti kapcsolatok tanulmányozása és megtalálása iránt. Az Arxiv-sanity, az egyik legnagyobb inspirációnk, nagyban segíti az embereket, hogy végre megkeressék azokat a papírokat, amelyeket keresnek, vagy ajánlásokat ajánlanak nekik. Ez a keresési képesség és az automatizálás ellenőrzése.

De érdekli a meta-kutatási játék - mit mondhat maga kutatásunk az AI kutatásról? Hol vezet ez az egyetemi, induló és iparági buzgalom? Mely területeken működnek együtt a legjobban? Mi forró most, és mi lesz hamarosan kutatás-bölcs?

Még nem tudjuk, de kövessük, és talán együtt fogjuk kideríteni.

A probléma információ-visszakeresési (IR) szempontból

A különböző helyzetek eltérő módszereket igényelnek az információk megszerzéséhez. A feltáró keresés végrehajtása a szokásos IR rendszerekben nehéz, mivel a terminológia a szorosan kapcsolódó területeken is eltérhet (hálózati elemzések vs. gráfos neurális hálózatok). Hogyan lehet hasonló kifejezéseket találni anélkül, hogy tudnánk, mit keres? Hogyan lehet az új ötletedhez kapcsolódó papírokat megtalálni a GAN papírok erdőjében?

A modern természetes nyelvfeldolgozás eszközöket adott az ilyen típusú felfedező kutatások elvégzéséhez, csak alkalmaznunk kell azokat az értékes forrásokból származó adatokból, mint például az ArXiv. Ennek eredményeként arra törekszünk, hogy a legrelevánsabb, legfontosabb információkat a lehető leggyorsabban és pontosan bocsássuk rendelkezésre. Ily módon a kutatók és a szakemberek megszabadulnának a nehézkes „lekérdezés-tervezéstől”, hogy megtalálják a szükséges információkat a nagy papírgyűjteményből.

Adatkészlet kidolgozása

Az ArXivhoz 2014 óta havonta hozzáadott papírok száma. 2018-ban a fenti területeken havonta több mint 1000 papír került kiadásra az ArXiv-en. Január kivételével minden hónapban. Több mint 2000 iratot adtak ki novemberben.

A magasztos célkitűzés kiindulási pontjaként az arxiv-sanity kódot (Andrej Karpathy készítette) használtuk, hogy ~ 50 000 papírt gyűjtsünk az ArXiv API-ból, amely 2014-től jelent meg, és amelyek csatorna területein voltak. [CV | CL | LG | AI | NE] vagy stat.ML. Kudos mindkét rendszer számára, mivel az ilyen hihetetlen nyílt forrású források olyan ponthoz vezetnek minket, ahol bárki hozzáférhet ehhez a tudáshoz. Ennek eredményeként legalább egy kis externalitás felmerült:

Hogyan találhatjuk meg azt, amire szükségünk van, ha olyan sok [átkozott] papír van?

Nos, talán van mód a régi és az új dokumentumok megjelenítésére a körülöttük lévő kutatások összefüggésében. Vagyis nemcsak az almezőt, hanem a különféle fészkeket is, amelyekben lakik. A felfedezés könnyebbé válik, a felfedezésre és a navigációra szokatlanul jelentősen hozzájárul, először megismerve, hogy hol található az irat és a tudás térében, és mi van körülötted.

A szöveges korpusz tisztítása

A ~ 50000 papírt a pdf2text segítségével bontottuk le. Eltávolítottuk a jelszavakat (pl. „A”, „a”, „of”) és tokeneket, amelyek kevesebb mint küszöbértéknél jelennek meg (például 5 vagy 30 - különböznek az egyes módszereknél). A közös bigramok („deep_learning”) és a trigrammok („convolutional_neural_networks”) azok, amelyekbe beágyazást szeretnénk megtanulni, ám n-gramm létrehozásakor van egy kérdés a kombinatorikus robbanás miatt.

Egyszerűen fogalmazva: el szeretnénk kerülni az olyan beillesztések tanulását, amelyek több ezer olyan bi-gramra vonatkoznak, mint az „and_the” és „this_paper”. Mivel, még egyszerűbben, nem jelentenek értéket az AI kutatás szempontjából. Általában a papírok népi nyelvét képviselik.
Ehelyett kézzel fogalmaztuk meg a fontos fogalomkészletet a leggyakoribb n-grammok nagyobb csoportjából - „ismétlődő ideghálózatok”, „támogató vektorgép” stb. Első megközelítésként megtaláljuk ezeket a fogalmakat a szövegben, és helyettesítjük azokat. koncepció tokenekkel (convolutional_neural_networks, support_vector_machine).

AI Distillery: egy internetes alkalmazás az AI kutatásának feltárására

Készítettünk egy webalkalmazást, amely elérhető az ai-distillery.io weboldalon, és itt mutatjuk be eredményeink, eszközeink, widgetjeink, betekintéseink, táblázataink és egyéb adatainak nagy részét. A webalkalmazás segítségével felfedezhetjük néhány képzett modellünket az összegyűjtött adatkészletekben, valamint lehetővé tehetjük, hogy bárki feltárja a kapcsolódó fogalmakat, hasonló dokumentumokat találjon, vagy áttekintést kapjon mindegyikről a trendekkel együtt, és nyomon tudja követni azok előrehaladását az idő múlásával. Jelenleg összesen 6 oldal érhető el, és azt tervezzük, hogy ezt a következő hónapokban sokat frissítjük. Ezek:

Papírkeresés (AI szeszfőzde)

Papírkeresés: funkcionálisan hasonló az arxiv-józanság-megőrzőhöz, de a rugalmasság és a skálázhatóság érdekében a Whoosh keresési könyvtárat használjuk. Dobj lekérdezést, és keresse meg a lekérdezéshez legmegfelelőbb papírokat.

Papírközelség (AI lepárló)

Szóba ágyazott közelség: keressen szemantikailag hasonló szavakat, pl. A „CNN” közel van a „convnet” és az „RNN” közel az „LSTM” -hez.

Papírbeágyazási közelség: keress hasonló papírokat, pl. Lehet, hogy az „AlexNet” papír közel áll a „GoogLeNet” papírhoz, vagy általánosságban az ugyanabban a mezőben lévő papírok inkább közelebb állnak, mint a különálló mezőkből származó papírok.

Visualizációk beágyazása (AI lepárlóüzem)

Szóbeágyazási megjelenítés: 2D-s T-SNE-diagram, amely megmutatja, hogy milyen szavak vannak egymáshoz közel a beágyazási térben, a szó beágyazási módszereivel: Word2vec és fastText

Papírbeágyazási megjelenítés: Egy másik T-SNE-diagram, de magának a papírba ágyazó területnek a megjelenítéséhez, és két választott beágyazási módszerünkkel az LSA és a doc2vec.

Diagramok és kiegészítő betekintések: Azok a táblázatok és betekintések, amelyek érdekesnek találhatók, és amelyeket az utazás során készítettünk, pl. top szerzők, top dokumentumok, a havonta kiadott cikkek száma stb.
Példa néhány diagramra és betekintésre, amelyet rendszerünk automatikusan előállíthat egy ArXiv papírkorpuszból. A „GAN” jelenléte az iratokban az idők során, a legtöbb közzétett téma, a legtöbb idézetben szereplő szerzők stb.

A kerekítés

A legjobb fegyvereinket az AI fejlõdésének vadállatának megszelídítésére használjuk, azaz a Flask, a ReactJS, a D3.js, a ChartJS és a Whoosh esetében. Egy vidám utazást váltottunk át Heroku-tól (túl kevés RAM) a Google Compute Engine-ig (túl drága a túl kevés RAM-hoz), mielőtt végül az alkalmazás jelenlegi verzióját tároltuk volna a Hertznerrel.

Az AI Distillery-t két „papírbeágyazási” módszerrel, a Latent Semantic Analysis (LSA) és a doc2vec módszerrel kezdtük el, valamint két szóbeágyazási algoritmussal, a word2vec és a fastText. A következő részletben az olvasókat ezen beágyazásokon, valamint az általunk létrehozott oldalakon keresztül végigjárjuk. Most nyugodtan fedezze fel a webhelyet (ai-distillery.io). Kísérleti kódunkat az AI Distillery GitHub repo-nál találhatja meg, ahol a fentiek végrehajtására olyan kereteket használtunk, mint a gensim, a sklearn és a spacy.

Mint mindig, köszönöm, hogy időt fordítottál munkánk elolvasására. És kérlek, tapsolj, és oszd meg az MTank munkáját bárkivel, aki szerinte tetszik. Támogatása mindannyiunkat motivál, hogy új dolgokat kipróbálhassunk, és két centtel hozzájáruljunk az AI közösséghez. Tehát ebben az esetben ne tartsa be tapsát, ha tetszik az, amit csinálunk!

Ha együtt szeretne működni velünk az AI haladásának átláthatóbbá tételében, vagy bármilyen észrevétele van a kutatás vagy a webes alkalmazás bármely részével kapcsolatban, nyitott vagyunk a javaslatokra, ezért nyugodtan lépjen kapcsolatba a megjegyzés szakaszban vagy e-mailben (info@themtank.com). Vigyázzon a hamarosan megjelenő sorozat 2. részére, valamint az új blog sorozat elejére, amelyet látásblogunkban említettem (a csészétől a tudatosságig).