Ang bagong diskarte ng OpenAI para sa isang pag-aaral ng imitasyon ng isang shot, isang silip sa hinaharap ng AI

One-Shot Imitation Learning Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

Noong Mayo 16, nagbahagi ang mga mananaliksik ng OpenAI ng isang video ng isa sa kanilang mga proyekto kasama ang dalawang papeles na kahalagahan sa paggalugad ng mga solusyon sa tatlong pangunahing mga bottlenecks ng kasalukuyang pag-unlad ng AI: meta-learning, one-shot learning, at automated data generation. Sa aking nakaraang post, ipinangako ko ang isang artikulo na nakatuon sa kamangha-manghang problema ng pag-aaral ng one-shot, kaya napupunta ito. Maaari kang magsimula sa pamamagitan ng pagtingin sa video na inilabas nila na nagpapaliwanag ng kanilang kamangha-manghang gawain:

Sa video na ito nakakita ka ng isang-braso na pisikal na robot na nakakabit ng mga cube sa itaas ng bawat isa. Alam ang mga kumplikadong gawain na nagagawa ng mga robot na pang-industriya, kung hindi sinubukan ng mananaliksik na ipaliwanag kung ano ang nangyayari, sa maraming mga account na ito ay magiging labis na masidhi. Sa kinokontrol na kapaligiran ang gawain ay simple, ang mga pamamaraan ng pamamaraan (hard-coded) ay nalutas ang mga problemang ito na, kung ano ang ipinangako at rebolusyonaryo kung gaano kalaki ang pangkalahatang balangkas sa ilalim ng sukat hanggang sa maraming, mas kumplikado at umaangkop na pag-uugali sa mga kapaligiran ng noisier.

Ang pagkakaiba sa isip sa pagitan ng tao at ng mas mataas na hayop, mahusay na tulad nito, ay tiyak na isa sa degree at hindi uri.
- Charles Darwin

Sa pamamagitan ng pagkakatulad, ang artikulong ito ay isang matibay na katibayan na ang mga pagkakaiba-iba ng mga sistema ng nagbibigay-malay sa pagitan ng kasalukuyang naka-embod na AI (artipisyal na katalinuhan ng mga pisikal na sistema) at ang mga robot ng ika-22 siglo ay magiging isang sukat at hindi uri. Mula noong 2012 na kumpetisyon ng ImageNet *, ang pag-aaral ng malalim na pag-aaral ay umuusbong, hindi gaanong baguhin ang likas na katangian ng ipinamamahalang pagkalkula na ginawa ng isang neural network, ngunit sa pamamagitan ng paghahanap ng mga bagong paraan upang istraktura ang mga network upang matuto sila ng isang tiyak na gawain. Para sa isang neural network function ay istraktura, ang istraktura na ito ay hindi hard-coded (hindi idinisenyo ng kamay) ngunit ito ay ang mga resulta ng mga yunit ng computational ng atom na una na konektado sa pagitan ng mga input at output, na magagawang baguhin ang kanilang istraktura at koneksyon. Sa pamamagitan ng pagbabago ng pangkalahatang istraktura ng network na natututo ito ng isang tiyak na pag-andar.

Sa artikulong ito ay nagtayo sila ng isang pangkalahatang balangkas na maaaring sanayin ang isang ahente upang kumatawan sa mga gawain sa isang abstract na paraan, at matutong ilipat ang kaalamang ito sa mga bagong hindi nakikitang mga gawain (paglilipat ng pag-aaral) pagkatapos lamang ng isang pagpapakita ng gawain ng nobela (isang shot ng pag-imol ng pag-iilaw).

Ang mga gawain

Bagaman naiiba ang eksaktong pagpapatupad ng arkitektura, kumukuha sila ng dalawang gawain bilang mga halimbawa upang ipakita ang pagganap ng pangkalahatang diskarte.

Pag-abot ng partikulo

Sa unang halimbawa ang system ay tumatanggap ng mga input ng mga kulay na posisyon ng target sa isang eroplano at isang solong pagpapakita ng video ng simulated agent na pupunta sa tinukoy na target.

Larawan 2. Ang robot ay isang point mass na kinokontrol na may 2-dimensional na puwersa. Ang pamilya ng mga gawain ay upang maabot ang isang target na landmark. Ang pagkakakilanlan ng landmark ay naiiba sa gawain hanggang sa gawain, at dapat malaman ng modelo kung aling target na ituloy batay sa demonstrasyon. (kaliwa) paglalarawan ng robot; (gitna) ang gawain ay upang maabot ang orange box, (kanan) ang gawain ay upang maabot ang berdeng tatsulok.

Sa panahon ng pagsasanay ang system ay kailangang kopyahin ang parehong gawain (maabot ang orange) ngunit mula sa isa pang pagsasaayos, na may iba't ibang mga panimulang posisyon para sa robot at mga target. Hindi malinaw kung sa panahon ng pagsubok ang ahente ay nasuri sa gawain na siya ay sinanay (maabot ang orange) o sa gawain na hindi pa niya nakita bago (maabot ang berde halimbawa) o pareho.

Ang sinanay na patakaran ay nasuri sa mga bagong senaryo at nakondisyon sa mga bagong demonstrasyon na hindi nakikita sa panahon ng pagsasanay.

Tiyak na dapat ibagsak ng ahente ang target ng layunin mula sa isang natatanging demonstrasyon at muling magsimula mula sa isa pang pagsasaayos. Ito ay nagpapahiwatig na ang eksaktong pagkakasunud-sunod ng motor ay hindi maaaring natutunan bago subukan at kailangang ibukod sa pamamagitan ng abstraction (mas mataas na antas na nakabalangkas na representasyon) ng gawain at pagpaplano ng motor.

I-block ang pag-stack

Sa ikalawang halimbawa ay dapat matutunan ng ahente na mag-stack ng mga cube (na kinilala sa pamamagitan ng iba't ibang mga kulay) sa parehong pagkakasunud-sunod ng ipinapakita sa isang solong simulate na demonstrasyon. Ang simulate na pagpapakita na ito ay isang serye ng mga 2D na imahe na nabuo ng isang 3D physics engine kung saan ang mga katangian ng motor at sensory apparatus ay na-modelo.

Patakaran ng one-shot. Ang isang solong patakaran na sinanay upang malutas ang maraming mga gawain. Nangungunang gawain: {abc, def}, Bottom task: {ab, cd, ef}

Sa parehong mga halimbawa ang mga paunang posisyon ng mga cube sa demonstrasyon at sa totoong pagsubok ay magkakaiba, ang bawat gawain ay nagsisimula mula sa isa pang paunang posisyon. Hindi sinusubukan ng robot na palitan ang mga cube upang tumugma sa paunang posisyon ng demonstrasyon, inililipat nito ang mas mataas na antas ng gawain ng pag-piling ng kubo kahit anong estado na sinimulan niya.

Pagsasanay gamit ang domain randomisation

Sa parehong kaso ang lahat ng mga larawang ginamit sa pagsasanay ay nakuha sa pamamagitan ng kunwa gamit ang domain randomisation kung saan ay isasagawa nila ang mga sumusunod na aspeto ng mga halimbawa:

Bilang at hugis ng mga bagay ng distractor sa mesa Posisyon at pagkakayari ng lahat ng mga bagay sa mesa Mga texture ng talahanayan, sahig, skybox, at robot Posisyon, orientation, at larangan ng view ng camera Bilang ng mga ilaw sa eksena Posisyon, orientation, at mga specular na katangian ng mga ilaw Uri at dami ng random na ingay na idinagdag sa mga imahe

Pagsasanay na set para maabot ang maliit na butil

Isinasaalang-alang namin ang isang mahirap na hanay ng mga pamilya ng gawain, kung saan ang bilang ng mga landmark ay nagdaragdag mula 2 hanggang 10. Para sa bawat pamilya ng gawain, kinokolekta namin ang 10000 na mga trajectory para sa pagsasanay, kung saan ang mga posisyon ng mga landmark at ang panimulang posisyon ng point robot ay randomized. Gumagamit kami ng isang hard-code na dalubhasang patakaran upang mahusay na makabuo ng mga demonstrasyon. Nagdaragdag kami ng ingay sa mga tilapon sa pamamagitan ng pag-uugnay sa mga nakalkula na pagkilos bago ilapat ang mga ito sa kapaligiran, at ginagamit namin ang simpleng pag-clon ng pag-uugali upang sanayin ang patakaran sa neural network

Pagsasanay para sa pag-block ng pag-block

Sa tapat, kinokolekta namin ang 140 mga gawain sa pagsasanay, at 43 na mga gawain sa pagsubok, bawat isa ay may ibang nais na layout ng mga bloke. Ang bilang ng mga bloke sa bawat gawain ay maaaring magkakaiba sa pagitan ng 2 at 10. Kinokolekta namin ang 1000 mga trajectori bawat gawain para sa pagsasanay, at mapanatili ang isang hiwalay na hanay ng mga trajectories at paunang mga pagsasaayos na gagamitin para sa pagsusuri. Katulad sa gawain ng pag-abot ng butil, iniksyon namin ang ingay sa proseso ng koleksyon ng tilapon. Ang mga tilapon ay nakolekta gamit ang isang hard-coded na patakaran.

Ang matagumpay na demonstrasyon ay nakolekta gamit ang isang hard-coded na patakaran

Tandaan na sa panahon ng pag-aaral ng tamang mga tilapon ay nabuo ng isang patakaran na "hard-coded" na patakaran, na naniniwala ako na umaasa sa mga klasikong pamamaraan ng pagkilala at kontrol ng system. Kaya sa panahon ng pagsasanay at pagsubok sa ahente ay may dalawang input: a) isang demonstrasyon sa isang pagsasaayos A, at b) isang panimulang pagsasaayos B. Sa panahon lamang ng pagsasanay, ang pag-aaral ng algorithm ay may access din sa isang perpektong tugon: isang tilapon na nagsisimula mula sa pagsasaayos B na sinasagot ang problema at kung saan ang tugon ng ahente ay maihahambing sa panahon ng pag-aaral - ginagawa itong isang pinangangasiwaan na problema sa pag-aaral.

Para sa bawat gawain ng pagsasanay ipinapalagay namin ang pagkakaroon ng isang hanay ng mga matagumpay na demonstrasyon.

Kung hindi malinaw, pupunta ako sa mga pagkakaiba sa pagitan ng iba't ibang uri ng pag-aaral ng mga paradigma sa susunod na seksyon.

Ang pag-optimize ng algorithm at pagkawala ng pag-andar

Ang superbisyon na pag-aaral ay tumutukoy sa mga paradigma sa pagsasanay kung saan sa bawat desisyon ang network ay may access sa tamang pagpipilian na dapat niyang gawin, at sa gayon sa isang paniwala ng error. Halimbawa sa isang gawain sa pag-uuri sa pagitan ng mga aso at pusa, ang label ng mga larawan ng mga aso at pusa sa panahon ng pagsasanay ay kilala nang maaga at agad na nakita ang mga pagkakamali. Sa kahulugan na ito ay naiiba mula sa hindi sinusubaybayan na pag-aaral kung saan sa pangkalahatan ang ahente ay hiniling na makahanap ng isang hindi kilalang istraktura sa mga input na natanggap niya, at walang mga label ng mga pusa at aso ay kailangang matuklasan na mayroong dalawang kumpol ng iba't ibang mga bagay lamang batay sa ang impormasyon na nilalaman sa data. Iba rin ito sa Reinforcement Learning na madalas mag-apply sa real time system kung saan ang eksaktong pagkakasunud-sunod ng desisyon na humahantong sa isang layunin ay hindi alam ngunit isang pangwakas na "gantimpala" ang magpapasya kung tama ba ang pagkakasunud-sunod. Sa pamamagitan ng paggamit ng pag-aaral ng imitasyon binago nila ang isang klasikong problema sa pag-aaral ng pampalakas sa isang pinangangasiwaan na problema sa pagkatuto, kung saan ang pagkakamali ay kinakalkula mula sa isang distansya sa isang napansin na tilapon.

Bilang ito ang kaso para sa anumang pinangangasiwaang pag-setup ng pagsasanay, ang gawain sa kamay ay ganap na tinukoy ng pagkawala ng function, na naglalayong matukoy kung gaano kalayo ang ahente mula sa inilaang pag-uugali. Ang pagtukoy sa pagpapaandar na ito ay madalas na kritikal na hakbang, dahil tinutukoy nito kung paano ina-update ng algorithm ng pag-optimize ang mga parameter ng modelo. Ang mga algorithm na iyon ay may kahalagahan sa term ng pagkalkula ng oras, at madalas na kailangan ng ilang pag-tweak upang makapag-ipon, kung sa lahat. Sa katunayan ang mga solusyon na mababawasan ang pag-andar sa napakataas na sukat ay naninirahan sa isang napakaliit na shell ng puwang ng parameter, na may isang maliit na distansya ng martilyo sa pagitan nila, sa sandaling makalayo ka sa maliit na domain ang distansya sa pagitan ng mga solusyon ay mabilis na lumalaki. Mayroong maraming mga napaka-kagiliw-giliw na gawain sa paksang iyon na ginawa sa iba sa pamamagitan ng napaka kamangha-manghang na si Jennifer Chayes, isinusilyo niya ang paksa sa isang napaka-kagiliw-giliw na pakikipanayam sa huling yugto ng Talking Machines.

Sa panahon ng pagsasanay ng mga network ng patakaran (ang buong network, makapagpasya mula sa pag-input kung aling aksyon ang dapat gawin) pinoproseso muna nila ang matagumpay na tilapon ng pagpapakita. Para sa bahaging ito ay ihahambing nila ang dalawang pamamaraang, ang klasikong Pag-clon ng Pag-uugali (hindi eksaktong sigurado sa pagpapatupad na ginamit nila) at ang algorithm ng DAGGER. Ito ay magbibigay-daan sa para sa iterative minimization ng pagkawala ng function sa alinman sa pamamagitan ng l2 o pagkawala ng cross-entropy batay sa kung ang mga pagkilos ay nagpapatuloy o discrete (batay sa mga pamamahagi ng mga kaganapan sa pagkakasunud-sunod). Sa buong lahat ng mga eksperimento, ginamit nila ang Adamax algorithm upang maisagawa ang pag-optimize na may rate ng pagkatuto ng 0.001.

Ang laki ng hakbang ay nagsisimula maliit at nabubulok nang malaki.

Ang algorithm mismo ay hindi pinapayagan para sa paglipat, ito ay kung paano mo itatayo ang iyong set ng pagsasanay at ang iyong pag-andar sa pagkawala na magpapahintulot sa paglipat.

Dalawang uri ng paglipat ang umiiral sa mga gawain. Ang unang uri ay tinutukoy bilang "pag-aayos ng agwat ng katotohanan", ito ay isang pangkalahatang pag-aaral sa pag-aaral na nagpapahintulot sa paglipat sa pagitan ng pagsasanay sa mga simulated input sa pagsubok sa likas na stimuli. Ang data ng simulation ay madalas na isang mahirap na pag-asa ng totoong mundo, masyadong perpekto, kulang sa pagiging kumplikado ng tunay na bagay. Sa totoong mundo ang camera ay maaaring maging mali at noisier, ang kontrol ng motor ay hindi gaanong tumpak, magbabago ang mga kulay, magiging mas mayaman ang mga texture atbp Upang payagan para sa unang paglipat na ito gumamit sila ng isang pamamaraan na tinutukoy nila bilang "domain randomization" : ito ay sa pamamagitan ng pagdaragdag ng ingay sa mga pag-input na matutunan ng network ang pangkaraniwang nauugnay na istraktura na magbibigay-daan sa pangkalahatang naaangkop ito sa totoong mundo. Halimbawa, babaguhin nila ang anggulo ng camera sa pagitan ng mga halimbawa ng pagsasanay, baguhin ang mga texture, o gawing mas perpekto ang mga tilapon. Sa pamamagitan ng pagdaragdag ng ingay sa panahon ng pagsasanay ay nagdaragdag kami ng katatagan.

Ang pangalawang paglilipat na nasubok dito ay ang kakayahang makagawa ng isang nauugnay na pagkakasunud-sunod ng motor sa dating hindi nakikita na hanay ng pagsasaayos at layunin, batay sa isang solong demonstrasyon na nagsisimula sa isa pang paunang pagsasaayos ngunit may katulad na pangwakas na layunin. Muli dito ay magagawa ang paglipat sa pamamagitan ng kung paano namin itinatayo ang set ng pagsasanay, at modelo ang pagkawala ng function. Sa pamamagitan ng pagpapakita ng mga demonstrasyon sa panahon ng pagsasanay na hindi nagsisimula mula sa parehong paunang kondisyon upang maabot ang isang katulad na layunin, pinapayagan mong malaman ng network na mag-embed ng isang mas mataas na antas na representasyon ng layunin nang hindi gumagamit ng ganap na mga posisyon, pati na rin ang isang mas mataas na order na representasyon ng ang pagkakasunud-sunod ng motor na hindi isang simpleng imitasyon. Ang walang muwang na paunang arkitektura ay nagbibigay-daan sa pagsasanay upang baguhin ang istraktura sa isang may-katuturang paraan, at ang sinanay na istrukturang ito ay nagpapahiwatig ng pangwakas na pag-andar.

Mga layunin

Para sa block stacking paradigma mayroon silang ilang mga hadlang na nais nilang matugunan ang kanilang ahente sa pag-aaral.

Dapat itong madaling mag-apply sa mga pagkakataon sa gawain na may iba't ibang bilang ng mga bloke.
Dapat itong likas na pangkalahatan sa iba't ibang mga pahintulot ng parehong gawain. Halimbawa, ang patakaran ay dapat na gumanap nang maayos sa gawain {dcba}, kahit na sinanay lamang ito sa gawain {abcd}.
Dapat itong mapaunlakan ang mga demonstrasyon ng mga haba na variable.

Marami silang mga katanungan na nais nilang sagutin para sa gawaing ito.

Paano maihahambing ang pagsasanay sa pag-clone ng pag-uugali sa DAGGER, na ibinigay na ang sapat na data ay maaaring makolekta offline?
Paano maihahambing ang pag-conditioning sa buong pagpapakita sa pag-conditioning sa panghuling nais na pagsasaayos, kahit na ang pangwakas na pagsasaayos ay may sapat na impormasyon upang lubos na tukuyin ang gawain?
Paano maihahambing ang pag-conditioning sa buong pagpapakita sa pag-conditioning sa isang "snapshot" ng tilapon, na kung saan ay isang maliit na subset ng mga frame na pinaka-kaalaman
Maaari bang matagumpay na gawing matagumpay ang aming balangkas sa mga uri ng mga gawain na hindi pa nito nakita sa pagsasanay? (++)
Ano ang kasalukuyang mga limitasyon ng pamamaraan?

Arkitektura

Pag-akit ng Particle

Para sa unang halimbawa na ito inihambing nila ang tatlong mga arkitektura lahat batay sa mga Long Short Term Memory (LSTM) neural network. Ang isang paglalarawan ng mga network ay pupunta sa isang hinaharap na post tungkol sa memorya at pansin, na kung saan ay ganap na kamangha-manghang mga paksa kapwa sa kognitibo at computational science. Sa esensya ay pinapakain ng LSTM ang mga nakaraang mga output ng network (sa oras) bilang bahagi ng input ng network sa bawat bagong oras ng oras, na nagpapahintulot sa impormasyon ng mga nakaraang estado na ipaalam sa kasalukuyan (samakatuwid ang kanilang pangalan ng mga maikling term na mga network ng memorya). Ang mga ito ay nasa ugat ng maraming mga state-of-the-art na teknolohiya na may kinalaman sa serye ng oras (Alexa, Siri atbp.).

Narito ginagamit nila ang tatlong tiyak na kundisyon:

  1. Plain LSTM: natutong mag-embed ng tilapon at kasalukuyang estado upang pakainin ito sa isang multilayer perceptron na makagawa ng aksyon ng motor
  2. LSTM nang may pansin: gumawa ng isang bigat na representasyon sa mga landmark ng tilapon
  3. Pangwakas na estado na may pansin: gamitin sa pagsasanay lamang ang pangwakas na estado upang makabuo ng isang bigat sa mga landmark, katulad ng nakaraang arkitektura

I-block ang pag-stack

Habang, sa prinsipyo, ang isang pangkaraniwang neural network ay maaaring malaman ang pagmamapa mula sa demonstrasyon at kasalukuyang pagmamasid sa naaangkop na aksyon, natagpuan namin na mahalagang gumamit ng isang naaangkop na arkitektura. Ang aming arkitektura para sa pag-aaral ng pag-stack ng block ay isa sa mga pangunahing kontribusyon ng papel na ito, at naniniwala kami na ito ay kinatawan ng kung ano ang mga arkitektura para sa isang shot ng pag-aaral ng imitasyon ng mas kumplikadong mga gawain na maaaring magmukha sa hinaharap.

Mga module ng atensyon

Ang artikulo ay nananatiling medyo mataas na antas sa paglalarawan ng istraktura ng mga network na ginamit upang malaman ang gawain. Ang isang pangunahing sangkap ng arkitektura ay ang kanilang pansin sa module, ngunit naniniwala ako na ang paksang ito ay nangangailangan ng isang tiyak na post ng delve nang detalyado sa mahahalagang papel nito. Sa pamamagitan ng pagkakatulad sa konseptong pang-agham na konsepto ng napapanatiling pansin, ang mga module ng atensyon ay ginagamit upang mapanatili at tumuon sa mga nauugnay na impormasyong nilalaman sa iba't ibang mga spans ng espasyo at oras. Gumagawa ito ng isang nakapirming laki ng output na naglalaman ng isang pag-embed ng isang nilalaman ng impormasyon na nakaunat sa oras at espasyo. Sa pamamagitan ng pagkakatulad sa topology, isang sangay ng matematika na sa tingin ko ay lubos na ipagbigay-alam kung paano namin naiintindihan ang mga ipinamamahaging representasyon sa hinaharap, ang isang atensyong network ay nagsasagawa ng isang topological isomorphism ng impormasyon, parehong kurbada, magkakaibang hugis. Tandaan na ang mga network na ito ay hindi gumaganap ng isang papel na ginagampanan ng detalyeng saliency na nakatuon sa hindi inaasahang o bihirang mga kaganapan, na kung saan ay isang function na nauugnay sa paniwala ng pansin sa neuroscience.

Dito ay gumagamit sila ng dalawang uri ng network ng atensyon: a) isang temporal na network ng atensyon na gumagawa ng isang bigat na halaga sa nilalaman (query, konteksto at mga vectors ng memorya) na nakaimbak sa memorya, at b) isang network ng atensyon sa kapitbahayan na makakapagpagpagpagpagpagpabawi ng impormasyon na may kaugnayan posisyon depende sa kasalukuyang query ng ahente.

Ang network ng pansin ng temporal, na may c: konteksto vector, m: memorya ng vector, q: query vector, v: natutunan ang timbang ng vector. Ang output ay pareho ng laki ng memorya ng vector. Ito ay isang guhit na kumbinasyon ng mga vector na nagbibigay-daan para sa ilang memorya ng vector na magkaroon ng higit na epekto sa output batay sa konteksto at mga vector ng query.Ang parehong ideya dito, ang kumpetisyon sa pagitan ng spatial na impormasyon ay pinapanatili ng dynamic na sistema ng atensyon.

Ang network ng patakaran

Ang kumpletong network ay binubuo ng tatlong magkakaibang mga sub-network: ang demonstration network, ang network ng konteksto, at ang pagmamanipula na network.

Ang network ng demonstrasyon ay tumatanggap ng isang tilas ng demonstrasyon bilang input, at gumagawa ng isang pag-embed ng demonstrasyon na gagamitin ng patakaran. Ang laki ng pag-embed na ito ay lumalaki nang magkakasunod bilang isang function ng haba ng demonstrasyon pati na rin ang bilang ng mga bloke sa kapaligiran.

Tulad ng ipinakita dito ang network ng demonstrasyon ay nag-embed ng pagpapakita ng iba't ibang pagiging kumplikado at laki sa isang karaniwang format na gagamitin ng network ng konteksto upang kumatawan sa gawain. Marahil sa antas na ito na naganap na ang pagbubuo, ang paglalagay ng demonstrasyon ay dapat na mag-iiwan ng impormasyon tungkol sa eksaktong tilapon at kusa na ganap na mga posisyon na nakita sa panahon ng mga demonstrasyon.

Ang pagtingin sa istraktura ng network ng konteksto, kahit na mula sa isang napakataas na antas, nakikita namin ang interface na may network ng demonstrasyon na nagpapakain ng isang pag-embed ng demonstrasyon sa mga sentral na temporal na mga module ng pansin. Nakikita rin natin na ang mga nakaraang aksyon (LSTM) at kasalukuyang estado ay pinapakain habang ang input na pinagsama sa demonstrasyon ng pag-embed upang makagawa ng isang pandaigdigang konteksto ng pag-embed na ipinadala sa network ng motor.

Ang kanilang paglalarawan sa pag-andar ng mga network ay nasa aking opinyon ang pinakamahalagang bahagi ng papel:

Ang network ng konteksto ay nagsisimula sa pamamagitan ng pag-compute ng isang vector ng query bilang isang function ng kasalukuyang estado, na kung saan ay ginamit upang dumalo sa iba't ibang mga hakbang sa oras sa pag-embed ng demonstrasyon. Ang mga bigat ng atensyon sa iba't ibang mga bloke sa loob ng parehong hakbang ng oras ay naipon, upang makagawa ng isang solong timbang sa bawat hakbang. Ang resulta ng temporal na atensyon na ito ay isang vector na ang laki ay proporsyonal sa bilang ng mga bloke sa kapaligiran. Pagkatapos ay inilalapat namin ang atensyon ng kapitbahayan upang maipadama ang impormasyon sa buong mga pag-embed sa bawat bloke. Ang prosesong ito ay paulit-ulit na paulit-ulit, kung saan ang estado ay advanced gamit ang isang LSTM cell na may mga hindi nakuha na timbang.
Ang nakaraang pagkakasunud-sunod ng mga operasyon ay gumagawa ng isang pag-embed na ang laki ay independiyenteng ng haba ng demonstrasyon, ngunit nakasalalay pa rin sa bilang ng mga bloke. Pagkatapos ay inilalapat namin ang karaniwang malambot na atensyon upang makagawa ng mga nakapirming mga dimensional na mga vector, kung saan ang nilalaman ng memorya ay binubuo lamang ng mga posisyon ng bawat bloke, na, kasama ang estado ng robot, ay bumubuo ng input na ipinasa sa pagmamanipula na network.
Sa matindi, kahit na ang bilang ng mga bagay sa kapaligiran ay maaaring magkakaiba, sa bawat yugto ng operasyon ng pagmamanipula, ang bilang ng mga nauugnay na bagay ay maliit at karaniwang naayos. Para sa partikular na lugar ng pag-stack ng block, ang robot ay dapat lamang na bigyang-pansin ang posisyon ng bloke na sinusubukan nitong kunin (ang mapagkukunan ng bloke), pati na rin ang posisyon ng bloke na sinusubukan na ilagay sa tuktok ng ( ang target block). Samakatuwid, ang isang maayos na sinanay na network ay maaaring matuto upang tumugma sa kasalukuyang estado sa kaukulang yugto sa demonstrasyon, at ibukod ang mga pagkakakilanlan ng pinagmulan at target na mga bloke na ipinahayag bilang malambot na timbang ng pansin sa iba't ibang mga bloke, na kung saan ay ginamit upang kunin ang mga kaukulang posisyon sa maipasa sa network ng pagmamanipula.

Ang paraan na natapos nila ang kanilang paglalarawan ay isang perpektong halimbawa ng kasalukuyang pag-agos ng pananaliksik ng AI mula sa isang diskarte sa sistema ng eksperto sa isang diskarte sa pagkatuto ng sistema, at ito ay nagpapahiwatig din sa talakayan sa paligid kung paano lumaki ang utak sa ibaba.

Bagaman hindi namin ipinatutupad ang interpretasyong ito sa pagsasanay, sinusuportahan ng aming pagtatasa sa eksperimento ang interpretasyong ito kung paano gumagana ang panloob na patakaran.

Hindi nila alam kung paano ito gumagana! Nagtatayo sila ng isang istraktura na maaaring magsagawa ng ilang mga pagkalkula at mag-imbak ng ilang mga impormasyong sa palagay namin ay kapaki-pakinabang na aoriya, at pinapakain ito ng isang set ng pagsasanay na umaasa ang buong istraktura. Mayroong isang uri ng voodoo pananaliksik ng Artipisyal na Intelligence sa pagtaas, isang sining, isang paraan upang idirekta ang heuristic na paghahanap sa tamang direksyon. At tila isang buong maraming mga mago na ngayon ay nagtatrabaho para sa openAI.

Sa kanilang sariling mga salita ang network ng pagmamanipula ay ang pinakasimpleng istraktura, mula sa konteksto na naka-embed sa feed ng Multi-layer perceptron, isang aksyon ng motor ang ginawa.

Mga Resulta

Ang mga resulta ay madalas na isang bahagi kung saan wala akong maliit na interes, lalo na sa mga uri ng kamangha-manghang mga magagaling na teknikal na papel. Pupunta ako nang mabilis, sa ilalim ng linya na ang pamamaraang ito ay gumagana, gumaganap ito ng isang kawastuhan na katulad ng mga hard-coded na mga patakaran ng dalubhasa at, taliwas sa mga tiyak na pamamaraan na pamamaraan, ay naisasadula sa isang mahusay na hanay ng mga gawain.

Pag-akit ng Particle

I-block ang Stacking

Sa mga eksperimento na ito sinubukan din nila ang iba't ibang mga kondisyon. Gamit ang DAGGER inihambing nila ang tatlong magkakaibang kundisyon sa pag-input sa pamamagitan ng pagbagsak ng ipinakita na tilapon: buong tilapon, snapshot ng tilapon, o ginagamit lamang ang pangwakas na estado. Inihambing din nila ang algorithm ng Pag-uugali ng Pag-uugali sa buong tilapon ng demonstrasyon.

Ang isang malakas na katibayan ng kakayahan ng system na gawing pangkalahatan sa pagkakakilanlan ng kubo

Pagtalakay

Ang pagbabasa ng mabilis na pagsulong na ginawa ng OpenAI nitong mga nakaraang buwan, nararamdaman ko ang isang lumalagong paghihimok na pag-usapan ang tungkol sa kanilang trabaho at ibahagi ang aking mga saloobin sa kung ano ang pinaniniwalaan ko ang kanilang trabaho, at ang pagsulong ng larangan ng AI nang buo, ipagbigay-alam ang aming pag-unawa sa kung paano gumagana ang biological talino. Sa partikular na lumalagong ideyang ito na ang tila nakabahaging mga nagbibigay-malay na pag-andar sa pagitan ng mga tao ay hindi gaanong dahil sa isang ibinahaging istraktura na hindi alam na alam kung paano magsagawa ng isang gawain, ngunit sa halip ay isang resulta ng medyo katulad na naive na mga istruktura na, ay humarap sa parehong kapaligiran, matutong magsagawa ng mga katulad na gawain. Ang pag-andar ay bunga ng isang hindi gumagawang istraktura na maaaring malaman ang isang tiyak na gawain dahil sa isang tiyak na kapaligiran sa halip na isang istraktura na maaaring gawin ang gawain nang katutubong, simpleng pag-tweet ng ilang mga parameter upang umangkop sa kapaligiran.

Mga gawain laban sa mga pagsasaayos: isang tila di-makatwirang kahulugan

Dapat kong aminin na hindi ko maintindihan kung bakit pinili nilang pag-usapan ang iba't ibang mga gawain sa paraang ginawa nila. Ang isang gawain ay tinukoy sa eksperimento sa pag-block ng pag-block bilang isang hanay ng mga string na kumakatawan sa posisyon ng mga bloke na may kaugnayan sa bawat isa, ang bilang ng mga elemento sa set ay tumutukoy sa bilang ng mga stack at ang bilang ng mga character ang bilang ng mga bloke na kailangang ayusin . Ang isang gawain pagkatapos ay isang pag-aayos ng mga bloke sa mga stack nang hindi isinasaalang-alang ang ganap na posisyon ng salansan.

Ang ilang mga bloke ay maaaring nasa mesa ngunit hindi bahagi ng gawain

Ang kanilang pagpili ng pagtukoy sa kamag-anak na posisyon at bilang ng mga stack bilang pamantayan para sa hiwalay na gawain ay tila di-makatwiran. Sa katunayan, maaari ring magkaroon ng kahulugan upang pag-usapan ang tungkol sa iba't ibang mga gawain batay sa ganap na mga panimulang posisyon ng mga bloke (kung ano ang tinutukoy nila bilang pagsasaayos). Naniniwala ako na ang pangkaraniwang katangian ng problema ay maliwanag sa kanila, ngunit para sa mga layunin ng kaliwanagan na mas gusto nilang huwag pumasok sa mga detalye. Ito ay mas mahusay na upang i-frame ang pag-aaral ng patakaran bilang dalawang uri ng mga pangkalahatang pangkalahatan, ang paraan ng kanilang gagawin sa kalaunan:

Tandaan na ang pagsasalamin ay nasuri sa maraming antas: ang natutunan na patakaran ay hindi lamang kailangang pangkalahatan sa mga bagong pagsasaayos at mga bagong pagpapakita ng mga tungkulin na nakita na, ngunit kailangan ding gawing pangkalahatan sa mga bagong gawain.

Palitan lamang ang "mga gawain" sa pamamagitan ng "pag-order ng stack". Upang matuto nang tama ang gawain ay nangangahulugan na ang ahente ay natututo ng isang naka-embed na magagawang abstract ang posisyon ng mga cube (pagsasaayos), ngunit din ang kanilang pagkakakilanlan (gawain), ang bilang ng mga stacks (gawain), at ang tilapon ng pagpapakita (ipinakilala sandali sa ang quote) upang makagawa ng isang kaugnay na tugon ng motor.

Ang mga pangkalahatang pangkalahatang ito ay tila magkasalungat, kung paano maiiwas ng parehong network ang paunang pagsasaayos ng kubo o ang kanilang pagkakakilanlan at makuha ang kanilang ganap na posisyon para sa pagtugon sa motor?

Ipinapaliwanag nito ang pangangailangan para sa iba't ibang mga subnetworks ng kooperatiba sa panahon ng pag-aaral, pagtanggap ng iba't ibang mga input, at ipinapaliwanag nito na sa network ng konteksto ang isang abstract na representasyon ng gawain ay pinakain ang mas mababang impormasyon ng pagkakasunud-sunod, tulad ng mga butil na ganap na posisyon, bago ang pababang utos.

Maaari mong isipin ang pagkomento sa pagkakaiba ng gawain at pagsasaayos na ito ay hangal, ngunit mahalagang maunawaan na ito ay sa esensya ang parehong proseso ng abstraction sa pag-play sa iba't ibang mga bagay (at bubukas ito para sa sumusunod na seksyon).

Walang pag-aaral nang walang invariance

Ang pag-aaral ng paglilipat ay marahil ang pinaka-kamangha-manghang konsepto ng pag-unawa kung ito ay in-silico o in-vivo, ito ay isang napakainit na paksa kapwa para sa mga mananaliksik ng AI at Neuroscientists, at nangyayari ito na maging paksa ng aking tesis sa PhD. Tandaan na ang mga nauugnay na konsepto ay nai-explore sa maraming mga larangan bago ang pag-aaral ng machine, at ang abstract na ito at palaging bahagyang tinukoy na konsepto ay maraming mga pangalan. Ang mga pilosopo, antropologo at sosyologo ay maaaring tumukoy dito bilang (Post-) Structuralism (Claude Levi-Strauss, Michel Foucault), Linguist ay pag-uusapan ang tungkol sa mga istruktura ng Syntagma at Nested Tree (Noam Chomsky), marahil ay iisipin ng mga Matematika sa Homeomorphism o Invariants, at Edukasyon ang mga mananaliksik o Neuroscientist ay maaaring tumukoy dito bilang Structural Learning. Maaari mo ring makita ang mga kaugnay na konsepto sa larangan ng pag-aaral ng makina tulad ng pagkatuto ng pagkatuto at pag-aaral ng meta, na nakasalalay sa may-akda ay maaaring sumangguni sa paglipat ng pag-aaral o ang paradigma ng pagkatuto na ginamit upang maisagawa ang pag-aaral ng paglilipat. Kung pinag-uusapan ang tungkol sa Malalim na Neural Networks ang mga pagkakaiba-iba na ito ay lumabo, tulad ng sa kakanyahan ay natututo ang isang Neural net na mag-embed ng isang tiyak na problema (representasyon ng pag-aaral) sa pamamagitan ng pagbabago ng istraktura (meta-learning) na karaniwang sa isang maingay na kapaligiran na nagpapahiwatig ng isang anyo ng pag-aaral ng paglipat.

Ang mga mananaliksik ng AI at Cognitive Scientist ay madalas na isang napaka konkretong kahulugan ng pag-aaral ng paglipat, ito ay ang proseso na nagpapahintulot sa isang system na gamitin ang kaalaman na nakuha sa isang tiyak na gawain upang maisagawa ang isa pang gawain sa pagbabahagi ng isang karaniwang istrukturang komposisyon (tulad ng inilarawan sa artikulo). Ang science cognitive ay may paniwala na ito sa malapit at malayong paglipat, depende sa kung paano naiiba ang dalawang gawain. Ngunit mula sa isang mas abstract na pananaw, sa isang maingay at kumplikadong kapaligiran, ang lahat ng pag-aaral ay isang anyo ng pag-aaral ng paglilipat at ang pagkakaiba sa pagitan ng napakalapit at napakalayo na paglilipat ay isang bagay lamang ng ibinahaging impormasyon - muli ang isang bagay ng sukat na hindi kalikasan.

Sa kinokontrol na kapaligiran, ang mga pagsisikap ay ginawa nang una upang makabuo ng isang hard coded discretisation ng realidad, ngunit sa katunayan ang discretisation na ito ay muling gumagawa ng pamamaraan kung ano ang ginagawa ng pag-aaral ng paglilipat, pinagsama nito ang isang walang katapusang hanay ng mga estado na natagpuan sa katotohanan sa ilalim ng isang karaniwang nakapaloob na istraktura. Sa esensya ng Pagkatuto ng Pagkatuto ay tumutukoy nang direkta o sa pamamagitan ng pagpapalawig sa proseso kung saan gumagamit ng mga ahente ng pag-aaral ang mga invariant upang makabuo ng mga modelo ng mundo. Ito ay isang proseso na gumagamit ng pagkakapareho, repetisyon, at pagkakaiba-iba ng pareho, upang mabuo ang lalong abstract at binubuo na representasyon na bubuo ng istraktura sa pagkakaiba-iba ng span ng input. Sa isang pangkalahatang kahulugan pinapayagan nitong lumikha ng mga pangunahing operasyon sa pamamagitan ng kung saan namin manipulahin ang mga grupo ng impormasyon, katulad ng sa matematika pinapayagan nito para sa unyon at mga interseksyon. Pinapayagan nito ang mga pagkakakilanlan, ipinapaliwanag nito ang aming kakayahang maiugnay ang mga bagay. Nagbibigay si Josh Tenembaum ng isang halimbawa na talagang nagsalita sa akin: isipin mong nagtuturo ka ng dalawang taong gulang na kilalanin ang isang kabayo sa kauna-unahang pagkakataon, ipinakita mo sa kanya ang isang larawan ng iba't ibang mga kabayo at pagkatapos ay ipinakita mo sa kanya ang larawan ng isa pang kabayo at ang larawan ng isang bahay at hilingin sa kanya na sabihin sa iyo kung alin ang kabayo. Gagawin ng isang bata ang gawaing ito nang madali ngunit ito ay isang bagay pa rin na hindi magagawa ng isang computer nang maayos sa kaunting mga pag-input (pag-aaral ng isang-shot).

Paano ito ginawa ng bata?

Napag-aralan ang pagkilala sa hayop sa mga bata at nauugnay sa aming kakayahang mabulok ang mga bagay sa mga nauugnay na bahagi, ang hanay ng kulay ng balahibo, ang laki ng leeg, ang pangkalahatang hugis atbp .. Ang kakayahang ito ay kung ano ang nagpapahintulot sa iyo na magbukas ng isang pintuan ka hindi pa kailanman nakita, nalaman mo ang isang pagkakasunud-sunod ng motor na nagbigay-pangkalahatan sa anumang sitwasyon (domain generalization). Ito rin ang ginagamit mo upang makabuo ng mga paliwanag na mga modelo na nagpapagaan sa mundo, maaari ka talagang mabigla sa una sa pamamagitan ng biglaang pagpapakita ng isang Cuckoo sa isang sikat na orasan ng Switzerland, ngunit pagkatapos ng pangalawang hitsura ay aasahan mo ito. Ang paghahanap ng invariance ay kung paano natututo ang isang neural network at ang mga modelong iyon ay itinayo nang hindi sinasadya. Ang isang halimbawa ay kung paano namin natututo nang intuitively tungkol sa pisika kahit na bago narinig ang matematika at mga numero.

Maaaring hilingin ng isa na halimbawa kung gaano kabilis ang isang batang ipinanganak sa microgravity na umangkop sa grabidad ng lupa at matutong intuitively na ang mga bagay ay mahuhulog sa lupa kapag bumagsak?

Maaari naming i-hypothesize na ang mga sanggol at karamihan sa mga hayop ay baguhin ang kanilang modelo nang hindi sinasadya, tulad ng kapag inilagay mo ang mga medyas sa mga paws ng isang aso at aabutin ng ilang oras upang umangkop sa mga bagong impormasyon.

Ngunit para sa isang bata ay isang malay na interogasyon at pagbabago sa kanyang madaling gamitin na modelo ay magaganap, mula sa pagkamausisa, sa pamamagitan ng wika, mga simbolo at paniniwala. Ang aming kakayahang sinasadyang mag-usisa at magbago ng aming mga modelo ay kaakit-akit, at bilang isang sidenote, ang mga tao ay maaaring ang tanging mga species na maaaring mag-verbalise ng proseso ngunit ang iba pang mga species ay maaaring magsagawa ng magkatulad na mga pagbabago sa kamalayan.

Ang invariance ay isang sapilitan na pag-aari ng oras, kung ang lahat ay palaging bago at hindi maaasahan, magkakaroon pa rin ng natatanging invariant na ang lahat ay palaging bago at hindi mahuhulaan. Imposibleng isipin ang isang mundo na walang invariance, dahil hindi maaaring maging isang mundo na tinutukoy, nang walang invariance na buhay ay imposible at ang ating talino ay walang saysay. Ang buhay ay isang makina na gumagana lamang sa mahuhulaan na pag-uulit ng mga kaganapan, pag-uulit ng mga sanhi at epekto, ng cyclic reintroduction ng enerhiya sa organismo. At sa pagsisikap ng Buhay na mapagbuti ang paggamit nito ng mga kinakailangang siklo, ang aming utak ang panghuli tool. Ito ay isang prediksyon machine, isang adaptive na organ na maaaring makahanap ng pag-uulit na pabalik-balik at magamit ito upang mas mahusay na makipag-ugnay sa mundo.

Ang pamamaraang ito na pinili ng buhay ay lubos na matatag sa kaunting pagbabago sa istraktura. Ang nananatiling pareho ay ang mundo, ang mga statistic na katangian ng kapaligiran, ngunit ang neural na istraktura na nakatagpo nito ay maaaring mag-iba hangga't maaari itong mai-embed ang may-katuturang impormasyon na ito na umusbong upang gamutin. Ipinapaliwanag nito kung bakit ang aming talino ay maaaring maging naiiba mula sa indibidwal sa indibidwal, kahit na mga pangunahing cortice, at nakikibahagi pa sa parehong mga pag-andar.

Ang mga sistema ng nerbiyos ay umaangkop, hindi nila kailangan ang ebolusyon at mabagal na genetic mutations upang mabago ang pag-uugali sa mga kaugnay na paraan. Ang isang simpleng sistema ng nerbiyos, tulad ng mga natagpuan sa C. Elegans, ay nagsisilbing isang likas na panloob na coordinator at panlabas na sensor: kahulugan ng pagkain at lumipat patungo dito, tumakas mula sa sakit, magparami. Ang mga simpleng sistemang ito ay una nang mahigpit at gumaganap ng matinding pagkilala sa aming lubos na maingay na mundo upang mai-discretize ito sa isang maliit na hanay ng mga posibleng estado (pagkain sa kaliwa, init sa ibaba atbp.). Ang aming mga motor at pandama kakayahan nagbago kamay sa kamay sa aming mga nervous system mahuhulaan kakayahan. Habang ang aming mga sensor ay naging mas tumpak, ang sistema ng nerbiyos ay mabagal na nagawang baguhin ang istraktura nito upang mag-imbak ng impormasyon at matuto mula sa karanasan. Sa una ay natutunan nitong makilala ang ilang mga kategorya ng mga input, tulad ng mga uri ng mga amoy o light pattern, at natuto ring sa pamamagitan ng pagsubok at pagkakamali upang makontrol ang mas kumplikadong sistema ng motor. Tandaan na ang mundo ay sobrang kumplikado na ang ating utak ay natural na umunlad patungo sa isang pag-aaral ng paradigma sa halip na isang likas na pamamaraan ng pamamaraan. Ang computationally na ito ay gumawa ng perpektong kahulugan, ang isang simpleng laro ng Go ay may isang puwang ng estado na mas malaki (2.10¹⁷⁰) kaysa sa bilang ng mga atoms sa uniberso (10⁸⁰), at habang ang mga organismo ay nagiging mas kumplikadong sinusubukan ang mga pagtatantya sa hard-code ng lahat ng posibleng nagsasaad ito ay maaaring maging mabilis na nagiging mabagal dahil sa pagsabog ng kombinatorial.

Ang ilan sa mga tao ay maaaring naniniwala na ang aming utak ay binuo sa isang paraan na ito ay panauhin na kumakatawan sa puwang na ito ay bubuo, na sa DNA sa isang lugar ay mayroong isang gene para sa kung ano ang bumubuo, o ang temporal na samahan ng mga tunog na tunog na gumagawa up words. Maaari silang naniniwala na ang likas na kaalaman na ito ay naka-encode sa kapanganakan sa isang lugar. Ang iba ay maaaring naniniwala, tulad ng aking guro sa pilosopiya noong ako ay nasa mataas na paaralan, ang pagkakaroon na nauna sa kakanyahan, at ang ating utak ay ganap at natukoy lamang sa pamamagitan ng pagtatagpo ng organismo at mundo. Ang katotohanan ay siyempre mas kumplikado, at para sa karamihan ng mga sistema ng telencephalic na pinag-aralan hanggang ngayon, ang utak ay hindi encode na panloob ang function na gagawin nito ngunit matututunan ito depende sa impormasyong nakapaloob sa mga input nito. Kung ang pag-input ay masyadong mahirap sa mga nauugnay na impormasyon, ang kapasidad upang malaman sa mga istraktura na ito ay maaaring magkaroon ng isang petsa ng pag-expire (hal. Amblyopia). Ngunit kung ang likas na istraktura ay hindi naka-encode ng panghuling pag-andar, ang utak ay may isang tiyak na istraktura. Ang istraktura na ito ay napanatili sa buong mga indibidwal, at ang mga indibidwal ng parehong species ay nagbabahagi ng mga karaniwang pag-andar at drive. Ang DNA ay nagtatakda ng isang tiyak na istraktura sa lugar, isang istraktura na hindi maisagawa ang kanilang pangwakas na pag-andar sa loob, ngunit ang isang istraktura ay maaaring malaman ang pagiging kumplikado ng mga tiyak na gawain batay sa indibidwal na karanasan. Hindi kataka-taka na ang ebolusyon ay humantong sa pagkakita ng isang napaka-epektibo na hadlang sa dugo-utak na paghiwalayin ang utak mula sa iba pang bahagi ng katawan pati na rin ang meninges at matigas na buto ng shell na protektahan ito mula sa labas ng mundo, dahil hindi tulad ng iba pang mga organo kung saan ang istraktura ay naka-encode sa genome, ang istraktura ng isang sinanay na utak ay hindi maaring mabagong muli mula sa isang panandang nakaimbak na modelo. Ang kamangha-manghang ay nakikita natin ang parehong mga mekanismo ng pagkatuto na nagmula sa pagkakatulad sa pamamagitan ng pag-unlad ng mas kumplikadong mga malalim na network na gumaganap ng mga masalimuot na gawain.

Ang mga istrukturang komposisyon ay mahirap makita ngunit kahit saan

Bilang isang sidenote ay kakaiba na kahit na ang mga may-akda ay hindi kinikilala na ang kanilang unang gawain ng target na maabot ay may isang istraktura na komposisyon.

Ang maliit na butil na umaabot sa mga gawain ay mahusay na nagpapakita ng mga hamon sa pangkalahatan sa isang simpleng sitwasyon. Gayunpaman, ang mga gawain ay hindi nagbabahagi ng isang compositional istraktura, na ginagawang hamon ang pagsusuri ng paglalahat sa mga bagong gawain.

Bagaman ang istraktura ay talagang mas mababa sa antas kaysa sa pag-block ng block, at hindi madaling ma-access sa eksperimentong pagmamanipula, ang gawain ay talagang isang binubuo ng ibinahaging istraktura. Ang paglapit sa mundo sa isang eroplano, ang isang istraktura ng compositional ay ang pagkakakilanlan ng kubo (kulay) ay napanatili kasama ang pagsasalin, at mula sa block A -sa isang random na panimulang posisyon - sa posisyon (Xa1, Ya1) upang harangan ang B sa posisyon (Xb1, Yb2 ) ay bahagi ng parehong mas mataas na istraktura ng compositional order kaysa sa pagpunta mula sa block A sa posisyon (Xa2, Ya2) upang harangan ang B sa posisyon (Xb2, Yb2).

Mga pagitan sa pagitan ng mga network

Ang pagsasama ng mga network ng neural na magagawang magamot ng mga input sa iba't ibang antas ng abstraction ay kakailanganin ng mga interface, isang domain na pinaniniwalaan kong nagtatanghal ng maraming naiwan upang matuklasan. Ang mga interface na iyon ay maaaring maging ng maraming likas na katangian. Maaari silang maging halimbawa ay makikita bilang isang karaniwang wika sa pagitan ng dalawang mga network, tulad ng ipinakita sa artikulo, ang isang mas mababang antas ng network na armado ng isang sistema ng atensyon (demonstrasyon network) ay maaaring magsalin ng isang demonstrasyon sa isang representasyon ng isa pang network (maaaring magamit ng network ng konteksto). upang direktang aksyon ano man ang haba o paunang pagsasaayos ng demonstrasyon.

Ang ibabaw ng wikang ito ay narito ang isang eroplano, na naayos ang laki, ngunit maiisip ng isa ang posibleng mga pagbabago na maaaring mapagbuti ang mga komunikasyon sa pagitan ng network. Halimbawa, ang laki ng ibabaw ay maaaring itakda upang lumago o pag-urong nang pabago-bago habang nakikipag-ugnay ang mga network sa panahon ng pag-aaral, samakatuwid ang pag-compress o pagpapahaba ng pagiging kumplikado ng wika. Maaari rin nating isipin ang higit pang mga dinamikong pakikipag-ugnayan, sa pamamagitan ng puna halimbawa. Maaari nating isipin ang pagkakaroon ng mga network ng facilitator na matutong makinis ang komunikasyon sa pagitan ng mga network, na umiiral bilang isang kahanay na network na natutong baguhin ang input ng unang network batay sa input at output ng pangalawang network. Maaari naming isipin ang mga kumplikadong network ng konteksto na kumikilos bilang toniko (mabagal na pagkakaiba-iba) pag-agos sa maraming mas dalubhasang mga network ... Nakatutuwang hinaharap na lugar ng pananaliksik!

Ang mga kaso ng mga pagkabigo ay nagmumungkahi sa mga posibleng papel na maaaring magkaroon ng mga bagong module

Kapansin-pansin na ang mga pagkakamali ay madalas dahil sa mga pagkakamali sa motor, at na ang bilang ng mga pagkakamali ay nagdaragdag sa pagiging kumplikado ng gawain.

Ang pag-andar ng motor ay hindi dapat masira lamang sa pamamagitan ng pagdaragdag ng bilang ng mga target, ito ay isang matibay na ebidensya na ang paraan ng natutunan ng pag-aanak ng network na makipag-usap sa network ng motor ay masyadong abstract. Ito ay kakaiba dahil sinabi nila na ang kanilang pagsubok ay nagpapakita na ang interface sa pagitan ng network ng konteksto at network ng motor ay medyo konkreto (posisyon ng robot, posisyon ng target).

Ang posibleng solusyon ay maaaring, yamang ito ay isang modular na arkitektura, na gumamit ng iba't ibang mga pag-andar sa pagkawala, o mga function ng modular loss na kumakatawan sa bawat isang tiyak na aspeto ng gawain. Matutulungan din ito ng isang katumbas ng mga lugar ng pre-motor ng utak upang masiguro na ang demonstrasyon at network ng konteksto ay maaaring manatiling abstract nang hindi sumisira sa utos ng motor. Ang mga rehiyon ng Premotor ay kinakailangan upang mas mahusay na mai-localize ang mga bagay batay sa layunin (mula sa mga network ng abstract) at ang mga sensory input, upang piliin ang pinakamahusay na utos ng motor. Mukhang ang network ng konteksto ay parehong sinusubukan upang ilipat ang demonstrasyon sa isang mas mataas na antas ng pag-embed at maghanda ng pagkilos ng motor nang sabay-sabay sa isang kasalukuyang konteksto. Ang papel ng pre-motor network ay upang malaman na makipag-usap sa sistema ng motor sa isang layunin na nakatuon at umaangkop na paraan, pinagsama ang parehong mga pag-andar ng premotor at cerebellum para sa pag-aaral ng motor at mabilis na pagbagay.

Mayroong isang kawili-wiling teorya, ang kabalintunaan ng Moravec, na hinuhulaan na hindi ito magiging mas mataas na antas ng cognition na magiging computationally taxing ngunit ang paggamot ng sensory input at output system ng motor. Ito ay maaaring tunay na account para sa malaking halaga ng mga neuron na naroroon sa aming cerebellum (higit pa sa natitirang bahagi ng aming utak) upang madaling makontrol ang pagkilos ng motor. Ang kabalintunaan na ito ay nabuo sa isang oras (80's) nang naniniwala pa rin na maaari nating i-embed ang aming sariling kaalaman sa isang makina upang maisagawa ang kumplikadong gawain sa mga hindi mapigilan na maingay na kapaligiran. Siyempre ang kabalintunaan na ito ay may katuturan kung sa paanuman ang makina ay maaaring kumatawan sa mundo sa isang discretized na hanay ng mga estado, ang pagbuo ng mas mataas na antas ng pag-andar sa ito ay magiging mas madali. Ngunit naniniwala ako na kapwa napatunayan ang labis na pagbubuwis, at ang panloob na representasyon na ginamit sa interface sa pagitan ng mga network ay malalayo sa anumang bagay na kahawig ng aming sariling mga kamalayan na may kamalayan.

Konklusyon

Sa pamamagitan ng pagsasama-sama ng iba't ibang mga neural network sa bawat isa na namamahala sa isang tiyak na paggamot ng problema, ipinapakita ng artikulong ito na sa pamamagitan ng paglikha ng isang gawain na likas na nangangailangan ng pag-iisa, at pagbuo ng isang naaangkop na kapaligiran sa pag-aaral sa pamamagitan ng domainisisasyon, isang neural network na may access sa isang memorya at isang ang sistema ng atensyon ay maaaring malaman upang gawing pangkalahatan na lampas sa simpleng pagpaparami. Maaari itong malaman upang matuklasan ang isang mas mataas na layunin ng pagkakasunud-sunod na ipinakita nang isang beses lamang sa isang visual na stream sa impormasyon, at nagsasagawa ng pagkalkula sa isang pangkalahatang puwang upang makuha ang naaangkop na mga aksyon na maaaring makagawa ng layunin na iyon sa ibang konteksto.

Sa hinaharap ay makikita natin ang isang pagtaas ng pagiging kumplikado ng mga istruktura na itinayo sa mga bloke ng gusali ng atom na maaaring matutunan na gawing pangkalahatan ang mga kumplikadong gawain ngunit mas mahalaga na gumanap ng ilang mga gawain, sa mga bagong kapaligiran, na hindi gaanong nakasalig sa mga hard code na pamamaraan tulad ng paghahanda ng mga input o imbakan ng memorya. Ang memorya ng imbakan ay papalitan ng mga ipinamamahagi na representasyon sa kabuuan ng isang network ng memorya, ang mga sistema ng atensyon ay mapapalitan ng aktibidad ng siklista sa mga totoong oras na pag-access sa mga network. Ang tanong ay nananatili kung paano namin magagawang iakma ang isang malakas na serial teknolohiya (Turing machine) sa aming nadagdagan na pag-asa sa ipinamamahaging computing sa naka-embodied na sistema.