OpenAI seng nei Approche fir One-Shot Imitatiouns-Léieren, e Bléck an d'Zukunft vun AI

One-Shot Imitation Learning Yan Duan, Marcin Andrychowicz, Bradly C. Stadie, Jonathan Ho, Jonas Schneider, Ilya Sutskever, Pieter Abbeel, Wojciech Zaremba

De 16. Mee hunn OpenAI Fuerscher e Video vun engem vun hire Projeten zesumme mat zwee Pabeieren vu Wichtegkeet gedeelt fir Léisungen op dräi Schlësselflaschen vun der aktueller AI Entwécklung ze exploréieren: meta-Léieren, One-Shot Léieren, an automatiséiert Daten Generatioun. A mengem fréiere Post hunn ech en Artikel versprach dee faszinéierende Problem vum One-Shot Léieren gewidmet ass, also hei geet. Dir kënnt ufänken e Bléck op de Video ze maachen deen se verëffentlecht huet wat hir erstaunlech Aarbecht erkläert:

An dësem Video gesitt Dir en een-arm kierperleche Roboter, deen Cubë uewen openeen opstapelt. Wësse vun de komplexen Aufgaben déi industriell Robotere momentan fäeg sinn, wann de Fuerscher net probéiert ze erklären wat leeft, op ville Konten wier dëst ganz underwhelming. A kontrolléierter Ëmfeld ass d'Aufgab einfach, procedurelle (schwéier-kodéiert) Approche hunn dës Probleemer scho geléist, wat verspriechend a revolutionär ass wéi vill den allgemenge Kader hei drënner ka bis a méi, méi komplex an adaptiven Verhalen an noisierem Ëmfeld scalaen.

Den Ënnerscheed am Kapp tëscht Mënsch an héije Déieren, sou grouss wéi et ass, ass sécherlech en am Grad an net vun der Aart.
- Charles Darwin

Par Analogie ass dësen Artikel e staarkt Beweis datt d'Differenzen an de kognitiven Systemer tëscht der aktueller vermaachter AI (künstlech Intelligenz vu kierperleche Systemer) a Roboter vum 22. Joerhonnert eng vun der Skala sinn an net vun der Aart. Zënter 2012 ImageNet Konkurrenz * ass eng déif Léierfuerschung boomt, net sou vill fir d'Natur vun der verdeelter Berechnung ze änneren, déi vun engem neurale Netzwierk gemaach gëtt, awer duerch nei Weeër ze fannen fir Netzwierker ze strukturéieren fir datt se eng spezifesch Aufgab léiere kënnen. Fir eng neurale Netzwierkfunktioun ass d'Struktur, dës Struktur ass net schwéier kodéiert (net mat der Hand entworf) awer et sinn d'Resultater vun atomarer Rechenheeten déi ursprénglech tëscht Input an Ausgang verbonne sinn, déi fäeg sinn hir Struktur a Verbindungen ze änneren. Et ass andeems d'Gesamtstruktur vum Netzwierk geännert gëtt datt et eng spezifesch Funktioun léiert.

An dësem Artikel hu se en allgemenge Kader gebaut, deen en Agent kann trainéieren fir Aufgaben op abstrakt Manéier ze vertrieden, a léieren dës Wëssen op nei onsiichtbar Aufgaben (Transferléieren) ze transferéieren no nëmmen enger Manifestatioun vun der novollenger Aufgab (One Shot Imitation Learning).

D'Aufgaben

Och wann déi exakt architektonesch Implementatioun ënnerscheet, huele se zwee Aufgaben als Beispiller fir d'Leeschtung vun der allgemenger Approche ze weisen.

Deelchen Erréchen

Am éischte Beispill kritt de System Input vu faarwege Zilpositiounen op engem Fliger an eng eenzeg Video Demonstratioun vum simuléierte Agent deen op dat spezifizéiert Zil geet.

Figur 2. De Roboter ass eng Punktmass mat 2-zweedimensional Kraaft kontrolléiert. D'Famill vun den Aufgaben ass et en Zilmark ze erreechen. D'Identitéit vum Landmark ënnerscheet sech vun Aufgab zu Aufgab, an de Model muss erausfannen, wat e Zil ass op Basis vun der Demonstratioun ze verfolgen. (lénks) Illustratioun vum Roboter; (Mëtt) d'Aufgab ass déi orange Box z'erreechen, (riets) d'Aufgab ass de grénge Dräieck z'erreechen.

Wärend dem Training muss de System déi selwecht Aufgab reproduzéieren (orange erreechen) awer vun enger anerer Konfiguratioun, mat ënnerschiddleche Startpositioune fir de Roboter an d'Ziler. Et ass net kloer ob während dem Agent den Test getest gouf op Aufgab op déi hien trainéiert gouf (orange erreechen) oder op Aufgab déi hien nach ni gesinn huet (Gréng zum Beispill erreechen) oder béid.

Déi ausgebilte Politik gëtt op nei Szenarie evaluéiert a Konditioune vun neie Demonstratiounsstroossen ugesi wärend der Ausbildung.

Et ass sécher datt de Agent den Zielziel aus enger eenzegaarteger Demonstratioun muss ofginn an erëm vun enger anerer Konfiguratioun ufänken. Dëst implizéiert datt d'exakt Motorrequenz net virum Test geléiert konnt ginn an duerch Abstraktioun (héijer strukturéierter Representatioun) vun der Aufgab a Motorplanung ofgeleet ginn muss.

Block stacking

Am zweeten Beispill muss den Agent léieren Cubes ze stapelen (identifizéiert duerch verschidde Faarwen) an derselwechter Uerdnung wéi déi an enger eenzeger simuléierter Manifestatioun gewisen. Dës simuléiert Demonstratioun ass eng Serie vun 2D Biller generéiert vun engem 3D Physikmotor an deem d'Eegeschafte vum Robotermotor a Sensorapparat modeliséiert ginn.

One-Shot Politik. Eng eenzeg Politik trainéiert fir vill Aufgaben ze léisen. Top Aufgab: {abc, def}, Bottom Aufgab: {ab, cd, ef}

A béid Beispiller sinn déi initial Positioune vun de Würfelcher an der Manifestatioun an am realen Test anescht, all Aufgab fänkt vun enger anerer initialer Positioun un. De Roboter probéiert net d'Kubs ze ersetzen fir an der initialer Positioun vun der Manifestatioun ze passen, et iwwerdréit déi méi héich Aufgab fir de Kubus ze pielen, egal wéi e Staat hien ufänkt.

Training mat Hëllef vu Domain randomiséierung

A béide Fall ginn all d'Biller, déi beim Training benotzt goufen, duerch Simulatioun kritt mat Domain-randomiséierung benotzt, an där se déi folgend Aspekter vun de Proben randomiséieren:

Zuel a Form vun den Oflenkungsobjekter op den Dësch Positioun an Textur vun all Objeten um Dësch Texturen vum Dësch, Buedem, Skybox a Roboter Positioun, Orientéierung, a Gesiichtsfeld vun der Kamera Zuel vun de Luuchten an der Szen Positioun, Orientéierung, a spekulär Charakteristike vun de Luuchten Aart a Betrag vun zoufälleger Geräischer déi zu Biller bäigesat ginn

Trainingsset fir Partikel z'erreechen

Mir betruechten en ëmmer méi schwéiere Set vun Aufgabefamillen, wou d'Zuel vu Landmarken eropgeet vun 2 op 10. Fir all Aufgabefamill sammele mir 10000 Trajectoire fir Training, wou d'Positioune vun de Landmarken an d'Ufangpositioun vum Punktroboter zoufälleg sinn. Mir benotzen eng hardkodéiert Expert Politik fir effizient Manifestatiounen ze generéieren. Mir addéiere Geräisch un d'Trajectoren andeems Dir déi berechend Aktiounen perturbéieren ier se d'Ëmwelt applizéieren, a mir benotze einfache Verhalensklonen fir d'Nerve Netzwierker Politik ze trainéieren

Trainingsset fir Blockstapeling

Konkret sammele mir 140 Trainingsaufgaben, an 43 Testaufgaben, jiddfereen mat engem aneren gewënschten Layout vun de Blocks. D'Zuel vu Blocken an all Aufgab ka variéieren tëscht 2 an 10. Mir sammelen 1000 Trajectoiren pro Aufgab fir d'Ausbildung, an ënnerhalen eng separat Set vu Trajectories an initial Konfiguratiounen fir d'Auswäertung ze benotzen. Ähnlech wéi d'Partikel z'erreechen Aufgab, sprëtzen mir Rauschen an der Streckammlungsprozess. D'Traktioune gi mat enger hardkodéierter Politik gesammelt.

Erfollegräich Demonstratioune gi mat enger hardkodéierter Politik gesammelt

Notéiert datt beim Léieren vun de richtege Trajectoire duerch eng procedurell "hart kodéiert" Politik, datt ech gleewen op klassesch Technike vu Systemer Identifikatioun a Kontroll hänkt. Also während dem Training an Testen huet den Agent zwee Inputen: a) eng Demonstratioun an enger Konfiguratioun A, a b) eng Startkonfiguratioun B. Wärend dem Training huet de Léieralgorithmus och Zougang zu enger idealer Äntwert: eng Streck déi vun der Konfiguratioun B beginn beäntwert de Problem a mat deem d'Äntwert vum Agent während de Léiere verglach gëtt - wouduerch et e betruechte Léierprobleem gëtt.

Fir all Trainingsaufgab iwwerhuele mir d'Disponibilitéit vun enger Rei vun erfollegräichen Demonstratiounen.

Wann et net kloer ass, ginn ech d'Ënnerscheeder tëscht de verschiddenen Arten vu Léierparadigmen an der nächster Sektioun weider.

Optimiséierungs Algorithmus a Verloschtfunktioun

Supervisised learning bezitt sech op Trainingsparadigmen, an deenen bei all Entscheedung de Reseau Zougang zu de richtege Wiel huet, deen hie sollt gemaach hunn, an domat zu enger Notioun vu Feeler. Zum Beispill an enger Klassifikatiounsaufgabe tëscht Hënn a Kazen ass de Label vu Biller vun Hënn a Kazen wärend der Ausbildung am Viraus bekannt an d'Fehler ginn direkt festgestallt. An deem Sënn ass et anescht wéi net iwwerwaacht Léiere wou am allgemengen den Agent gefrot gëtt eng virdrun onbekannt Struktur an den Inputen ze kréien, déi hien kritt, an ouni Etiketten vu Kazen an Hënn hätten entdecken datt et zwee Cluster vu verschidden Objeten nëmmen baséiert d'Informatiounen enthalen an den Daten. Et ass och ënnerschiddlech vun der Verstäerkung Léieren déi dacks fir en Echtzäit System applizéieren an deem déi exakt Sequenz vun der Entscheedung déi zu engem Zil féiert onbekannt ass awer nëmmen eng final "Belounung" entscheet ob d'Sekvens richteg war oder net. Duerch d'Benotzung vu Imitatiounsléieren transforméiere se e klassescht Verstäerkung Léierprobleem zu engem iwwerwaachte Léierprobleem, an deem de Feeler aus enger Distanz zu enger observéierter Streck gerechent gëtt.

Wéi et de Fall ass fir all iwwerwaachte Trainingsopbau, ass d'Aufgab op der Hand komplett definéiert vun der Verloschtfunktioun, déi zielt fir ze quantifizéieren wéi wäit den Agent vum geplangte Verhalen war. Dës Funktioun ze definéieren ass dacks de kritesche Schrëtt, well et bestëmmt wéi d'Aptimiséierungs Algorithmen d'Parameter vum Model aktualiséieren. Dës Algorithmen si wichteg am Begrëff vun der Berechnungszäit, an dacks erfuerderen e puer tweaking fir kënnen ze konvergéieren, wann iwwerhaapt. Tatsächlech sinn d'Léisungen, déi d'Funktioun a ganz héijer Dimensioun minimiséieren, wunnt an enger ganz klenger Shell vum Parameterraum, mat enger klenger Hammungsdistanz tëscht hinnen, soubal Dir vun deem klengen Domän ewechgeet, wiisst d'Distanz tëscht de Léisunge séier. Et gëtt vill ganz interessant Aarbecht iwwer dëst Thema gemaach ënner anerem vun der ganz erstaunlecher Jennifer Chayes, hatt brécht d'Thema an engem ganz interessanten Interview an der leschter Episod vu Talking Machines.

Wärend der Ausbildung vun de Politiknetzwierker (de ganzen Netzwierk, fäeg aus Input ze entscheeden, wéi eng Handlung ze huelen) verarbeit se fir d'éischt déi erfollegräich Demonstratiounstraject. Fir dësen Deel wäerte se zwou Approche vergläichen, de klassesche Behuelenkloon (net genau sécher op d'Ëmsetzung déi se benotzt hunn) an d'DAGGER Algorithmen. Dëst erlaabt dann déi iterativ Minimaliséierung vun der Verloschtfunktioun entweder duerch l2 oder duerch Cross-Entropy Verloscht baséiert op d'Aktiounen kontinuéierlech oder diskret sinn (baséiert op Verdeelunge vun Eventer an der Sequenz). Iwwer all Experimenter hunn se den Adamax Algorithmus benotzt fir d'Optimiséierung mat engem Léiergeschwindegkeet vun 0,001 auszeféieren.

D'Schrëttgréisst fänkt kleng a verfall exponentiell.

Den Algorithmus a sech selwer erlaabt keen Transfer, et ass wéi Dir Ären Trainingsset baut an Är Verloschtfunktioun déi den Transfer erlaabt.

Zwou Aarte vun Transfer existéiere bei den Aufgaben. Déi éischt Aart bezeechent een als "Iwwerbréckung vum Realitéitssplang", et ass eng Generaliséierung am Léiere erlaabt en Transfer tëscht Training op simuléiertem Input ze testen op natierleche Reizen. Simulatiouns Daten sinn dacks eng veraarmt Approximatioun vun der realer Welt, ze perfekt, fehlt un der Komplexitéit vum realen Objet. An der realer Welt ass d'Kamera falsch an noisier, d'Motor Kontroll wäert manner präzis sinn, d'Faarwen ännere sech, d'Texturen wäerte méi räich ginn. Fir dësen éischten Transfer ze erlaben benotze se eng Method déi se als "Domain randomization" bezeechnen. : et ass andeems Geräischer op d'Inputse ginn, datt de Reseau déi allgemeng relevant Struktur léiere kann, déi et erlaben et richteg an d'real Welt ze generaliséieren. Si wäerten zum Beispill de Wénkel vun der Kamera tëscht Trainingsbeispiller änneren, d'Texturen änneren oder d'Trajectore manner perfekt maachen. Andeems Dir Kaméidi beim Training setzt, addéiere mer Robustheet.

Deen zweete Transfer getest hei ass d'Fäegkeet fir eng relevant Motor Sequenz an engem virdrun onsiichtleche Set vu Konfiguratioun an Ziel ze produzéieren, baséiert op enger eenzeger Demonstratioun déi an enger anerer initial Konfiguratioun ufänkt awer mat engem ähnlechen Finale Zil. Och hei wäert den Transfer méiglech gemaach ginn, andeems mir d'Trainingset konstruéiere, an d'Verloschtsfunktioun modelleren. Andeems Dir Demonstratiounen während Training présentéiert déi net aus dem selwechte initialen Zoustand starten fir en ähnlecht Zil z'erreechen, erlaabt Dir de Netzwierk ze léieren eng méi héich Vertrieder vum Zil z'erreechen ouni absolut Positiounen ze benotzen, souwéi eng méi héich-Uerdnungs Representatioun vun de Motor Sequenz dat ass net eng einfach Imitatioun. Déi naiv initial Architektur erlaabt Training fir d'Struktur op eng relevant Manéier ze änneren, an dës trainéiert Struktur implizéiert déi lescht Funktioun.

Ziler

Fir de Block-Stacking-Paradigma hu se verschidde Beschränkungen, déi se wollten datt hire Léieragent trefft.

Et sollt einfach sinn fir op Aufgab Instanzen z'erreechen déi variéierend Unzuel u Blocks hunn.
Et soll natierlech op verschidde Permutatioune vun der selwechter Aufgab generaliséieren. Zum Beispill, soll d'Politik gutt op Aufgab {dcba} maachen, och wann se nëmmen op Aufgab {abcd} trainéiert gëtt.
Et soll Demonstratiounen mat verännerleche Längt ugeholl ginn.

Si haten e puer Froen déi se fir dës Aufgab geäntwert hunn.

Wéi vergläicht Training mat Verhalensklonen mat DAGGER, gitt datt genuch Daten offline gesammelt kënne ginn?
Wéi vergläicht d'Bedéngungen op der ganzer Manifestatioun mat der Bedingung op der definitiver gewënschter Konfiguratioun, och wann déi lescht Konfiguratioun genuch Informatioun huet fir d'Aufgab vollstänneg ze spezifizéieren?
Wéi vergläicht d'Bedéngungen op der ganzer Manifestatioun mat Konditioun op engem "Snapshot" vun der Streck, dat ass e klengen Ënnerdeel vu Rummen déi am léifsten informativ sinn
Kann eise Kader erfollegräich generaliséieren op Aarte vun Aufgaben déi et ni während der Ausbildung gesinn huet? (++)
Wat sinn déi aktuell Aschränkungen vun der Method?

Architektur

Partikel Erreechen

Fir dëst éischt Beispill hunn se dräi Architekturen verglach, déi all op Long Short Term Memory (LSTM) Neural Netzwierker baséieren. Eng Beschreiwung vun deem Netzwierk geet an engem zukünftege Post iwwer Erënnerung an Opmierksamkeet, déi absolut faszinéierend Themen souwuel an de kognitiven wéi am computational Wëssenschaften. E wirklech fiddert e LSTM fréier Netzwierksausgaben (an der Zäit) als Deel vum Input vum Netzwierk op all neie Zäitpunkt, wouduerch d'Informatioun vu vergaangene Staaten informéiert gëtt de Present ze hunn (dofir hiren Numm vu kuerzen Erënnerungsnetzwierker). Si stinn un der Wuerzel vu ville modernsten Technologien déi sech mat Zäitserien handelen (Alexa, Siri etc.).

Hei benotze se déi dräi spezifesch Bedéngungen:

  1. Plain LSTM: léiert d'Trajectoire an den aktuellen Zoustand z'ënnerbannen fir se op e multilayer Perceptron ze fidderen deen d'Motoraktioun wäert produzéieren
  2. LSTM mat Opmierksamkeet: produzéiert eng gewiicht Representatioun iwwer Landzeechen vun der Streck
  3. Finale Staat mat Opmierksamkeet: benotzt nëmmen am Finale Staat am Training fir eng Gewiicht iwwer Landmarken ze produzéieren, ähnlech wéi déi virdrun Architektur

Block stacking

Iwwerdeems, am Prinzip, e generescht neuralt Netzwierk d'Kaarte vun der Demonstratioun an der aktueller Observatioun zu passenden Handlung léiere kann, hu mir et wichteg fonnt eng passend Architektur ze benotzen. Eis Architektur fir Stack Blocking ze léieren ass eng vun den Haaptbäiträg vun dësem Pabeier, a mir mengen datt et representativ ass fir wat d'Architekturen fir een-shot Imitatiouns-Léiere vu méi komplexen Aufgaben an der Zukunft aussehnen.

Opmierksamkeet Moduler

Den Artikel bleift relativ héijen Niveau an der Beschreiwung vun der Struktur vun den Netzwierker déi benotzt gi fir d'Aufgab ze léieren. E Schlësselbestanddeel vun der Architektur ass hiren Opmierksamkeetsmodul, awer ech gleewen, datt dëst Thema e spezifesche Post brauch, deen am Detail an seng wesentlech Roll spillt. Par Analogie zum kognitiven wëssenschaftleche Konzept vun nohalteger Opmierksamkeet, ginn Opmierksamkeetsmoduler benotzt fir relevant Informatioun ze halen an iwwer verschidden Spannungen vu Weltraum an Zäit ze fokusséieren. Et produzéiert e fixen Gréisst Output deen eng Embedding vun engem Informatiounsinhalt enthält, deen an Zäit a Raum gestreckt gouf. Par Analogie zu Topologie, eng Zweig vu Mathematik, déi ech gleewen, wäert immens informéieren wéi mir verdeelt Representatioune an der Zukunft verstoen, e Opmierksamkeetsnetz fiert en topologeschen Isomorphismus vun Informatioun, déiselwecht Krümmung, ënnerschiddlech Form. Bemierkung datt dës Netzwierk keng Roll vu Salzendetektor spillt, fäeg op onerwaart oder selten Eventer ze fokusséieren, wat eng Funktioun ass mat der Notioun vun der Opmierksamkeet an der Neurowëssenschaften assoziéiert.

Hei benotze se zwou Aarte vu Opmierksamkeetsnetzwierk: a) en temporalen Opmierksamkeetsnetz, dat eng gewiichtlech Zomm produzéiert iwwer Inhalt (Ufro, Kontext an Erënnerungsvektoren), déi an der Erënnerung gespäichert sinn, a b) e Quartier Opmierksamkeetsnetz dat fäeg ass d'Informatiounen relativ ze blockéieren ze blockéieren Positiounen ofhängeg vun der aktueller Ufro vum Agent.

Temporär Opmierksamkeet Netzwierk, mat c: Kontextvektor, m: Gedächtnisvektor, q: Ufrovektor, v: geléiert Vektore Gewiicht. Den Ausgang ass déiselwecht Gréisst wéi de Gedächtnisvektor. Et ass eng linear Kombinatioun vun dësen Vectoren, déi et erméiglechen datt e puer Memory Memory méi Auswierkungen op d'Ausgab huet op Basis vum Kontext an Ufrovektoren.Déiselwecht Iddi hei, Konkurrenz tëscht raimlech Informatioun gëtt dynamesch vum Opmierksamkeetssystem gehalen.

De Politik Reseau

De komplette Netz besteet aus dräi verschiddenen Ënner-Netzwierker: dem Demonstratiounsnetzwierk, dem Kontextnetz, an dem Manipulatiounsnetzwierk.

D'Demonstratiounsnetz kritt eng Demonstratiounstrajectoire als Input, a produzéiert en Embedding vun der Demonstratioun fir vun der Politik benotzt ze ginn. D'Gréisst vun dësem Embedding wiisst linear als eng Funktioun vun der Längt vun der Manifestatioun wéi och d'Zuel vu Blocken an der Ëmwelt.

Wéi hei gewisen ass d'Demonstratiounsnetzfäegkeet fäeg Demonstratioun vu variéierter Komplexitéit a Gréisst anzemaachen an e gemeinsamt Format dat vum Kontextnetz benotzt gëtt fir d'Aufgab ze representéieren. Et ass méiglecherweis schonn op dësem Niveau datt d'Generaliséierung geschitt ass, sollt d'Demonstratiounsembedding Informatiounen iwwer déi exakt Streck an absoluter Positioune während der Demonstratioun gesinn.

Mir kucken op d'Struktur vum Kontextnetz, och aus engem ganz héigen Niveau, gesi mir d'Interface mat dem Demonstratiounsnetzwierk eng Embedding vun der Manifestatioun zu den zentrale temporalen Opmierksamkeetsmoduler. Mir gesinn och datt vireg Handlungen (LSTM) an aktuellen Zoustand als Input gefaasst sinn mat der Demonstratiounsembedding, fir e globalen Kontext embedding ze verschécken, deen an de Motornetz geschéckt gëtt.

Hir Beschreiwung vun de Netzwierker Funktioun ass a mengen Aen dee wichtegsten Deel vum Pabeier:

De Kontextnetz fänkt andeems en Ufrovektor als Funktioun vum aktuellen Zoustand berechent gëtt, deen dann benotzt gëtt fir iwwer déi verschidden Zäit Schrëtt an der Demonstratiounsembedding matzemaachen. D'Opmierksamkeetgewiichter iwwer verschidde Blocks an der selwechter Zäitstuf sinn zesummegefaasst, fir en eenzegt Gewiicht pro Zäitstap ze produzéieren. D'Resultat vun dëser temporärer Opmierksamkeet ass e Vektor, deem seng Proportioun proportional zu der Unzuel u Blocks an der Ëmwelt ass. Mir benotze dann Noperschaft opmierksam fir d'Informatioun iwwer d'Ënnerdréckunge vun all Block ze propagéieren. Dëse Prozess gëtt e puer Mol widderholl, wou de Staat fortgeschratt gëtt mat enger LSTM Zelle mat ongebonne Gewiichter.
Déi viregt Operatiounssequenz produzéiert en Embedding, deem seng Gréisst onofhängeg vun der Längt vun der Manifestatioun ass, awer ëmmer ofhängeg vun der Unzuel vun de Blocken. Mir applizéieren duerno Standard weich Opmierksamkeet fir fix-zweedimensional Vektore ze produzéieren, wou de Gedächtnisinhalt nëmmen aus Positiounen vun all Block besteet, déi, zesumme mam Staat vum Roboter, den Input gefouert deen an d'Manipulatiounsnetz passéiert ass.
Intuitiv, och wann d'Zuel vun den Objeten an der Ëmwelt ka variéieren, an all Etappe vun der Manipulatiounsoperatioun, ass d'Zuel vun den aktuellen Objekter kleng a meeschtens fixéiert. Fir de Block Stacking Ëmfeld speziell, de Roboter sollt just oppassen op d'Positioun vum Block, deen e probéiert ophëlt (de Quelleblock), souwéi d'Positioun vum Block deen e probéiert huet uewen op ( der Zilblock). Dofir kann e richteg trainéiert Netzwierk léieren den aktuellen Zoustand mat der entspriechender Stuf an der Demonstratioun ze passen, an d'Identitéite vun der Quell an Zilblocken auszedrécken, déi als mëll Opmierksamkeetgewiichter iwwer verschidde Blocks ausgedréckt ginn, déi duerno benotzt gi fir déi entspriechend Positiounen ze extrahieren fir an de Manipulatiounsnetzwierk weidergeleet ginn.

De Wee wéi se hir Beschreiwung fäerdeg ass e perfekt Beispill vun der aktueller Drift vun AI Fuerschung vun enger Expert System Approche zu enger Léier System Approche, an et hint och op d'Diskussioun ronderëm wéi d'Gehir drënner evoluéiert.

Och wa mir dës Interpretatioun net am Training erzwéngen, ënnerstëtzt eis Experiment Analyse dës Interpretatioun vu wéi déi geléiert Politik intern funktionnéiert.

Si wësse net wéi et funktionnéiert! Si bauen eng Struktur déi fäeg ass eng gewësse Berechnung ze maachen an verschidde Informatioune ze späicheren déi mir mengen a-priori nëtzlech sinn, a fidderen et e Trainingsset an hofft datt déi ganz Struktur léiere wäert! Et gëtt eng Art Artificial Intelligence Fuerschung Voodoo op der Opstieg, eng Konscht, e Wee fir d'heuristesch Sich an déi richteg Richtung ze dirigéieren. An et schéngt e ganze Koup vun dësen Zauberer schaffen elo fir openAI.

An hiren eegene Wierder ass d'Manipulatiounsnetzwierk déi einfachst Struktur, aus dem Kontext embedding, deen an de Multi-Layer Perceptron gefërdert gëtt, gëtt eng Motoraktioun produzéiert.

Resultater

D'Resultater sinn dacks en Deel fir deen ech wéineg Interesse hunn, besonnesch fir dës Aart vun erstaunlech brillant technesch Pabeieren. Ech wäert séier goen, ënnen Linn datt dës Approche funktionnéiert, se funktionnéiert mat enger Genauegkeet ähnlech wéi déi schwéier kodéiert Expertpolitik an, am Géigesaz zu där spezifescher procedureller Approche, ass generaliséierbar zu enger grousser Palette vun Aufgaben.

Partikel Erreechen

Block Stacking

An dësen Experimenter hu se och verschidde Konditioune getest. Mat Hëllef vun DAGGER hunn se dräi verschidde Inputskonditioune vergläichen andeems se déi demonstréiert Streck downsampling: voll Trajectories, Snapshot vun der Streck, oder nëmmen de finalen Zoustand benotzt. Si vergläichen och de Behavioral Cloning Algorithmus mat der voller Streck vun der Manifestatioun.

E staarke Beweis fir d'Systemfäegkeet ze generaliséieren iwwer d'Cube Identitéit

Diskussioun

Liesen déi séier Tempo Fortschrëtter, déi vun OpenAI dës lescht Méint gemaach goufen, ech fille en wuessenden Drang fir iwwer hir Aarbecht ze schwätzen an meng Gedanken ze deelen iwwer wat ech un hir Aarbecht gleewen, an de Fortschrëtter vum Feld vun AI als Ganzt, informéieren eis Verständnis wéi biologesch Gehirer schaffen. Besonnesch dës wuessend Iddi datt déi anscheinend gedeelt kognitiv Funktiounen tëscht de Mënschen net sou vill duerch eng gemeinsam Struktur entstinn, déi innerhalb weess wéi eng Aufgab ze maachen, awer amplaz e Resultat vu relativ ähnlechen naive Strukturen, déi mat der selwechter Ëmfeld konfrontéiert sinn. léieren ähnlech Aufgaben ze maachen. D'Funktioun ass d'Resultat vun enger funktionéierender Struktur déi nëmmen eng spezifesch Aufgab léiere kann wéinst engem spezifeschen Ëmfeld anstatt vun enger Struktur déi d'Aufgab natiirlech kann maachen, einfach e puer Parameteren upassen fir sech der Ëmwelt unzepassen.

Aufgaben versus Konfiguratiounen: eng anscheinend arbiträr Definitioun

Ech muss zouginn datt ech net verstinn firwat si gewielt hunn iwwer verschidden Aufgaben ze schwätzen wéi se gemaach hunn. Eng Aufgab ass am Block Stacking Experiment definéiert als eng Rei vu Saiten representéiert d'Positioun vu Blocken relativ zueneen, d'Zuel vun den Elementer am Set definéiert d'Zuel vun de Stacks an d'Zuel vun den Zeechen d'Zuel vu Block déi arrangéiert muss ginn An. Eng Aufgab ass dann en Arrangement vu Blocks a Heften onofhängeg vun der absoluter Positioun vum Stack.

E puer Blocke sinn vläicht um Dësch awer net Deel vun der Aufgab

Hir Wiel fir d'relativ Positioun an d'Zuel vun den Heften ze definéieren als Critèrë fir eng separat Aufgab schéngt arbiträr. Tatsächlech kéint et och Sënn maachen fir iwwer verschidden Aufgaben ze schwätzen baséiert op den absolute Startpositioune vun de Blocken (wat se als Konfiguratioun bezeechnen). Ech gleewen dat déi gemeinsam Natur vum Probleem fir si evident ass, awer fir Kloerheetszwecker hu se léiwer net an d'Detailer ze goen. Et mécht méi Sënn fir d'Politikléiere wéi zwou Aarte vu Generalisatiounen z'erreechen, wéi se spéider maachen:

Notiz datt d'Generaliséierung op verschidde Niveauen evaluéiert gëtt: déi geléiert Politik brauch net nëmmen ze nei Konfiguratiounen an nei Demonstratiounen vun Aufgaben ze generaliséieren, awer och ze nei Aufgaben ze generaliséieren.

Ersatz just "Aufgaben" duerch "Stack Uerdnung". Fir d'Aufgab korrekt ze léieren heescht datt den Agent en Embedding léiert, deen d'Positioun vun de Würfelen (Konfiguratioun) kann abstrakt, awer och hir Identitéit (Aufgab), d'Zuel vun de Heften (Aufgab), an d'Streck vun der Manifestatioun (kuerz virgestallt an den Devis) fir eng relevant Motorreaktioun ze produzéieren.

Dës Generalisatiounen schéngen kontradiktoresch, wéi kann d'selwecht Netzwierk d'Cube seng initial Konfiguratioun oder hir Identitéit abstrakt an awer hir absolut Positioun fir d'motoresch Äntwert erholen?

Dëst erkläert d'Bedierfnes fir verschidde kooperativ Ënnernetzer beim Léieren, verschidde Input ze kréien, an et erkläert datt am Kontextnetz eng abstrakt Representatioun vun der Aufgab gefeelt gëtt mat méi niddereg Uerdnungsinformatioun, wéi Cubes absoluten Positiounen, virum dem ofsteigende Kommando.

Dir mengt vläicht datt Dir dëst Ënnerscheed vun der Aufgab an der Konfiguratioun kommentéiert ass komesch, awer et ass essentiell ze verstoen datt et am Wesentlechen de selwechte Abstraktiounsprozess ass um Spill op verschidden Objeten (an dëst öffnet fir déi folgend Sektioun).

Et gëtt net léieren ouni Inarianz

Transfert Léieren ass vläicht dat faszinéierendst Konzept vun der Erkenntnis, ob et in-silico oder in-vivo ass, et ass e ganz waarme Thema souwuel fir AI Fuerscher an Neuroscientists, an et geschitt mam Thema vu menger PhD Thes. Notiz datt enk verbonne Konzepter a ville Felder ier Maschinn geléiert goufen, an dëst abstrakt an ëmmer deelweis definéiert Konzept huet vill Nimm. Philosophen, Anthropologen a Soziologen kéinten et als (Post-) Strukturismus (Claude Levi-Strauss, Michel Foucault) bezeechnen, de Linguist schwätzt iwwer Syntagma an Nested Tree Strukturen (Noam Chomsky), Mathematiker denken méiglecherweis un Homeomorphismus oder Invariants, an Ausbildung Fuerscher oder Neurowëssenschafter kënnen et als Strukturell Léiere bezeechnen. Dir gesitt och e relatéiert Konzept am Feld vun Maschinnléieren wéi Representatioun Léieren a Meta-Léieren, wat ofhängeg vum Autor kann op Transferléiere bezeechnen oder d'Léierparadigma benotzt ginn fir Transferléieren. Wann Dir iwwer Deep Neural Networks schwätzt, ginn dës Ënnerscheeder ugeschloen, well am Wesentlechen e Neuralen Netz léiert e gewësse Problem (Representatiouns-Léieren) z'ënnerhalen andeems seng Struktur (meta-Léieren) normalerweis an engem lauteren Ëmfeld geännert gëtt, deen eng Form vun Transferléiere implizéiert.

AI Fuerscher a Kognitiv Wëssenschaftler hunn dacks eng ganz konkret Definitioun vum Transferléieren, et ass de Prozess deen et erlaabt e System de Wëssen an enger bestëmmter Aufgab ze benotzen fir eng aner Aufgab ze maachen déi eng gemeinsam Kompositiounsstruktur deelt (wéi am Artikel beschriwwen). Kognitiv Wëssenschaft huet dës Notioun vu no a wäitem Transfer, ofhängeg vun wéi déi zwee Aufgaben ausgesi verschidde. Awer aus enger méi abstrakter Perspektiv, an enger lauter a komplexer Ëmfeld, ass all Léieren eng Form vun Transferléieren an den Ënnerscheed tëscht ganz no a ganz wäit Transfer ass nëmmen eng Saach vu gemeinsamen Informatioun - erëm eng Skala Saach net vun der Natur.

A kontrolléiert Ëmfeld gi virdru probéiert eng haart kodéiert Diskretisatioun vun der Realitéit ze bauen, awer tatsächlech dës Diskretiséierung reproduzéiert prozedural wat Transfert Léieren mécht, et vereenegt eng onendlech Rei vu Staaten, déi an der Realitéit ënner enger gemeinsamer zouenen Struktur fonnt goufen. Am Wesentlechen Transfer Léieren bezitt sech direkt oder duerch eng Extensioun zum Prozess duerch deen Léieragenten invarianter benotze fir Modeller vun der Welt ze bauen. Et ass e Prozess deen Ähnlechkeeten, Wiederholungen a Variatioune vun derselwechter benotzt, fir ëmmer méi abstrakt a komponéiert Representatioun ze bilden, déi Ensemblen iwwer d'Varianzspann duerch den Input strukturéieren. Allgemeng erlaabt et d'Basis Operatiounen ze kreéieren duerch déi mir Informatiounsgruppen manipuléieren, sou wéi an der Mathematik et erlaabt d'union an Kräizungen ze maachen. Et erlaabt Identitéiten, et erkläert eis Fäegkeet fir Objeten ze kategoriséieren. De Josh Tenembaum gëtt e Beispill dat wierklech mat mir geschwat huet: Stellt Iech vir Dir léiert en zwee Joer aalt Kand e Päerd fir d'éischt Kéier ze erkennen, Dir weist him e puer Fotoe vu verschiddene Päerd an da weist Dir him d'Bild vun engem aneren Päerd an d'Bild vun engem Haus a frot hien Iech ze soen wien dat Päerd ass. E Kand wäert dës Aufgab ganz einfach maachen, awer et ass ëmmer nach eppes wat e Computer net mat sou wéineg Inputen (One-Shot Learning) gutt kann.

Wéi huet d'Kand et gemaach?

Déierenerkennung gouf bei Kanner studéiert a betreit eis Fäegkeet fir Objeten an entspriechend Deeler ze dekonstruéieren, d'Faarfpalette vum Pelz, d'Gréisst vum Hals, d'Gesamtform asw. Dës Fäegkeet ass och wat et erlaabt Iech eng Dier opzemaachen nach ni virdru gesinn, Dir hutt eng Motorsequenz geléiert, déi zu all Situatioun generaliséiert (Domain Generaliséierung). Et ass och wat Dir benotzt fir Erklärungsmodeller ze bauen déi d'Welt vereinfachen, Dir kënnt tatsächlech iwwerrascht iwwerraschend duerch déi plötzlech Erscheinung vun engem Cuckoo an engem berühmten Schwäizer Auer, awer no der zweeter Erscheinung erwaart Dir et. Inarianz ze fannen ass wéi en neurescht Netzwierk léiert an déi Modeller sinn onbewosst gebaut. E Beispill ass wéi mir intuitiv iwwer d'Physik léieren, och ier mir iwwer Mathematik an Zuelen héieren hunn.

Et kann een zum Beispill froen, wéi séier e Kand dat an der Mikrogravitatioun gebuer gouf, un d'Äerdbunnkraaft adaptéiert an intuitiv léiert, datt Objekter op de Buedem falen, wa se falen?

Mir kënnen hypothese datt Puppelcher an déi meescht Déieren hire Modell onbewosst iwwerschaffen, sou wéi wann Dir Strëmp op de Patten vun engem Hond setzt an et brauch e bëssen Zäit fir sech un déi nei Informatioun unzepassen.

Awer fir e jonke Kand fënnt eng bewosst Ënnersich an d'Revisioun vu sengem intuitive Modell statt, vu Virwëtz, duerch Sprooch, Symboler a Glawen. Eis Fäegkeet fir eis Modeller bewosst ze interrogéieren an z'änneren ass faszinéierend, an als Sidote kënnen d'Mënschen déi eenzeg Aart sinn déi de Prozess verbaliséiere kënnen, awer aner Arten kënnen ähnlech bewosst Versioune maachen.

Invariance ass eng obligatoresch Eegeschafte vun der Zäit, wann alles ëmmer nei war an op kee Fall prévisibel, da bleift et nach ëmmer dësen eenzegaartegen Invasioun datt alles ëmmer nei an onberechenbar ass. Et ass onméiglech eng Welt ouni Inarianz virzestellen, well et keng Welt kéint ginn, fir ze referéieren, ouni Inarianzliewen wier onméiglech an eis Gehinner sinn nëtzlos. Liewen ass eng Maschinn déi nëmme funktionnéiert duerch déi prévisibel Wiederholung vun Evenementer, Widderhuelung vun Ursaachen an Effekter, vun zyklescher Reintroduktioun vun Energie an den Organismus. An am Life's Quest seng Notzung vun den néidegen Zyklen ze verbesseren, ass eise Gehir dat ultimativt Tool. Et ass eng Predictiounsmaschinn, en adaptivt Uergel dat d'Wiederholung dynamesch fënnt an et benotzt fir besser mat der Welt ze interagéieren.

Dës Method déi d'Liewen gewielt huet ass extrem robust fir kleng Ännerungen an der Struktur. Wat d'selwecht bleift ass d'Welt, d'statistesch Eegeschafte vun der Ëmwelt, awer déi neurale Struktur, déi se begéinen, ka variéiere soulaang se déi relevant Informatioun agebonne kann hunn déi se entwéckelt huet fir ze behandelen. Dëst erkläert firwat eis Gehir sou ënnerschiddlech vun eenzelne zu individuellen, och primäre Cortice kënne sinn, an awer déi selwecht Funktiounen deelen.

Nervös Systemer sinn adaptiv, si brauche keng Evolutioun a lues genetesch Mutatiounen fir de Verhalen op relevante Weeër z'änneren. En einfachen Nervensystem, sou wéi déi, déi am C. Elegans fonnt ginn, déngt als en internen Koordinator an en externen Sensor: senséiere Liewensmëttel a beweegt sech Richtung, flüchten vu Schmerz, reproduzéieren. Déi einfach Systemer ware vun Ufank u starr an hunn eng extrem Upassung vun eiser héijer Kaméidi gemaach fir se an engem klengen Set vu méiglechen Staaten ze diskretiséieren (Iessen op der lénker, Hëtzt ënner etc.). Eis motoresch a sensoresch Fäegkeeten hunn Hand an Hand mat eisen Nervesystemer virauszesoen. Wéi eis Sensoren méi präzis ginn, konnt de nervös System seng Struktur änneren fir Informatioun ze späicheren an aus der Erfahrung ze léieren. Ufanks konnt et léieren verschidden Kategorien vun Inputen ze erkennen, souwéi Arten vu Geroch oder Liichtmuster, a konnt och duerch Test a Feeler léieren fir säi ëmmer méi komplexe Motorsystem ze kontrolléieren. Bemierkung datt d'Welt sou komplex ass datt eist Gehir natierlech op e Léierparadigma evoluéiert anstatt eng innate Prozedur Approche. Computationaliséiert dëst perfekt Sënn, en einfacht Spill vu Go huet e Staat-Raum wäit méi grouss (2.10¹⁷⁰) wéi d'Zuel vun den Atomer am Universum (10⁸⁰), an als Organismen méi komplex ginn ze probéieren Hardcode Code Approximatioune vun all méiglechen präziséiert et kéint séier ginn onwierkbar wéinst der kombinatorescher Explosioun.

Munch Leit kënne gleewen datt eise Gehir op esou eng Manéier gebaut ass datt et innerhalb de Raum duerstellt an deem hie sech wäert evoluéieren, datt an der DNA iergendwou e Gen ass fir wat e Gesiicht ausmécht, oder der temporärer Organisatioun vun den Tounwellen, déi maachen erop Wierder. Si kënne gleewen datt dëst gebuerent Wësse bei der Gebuert iergendwou kodéiert ass. Anerer kënne gleewen, wéi mäi Philosophie-Enseignant, wéi ech an de Lycée war, datt d'Existenz Essenz virausgeet, an datt eise Gehir komplett an eleng definéiert ass duerch d'Erfahrung vum Organismus an d'Welt. D'Realitéit ass natierlech méi komplex, a fir déi meescht telencephal Systemer, déi bis elo studéiert goufen, codéiert de Gehir net wirklech d'Funktioun, déi hie wäert ausféieren, awer léiert et ofhängeg vun der Informatioun an sengen Inputen. Wann den Input ze schlecht ass mat relevant Informatioun, kann d'Kapazitéit fir an dëser Struktur ze léieren en Verfallsdatum hunn (z. B. Amblyopia). Awer wann déi gebauter Struktur net déi lescht Funktioun kodéiert, huet de Gehir eng spezifesch Struktur. Dës Struktur ass iwwer eenzel Persoune konservéiert, an Eenzelen vun der selwechter Aart deelen gemeinsam Funktiounen a Drive. D'DNA setzt eng gewësse Struktur op der Plaz, eng Struktur déi net fäeg ass hir definitiv Funktioun innerhalb ze maachen, awer eng Struktur déi d'Complexitéit vu spezifeschen Aufgaben léiere kann op Basis vun der individueller Erfahrung. Et ass net iwwerrascht datt d'Evolutioun zur Erscheinung vun enger héich effektiver Blutt-Gehir Barriär gefouert huet, déi de Gehir vum Rescht vum Kierper isoléiert, souwéi de Meninges an déi schwéier Knochenhuel, déi et vun der Äussewelt schützt, well am Géigesaz zu aneren Organer, an deenen d'Struktur ass am Genom kodéiert, d'Struktur vun engem ausgebilte Gehir kann net aus engem gebiertege gelagéierte Modell regeneréiert ginn. Wat faszinéierend ass, ass datt mir déiselwecht Léiermechanismen gesinn, déi an der Analogie entstinn duerch d'Entwécklung vun ëmmer méi komplexen déif Netzwierker, déi ëmmer méi komplex Aufgaben maachen.

Kompositiounsstrukture si schwéier ze gesinn awer iwwerall

Als Sidoteote ass et komesch datt och d'Auteuren net erkennen datt hir éischt Aufgab vum Zil z'erreechen eng Kompositiounsstruktur huet.

De Partikel z'erreechen Aufgaben beweist d'Erausfuerderungen am Generaliséierung an engem simplistesche Szenario. Wéi och ëmmer, d'Aufgaben deelen keng Kompositiounsstruktur, wat d'Evaluatioun vun der Generaliséierung op nei Aufgaben usprochsvoll mécht.

Och wann d'Struktur tatsächlech méi niddereg ass wéi de Block stacking, an net einfach zougänglech fir experimentell Manipulatioun, ass d'Aufgab tatsächlech eng zesummegesat aus gemeinsame Struktur. D'Welt no bei engem Fliger z'erreechen, eng Kompositiounsstruktur ass datt d'Cube Identitéit (Faarf) mat Iwwersetzung konservéiert gëtt, a vu Block A weider goen - oder eng zoufälleg Ausgangspositioun- bei der Positioun (Xa1, Ya1) bis de Block op der Positioun (Xb1, Yb2) ) ass Deel vun der selwechter méi héijer Uerdnung Kompositiounsstruktur wéi vun der Block A op der Positioun (Xa2, Ya2) bis de B op der Positioun (Xb2, Yb2) ze goen.

Schnëttplazen tëscht Netzwierker

Agencement vun neurale Netzwierker déi fäeg sinn Input op verschiddene Niveaue vun der Abstraktioun ze behandelen brauche Schnëttplazen, e Domän deen ech gleewen vill méi ze entdecken huet ze entdecken. Dës Schnëttplazen kënnen aus villen Natur sinn. Si kënnen zum Beispill als eng gemeinsam Sprooch tëscht zwee Netzwierker gesi ginn, wéi am Artikel demonstréiert, e méi nidderegen Netzwierk bewaffnet mat engem Opmierksamkeetssystem (Demonstratiounsnetzwierk) kann eng Demonstratioun an enger Representatioun iwwersetzen an en anert Netzwierk (de Kontextnetz) ka benotzen. fir direkt Handlung egal wéi d'Längt oder initial Konfiguratioun vun der Manifestatioun ze maachen.

D'Uewerfläch vun dëser Sprooch ass hei e Fliger, fixéiert an der Gréisst, awer ee ka sech méiglech Ännerunge virstellen déi d'Kommunikatiounen tëscht dem Netzwierk verbessere kéinten. Zum Beispill kann d'Gréisst vun der Uewerfläch festgeluecht ginn dynamesch ze wuessen oder ze schrumpelen, wéi d'Netzwierker interagéiere beim Léieren, doduerch datt d'Sproochkomplexitéit kompriméiert oder verlängert. Mir kéinte mer och méi dynamesch Interaktioune virstellen, duerch Feedback zum Beispill. Mir kéinte mir d'Existenz vu Facilitator Netzwierker virstellen déi léiere géifen d'Kommunikatioun tëscht Netzwierker, existent als parallelt Netzwierk léieren, den Input vum éischten Netzwierk op den Input an den Ausgang vum zweete Netzwierk ze moduléieren. Mir kéinte mir komplexe Kontext Netzwierker virstellen, déi als Tonic (lues variéierend) Afloss zu méi méi spezialiséiert Netzwierker wierken ... Spannend zukünfteg Fuerschungsberäich!

Feeler bei Fallen Hiweiser op déi méiglech Rollen déi nei Moduler kéinten hunn

Et ass derwäert ze bemierken datt Feeler dacks wéinst motoresche Feeler stinn an datt d'Zuel vu Feeler mat der Komplexitéit vun der Aufgab eropgeet.

Motor Funktioun soll net nëmme verschlechtert ginn duerch d'Zuel vun den Ziler z'erhéijen, dëst ass e staarkt Beweis datt de Wee vum Reproduktiounsnetz mam Motornetzwierk ze léieren ass ze abstrakt. Et ass komesch well se soen datt hiren Test weist datt d'Interface tëscht dem Kontextnetz an dem Motornetz relativ konkret ass (Positioun vum Roboter, Positioun vum Zil).

Méiglech Léisung kéint sinn, well dëst eng modulär Architektur ass, fir verschidde Verloschtfunktiounen ze benotzen, oder modulär Verloschtfunktiounen, déi jiddwer e spezifeschen Aspekt vun der Aufgab representéieren. Et géif och gehollef ginn vun engem Äquivalent vun de Gehir pre-motoresche Gebidder fir d'Demonstratioun ze sécheren an de Kontextnetz kann abstrakt bleiwen ouni d'Verwäertung vum Motorkommando. Premotor Regioun sinn noutwendeg fir Objeten besser baséiert op dem Zil (aus abstrakte Netzwierker) an de sensoreschen Inputen ze lokaliséieren, fir de beschten Motorkommando ze wielen. Et schéngt wéi de Kontext Netz souwuel probéiert d'Demonstratioun op eng méi héich Embedding ze transferéieren a motoresch Handelen zur selwechter Zäit an engem aktuellen Kontext ze preparéieren. D'Roll vum pre-motoresche Reseau wier et ze léieren, mam Motorsystem ze kommunizéieren op eng zilorientéiert an adaptiv Manéier, souwuel d'Funktioune vum Premotor wéi och de Cerebellum fir Motorléieren a séier Adaptatioun ze verbannen.

Et gëtt eng interessant Theorie, de Moravec's Paradox, dee virausgeet datt et net méi héich Niveau Kognitioun wäert sinn, dat computationally besteiert gëtt awer d'Behandlung vu sensoreschen Inputen a Motorsystemausgäng. Dëst kann tatsächlech verantwortlech maachen fir déi grouss Quantitéit vun Neuronen, déi an eisem Serebellum präsent sinn (méi wéi am Rescht vum Gehir), fir d'motiv Handlung adaptiv ze kontrolléieren. Dëse Paradox gouf an enger Zäit (den 80er) formuléiert, wou mir ëmmer nach gleewen, datt mir eis eegent Wëssen an eng Maschinn integréiere kënnen, fir komplex Aufgab an onkontrolléierten haart Ëmfeld ze maachen. Natierlech ass dëse Paradox Sënn datt wann iergendwéi d'Maschinn d'Welt an engem diskretiséierte Satz vun Staaten representéiere kann, andeems en méi héije Niveau op d'Funktioun opbaut wier et méi einfach. Awer ech gleewen datt béid extrem belaaschtend wäerte beweisen, an d'intern Representatioun, déi am Interface tëscht Netzwierker benotzt gëtt, wäert wäit vun alles sinn wéi eis eege bewosst Representatioune.

Konklusioun

Duerch Kombinéiere vu verschiddene neuralen Netzwierker déi jidderengem zoustänneg sinn fir eng spezifesch Behandlung vum Problem, weist dësen Artikel datt duerch eng Aufgab ze kreéieren déi iergendeng Generalisatioun brauch, an e passend Léierëmfeld opzebauen duerch Domain randomiséierung, engem neurale Netzwierk mat Zougang zu enger Erënnerung an eng Opmierksamkeet System kann léiere méi wäit wéi einfach Reproduktioun generaliséieren. Et kann léieren e méi héicht Uerdnungsziel z'entdecken, dat nëmmen eemol an enger visueller Stream op Informatioun demonstréiert gouf, a mécht Berechnung an engem generaliséierte Raum fir déi entspriechend Handlungen z'erhalen, déi fäeg sinn dat Zil an engem anere Kontext ze reproduzéieren.

An der Zukunft wäerte mir eng ëmmer méi grouss Komplexitéit vu Strukturen op dës atomesch Bausteng gesinn, déi fäeg sinn, komplex Aufgaben ze generaliséieren, awer méi wichteg e puer vun dësen Aufgaben auszeféieren, an neien Ëmfeld, mat manner Ofhängegkeet op haart kodéierter Methoden wéi d'Veraarbechtung vun Inputen oder Gedächtnisspäicherung. Memory Speicherung gëtt duerch verdeelt Representatioune iwwer e Gedächtnisnetz ersat, Attentiounssystemer ginn duerch zyklesch Aktivitéit an Echtzäit opmierksam Netzwierker ersat. D'Fro bleift wéi mir fäeg sinn eng staark Serietechnologie (Turingmaschinnen) unzepassen fir eis verstäerkt Zouhuele vum verdeelten Informatik am beliichten System.