Shkencëtarët e MIT zgjidhën misterin e mësimit të makinerive

Pas vitit 2010 filloi një përmirësim serioz i algoritmeve softuerike dhe kjo së bashku me kompjuterët e fuqishëm i dhanë shtysë zhvillimit të shpejtë të rrjeteve nervore. Modelet e softuerit trajnohen dhe trajnohen në mijëra shembuj për të formuar veprimet e tyre më vonë. Sot, rrjeti nervor më i famshëm është ky OpenAI GPT-3. Ky është një model i mësimit të makinës që mëson me ndihmën e shumë të dhënave në internet, mund të marrë një fragment të vogël teksti dhe të shtojë një fragment të pamjaftueshëm në një nivel mjaft të lartë. Dhe kjo vlen jo vetëm për tekstin narrativ, por edhe për poezitë, si dhe për rreshtat e kodit të softuerit.

Por kjo nuk është gjithçka që modelet e këtij plani janë në gjendje. Studiuesit po studiojnë një fenomen interesant të njohur si "të mësuarit në kontekst", në të cilin një model i madh gjuhësor mëson të kryejë një detyrë pasi ka parë vetëm disa shembuj, edhe pse nuk është trajnuar për detyrën.

Shkencëtarët nga Instituti i Teknologjisë në Masaçusets, Google Research dhe Universiteti i Stanfordit po përpiqen të zgjidhin këtë mister. Me mësimin kontekstual, parametrat e modelit nuk përditësohen, kështu që duket se modeli po mëson një detyrë të re pa mësuar asgjë fare.

Rezultatet teorike të studiuesve tregojnë se këto modele masive të rrjeteve nervore janë në gjendje të përmbajnë modele lineare më të vogla dhe më të thjeshta të fshehura brenda tyre. Më pas, modeli i madh mund të zbatojë një algoritëm të thjeshtë për të trajnuar këtë model linear më të vogël për të kryer një detyrë të re, duke përdorur vetëm informacionin e përfshirë tashmë në modelin më të madh.

Falë një kuptimi më të thellë të të mësuarit kontekstual, shkencëtarët do të jenë në gjendje të zbatojnë detyra të reja me modele pa rikualifikim të shtrenjtë. Kjo do të thotë, së pari, për çdo detyrë specifike, është e nevojshme të mblidhet një grup i madh të dhënash mbi bazën e të cilave do të zhvillohet trajnimi. Dhe kështu do të jetë e mundur të sigurohet rrjeti nervor me vetëm disa shembuj, falë të cilëve do të zhvillohet trajnimi.

"Të mësuarit kontekstual është një fenomen i të mësuarit në mënyrë të paarsyeshme efektive që duhet kuptuar".

Është supozuar se ka modele më të vogla të mësimit të makinerive në modelet e rrjeteve nervore që mund t'i mësojnë një modeli të vjetër të kryejë një detyrë të re. Për të testuar teorinë e tyre, shkencëtarët morën një model të rrjetit nervor që është shumë i ngjashëm në arkitekturë me GPT-3, por u ndërtua posaçërisht për të mësuar në kontekst. Domethënë, brenda shtresave të mëparshme, u zbatua një model, i cili merrej me mësimin e një modeli linear, duke zbatuar algoritme të thjeshta mësimore.

"Këto rezultate janë një hap për të kuptuar se si modelet mund të mësojnë detyra më komplekse dhe do t'i ndihmojnë studiuesit të zhvillojnë metoda më efektive për trajnimin e modeleve gjuhësore për të përmirësuar më tej performancën e tyre.".

Lexoni gjithashtu:

Burimicsail.mit.edu

Regjistrohu

0 Comments

Shqyrtime të ngulitura

Shiko të gjitha komentet

Artikuj të tjerë

Shkencëtarët nga Instituti i Teknologjisë në Masaçusets kanë zgjidhur misterin e mësimit të makinerive

Komentet e fundit