AI ImageBind i Metës mund të imitojë perceptimin njerëzor

Meta publikon kodin në inteligjencën artificiale me akses të hapur nën emrin ImageLind, i cili parashikon marrëdhëniet midis të dhënave të ngjashme me mënyrën se si njerëzit e perceptojnë ose imagjinojnë mjedisin e tyre. Ndërsa gjeneratorët e imazheve si Midjourney, Stable Diffusion dhe DALL-E 2 lidhin fjalë me imazhe, duke ju lejuar të krijoni skena vizuale bazuar vetëm në një përshkrim tekstual, ImageBind shkon përtej kësaj. Ai mund të lidhë tekst, imazhe ose video, audio, matjet 3D, të dhënat e temperaturës dhe të dhënat e lëvizjes – dhe e bën këtë pa pasur nevojë për para-stërvitje në çdo rast. Kjo është një fazë e hershme e një kornize që përfundimisht do të jetë në gjendje të gjenerojë mjedise komplekse nga inpute të thjeshta si p.sh. një mesazh teksti, imazhi ose audio (ose një kombinim i tyre).

Projekti Metaverse

Mund të mendoni për ImageBind si një përafrim të mësimit të makinës me të mësuarit njerëzor. Për shembull, nëse jeni duke qëndruar në një mjedis dinamik, si p.sh. në një rrugë të ngjeshur të qytetit, truri juaj (kryesisht në mënyrë të pandërgjegjshme) thith pamjet, tingujt dhe ndjesitë e tjera shqisore për të marrë informacion rreth makinave që kalojnë, ndërtesave të larta, motit etj. . Njerëzit dhe kafshët e tjera kanë evoluar për të përpunuar këto të dhëna për avantazhet tona gjenetike: mbijetesën dhe kalimin e ADN-së sonë. (Sa më shumë të dini për rrethinën tuaj, aq më shumë mund të shmangni rrezikun dhe të përshtateni me mjedisin tuaj për të mbijetuar dhe lulëzuar më mirë). Ndërsa kompjuterët i afrohen më shumë imitimit të lidhjeve shumëndjesore të kafshëve, ata mund t'i përdorin ato lidhje për të gjeneruar skena plotësisht të realizuara bazuar vetëm në pjesë të kufizuara të të dhënave.

Pra, ndërsa mund të përdorni Midjourney për të krijuar "një zagar basset me një kostum Gandalf që balancohet në një top plazhi" dhe për të marrë një foto relativisht realiste të asaj skene të çuditshme, një mjet multimodal i AI si ImageBind mund të përfundojë duke krijuar një video me qenin me tingujt, duke përfshirë një dhomë të detajuar të jetesës, temperaturën e dhomës dhe vendndodhjen e saktë të qenit dhe të gjithë të tjerëve në skenë. "Kjo krijon një mundësi të shkëlqyer për të krijuar animacione nga imazhe statike duke i kombinuar ato me sinjale audio," shënojnë studiuesit e Meta në blogun e tyre të orientuar nga zhvilluesit. "Për shembull, një krijues mund të kombinojë një imazh me një orë alarmi dhe një gjel që këndon dhe të përdorë një sinjal audio për të segmentuar gjelin ose tingullin e orës me zile për të segmentuar orën dhe për t'i animuar të dyja në një sekuencë video."

Meta

Sa i përket asaj që mund të bëhet tjetër me këtë lodër të re, ajo tregon qartë një nga ambiciet kryesore të Metës: VR, realiteti i përzier dhe metaspace. Për shembull, imagjinoni një kufje të ardhshme që mund të ndërtojë skena 3D të realizuara plotësisht (me zë, lëvizje, etj.) në fluturim. Ose zhvilluesit e lojërave virtuale mund ta përdorin atë për të kursyer vetes një pjesë të konsiderueshme të punës së mundimshme në procesin e projektimit. Po kështu, krijuesit e përmbajtjes mund të krijojnë video zhytëse me kolona zanore realiste dhe lëvizje të bazuara vetëm në tekst, imazhe ose audio. Është gjithashtu e lehtë të imagjinohet se si një mjet si ImageBind hap dyer të reja në akses, duke gjeneruar përshkrime multimediale në kohë reale për të ndihmuar njerëzit me dëmtime shikimi ose dëgjimi të kuptojnë më mirë mjedisin e tyre.

Gjithashtu interesante: Mjetet më të mira të bazuara në inteligjencën artificiale

“Në sistemet tipike të AI, ka një përfshirje specifike (dmth. vektorë numrash që mund të përfaqësojnë të dhënat dhe marrëdhëniet e tyre në mësimin e makinerive) për çdo modalitet përkatës,” thotë Meta. “ImageBind tregon se është e mundur të krijohet një hapësirë e përbashkët ngulitjeje për modalitete të shumta pa pasur nevojë të stërviteni mbi të dhënat me secilin kombinim individual të modaliteteve. Kjo është e rëndësishme sepse studiuesit nuk mund të krijojnë grupe të dhënash me mostra që përmbajnë, për shembull, të dhëna audio dhe të dhëna termike nga një rrugë e ngarkuar e qytetit, ose të dhëna të thellësisë dhe një përshkrim tekstual të një shkëmbi bregdetar.

Meta beson se kjo teknologji do të shkojë përfundimisht përtej gjashtë "shqisave" aktuale, si të thuash. "Megjithëse ne hetuam gjashtë modalitete në studimin tonë aktual, ne besojmë se prezantimi i modaliteteve të reja që lidhin sa më shumë shqisa - të tilla si prekja, të folurit, nuhatja dhe sinjalet e trurit fMRI - do të lejojë modele më të pasura të AI me në qendër njeriun." Zhvilluesit e interesuar për të eksploruar këtë sandbox të ri mund të fillojnë duke u zhytur në kodin me burim të hapur të Meta-s.

Lexoni gjithashtu:

BurimiEngadget

Regjistrohu

0 Comments

Shqyrtime të ngulitura

Shiko të gjitha komentet

Artikuj të tjerë

AI ImageBind i Metës mund të imitojë perceptimin njerëzor

Komentet e fundit