Microsoft Kosmos-1 hap rrugën drejt AI në nivel njerëzor

Në fillim të kësaj jave, studiuesit nga Microsoft prezantoi Kosmos-1, një model multimodal i inteligjencës artificiale që mund të analizojë imazhet për përmbajtje, të zgjidhë enigma vizuale, të kryejë njohjen vizuale të tekstit, të marrë teste vizuale të IQ-së dhe të kuptojë udhëzimet e gjuhës natyrore. Sipas studiuesve, modele të tilla të AI janë hapi i parë drejt krijimit të një inteligjence të përgjithshme artificiale (AI) që mund të kryejë detyra të përbashkëta në nivel njerëzor. Kjo do të thotë, kjo teknologji do të jetë në gjendje të zëvendësojë një person në çdo detyrë intelektuale. Dhe ky është qëllimi i deklaruar i OpenAI, një partner kyç biznesi Microsoft në fushën e inteligjencës artificiale.

Në këtë rast, Kosmos-1 është një zhvillim thjesht personal i kompanisë Microsoft. Studiuesit e quajnë krijimin e tyre një "model gjuhësor të gjerë multimodal" (MLLM) sepse rrënjët e tij qëndrojnë në përpunimin e gjuhës natyrore vetëm me tekst, siç është LLM, siç është ChatGPT. Në mënyrë që modeli të pranojë imazhe hyrëse, studiuesit duhet së pari t'i konvertojnë imazhet në një seri të veçantë shenjash (kryesisht tekst) që LLM mund të kuptojë.

Kosmos-1 u trajnua në një bazë të dhënash nga Interneti, duke përfshirë ekstrakte nga The Pile (një burim teksti në anglisht 800 GB) dhe Common Crawl. Modeli u testua më pas me disa teste për të kuptuarit e të folurit, gjenerimin e të folurit, klasifikimin e tekstit pa njohje optike të karaktereve, mbishkrimin e imazhit, përgjigjen vizuale të pyetjeve, përgjigjen e pyetjeve të faqes së internetit dhe klasifikimin e imazheve me lokalizim. Sipas Microsoft, Kosmos-1 ka tejkaluar modelet aktuale në shumë prej këtyre testeve.

Veçanërisht interesant ishte testi i Raven's Progressive Reasoning, i cili mat IQ-në vizuale duke paraqitur një sekuencë formash dhe duke i kërkuar subjektit të plotësojë sekuencën. Kosmos-1 ishte në gjendje të jepte përgjigjen e saktë në 22% të rasteve.

Këto hapa të hershëm, të cilët me optimizimin e ardhshëm, mund të japin rezultate edhe më domethënëse, duke lejuar modelet e AI të perceptojnë dhe të ndikojnë në çdo formë media, duke zgjeruar në masë të madhe aftësitë e asistentëve artificialë.

Lexoni gjithashtu:

Burimiarttechnica

Regjistrohu

0 Comments

Shqyrtime të ngulitura

Shiko të gjitha komentet

Artikuj të tjerë

Microsoft prezantoi një qasje multimodale duke i hapur rrugën AI në nivel njerëzor

Komentet e fundit