AI e re Microsoft mund të imitojë zërin e çdo personi

Të enjten, studiuesit Microsoft njoftoi një model të ri të inteligjencës artificiale (AI) të quajtur VALL-E që mund të imitojë me saktësi zërin e njeriut kur i jepet një mostër audio prej tre sekondash. Pasi të mësojë një zë të caktuar, VALL-E mund të sintetizojë audion e atij personi që thotë çdo gjë, duke ruajtur tonin emocional të folësit.

Autorët e tij sugjerojnë që VALL-E mund të përdoret për cilësi të lartë tekst në fjalim, redaktim të të folurit, ku regjistrimi i një personi mund të modifikohet dhe ndryshohet nga një transkriptim teksti (duke i bërë ata të thonë gjëra që nuk i kanë thënë fillimisht) dhe për krijimin e përmbajtjes audio të kombinuar me modele të tjera gjeneruese të AI si p.sh GPT-3.

Microsoft e quan VALL-E një "Model të Gjuhës së Kodikut Neural" dhe bazohet në një teknologji të quajtur EnCodec që Meta njoftoi në tetor 2022. Ndryshe nga metodat e tjera të tekstit në të folur, të cilat zakonisht sintetizojnë fjalimin duke manipuluar format e valës, VALL-E gjeneron audio diskrete kodet e kodeve nga teksti dhe kërkesat akustike. Në thelb analizon se si tingëllon një person, e zbërthen atë informacion në komponentë diskrete (të quajtur "tokens") falë EnCodec dhe përdor të dhënat e trajnimit për të përputhur atë që "di" se si do të tingëllonte ai zë nëse do të thoshte fraza të tjera jashtë. të kampionit prej tre sekondash.

Microsoft trajnoi aftësitë e sintezës së të folurit të VALL-E në një bibliotekë audio të përpiluar nga Meta të quajtur LibriLight. Ai përmban 60 orë transmetime në gjuhën angleze nga më shumë se 7 spikerë, kryesisht të marra nga librat audio të disponueshëm publikisht të LibriVox.

Përveç ruajtjes së timbrit të zërit dhe tonit emocional të spikerit, VALL-E mund të simulojë gjithashtu "mjedisin akustik" të mostrës audio. Për shembull, nëse kampioni është marrë nga një bisedë telefonike, dalja e sintetizuar e audios do të simulojë vetitë akustike dhe të frekuencës së bisedës telefonike. Gjithashtu mostrat Microsoft demonstrojnë se VALL-E mund të gjenerojë variacione të timbrit vokal.

Ndoshta për shkak të aftësisë së VALL-E për të lehtësuar potencialisht mashtrimin dhe mashtrimin, Microsoft nuk ka dhënë kodin VALL-E që të tjerët të eksperimentojnë, kështu që ne nuk do të jemi në gjendje të testojmë aftësitë e tij. Studiuesit duket se janë të vetëdijshëm për dëmin e mundshëm social që mund të sjellë kjo teknologji. Në përfundim të artikullit, ata shkruajnë:

“Për shkak se VALL-E mund të sintetizojë fjalimin që ruan identitetin e folësit, mund të ketë rreziqe të mundshme të abuzimit të modelit, të tilla si mashtrimi i identifikimit të zërit ose imitimi i një folësi specifik. Për të reduktuar rreziqe të tilla, do të ndërtohet një model njohjeje për të dalluar nëse një videoklip është sintetizuar duke përdorur VALL-E."

Ju mund ta ndihmoni Ukrainën të luftojë kundër pushtuesve rusë. Mënyra më e mirë për ta bërë këtë është të dhuroni fonde për Forcat e Armatosura të Ukrainës përmes Savelife ose përmes faqes zyrtare NBU.

Lexoni gjithashtu:

Burimiarttechnica

Regjistrohu

0 Comments

Shqyrtime të ngulitura

Shiko të gjitha komentet

Artikuj të tjerë

AI e re Microsoft imiton zërin e çdo personi nga një mostër audio prej 3 sekondash

Komentet e fundit