Изграждали ли сте си в съзнанието някога образ на човек, когото никога не сте виждали, основавайки се единствено на неговия глас? Изкуственият интелект (AI) вече може да направи това, генерирайки дигитално изображение на лицето на човек, използвайки само кратък аудиоклип за информция.
Невронната мрежа наречена Speech2Face, представлява компютър, който „мисли“ по начин, подобен на човешкия мозък. Той е бил обучен от учени, като е „наблюдавал“ милиони образователни видеоклипове от интернет, които показват как говорят над 100 000 различни хора. От този набор от данни Speech2Face се научава да прави асоциации между вокалните сигнали и някои физически характеристики в човешкото лице, обясняват изследователите в ново проучване. След това AI използва аудиоклип, за да моделира фотореалистично лице, съответстващо на дадения глас. От резултатите, които виждате на снимките, може да се заключи, че за добро или лошо, AI (все още) не знае точно как изглежда даден индивид въз основа само на неговия глас. Невронната мрежа разпознава определени маркери в речта, които сочат към пол, възраст и етническа принадлежност, характеристики, които се споделят от много хора, съобщават авторите на изследването.
„Като такъв, моделът ще създаде само лица, изглеждащи най-често срещани,“ пишат учените. „Това няма да произведе образи на конкретни индивиди.“
Лицата, генерирани от Speech2Face – всички показани анфас и с неутрални изрази – не съвпадат точно с хората зад гласовете. Но изображенията обикновено улавят правилните възрастови групи, етноса и полове на индивидите.
Интерпретациите на алгоритъма далеч не са съвършени. Speech2Face демонстрира „смесено представяне“, когато се сблъсква с езикови вариации. Например, когато AI слуша аудио клип на човек от Азия, говорещ китайски, програмата произвежда образ на азиатско лице. Въпреки това, когато същият човек говори на английски език в различен аудиоклип, програмата генерира лицето на бял човек, съобщават учените.
Алгоритъмът показва също и пристрастие към пола, свързвайки ниски гласове само с мъжки лица и високи гласове с женски лица. И тъй като наборът данни за обучение представлява само образователни видеоклипове от YouTube, той „не представя еднакво цялото световно население“, пишат изследователите.
Загриженост относно набора от данни възниква, когато човек, който се е появил във видеоклип в YouTube, се изненада, че е включен в проучването. Ник Съливан от компанията за интернет сигурност Cloudflare в Сан Франциско, неочаквано забелязва, че лицето му е един от примерите, използвани за обучение на Speech2Face (и съответно алгоритъмът е правил опит да възпроизведе образа му). Съливан не е давал съгласие да се появи в проучването, но видеоклиповете взети от YouTube в този набор от данни са широко разпространени и изследователите са сигурни, че имат право да ги ползват, без да придобиват допълнителни разрешителни.
Новото изследване показва, че Speech2Face не е съвършен, но съвсем скоро този алгоритъм или някой подобен на него, ще може да възпроизвежда точните образи на лица, използвайки само запис от техния глас.