Det neurale netværk lært at "genoplive" portrætterne på grundlag af blot én statisk billede

Russiske specialister fra Center for kunstig intelligens Samsung AI Centre-Moskva i samarbejde med ingeniørerne i Skolkovo Institut for Videnskab og Teknologi har udviklet et system, der kan skabe animerede billeder af ansigter af mennesker på baggrund af kun få stillbilleder person. Typisk, i et sådant tilfælde kræver brug af store billeddatabaser, men i den nuværende eksempel udviklere, system, uddannet til at skabe en animeret billede af ansigtet af manden i alle de otte stillbilleder, men det var nok, og én i nogle tilfælde. For mere information om udviklingen er rapporteret i en artikel offentliggjort i ArXiv.org online repository.

Det neurale netværk lært at

Som regel reproducere fotorealistisk menneskeligt ansigt personlig modul er ganske vanskeligt på grund af den høje fotometriske, geometriske og kinematisk kompleksitet menneskelige hoved leg. Årsagen er ikke kun kompleksiteten af ​​ansigtet modellering generelt (for dette er der mange tilgange til modellering), men også visse funktioner i modellens kompleksitet: munden, hår, og så videre. En anden komplicerende faktor er vores tilbøjelighed til at fange selv små fejl i den færdige model af menneskelige hoveder. Denne lave tolerance over for modelfejl forklare den nuværende prævalens af ikke-fotorealistiske avatarer, der anvendes i telekonferencer. Ifølge forfatterne, at det system, kaldet Fewshot læring, i stand skabe en meget realistisk model af mennesker Talking Heads og endda portrætmalerier. Algoritmer producere et hoved syntese billede af den samme person med ansigtets skelsættende linjer, taget fra en anden del af videoen eller ved anvendelse af en anden persons ansigts landmærker. Som kildematerialet for uddannelse systemudviklere brugte en omfattende database af kendis videoer. For at få den mest præcise "taler hovedet", systemet skal bruge mere end 32 billeder.

For at skabe mere realistiske animationer udviklere personer brugte de tidligere udvikling i generativ-konfrontatorisk modellering (GAN, hvor det neurale netværk tænke ud detaljerne i billedet, effektivt ved at blive en kunstner), samt tilgangen af ​​maskinens meta-læring, hvor hvert element er uddannet i systemet, og er designet til at løse nogle bestemt opgave.

Det neurale netværk lært at

Kørsel meta-læring

Det neurale netværk lært at Det neurale netværk lært at

Til behandling af statiske billeder af folks hoveder, og omsætte dem til en animeret tre neurale netværk bruges: embedder (netværk implementering), Generator (generation netværk) og diskriminator (diskrimitator netværk). Den første opdeler billedet hovedet (med eksempler facial landmærker) vektorerne ifølge introduktion, som indeholder uafhængig af kropsholdning information, det andet netværk anvender modtagne netværk gennemførelse ansigt landmærker og genererer baseret på disse nye data via et sæt convolutional lag, der giver resistens over for ændringer i skala, forskydninger, sving, vinkel forandring, og andre forvridninger af det indledende ansigtsbillede. En diskriminatoren netværk bruges til at vurdere kvaliteten og ægtheden af ​​de to andre netværk. Som et resultat, at systemet forvandler mennesket benchmarks i realistiske udseende personlige fotos.

Det neurale netværk lært at Det neurale netværk lært at

Udviklerne understrege, at deres system er i stand til at initialisere parametrene for generatoren som et netværk, og netværket diskriminatoren individuelt for hver person i billedet, så læringsprocessen kan være baseret på nogle få billeder, hvilket øger dens hastighed, trods behovet for udvælgelse af millioner af muligheder.

Det neurale netværk lært at

Diskuter nyhederne kan være i vores Telegram-chat.