Intarzierea intre continutul video si audio si fenomenul de lip-sync. Origini, cauze si perceptia fiziologica a fenomenului

Problema sincronizarii continutului imaginii cu informatia audio si minimizarea decalajului temporal intre continutul video si audio a aparut odata cu inventarea filmelor cu sonor si se regaseste pana in zilele noastre in infrastructurile moderne de televiziune, fiind un aspect care nu poate fi in nici un caz de neglijat.

Problemele de delay intre video si audio sunt strans legate de tehnologiile utilizate in televiziune, efectele acumulandu-se in moduri neasteptate si avand surse la care de multe ori ne asteptam cel mai putin. Constientizarea existentei acestei probleme constituie un prim pas in rezolvarea ei, mergand mai departe cu selectia echipamentelor si proiectarea infrastructurilor de televiziune pentru a minimiza sau chiar preveni in unele cazuri acest efect nedorit.

I. Perceptia fiziologica a decalajului temporal intre continutul video si audio
Felul in care ne raportam la lumea inconjuratoare este determinat de sistemul uman de perceptie care prelucrareaza o vasta cantitate de informatii captate prin simturi si care evolueza de la nastere prin experientele traite de-a lungul vietii. Spre exemplu, scrasnetul franelor unui automobil ne face instantaneu sa ne gandim la un accident in timp ce nivelul adrenalinei creste. Sau observarea unui fulger ne face sa asteptam manifestarea sonora a tunetului.
O alta experienta invatata de catre creier este relatia temporala intre imagine si sunet. Creiereul interpreteaza aparitia evenimentelor sonore in urma unui eveniment vizual ca fiind o senzatie naturala. Daca aceasta situatie naturala este inversata prin aparitia sunetului inaintea evenimentului vizual, rezultatul este foarte deranjant si genereaza disconfort.

In cazul transmisiilor de televiziune, aceasta perceptie se manifesta in felul urmator:
- daca un telespectator care vizioneaza stirile poate citi miscarea buzelor prezentatorului, cu volumul televizorului dat la minim, nu exista nici un disconfort. In aceeasi maniera, daca telespectatorul nu se uita la televizor, ci doar asculta programul sonor, nu exista nici un element de disconfort
- situatia se schimba daca telespectatorul priveste si asculta in acelasi timp, iar continutul imaginii nu este in sincronism cu continutul audio. Creierul uman se asteapta ca sunetul sa urmeze evenimentului vizual intr-un interval de timp rezonabil. Daca acest interval nu este depasit, nu exista senzatie de disconfort
- in cazul in care sunetul precede imaginea cu o valoare de timp care nu este naturala, sau daca ramane mult in urma imaginii, telespectatorul va observa acest lucru si va avea dificultati de concentrare

Atat in cazul decalajului audio in avans, cat si in intarziere, exista doua praguri care trebuie luate in considerare:
Pragul de detectabilitate este punctul in care telespectatorul sesizeaza decalajul intre audio si video atunci cand urmareste in mod intentionat prezenta sau absenta acestui decalaj
Pragul de observabilitate este punctul in care telespectatorul observa decalajul fara a-si concentra atentia asupra acestui aspect
prag_observabilitate

Continutul audio intarziat fata de video (in anumite limite) este interpretat ca fiind o senzatie naturala.
Continutul audio in avans fata de video este interpretat de creier ca fiind o senzatie deranjanta, generatoare de disconfort. In acest caz, valorile pragurilor de detectabilitate si observabilitate au valori mai reduse decat in cazul continutului audio intarziat.
sensib_decalaj_imagine_sunet

Efectele continutului audio in avans fata de video:

- disconfort si dificultate in urmarirea programului. Chiar si inaintea atingerii pragului de observabilitate (vezi graficul), telespectatorul percepe un disconfort, insa nu-i poate identifica cauza
- reducerea inteligibilitatii programului. Continutul audio in avans reduce drastic capacitatea de intelegere a telespectatorului, astfel ca acesta nu percepe complet continutul mesajului. Acest lucru este deranjant pentru programele vorbite (stiri, talkshow-uri) si catastrofic pentru reclame, unde elementul cheie este retinerea mesajului. Insasi denumirea de “lip-sync “ vine de la corelarea miscarii buzelor vorbitorului cu informatia audio corespunzatoare.
audio_in_avans

Continutul audio in avans este mult mai deranjant decat continutul audio in intarziere. Acest lucru este cu atat mai ingrijorator cu cat suntem mai constienti de faptul ca tehnicile actuale si traditionale de procesare video intarzie semnalul video si nu semnalul audio.

In concluzie, exista o asimetrie intre senzitivitatea umana la continut audio in avans fata de continut audio in intarziere (intervalele de detectabilitate si observabilitate sunt mult mai stranse la audio in avans).

II. Valori maxime admisibile pentru decalajul intre continutul video si audio
In anul 1998, standardul ITU-R BT1359-1 stabileste pentru prima oara o valoare maxima admisa a delay-ului audio de 90ms in avans si 185ms in intarziere.
In anul 2003,standardul ATSC IS-191 restrange considerabil valorile de delay audio la 15ms in avans si 45ms in intarziere, la care se pot adauga +/- 15ms datorate unui proces de codare/decodare MPEG-2. Rezulta astfel valorile maximale de 30ms in avans si 60ms in intarziere. Tot acest document considera valorile din standardul ITU-R BT1359-1 (elaborat anterior) ca fiind neadecvate pentru infrastructurile digitale de televiziune.

III. Cauze ale aparitiei decalajului intre continutul video si audio
Cauzele aparitiei decalajului intre video si audio pot aparea pe tot traseul lantului infrastructurtilor de televiziune, incepand de la ingesarea materialelor in sistem si chiar pana la destinatie la nivelul echipamemtului de receptie al telespectatorilor.
lant_prelucrare_av

Din nefericire exista numeroase situatii in care se proiecteaza infrastructuri de televiziune de complexitate ridicata fara a se acorda maxima atentie asupra alinierii continutului audio.

III.1. Cauze la intrarea materialelor in sistem (etapa de ingest)
In etapa de ingest, serverele video poseda un mecanism robust de sincronizare intre continutul audio si video. Daca insa materialul de intrare prezinta un decalaj, acesta va fi ingestat “asa cum este” iar acest decalaj se va propaga in continuare pe traseul lantului si se va cumula cu alte decalaje prezente pe lant.
Camerele video cu dispozitive videocaptoare cu CCD/CMOS pot deveni in anumite situatii o sursa de delay intre audio si video. In functie de complexitatea procesarii dupa achizitia imaginii, poate exista o intarziere de durata unui cadru (sau mai mult) intre imaginea optica si sunetul captat. In cazul camcorderelor (camerelor video cu inregistrare), aceasta intarziere este compensata intern in timpul inregistrarii. In cazul in care se utilizeaza camera pentru evenimente live, iar sunetul este captat pe o cale externa sau in cazul utilizarii unei camere video de sine statatoare, acest delay se va manifesta. Efectul acestuia este mai grav fiindca imaginea va fi intarziata, deci continutul audio va fi in avans.
Tehnologiile de compresie adauga un nou nivel de complexitate in problema decalajului intre continutul video si audio. De multe ori robustetea mecanismelor de sincronizare intre audio si video nu sunt infailibile. In privinta etapei de ingest, un feed de satelit poate sosi cu decalaj intre continutul video si audio.
Toate aceste decalaje acumulate la intrare vor avea efect aditiv pe traseul lantului marind considerabil sansele observarii efectului de “lip-sync”.

III.2. Cauze in interiorul sistemului (infrastructurilor de televiziune)
Intarzierea intrecontinutul video si audio apare ori de cate ori semnalele audio si video sunt procesate pe cai separate de semnal. Ca regula generala, orice procesare a semnalului video va determina o intarziere a acestuia. Daca continutul audio asociat parcurge o cale separata care nu sufera intarziere, va rezulta in mod negresit un decalaj intre audio si video.
In infrastructurile de televiziune digitate se folosesc acum majoritar semnale video serial digitale HD/SD-SDI cu audio embedded. Utilizarea semnalului audio embedded simplifica arhitectura infrastructurilor si elimina de multe ori problemele care ar fi aparut in cazul traseelor audio analogice separate. O parte din echipamente prelucreaza semnalele SDI procesand portiunea video in timp ce in paralel efectueaza de-embedarea semnalelor audio asociate, intarzierea lor cu o valoare corespunzatoare si apoi re-embedarea acestora la iesire in semnalul SDI. Insa acest lucru nu se intampla in cazul tuturor echipamentelor. De aceea, semnalul audio embedded poate sa ne faca sa ignoram mult mai usor problemele legate de delay prin neluarea lor in considerare.

Utilizarea frame synchronizer-elor este extrem de frecventa in infrastructurile de televiziune, datorita necesitatii sincronizarii si sinfazarii diverselor surse de semnal. Frame synchronizer-ele prelucreaza si aliniaza semnalele video prin procedeul de intarziere. Daca continutul audio asociat nu este luat in considerare si nu i se aplica o intarziere de aceesasi valoare, va rezulta in mod automat un decalaj intre audio si video. Dat fiind faptul ca de cele mai multe ori vor exista mai multe prelucrari de acest fel pe traseul unui lant, efectele se vor cumula (spre exemlu, cascadarea a 2 frame synchronizere fara intarzirea continutinlui audio se apropie deja de pragul critic de observabilitate).

Mixerele video sunt de asemenea o sursa de decalaj intre audio si video. Aproape toate mixerele din zilele noastre poseda DVE-uri, care prin functionarea lor intrinseca adauga intarzieri de durata unui frame (sau mai multe frame-uri) pe traseul semnalului video. Spre exemplu, in timpul unei emisiuni live o sursa de intrare cu continutul audio perfect aliniat, trecuta printr-un DVE, apare la iesire cu continutul audio in avans cu cel putin 1 frame. In acelasi context, daca continutul audio este muzical, efectuarea unui efect DVE poate duce la sacadarea ritmului muzical in momentul comutarii. Comportarea semnalului audio asociat depinde foarte mult de felul in care mixerele manipuleaza informatia audio asociata in cazul semnalelor video SDI cu audio embedded.

Echipamentele de rutare a semnalelor video pot si ele genera un decalaj in anumite situatii. La prima vedere, echipamentele de rutare a semnalelor video cu audio embeded nu pot genera efecte de decalaj, tranzitia prin matrice intarziind semnalele video si audio in aceeasi masura. Insa din ce in ce mai mult echipamentele de rutare moderne dispun de frame synchronizere pe intrari. Modul in care este manipulat continutul audio in acest caz devine foarte important. O intarziere proportionala a continutului audio nu va genera probleme. In caz contrar, router-ul va deveni o sursa neasteptata de delay intre audio si video.

Utilizarea mixta a semnalelor din banda de baza si a semnalelor video broadband.
Asa cum s-a mai mentionat, tehnologiile de compresie adauga un nou nivel de complexitate in problema decalajului intre continutul video si audio.
Semnalele video broadband sunt intalnite peste tot in infrastructurile moderne de televiziune. Mentionam ca exemplificare 2 puncte: etapa de ingest (ex. feed-uri de satelit) si etapa de compresie premergataore emisiei. Toleranta encoderelor/decoderelor din punct de vedere al decalajului intre audio si video trebuie sa fie de maxim +/-15ms (maxim 15 milisecunde in intarziere sau maxim 15 milisecunde in avans). In functie de tehnologiile utilizate de encodere/decodere, robustetea mecanismului de sincronizare intre stream-urile audio si video poate fi foarte diferita.

III.3. Cauze de decalaj datorate echipamentelor de receptie (ale telespectatorilor)
Din nefericire echipamentul de receptie al telespectatorilor poate fi o sursa de decalaj intre audio si video in ciuda faptului ca semnalul ajunge fara decalaj la receptorul TV.

receicer Consideram ca telespectatorul poseda un receiver STB (set-top box), un display si un sistem surround discret cu decodor AC-3. Presupunem in continuare, ca exemplificare, ca se receptioneaza un semnal HD 720p insotit de sunet surround care este sincronizat corect cu continutul video (nu sunt probleme de decalaj), iar rezolutia nativa a display-ului este 720p. Pot aparea urmatoarele situatii:
- la iesirea din STB, continutul audio este sincronizat corect cu cel video, semnalul video ajunge direct la panoul LCD care are rezolutie nativa 720p, neavand nevoie de procesare suplimentara. In acelasi timp, semnalul audio ajunge direct catre difuzaore. Informatia video si audio perceputa de telespectatori este in sincronism, acesta fiind situatia normala
- telespectatorul comuta acum pe un program HD 1080i; display-ul LCD, de rezolutie nativa 720p, trebuie sa efectueze acum operatiile de deinterlacing si scalare care necesita un interval de timp ce se va traduce prin intarzierea afisarii pixelilor pe ecran. Pe de alta parte, semnalul audio ajunge direct la iesire la fel ca in situatia anterioara. Rezultat: continutul audio va fi in avans fata de video
Mai mult decat atat, daca iesirea STB-ului este setata intr-un format de iesire diferit de semnalul receptionat (care il obliga si pe acesta sa scaleze semnalul video), rezulta inca o sursa suplimentara de delay
- in era receptoarelor LCD cu constructie “all in one” acolo unde atat procesarea video cat si cea audio are loc in acelasi aparat, aceasta problema poate fi evitata din etapa de constructie a aparatului
- pe de alta parte, multitudinea semnale si formate si diversitatea echipamentelor si componentelor de receptie poate genera probleme de delay, chair daca la receptie exista sincronism corect intre audio si video.

Concluzii
Problemele de decalaj intre continutul video si audio depind in foarte mare masura de arhitectura fiecarei infrastructuri de televiziune in parte; mai multe cai de propagare a semnalului determina implicit mai multe surse de delay care de multe ori nu sunt atat de evidente pentru personalul tehnic confruntat cu astfel de probleme.
O parte din problemele de decalaj intre video si audio pot fi eliminate inca din partea de proiectarea a infrastructurilor; celelalte pot fi combatute in momentul aparitiei unei asfel de situatii.
Cel mai grav caz il prezinta decalajul in avans al continutului audio care genereaaza un maxim de disconfort si obsevabilitate pentru telespectator. Acumularea erorilor pe traseul lantului duce la marirea gravitatii problemei, uneori cu simptome care pot aparea intermitent, ca rezultat al tranzitiei semnalului prin cai de procesare diferite in diverse momente de timp pe durata difuzarii unui program.