Associazioni-Fiere-Educational

MPAI: up-sampling da alta e ultra alta definizione, EVC-UFV V1.0 Scope

MpaiUpscalerLa sessantaduesima Assemblea Generale MPAI (MPAI-62) ha pubblicato il più recente standard MPAI: AI-Enhanced Video Coding (MPAI-EVC) – Up-sampling Filter for Video applications (EVC-UFV).

Lo standard definisce due metodologie.

La prima riguarda la progettazione di filtri di up-sampling basati su super-risoluzione mediante intelligenza artificiale per applicazioni video.

La seconda riguarda la riduzione della complessità dei filtri progettati, senza incidere in modo significativo sulle prestazioni.

Lo standard EVC-UFV include i parametri di una rete neurale di esempio per l’up-sampling di immagini televisive a definizione standard verso l’alta definizione e per l’up-sampling di immagini in alta definizione verso l’ultra-alta definizione (4K).

È possibile utilizzare questa rete per testare le prestazioni del filtro.

In alternativa, è possibile usare questa applicazione per caricare un’immagine e riceverne una versione up-scalata.

 

MPAI è l’organizzazione internazionale, indipendente e senza scopo di lucro, dedicata alla codifica di immagini in movimento, audio e dati tramite intelligenza artificiale. 

Nasce nel settembre 2020 in un contesto caratterizzato dalla rapida diffusione delle tecnologie di IA in numerosi settori, dal limitato ricorso a standard nello sviluppo di tali applicazioni e dall’impatto crescente degli standard sull’industria dei media digitali.

L’organizzazione parte dal presupposto che gli standard di codifica dei dati basati su IA possano generare benefici analoghi per l’intero settore delle tecnologie dell’informazione e della comunicazione.

MPAI opera secondo principi che prevedono la definizione di standard di codifica dei dati basati su IA con licenze sui diritti di proprietà intellettuale chiare fin dall’inizio, processi di standardizzazione rigorosi e un approccio compatibile con l’ecosistema dell’intelligenza artificiale ma, per quanto possibile, tecnologicamente neutrale.

Gli standard sono concepiti per risultare applicabili a più industrie, utili agli utenti finali e coerenti con le esigenze dei regolatori.

L’attività di standardizzazione si articola su cinque aree.

La definizione dei tipi di dati, come audio, video, oggetti, scene e descrittori.

I qualificatori, ovvero metadati specializzati relativi a sottotipi, formati e attributi.

I moduli di IA, elementi di elaborazione con funzioni e ingressi e uscite ben definiti.

I flussi di lavoro di IA, configurazioni standardizzate di moduli interconnessi.

I framework di IA, ambienti che consentono configurazione dinamica, inizializzazione, esecuzione e controllo dei flussi di lavoro.

MPAI definisce inoltre un modello di governance dell’ecosistema che consente l’uso di software di riferimento, la verifica di conformità alle specifiche tecniche, la valutazione delle prestazioni delle implementazioni e l’accesso a soluzioni conformi tramite l’MPAI Store.

L’organizzazione si fonda su pilastri strutturali che includono una specifica politica brevettuale e il framework tecnico MPAI-AIF.


La specifica MPAI-AIF V2.1 

La specifica MPAI-AIF V2.1 descrive un ambiente standard per l’inizializzazione, la configurazione dinamica e il controllo delle applicazioni di IA, basato su flussi di lavoro composti da moduli interconnessi, adatto sia a componenti ad alte prestazioni su piccola e grande scala e orientato a migliorare la trasparenza e la spiegabilità delle soluzioni di intelligenza artificiale.

La specifica tecnica Data Types, Formats, and Attributes (MPAI-TFA) V1.4 definisce i Qualifier, una tipologia di metadati progettata per supportare il funzionamento dei moduli di intelligenza artificiale che ricevono dati da altri moduli o da sorgenti di input.

I Qualifier veicolano informazioni relative ai sottotipi dei dati, come ad esempio il tipo di colore, ai formati, come le modalità di compressione e trasporto, e agli attributi, inclusi gli aspetti semantici del contenuto.

Sebbene i Qualifier siano leggibili dall’uomo, il loro utilizzo è destinato esclusivamente ai moduli di IA.

Di conseguenza, testi, parlato, audio, video e altri tipi di dati scambiati tra flussi di lavoro e moduli di IA sono concepiti come composti da un contenuto e dai relativi Qualifier associati.

Un oggetto testuale, ad esempio, è definito dall’insieme di dati testuali e di un Qualifier testuale.

Questo principio è alla base della definizione della maggior parte dei tipi di dati previsti dalle specifiche MPAI.

La specifica tecnica Governance of the MPAI Ecosystem (MPAI-GME) V2.0 stabilisce invece il modello di governance dell’ecosistema MPAI.

Il documento definisce l’insieme degli standard, comprendenti specifiche tecniche, software di riferimento, test di conformità e valutazioni delle prestazioni.

Identifica gli sviluppatori dei moduli di IA e gli integratori dei flussi di lavoro come soggetti attuatori delle specifiche.

Attribuisce all’MPAI Store il compito di rendere disponibili moduli e flussi di lavoro agli integratori e agli utenti finali.

Introduce valutatori indipendenti incaricati di misurare le prestazioni delle implementazioni in termini di affidabilità, replicabilità, robustezza ed equità.

Completa il quadro includendo gli utenti finali come parte integrante dell’ecosistema.

MpaiCommunity1Molte applicazioni richiedono il filtraggio video, ad esempio nella compressione video, dove l’intero processo di riduzione del bitrate comprende acquisizione, down-sampling, codifica, trasporto, decodifica, up-sampling e rendering.

Le tecnologie di up-sampling comunemente utilizzate nelle applicazioni di video coding sono i filtri bi-cubici e Lanczos.

Tuttavia, presentano una limitazione rilevante, poiché eseguono esclusivamente operazioni matematiche sulla sequenza video decodificata.

I filtri di up-sampling derivanti da un processo di addestramento basato su un ampio numero di sequenze video sono altamente non lineari e sono in grado di ricostruire le sequenze video alla risoluzione originale andando oltre la semplice interpolazione dei pixel nei fotogrammi sotto-campionati.

La specifica tecnica AI-Enhanced Video Coding (MPAI-EVC) – Up-sampling Filter for Video applications (EVC-UFV) V1.0 definisce le procedure per progettare filtri di up-sampling per applicazioni video basati sulla Super Resolution e per ridurne la complessità.

La specifica tecnica AI-Enhanced Video Coding (MPAI-EVC) – Up-sampling Filter for Video applications (EVC-UFV) V1.0, di seguito indicata anche come EVC-UFV V1.0 o semplicemente EVC-UFV, definisce una procedura per la progettazione di filtri di up-sampling per applicazioni video basati su tecniche di super-risoluzione.

Si tratta di una procedura per la riduzione della complessità dei filtri di up-sampling progettati fino a un livello di complessità prefissato.

La specifica fornisce inoltre i parametri di due filtri di up-sampling a complessità ridotta, destinati a conversione da definizione standard ad alta definizione, conversione da alta definizione a ultra alta definizione,

Il filtro di up-sampling da alta definizione a ultra alta definizione può essere utilizzato anche per la conversione da definizione standard ad alta definizione, con una perdita di prestazioni limitata.

Tutti i termini MPAI sono accessibili online.

EVC-UFV V1.0 viene sviluppata dal gruppo AI-Enhanced Video Coding del Requirements Standing Committee.

MPAI può decidere di sviluppare nuove versioni che estendono EVC-UFV V1.0 oppure di elaborare nuove specifiche nello stesso ambito o in aree correlate.

La procedura di progettazione EVC-UFV V1.0 definisce un metodo strutturato per realizzare filtri di up-sampling video basati su reti neurali, con l’obiettivo di aumentare la risoluzione delle sequenze video attraverso tecniche di super-risoluzione.

Il processo parte dalla preparazione dei dati, basata su coppie di frame a bassa e alta risoluzione o su patch estratte per ridurre tempi di calcolo e requisiti di memoria.

Viene previsto l’uso sistematico di tecniche di data augmentation per garantire che il modello risulti generalizzabile a contenuti diversi da quelli di addestramento.

La fase di pre-training utilizza un ampio set di immagini ad alta definizione, opportunamente diversificate, e adotta parametri di addestramento standardizzati basati sull’ottimizzatore ADAM e su una riduzione progressiva del learning rate.

Il fine-tuning affina il modello su dataset specifici per il dominio applicativo, come sequenze video codificate e decodificate, selezionando le patch più rilevanti tramite analisi di salienza. 

In questa fase, parte della rete resta congelata per preservare le caratteristiche apprese, mentre il resto viene ottimizzato per migliorare le prestazioni nel contesto d’uso reale.
Il modello di riferimento è basato su un’architettura Densely Residual Laplacian Network, composta da blocchi residui con moduli laplaciani e connessioni dense, progettata per bilanciare qualità visiva e complessità computazionale. 

La specifica introduce anche una versione semplificata della rete, riducendo il numero di blocchi e di feature map per facilitare l’adozione in scenari con risorse limitate.

A supporto dell’implementazione, la specifica mette a disposizione software di riferimento open source, pubblicato nel repository MPAI, che consente di replicare il processo di addestramento e validazione del filtro di up-sampling.

La sezione EVC-UFV V1.0 dedicata alla riduzione della complessità definisce una procedura di pruning per ottenere reti di up-sampling meno onerose dal punto di vista computazionale, partendo da un modello già addestrato o fine-tuned secondo la procedura di progetto.

Il metodo si basa su un algoritmo iterativo che rimuove progressivamente parametri e canali della rete, mantenendo le prestazioni entro un criterio prefissato.

Il processo inizia con la definizione di un obiettivo di prestazione e di un passo di pruning, espresso come percentuale di parametri da eliminare a ogni iterazione. 

Viene quindi calcolato un grafo di dipendenza per individuare gruppi di pruning coerenti all’interno della rete.

A ogni iterazione, il modello viene sottoposto a sparsity learning, viene valutata l’importanza dei canali in ciascun layer e vengono rimossi quelli meno rilevanti fino a raggiungere il target di pruning. 

Dopo ogni riduzione, il modello viene riaddestrato per un numero limitato di epoche e valutato tramite errore quadratico medio. 

La versione con l’errore più basso viene mantenuta come riferimento.

Il ciclo continua finché il modello soddisfa i requisiti di prestazione o viene raggiunto il rapporto massimo di pruning consentito. 

Il risultato è un modello ottimizzato che bilancia riduzione della complessità e qualità dell’up-sampling.

AIvideoCodingA supporto dell’implementazione, la specifica prevede un software di riferimento open source, disponibile nel repository MPAI, che consente di replicare l’intero processo di pruning e validazione.

Sul sito MPAI è anche disponibile un capitolo che descrive i pesi delle reti neurali ottenuti applicando le procedure EVC-UFV V1.0 per l’up-sampling da definizione standard a alta definizione e da alta definizione a ultra alta definizione, sia nella versione completa sia in quella a complessità ridotta.

Viene inoltre definita la procedura per generare immagini up-scalate a partire da questi modelli.

Le verifiche di prestazione si basano su sequenze video standard, con profondità colore a 8 e 10 bit, spazio colore YCbCr 4:2:0 e codifica AVC, HEVC e VVC, in modalità Random Access e Low Delay. Le metriche utilizzate includono BD-Rate, BD-PSNR e BD-VMAF.

I risultati mostrano miglioramenti significativi rispetto all’interpolazione bicubica tradizionale per tutte le tecnologie di codifica e per tutte le configurazioni di test. Le prestazioni dei filtri “pruned” risultano molto vicine a quelle dei modelli completi, sia per SD–HD sia per HD–UHD, con benefici evidenti anche quando si riutilizzano i parametri HD–UHD per l’up-sampling SD–HD.

Il filtro a complessità ridotta utilizza circa il 40% dei parametri del modello originale, con una perdita di prestazioni inferiore all’1% in termini di BD-rate.

Il software di riferimento disponibile su MPAI Git consente di caricare immagini SD o HD, scegliere tra pesi pruned o non pruned ed esportare l’immagine up-sampled, facilitando la verifica pratica della specifica.

 

Sinossi

MPAI presenta lo standard AI-Enhanced Video Coding EVC-UFV V1.0 dedicato all’up-sampling video basato su intelligenza artificiale.

La specifica definisce procedure per progettare filtri di super-risoluzione e per ridurne la complessità mantenendo prestazioni elevate.

Lo standard include parametri di reti neurali per la conversione da definizione standard ad alta definizione e da alta definizione a ultra alta definizione, oltre a modelli ottimizzati con riduzione dei parametri.

Il quadro si inserisce nell’ecosistema MPAI, che stabilisce principi di standardizzazione, governance, software di riferimento, test di conformità e valutazione delle prestazioni per applicazioni di codifica media basate su IA.

#MPAI, #EVCUFV, #VideoCoding, #SuperResolution, #ArtificialIntelligence, #UpSampling, #BroadcastTechnology, #VideoCompression, #MediaStandards, #4K

 

MpaiLogoINFO: https://mpai.community/

 

Related Articles

Ultimissime di Tutte le Categorie

We strive for accuracy and fairness. If you see something not feeling right please let us know

Siamo molto sensibili ai cookie. We don't track, we don't trace, we don't advertise, and we don't try to get on your nerves. Ma il webmaster dice che per ragioni tecniche ci vuole un cookie per sessione; e l'avvocato dice che per ragioni legali dobbiamo sottolinearlo. Quindi per proseguire è meglio se clickate sul pulsante a destra >>>

Senza cookies