Il giorno 10 giugno presso la sede UNI a Milano, UNINFO, Ente Federato all'UNI con delega sulle Tecnologie Informatiche e loro applicazioni, sotto la cui egida l'industria italiana ha partecipato allo sviluppo dello standard, ha organizzato l'evento « Standard ISO/IEC di visione artificiale per nuovi servizi e applicazioni industriali » in cui sono stati presentati alcuni dimostratori sviluppati da società italiane che sfruttano le opportunità offerte dallo standard CDVS in alcuni campi applicativi. Di seguito il report degli interventi pertinenti ai nostri settori, diviso in due parti di cui questa è la prima in cui con Leonardo Chiariglione CEDEO con "Il ruolo degli standard audiovisivi", e Gianluca Francini Telecom Italia su "Lo standard CDVS".
[Questo articolo è in uscita su Millecanali Ed Tecniche Nuove, tutti i diritti sono riservati]
Il prossimo mese parleremo del report sull'intervento di Alberto Messina RAI, "Ricerca visuale per post-produzione" e descriveremo in breve il progetto Bridget.
Leonardo Chiariglione CEDEO con "Il ruolo degli standard audiovisivi"
25 anni di standard MPEG
Uno standard nasce per valutazioni pratiche di interesse, deve essere fatto bene e deve coinvolgere le persone che sono i potenziali utenti al fine di "non mettere la nostra bandiera in mezzo al deserto".
L'MPEG ha portato diversi vantaggi a partire dagli inizi, circa 25 anni, fa con MPEG1 video, il primo formato standard per la compressione video.
MPEG1 audio Layer 2 è ancora adesso impiegato nei decoder; l'MP3 ha portato evidenti e notevoli vantaggi; l'MPEG2 system è qualcosa -in pratica- in grado di durare all'infinito.
L'MPEG 2 Visual è stato il primo formato video compresso inserito sui telefonini, l'AAC si trova su iTunes, il File Format MPEG4 si trova dappertutto; l'AVC ha conquistato il mondo (da 11 anni), il DASH è un formato per lo streaming sul web dove la banda non è garantita, quindi è indispensabile adattare il bit rate alla capienza disponibile; l'HEVC è l'ultimo formato di compressione video.
Questo denuncia in pratica che il Comitato MPEG è in effetti quello che ha permesso di trasformare l'idea di poter avere media digitali in bit e in qualcosa di concreto.
Sono stati 25 anni di lavoro tesi ad "addomesticare" questi bit rate -assolutamente improponibili- in qualcosa che fosse adatto per la banda disponibile ai tempi, infatti l'MPEG1 restituiva la qualità circa del VHS; l'MPEG2 trasmette oggi immagini a circa a 2 MB al sec, l'MPEG4 visual ha ridotto l'occupazione di banda del 25%, l'AVC ha ridotto ancora la banda di un 30%, l'HEVC ha ridotto di un 60%. Insomma, di generazione in generazione si riesce a stringere sempre di più la banda disponibile e necessaria per la trasmissione di immagini.
L'industria dei media digitali
Questa industria esiste proprio perché ci sono degli standard che permettono larghe produzioni in serie di "parti" che si possono poi mettere assieme senza ulteriori aggiustamenti; in pratica, il Comitato MPEG fornisce risultati più ampi che poi le industrie "mettono assieme" per fornire i propri prodotti.
Molto importante è sottolineare che i contenuti generati da chiunque sono comprensibili da tutti ed è questa la base importante di uno standard: quello che il comitato offre è una tecnologia più efficace e potente nel raggiungere questo obiettivo.
Si tratta di una industria che nel complesso vale annualmente qualche centinaio di miliardi di euro e in termini di royalty l'MPEG "muove qualche miliardo di Euro".
Praticamente, coinvolge l'infrastruttura, l'hardware, il software e i contenuti.
Questo è il passato ma anche il presente e anche il futuro, infatti il Comitato MPEG da qualche anno non si occupa "solo" di comprimere audio e video e "dintorni" ma anche di computer vision.
L'abilitante dello standard è sempre la rappresentazione standard dell'informazione; finora MPEG si è occupato solo della rappresentazione numerica dei segnali, e quindi di ridurre la ridondanza nella rappresentazione numerica di questi segnali. Ma tutto muove dalla considerazione che in una a serie di campioni è probabile che i campioni vicini siano simili, quindi l'intrinseca ridondanza è quella che è stata eliminata.
Oggi serve uno standard per la computer vision in cui abbiamo la rappresentazione numerica dell'analisi dei segnali ed è su questa che viene analizzata la ridondanza.
Da qui nasce il discorso del CDVS applicato al segnale video.
Probabilmente se ci fossero meno Authority e più standard le cose diventerebbero più semplici.
Questo perché a) gli standard non arrestano l'innovazione, infatti ad esempio per l'MPEG 2 all'inizio richiedeva 4MB di banda e ora ne sono sufficienti 2MB e la qualità è molto equivalente; il pubblico non ha dovuto cambiare decoder. Solo l'encoder è cambiato. Quindi non si uccide l'innovazione ma la si sposta solo in un'area più intelligente.
b) gli standard non sono anti competitivi e sono un ostacolo alla formazione di monopoli perché uno standard taglia a metà, disaccoppia, la fornitura dell'informazione all'apparato di consumo, ossia non favorisce la "cosa unica" che porta il monopolio ed è proprio lo standard che può fare una enorme differenza. Tutti vi possono contribuire e tutti possono partecipare, portare commenti e quindi questo è un invito e una opportunità a partecipare ai lavori.
Gianluca Francini Telecom Italia su "Lo standard CDVS"
In joint con il Politecnico di Torino e in particolare col dipartimento di elettronica e telecomunicazioni e telematica si porta avanti il discorso sulla tecnica CDVS Compact Descriptors for Visual Search.
Il tema è la ricerca visuale e parte dal concetto che tutti i giorni siamo tutti quanti abituati a cercare informazioni digitando un testo e anche a compiere ricerche in mobilità.
Poi proprio grazie alla diffusione dei cellulari iniziamo ad essere adusi alla ricerca vocale.
Si stanno però diffondendo anche altri tipi di ricerche come quelle dei codici visuali bidimensionali e i più famosi sono i QR code; basta fotografare tale codice su un oggetto col cellulare e reperire informazioni, compiere acquisti.
È il link tra l'oggetto e tutto quanto serve una volta che l'oggetto è stato identificato.
Il QR Code è un ostacolo, per esempio su un monumento, dove dovremmo inquadrare il codice posto alla base e in molti casi questa prassi è difficilmente attuabile.
La rivoluzione è che il CDVS tende a identificare gli oggetti in una scena senza che sia apposto alcun tipo di codice su esso, in quanto sono le caratteristiche stesse dell'oggetto che vengono utilizzate per il riconoscimento. Quindi con un sistema di ricerca visuale potremmo riconoscere la presenza di oggetti determinati, in modo automatico e senza apporvi alcun codice.
Si tratta di un progetto complesso già applicato in campi verticali come il riconoscimento delle impronte digitali, quindi ben specifici per una determinata categoria di oggetti, come le targhe delle auto, che si presentano alla telecamera in un modo ben preciso.
Oppure anche nel riconoscimento da parte della robotica negli apparati in cui è importante riconoscere al presenza di alcuni oggetti (in un vassoio il robot deve contare determinati oggetti e selezionarli) e sempre in una condizione controllata, in una zona ben precisa con un certo tipo di illuminazione e con un insieme preciso e limitato di oggetti riconoscibili
Riconoscere qualcosa di generico è invece un problema, come nel caso di un libro. Potremmo qui vedere se l'immagine ha colori simili, se ha una distribuzione di elementi grafici o texture, contorni, bordi.
Infatti, un oggetto potrebbe anche occupare solo una porzione nell'immagine, essere ruotato, avere dei colori differenti, può esservi presenza di grana nell'immagine e possono presentarsi tantissimi altri problemi nell'analisi di un'immagine che arriva dalla vita reale.
I parametri che verrebbero estratti da questa immagine sarebbero troppo influenzati da tutto ciò che si trova intorno all'oggetto stesso e sarebbe difficile isolare l'oggetto desiderato.
In questo periodo l'analisi visuale suscita elevato interesse, con grossi capitali coinvolti ed investiti e c'è stata una evoluzione progressiva degli algoritmi.
Approccio diverso
Alla fine si è arrivati a definire nuovi sistemi per la ricerca visuale basati su un approccio diverso che sono alla base di quanto è stato standardizzato nelle interrogazioni CDVS.
La concomitanza dell'evoluzione tecnologica dei dispositivi fa sì che la ricerca visuale inizi ad essere molto interessante.
Si parla quindi di Analisi a Descrittori Locali, ossia analisi di dettagli affidabili o dei punti salienti o key point sulle immagini che siano stabili e affidabili.
Questo perché se un edificio viene ripreso da un altro punto di vista rispetto l'immagine di riferimento, l'importante è ritrovare gli stessi punti importanti sull'edificio, nelle stesse posizioni, quindi non influenzabili da cambiamenti di punti di vista, di illuminazione di colorimetria e via.
L'immagine viene elaborata diverse volte applicando dei filtraggi che la smussano e viene ottenuto uno "scale space" che alla fine produce alcuni dettagli e punti salienti che sono "stabili" o per lo meno i più stabili che si è riusciti a trovare.
All'inizio si ignora il colore e si rappresenta tutto con la sola luminanza e sono identificati tanti punti caratteristici, ciascuno che si riferisce a un dettaglio dell'immagine caratterizzato da posizione e dimensione del dettaglio steso che rappresenta.
Si considera il gradiente come varia tra un pixel e quelli adiacenti, quindi tanti vettori bidimensionali per ciascuno dei pixel utili.
I descrittori locali sono solo delle rappresentazioni statistiche del gradiente della luminanza. Si calcola come si distribuiscono attorno al punto di riferimento e si costruisce una rappresentazione statistica come vettore di tanti elementi.
Questo sarà il nostro descrittore locale.
Il meccanismo poi funziona con un confronto: supponendo di avere una immagine di interrogazione (iequella che scattiamo col cellulare) che inviamo al server di riconoscimento e una di riferimento in un database.
Si estraggono i punti salienti da entrambe le immagini e si cerca di abbinare un descrittore dell'immagine di riferimento con lo stesso di quella di interrogazione.
Se un certo numero di questi punti corrisponde, siamo a cavallo e questi ci danno anche informazioni su "dove" all'origine questo oggetto si trovava, indicando anche la differenza di punti di vista.
Questo sistema risolve i problemi elencati prima perché non si basa sull'analisi della globalità dell'immagine ma si focalizza solo su alcuni elementi e cerca di abbinare un sottoinsieme degli elementi, appunto dei descrittori locali.
Questo funziona anche quando una parte dell'oggetto è nascosto, abbinando un numero inferiore di punti, cercando di fatto anche di superare il grave problema delle occlusioni.
L'interazione naturale, grande futuro
Sono, quindi, le caratteristiche stesse dell'oggetto a renderlo riconoscibile.
La ricerca visuale è alla base di tutto ciò che oggi viene definito "Natural User Interaction" cioè sistemi che ci consentiranno in futuro di interagire con l'ambiente circostante in modo molto naturale: per esempio, un tablet che inquadra un oggetto e lo riconosce, come a esempio un hotel e una app collegata ci permette di vedere la disponibilità di stanze e prenotare.
E potremmo fare milioni di altri esempi, inquadrare una strada ed ottenere indicazioni storiche, geografiche, commerciali e altro ancora.
O all'interno di un ospedale identificare il reparto che serve o fotografare un cibo ed ottenere indicazioni sui valori nutritivi, le ricette, la dieta, etc.
In futuro sarà molto comune inquadrare ciò che ci circonda e potere interagire in modo naturale con gli oggetti in realtà.
Lo standard CDVS è nato pensando alla ricerca visuale applicata da un dispositivo mobile.
Prima di questo standard potevamo già inviare la foto con alcuni descrittori tradizionali al server e il procedimento e il confronto con un data base era simile e ci dava delle risposte.
I descrittori però erano molto pesanti, a volte di più (140 KB su immagine da 80KB) dell'immagine stessa compressa in JPEG, rendendo tutto non pratico.
Inoltre, la compressione e i conseguenti artefatti creano problemi nel riconoscimento da parte del server.
Qui entra in gioco il CDVS, che invece di inviare un'immagine estrae i descrittori e li codifica nel dispositivo mobile stesso e solo allora questi descrittori sono inviati al server che fa il confronto ed effettua il riconoscimento. Poi restituisce il risultato sulla ricerca.
I descrittori sono compressi occupano molto meno spazio dell'immagine di partenza codificata JPEG e il processo di ricerca sul server basato sui descrittori è molto più efficiente perché i tempi di ricerca sono sensibilmente inferiori; il terzo vantaggio del CDVS è inoltre l'interoperabilità, come vedremo.
Tutta l'elaborazione in questo scenario viene effettuata "lato dispositivo mobile": ossia, si fa una foto, i descrittori vengono estratti, il database è già presente sul cellulare. Il server diviene utile solo in modalità offline per aggiornare i descrittori che sono presenti già in copia nel database dentro al dispositivo portatile.
A esempio, se ci fosse una app legata a un quotidiano, potremmo fotografare una pagina del quotidiano stesso che viene riconosciuta e vengono linkati approfondimenti in video da ricevere in streaming. Poi la mia app potrebbe caricare in anticipo i descrittori per il quotidiano uscito quel giorno e tutta la ricerca avviene sempre e solo in locale sul cellulare.
Grandi vantaggi si avrebbero nella riduzione della latenza e tutte le operazioni evitano la comunicazione con il server, quindi sono pressoché immediate.
Dettagli salienti
Un descrittore CDVS è composto da dettagli salienti, ciascuno associato a un vettore; viene effettuata una selezione di un sottoinsieme di punti di quello che viene ritenuto il più importante.
Ciò permette di comprimere al massimo le informazioni e si scarta il superfluo, la ridondanza, quindi è selezione dei punti significativi che genera il Global Descriptor (descrizione statistica di un insieme di local descriptor, i più rilevanti) che serve per velocizzare la ricerca, con le coordinate dei punti che vengono trasmesse, (coordinate e descrittori compressi).
Per velocizzare le operazioni si usa la rappresentazione statistica che consente di fare confronto tra l'immagine di interrogazione e una delle immagini del database. Tutto ciò risulta molto veloce e permette di ordinare i risultati per similitudine rispetto l'interrogazione. Quindi viene fatto il confronto più approfondito solo sulle immagini più promettenti, su una lista molto più corta rispetto il numero totale di immagini contenute nel database.
Si lavora in cascata da metodi veloci e meno precisi, seguiti da altri metodi più lenti e più precisi fino a focalizzarsi sui risultati più promettenti.
"Comprimi e comprimi" e si arriva a un descrittore CDVS anche di soli 512 Byte (!) che comprende descrittore globale, le coordinate, i descrittori locali.
È quindi stato un lavoro lungo, di parecchi mesi atto a raggiungere una compressione molto spinta.
Se uso un descrittore che occupa più spazio il risultato sarà più preciso nella ricerca ma è più oneroso nella trasmissione e nei confronti.
Dal punto di vista della evoluzione storica del CDVS si è partiti nel 2011 con la "call for proposals", la valutazione è stata effettuata a fine dello stesso anno; la lunga serie di core experiment è partita subito e si è arrivati alla meta con non poca fatica.
Nel 2013 si è entrati nella fase "commitee draft" ed entro la fine del 2014 lo standard MPEG CDVS ... c'è.
L'interoperabilità
Sempre a proposito delle caratteristiche di CDVS, l'efficienza della compressione -di cui abbiamo detto- e si affianca alla scalabilità che indica un sistema "non rigido" per creare una rappresentazione prefissata.
Infatti posso decidere di privilegiare la compressione rispetto alla precisione del riconoscimento che deve avvenire su un oggetto generico e tutto deve funzionare non in situazione precisa, ma nel mondo reale.
Il sistema deve essere robusto, auto sufficiente (non serve altro per il riconoscimento), facile nelle implementazioni hardware e poco esoso di risorse, applicabile a database di grandi dimensioni.
Per avere idea del lavoro che è stato fatto sull'efficienza, si parla di oltre 11mila interrogazioni su un database di oltre un milione di immagini e per valutare ogni modifica il software girava in 12 giorni su cinque macchine; alla fine gira in poche ore su una macchina sola (ovviamente più moderna!)
I difetti
Il CDVS è difficilmente applicabile su un'immagine con pochi dettagli, su un oggetto riflettente, sugli oggetti trasparenti e quelli deformabili (un volto che ovviamente varia molto, non viene riconosciuto), su tutto ciò che cambia aspetto, forma, superficie.
La tecnologia si applica - infatti- su oggetti non deformabili che sono tanti ma limitati per certi versi.
Il concetto si applica alla ricerca web alla navigazione dei robot, all'automotive, la tv, al broadcast, per la gestione di archivi, sempre per capire quando una certa immagine è stata mandata in onda e per approfondimenti.
Un logo trasmesso, per esempio può generare un link dalla scena in tv a un tablet come second screen, quindi da fruire in modalità diversa, per dare più valore a quanto viene trasmesso.
>>>>>>>> continua
LINK ALLE FOTO http://www.uninfo.it/index.php/news/eventi/item/cdvs-la-visione-artificiale-per-nuovi-servizi-e-applicazioni-industriali
http://www.telecomitalia.com/tit/it/innovation/events/exhibitions/ricerca-visuale-tecnologia-cdvs.html
https://dl.dropboxusercontent.com/u/16481074/Immagini/Presentazione.jpg
Queste tre immagini, estratte dalla presentazione che avevo fatto, potrebbero essere utili per la pubblicazione:
https://dl.dropboxusercontent.com/u/16481074/Immagini/Visual%20Search.png
https://dl.dropboxusercontent.com/u/16481074/Immagini/Ricerca%20visuale%20contenuti%20broadcast.png
https://dl.dropboxusercontent.com/u/16481074/Immagini/Abbinamnto%20di%20due%20immagini.png
.............................................................................................................
Conferenza sui "Descrittori Compatti per la Ricerca Visiva" CDVS
Seconda parte
Il giorno 10 giugno presso la sede UNI a Milano, UNINFO, Ente Federato all'UNI con delega sulle Tecnologie Informatiche e loro applicazioni, sotto la cui egida l'industria italiana ha partecipato allo sviluppo dello standard, ha organizzato l'evento « Standard ISO/IEC di visione artificiale per nuovi servizi e applicazioni industriali » in cui sono stati presentati alcuni dimostratori sviluppati da società italiane che sfruttano le opportunità offerte dallo standard CDVS in alcuni campi applicativi.
Il mese scorso abbiamo riportato la prima parte del report sugli interventi pertinenti ai nostri settori, con Leonardo Chiariglione CEDEO, "Il ruolo degli standard audiovisivi", e Gianluca Francini Telecom Italia su "Lo standard CDVS".
Di seguito riportiamo la seconda parte del report con l'intervento di Alberto Messina RAI, "Ricerca visuale per post-produzione" e descriviamo in breve il conseguente progetto Bridget.
CDVS
Il veloce progresso negli ultimi anni delle tecniche di visione automatica ha spinto il gruppo MPEG, ben noto per i suoi standard multimediali, a sviluppare lo standard « Compact Descriptors for Visual Search » (CDVS), la cui approvazione è prevista per ottobre 2014. Un dispositivo dotato della tecnologia standard CDVS potrà estrarre da un'immagine fissa in modo automatico parametri molto compatti (in termini di quantità di bit) per fare ricerche in un data base, capire che cos'è l'oggetto in una foto, eventualmente ottenere informazione aggiuntiva e molte altre cose. I campi applicativi di CDVS sono infatti molteplici: mobile, automotive, SmartTV, sorveglianza, manutenzione apparati, robotica, infomobilità, servizi al turista, beni culturali, broadcast, post produzione, video, multimedia, etc. ecc.
Alberto Messina RAI "Ricerca visuale per post-produzione".
Da 80 anni il centro di ricerca di Torino si occupa di sviluppare tecnologie standard nel campo della tv ma più di recente anche di tecnologie relative all'indicizzazione e il reperimento di contenuti, quindi tecnologie che permettono uno sfruttamento più completo dei contenuti che la RAI possiede nei propri archivi e che produce tutti i giorni.
Tra gli studi su cui ci si concentra al momento abbiamo la tecnologia CDVS, ovviamente, dato l'effettivo concentramento sugli asset principali del broadcaster nazionale, ossia il video.
Infatti di per sé il CDVS rappresenta un utile strumento in diversi scenari di riferimento già al giorno d'oggi.
Poi ci sono sistemi avanzati di supporto alla post produzione che sono un po' alla base del CDVS anche se il CDVS non può rappresentare il primo riferimento nella ricerca dei contenuti, ma sicuramente si va a posizionare in un'area di sistemi che nel complesso forniscono queste funzionalità.
Quindi è importante capire cosa significa fare ricerca visuale nella post produzione e che vantaggi apporta.
La post produzione è la fase in cui gli editor-montatori e la sezione editoriale delle testate costruiscono l'effettiva forma del programma attraverso il montaggio finalizzato, la composizione di varie scene e l'inserimento di effetti e l'arricchimento dei contenuti sia di carattere visuale sia audio con effetti, grafica, etc.
Ciò che l'utente a casa vede tutti i giorni è sempre il risultato di una fase di post produzione. Anche nel programma dal vivo un certo livello di post esiste in sala regia, per l'inserimento di loghi o sottotitoli...
Lo scenario tipico in un'area come la post è prima di tutto il riuso di materiali d'archivio per una nuova produzione e soprattutto in certi generi di programmi come le news ci accorgiamo che il riutilizzo di materiale d'archivio è estremamente spinto; ad esempio in una notizia a sfondo economico spessissimo le immagini sono di archivio su banche, la borsa, su operatori e grafici già utilizzati. In tutti questi casi in redazione, nel montaggio, qualcuno si occupa di reperire le immagini più o meno attinenti e complementari alla comunicazione orale del giornalista.
In altri casi la troupe gira moltissimo materiale grezzo e probabilmente solo il 10% del materiale stesso viene effettivamente utilizzato.
Una selezione efficace di tale materiale diviene per tanto essenziale. Se non altro per organizzare il contenuto e identificare nel materiale grezzo girato quelle sezioni che possono rappresentare un aspetto interessante altrove.
Altro elemento utile potrebbe essere l'analisi e l'indicizzazione di collezioni eterogenee di documenti e al giorno d'oggi la documentazione cross-mediale, cioè che intreccia non solo il broadcast ma anche la rete internet, è caratterizzata dal fatto di utilizzare vari tipi di contenuti come immagini fisse, video, contributi iso generated e così via.
Ritrovare collegamenti all'interno di queste collezioni eterogenee può senza dubbio avvantaggiarsi della ricerca visuale CDVS anche perché è impossibile pensare che tutti gli autori di questi contenuti, così differenti anche per natura, abbiano utilizzato un sistema univoco di catalogazione.
I sistemi di supporto da cui partiamo nella ricerca di immagini è basata su metadati descrittivi e questo però presuppone che qualcuno dietro le quinte fisicamente si sia occupato di scrivere delle annotazioni precise e univoche, altrimenti qualsiasi sequenza diverrebbe del tutto introvabile.
È facile capire come -qui- la ricerca di materiali esistenti potrebbe essere sveltita da questa nuova tecnologia.
Da notare che un archivio come quello di RAI è costituito da programmi finiti ma anche da materiali grezzi ed è evidentemente sterminato.
Il passaggio al digitale terrestre con nuovi canali da riempire può evidentemente trarre vantaggio dal CDVS.
Per sfruttarlo al massimo è indispensabile trovarlo questo materiale utile.
La ricerca con le keyword di tipo testuale funziona fino a un certo punto.
Un altro tipo di approccio da utilizzare in ricerca è l'impiego di sistemi informatici che permettano di analizzare il contenuto degli archivi e -attraverso l'analisi del parlato e grazie all'integrazione con sorgenti di informazione esterne- si possono inventare sistemi utili dove le informazioni essenziali come persone, luoghi e organizzazioni, siano estratte in modo automatico da queste collezioni eterogenee di documenti.
Questi sistemi possono essere usati per filtrare e accedere a repository importanti quali a esempio l'Eurovisione, Internet o l'archivio di stazione in modo sinottico e integrato.
Questo costituisce un miglioramento alle procedure che ci interessano e si utilizzano delle parole chiave e filtri di ricerca.
Però queste tecnologie non riescono ancora a reperire parole che esprimano un aspetto visuale del contenuto e quindi non reperiscono alcuni dettagli molto importanti proprio perché un documentatore o archiviatore mai appunterebbe certi dettagli.
Come dire che tutto quanto rimane implicito nella scena non risulterebbe mai cercabile attraverso le keyword e sarebbe ricercabile solo attraverso l'introduzione di parole visuali.
La tecnologia CDVS permetterebbe di integrare questi sistemi con queste parole visuali, per esempio il fregio di una statua (e.g. la Basilica di San Pietro) e ottenere magari il servizio che durante l'elezione del Papa inquadrava anche la Basilica o la stessa zona; o viceversa effettuare ricerche generiche -per esempio sempre sulla Basilica di San Pietro- da utilizzare in una nuova produzione e trovare l'elezione del Papa.
In pratica già ora il CDVS funziona per un determinato tipo di applicazioni.
Oggi stiamo cercando di introdurre, almeno a livello sperimentale, la tecnologia CDVS nelle nostre piattaforme di riferimento sviluppate nel centro ricerche, un grande sistema distribuito con tanti nodi di calcolo in cui già in passato erano state introdotte diverse funzioni di analisi dei contributi video e quindi ora il nostro interesse è concentrato sul capire come integrare questo standard all'interno della parte di analisi video con tutti i vantaggi che uno standard porta in termini di interoperabilità ed efficienza.
Complessivamente possiamo dire che la ricerca visuale in post produzione apporta potenzialità piuttosto importanti per le nuove produzioni, al limite del rivoluzionario e sono possibili molte altre aree applicative magari più vicine all'utente finale.
Essendo sufficientemente generica può essere adottata da molti contesti, e c'è da aspettarsi che l'impiego di queste tecnologie in concreto farà nascere sempre nuove idee che al momento è anche difficile immaginare.
I primi test di utilizzo sono già promettenti, ci sono alcuni aspetti ancora critici ma il punto di partenza è senz'altro estremamente interessante.
Telecom e RAI sono assieme nel progetto BRIDGET e parte delle ricerche è sponsorizzata dalla Commissione Europea e contribuiremo alla ricerca e lo sviluppo di CDVS.
BRIDGET con RAI
A fianco del MPEG CDVS, Compact Descriptors for Visual Analysis, e come sua estensione naturale oggi si parla anche di un progetto recentissimo:
ossia applicare la ricerca visuale anche al video e in modo efficiente, cioè passare dall'analisi di immagini fisse a quella delle immagini correlare ossia in forte correlazione tra esse. In pratica si tratta di estendere il riconoscimento a una tipologia maggiore di oggetti come categorizzazione di quanto contenuto in una scena.
======IN UN BOX==============================
Il progetto BRIDGET aprirà nuove dimensioni per la creazione e il consumo di contenuti multimediali potenziando programmi in onda con Bridget: si parla di collegamenti dal programma che si sta guardando ad elementi multimediali interattivi esterni come pagine web, immagini, clip audio, vari tipi di video (2D, multi-view, con le informazioni di profondità, punto di vista libero) e modelli 3D sintetici.
Bridget possono essere:
creati automaticamente o manualmente da parte delle emittenti, sia da contenuti propri (per esempio, archivi, Internet e altri servizi) o da fonti Internet più ampie;
creati dagli utenti finali, sia dai loro archivi locali o da contenuti Internet;
trasmessi nel flusso di trasmissione o separatamente;
filtrati da un motore di raccomandazione in base a profilo dell'utente, pertinenza, qualità, ecc;
apprezzati sulla schermata principale o un secondo schermo privato, in un modo user-centric e coinvolgente, ad esempio, all'interno di modelli 3D che consentono agli utenti di collocare se stessi all'interno di un a scena di Augmented Reality (AR) scena nella posizione esatta da cui il contenuto collegato è stato catturato .
Per offrire quanto sopra, BRIDGET svilupperà:
una architettura ibrida di trasmissione/Internet;
un set di strumenti di Authoring professionali (AT) per generare i Bridget e scene di realtà aumentata AR dinamiche con audio spazializzato;
Uno strumento di authoring facile da usare per gli utenti finali;
un player e per selezionare i Bridget, e consumare e navigare le conseguenti scene AR dinamiche.
L'AT e il player utilizzeranno una serie di tecnologie sofisticate e innovative estendendo l'analisi media, la ricerca visiva, e la ricostruzione della scena 3D che consentirà di realizzare servizi ibridi di trasmissione/Internet personalizzati e adattati a un contesto che offra una maggiore interattività multi-screen, contenuti sociali e grande coinvolgimento da nuove forme di esperienze AR.
Strumenti BRIDGET saranno basati su standard internazionali, garantendo così la creazione di un vero mercato orizzontale e l'ecosistema per la TV connessa e applicazioni multimediali.
BRIDGET è il progetto, finanziato dalla CE, di 36 mesi che parte dal 1 novembre 2013 fino al 31 ottobre 2016.
DIDA
E' con piacere che Vi informiamo che è stato creato il GdL "Tecnologie standard per la computer vision" circa le tematiche CDVS-CDVA.
Associandosi ad UNINFO, in questo specifico GdL, sarà possibile partecipare attivamente ai lavori e avere accesso alla documentazione relativa.
Qualora riteniate la Vostra organizzazione interessata a partecipare alla suddetta attività, Vi invitiamo ad inviare una comunicazione a UNINFO (
LINK ALLE FOTO http://www.uninfo.it/index.php/news/eventi/item/cdvs-la-visione-artificiale-per-nuovi-servizi-e-applicazioni-industriali
http://www.telecomitalia.com/tit/it/innovation/events/exhibitions/ricerca-visuale-tecnologia-cdvs.html
https://dl.dropboxusercontent.com/u/16481074/Immagini/Presentazione.jpg
Queste tre immagini, estratte dalla presentazione che avevo fatto, potrebbero essere utili per la pubblicazione:
https://dl.dropboxusercontent.com/u/16481074/Immagini/Visual%20Search.png
https://dl.dropboxusercontent.com/u/16481074/Immagini/Ricerca%20visuale%20contenuti%20broadcast.png
https://dl.dropboxusercontent.com/u/16481074/Immagini/Abbinamnto%20di%20due%20immagini.png