Cohere lancia Aya Vision
Cohere ha lanciato Aya Vision, un modello AI multimodale in grado di scrivere didascalie, rispondere a domande e tradurre testi in 23 lingue. Disponibile gratuitamente su WhatsApp, mira a colmare il divario nelle prestazioni tra lingue diverse. Include due versioni, 32B e 8B, con prestazioni competi

Cohere, una startup di intelligenza artificiale, ha recentemente rilasciato un modello AI multimodale chiamato Aya Vision, che è stato descritto come il migliore della sua categoria. Questo modello è in grado di svolgere diverse funzioni, tra cui scrivere didascalie per le immagini, rispondere a domande relative a foto, tradurre testi e generare riassunti in 23 lingue principali. Cohere ha reso Aya Vision disponibile gratuitamente tramite WhatsApp, sottolineando l'importanza di rendere le innovazioni tecniche accessibili ai ricercatori di tutto il mondo.
Cohere ha evidenziato che, nonostante i progressi significativi dell'AI, esiste ancora un grande divario nelle prestazioni dei modelli tra le diverse lingue. Questo divario è particolarmente evidente nei compiti multimodali che coinvolgono sia testo che immagini. Aya Vision è progettato per contribuire a colmare questa lacuna. Il modello è disponibile in due versioni: Aya Vision 32B e Aya Vision 8B. La versione 32B è considerata la più avanzata e supera modelli di dimensioni doppie, come Meta's Llama-3.2 90B Vision, in alcuni benchmark di comprensione visiva. D'altra parte, Aya Vision 8B ha ottenuto punteggi migliori rispetto a modelli dieci volte più grandi in alcune valutazioni.
Entrambi i modelli possono essere scaricati dalla piattaforma di sviluppo AI Hugging Face sotto una licenza Creative Commons 4.0, con un addendum sull'uso accettabile di Cohere. Tuttavia, non possono essere utilizzati per applicazioni commerciali. Aya Vision è stato addestrato utilizzando un ampio insieme di dati in inglese, che sono stati tradotti e utilizzati per creare annotazioni sintetiche. Le annotazioni aiutano i modelli a comprendere e interpretare i dati durante il processo di addestramento. Ad esempio, per addestrare un modello di riconoscimento delle immagini, le annotazioni possono includere marcature attorno agli oggetti o didascalie che si riferiscono a persone, luoghi o oggetti presenti in un'immagine.
Cohere ha adottato un approccio innovativo utilizzando annotazioni sintetiche, generate dall'AI, per il training di Aya Vision. Questo approccio è in linea con le tendenze attuali nel settore, dove aziende come OpenAI stanno sempre più sfruttando i dati sintetici per addestrare i modelli, poiché la disponibilità di dati reali sta diminuendo. Secondo Gartner, il 60% dei dati utilizzati per progetti di AI e analisi lo scorso anno era stato creato sinteticamente. Cohere ha affermato che l'uso di annotazioni sintetiche ha permesso di ridurre le risorse necessarie pur mantenendo prestazioni competitive. Questo approccio mira a supportare maggiormente la comunità di ricerca, che spesso ha accesso limitato a risorse di calcolo.
Insieme a Aya Vision, Cohere ha anche lanciato un nuovo set di benchmark chiamato AyaVisionBench, progettato per valutare le competenze di un modello in compiti di "vision-language", come identificare le differenze tra due immagini e convertire screenshot in codice. L'industria dell'AI sta affrontando una crisi di valutazione, dovuta alla popolarità di benchmark che forniscono punteggi aggregati che non correlano bene con le competenze nei compiti che interessano maggiormente gli utenti di AI. Cohere sostiene che AyaVisionBench rappresenta un passo verso la risoluzione di questo problema, offrendo un framework ampio e impegnativo per valutare la comprensione cross-lingua e multimodale di un modello.