I ricercatori di Apple hanno rilasciato un nuovo modello di intelligenza artificiale open-source capace di modificare immagini in base alle istruzioni dell’utente attraverso il linguaggio naturale.
Chiamato “MGIE“, acronimo di MLLM-Guided Image Editing, utilizza modelli di linguaggio multimodali di grandi dimensioni (MLLM) per interpretare le richieste dell’utente e eseguire manipolazioni a livello di pixel. Il modello è in grado di modificare vari aspetti delle immagini, dai miglioramenti globali della foto come luminosità, contrasto o nitidezza, all’applicazione di effetti artistici come il disegno. La modifica locale può variare dalla forma, dimensione, colore o texture di regioni o oggetti specifici in un’immagine, fino a modifiche in stile Photoshop, come ritagliare, ridimensionare, ruotare, aggiungere filtri o cambiare sfondi e unire immagini.
Un’indicazione dell’utente per una foto di una pizza potrebbe essere “rendila più salutare”. Utilizzando il ragionamento del buon senso, il modello può aggiungere condimenti a base di verdure, come pomodori ed erbe aromatiche. Una richiesta di ottimizzazione globale potrebbe assumere la forma di “aggiungi contrasto per simulare più luce,” mentre una modifica in stile Photoshop potrebbe consistere nel chiedere al modello di rimuovere le persone dallo sfondo di una foto, spostando il focus dell’immagine sull’espressione del soggetto.
Apple ha collaborato con i ricercatori dell’Università della California per creare MGIE, presentato in un articolo alla International Conference on Learning Representations (ICLR) 2024. Il modello è disponibile su GitHub, comprendente codice, dati e modelli pre-allenati.
Questo rappresenta il secondo progresso di Apple nella ricerca di intelligenza artificiale in altrettanti mesi. Alla fine di dicembre, la società ha rivelato di aver compiuto progressi nel deployare grandi modelli di linguaggio (LLM) su iPhone e altri dispositivi con memoria limitata, inventando una tecnica innovativa di utilizzo della memoria flash.
Negli ultimi mesi, la società ha testato un “Apple GPT” rivale che potrebbe competere con ChatGPT. Secondo Mark Gurman di Bloomberg, il lavoro sull’IA è una priorità per Apple, con l’azienda che sta progettando un framework chiamato “Ajax” per grandi modelli di linguaggio.
Sia The Information che l’analista Jeff Pu affermano che Apple avrà una sorta di funzione AI generativa disponibile su iPhone e iPad intorno alla fine del 2024, quando verrà rilasciato iOS 18. Il prossimo aggiornamento per iPhone dovrebbe includere una versione migliorata di Siri con funzionalità AI generative simili a ChatGPT e potrebbe essere il “più grande” aggiornamento software nella storia dell’iPhone, secondo Gurman.
Leggi o Aggiungi Commenti