L’intelligenza artificiale sta cambiando il mondo dell’arte in modi straordinari. Una delle affascinanti applicazioni dell’intelligenza artificiale nel segmento dell’arte è attraverso l’utilizzo di generatori di arte descrittiva. Questi generatori hanno la capacità di esaminare e interpretare le immagini e generare opere d’arte completamente nuove in base alla loro analisi.
In questo articolo, discutiamo di tre di questi generatori di arte AI: MidJourney, Stable Diffusion e Microsoft Bing Image Creator, e quale tra i tre è il migliore nel generare i migliori risultati in base ai prompt.
Sommario:
A metà viaggio
MidJourney, fondato da David Holz, è un generatore di arte AI che utilizza l’apprendimento automatico per identificare modelli e caratteristiche in opere d’arte esistenti, che possono quindi essere utilizzate per creare nuovi pezzi.
MidJourney è entrato in open beta il 12 luglio 2022. Prima di lanciare MidJourney, Holz ha co-fondato Leap Motion, una startup che ha trasformato le interfacce utente utilizzando l’acquisizione video e i gesti delle mani. Nel 2019 ha venduto Leap Motion a Ultrahaptics.
Con MidJourney che guadagna popolarità, Holz ha condiviso le sue intuizioni sulla tecnologia e la sua influenza sull’arte e sulla società. Holz considera gli artisti clienti di MidJourney, non concorrenti, e ritiene che la piattaforma possa facilitare una maggiore creatività e sperimentazione nella fase di ideazione.
Tuttavia, ci sono preoccupazioni per la potenziale violazione del copyright dal set di formazione di MidJourney, che potrebbe includere opere protette da copyright di altri artisti.
Holz sottolinea che MidJourney è progettato per migliorare le capacità umane piuttosto che sostituirle. Lo paragona alle macchine, spiegando che solo perché le macchine sono più veloci degli umani, non significa che dovremmo tagliarci le gambe.
Utilizzando la generazione di immagini AI di MidJourney, gli artisti possono esplorare nuove possibilità e generare numerose idee prima di creare le proprie opere.
Diffusione stabile
Stable Diffusion è un modello di apprendimento automatico open source in grado di generare immagini dal testo, modificare le immagini in base al testo o inserire dettagli su immagini a bassa risoluzione o con pochi dettagli. È stato addestrato su miliardi di immagini e può produrre risultati paragonabili a quelli che otterresti da DALL-E 2 e MidJourney.
Emad Mostaque, fondatore e CEO di Stability AI, è la società responsabile di Stable Diffusion. Stable Diffusion è un modello di diffusione latente sviluppato dal gruppo CompVis alla LMU di Monaco, ed è stato progettato da Patrick Esser e Robin Rombach, che in precedenza hanno creato l’architettura del modello di diffusione latente utilizzata da Stable Diffusion.
Una collaborazione tra Stability AI, CompVis LMU, Runway, EleutherAI e LAION ha reso disponibile al pubblico Stable Diffusion.
La diffusione stabile può essere distribuita su varie piattaforme, inclusi dispositivi Windows e Apple. L’utilizzo della distribuzione su dispositivo in un’app può salvaguardare la privacy degli utenti, che è preferibile a un approccio basato su server.
Microsoft Bing Image Creator
Microsoft ha presentato un nuovo strumento chiamato Bing Image Creator, che consente agli utenti di creare le proprie immagini direttamente all’interno di Microsoft Edge. L’azienda ha rilasciato una suite di strumenti per creatori progettati per stimolare la creatività e l’espressione personale. Lo strumento consente agli utenti di creare immagini personalizzate per condividere i loro aggiornamenti sulla vita o per qualsiasi altro scopo di cui potrebbero aver bisogno.
Gli utenti possono accedere facilmente a Image Creator dalla barra laterale di Microsoft Edge. Microsoft ha adottato misure proattive per garantire che lo strumento venga utilizzato in modo responsabile e non faciliti la diffusione di contenuti offensivi.
La società ha stabilito una politica sui contenuti che proibisce l’uso di Image Creator in determinati casi e gli utenti possono segnalare eventuali violazioni di questa politica. Inoltre, Microsoft ha implementato la tecnologia per affrontare potenziali pregiudizi che potrebbero sorgere nella tecnologia dell’immagine generativa.
In questo articolo, intraprenderemo un viaggio per valutare i risultati di ciascun generatore di immagini AI descrittive quando richiesto con messaggi di testo identici.
Prompt 1: Babbo Natale moderno su una slitta trainata da renne in una calda e luminosa giornata di sole su un’autostrada
Prompt 2: un’inquadratura ravvicinata di un animale con grandi occhi, che cattura la sua innocenza e dolcezza
Prompt 3: Un astronauta umano che gioca ad atterrare su un nuovo pianeta è il benvenuto da creature aliene ostili che estraggono le loro armi
Prompt 4: arte astratta moderna di una copertina del libro di un romanzo ambientato a New York City in colori vivaci e audaci
Prompt 5: Un uomo che decide tra due piatti: uno con la pizza e uno con sopra un cheeseburger
Prompt 6: Un guerriero ferito in sella al suo cavallo su una montagna innevata con una spada in mano
Prompt 7: Un’immagine astratta che utilizza diverse sfumature che mostra il movimento e il flusso dell’acqua
Prompt 8: Salmone in un fiume con lussureggianti alberi verdi sullo sfondo
Prompt 9: Un bicchiere d’acqua su un tavolo con un limone spremuto da una mano
Prompt 10: Vista dell’orizzonte in un deserto dal punto di vista delle persone che vi cavalcano un elefante
Prompt 11: Una foresta dove la carta moneta cresce sugli alberi e gli uccelli sono fatti di monete
Prompt 12: Ciotola di ramen, cel shading, illuminazione serale, fotorealistica
Prompt 13: Elon Musk è povero e disoccupato
Verdetto
Dopo aver valutato i risultati di MidJourney, Stable Diffusion e Bing Image Creator, è evidente che non esiste un vincitore definitivo.
Ogni generatore interpreta i prompt in modo distinto, con somiglianze riscontrate negli output di Bing Image Creator e MidJourney. La diffusione stabile è efficiente quando i prompt hanno descrizioni chiare ma spesso prendono le parole troppo alla lettera. Sebbene MidJourney e Bing Image Creator abbiano generalmente successo, occasionalmente producono risultati che non corrispondono ai prompt.
In particolare, Bing Image Creator utilizza cautela nel generare qualsiasi output offensivo o incitante, emettendo un messaggio di avviso quando viene richiesto di creare un’immagine di un Elon Musk povero e disoccupato. L’adozione di tali misure protettive da parte di Microsoft è encomiabile.
Nel frattempo, l’esperienza della rete neurale di MidJourney ha generato un’immagine di un Elon Musk indigente e abbandonato. Pertanto, si può concludere che ciascun generatore soddisferà la rispettiva base di utenti.