MidJourney contro Diffusione stabile contro Bing Image Creator

L’intelligenza artificiale sta cambiando il mondo dell’arte in modi straordinari. Una delle affascinanti applicazioni dell’intelligenza artificiale nel segmento dell’arte è attraverso l’utilizzo di generatori di arte descrittiva. Questi generatori hanno la capacità di esaminare e interpretare le immagini e generare opere d’arte completamente nuove in base alla loro analisi.

In questo articolo, discutiamo di tre di questi generatori di arte AI: MidJourney, Stable Diffusion e Microsoft Bing Image Creator, e quale tra i tre è il migliore nel generare i migliori risultati in base ai prompt.

A metà viaggio

MidJourney, fondato da David Holz, è un generatore di arte AI che utilizza l’apprendimento automatico per identificare modelli e caratteristiche in opere d’arte esistenti, che possono quindi essere utilizzate per creare nuovi pezzi.

MidJourney è entrato in open beta il 12 luglio 2022. Prima di lanciare MidJourney, Holz ha co-fondato Leap Motion, una startup che ha trasformato le interfacce utente utilizzando l’acquisizione video e i gesti delle mani. Nel 2019 ha venduto Leap Motion a Ultrahaptics.

Con MidJourney che guadagna popolarità, Holz ha condiviso le sue intuizioni sulla tecnologia e la sua influenza sull’arte e sulla società. Holz considera gli artisti clienti di MidJourney, non concorrenti, e ritiene che la piattaforma possa facilitare una maggiore creatività e sperimentazione nella fase di ideazione.

Tuttavia, ci sono preoccupazioni per la potenziale violazione del copyright dal set di formazione di MidJourney, che potrebbe includere opere protette da copyright di altri artisti.

Holz sottolinea che MidJourney è progettato per migliorare le capacità umane piuttosto che sostituirle. Lo paragona alle macchine, spiegando che solo perché le macchine sono più veloci degli umani, non significa che dovremmo tagliarci le gambe.

Utilizzando la generazione di immagini AI di MidJourney, gli artisti possono esplorare nuove possibilità e generare numerose idee prima di creare le proprie opere.

Diffusione stabile

Stable Diffusion è un modello di apprendimento automatico open source in grado di generare immagini dal testo, modificare le immagini in base al testo o inserire dettagli su immagini a bassa risoluzione o con pochi dettagli. È stato addestrato su miliardi di immagini e può produrre risultati paragonabili a quelli che otterresti da DALL-E 2 e MidJourney.

Emad Mostaque, fondatore e CEO di Stability AI, è la società responsabile di Stable Diffusion. Stable Diffusion è un modello di diffusione latente sviluppato dal gruppo CompVis alla LMU di Monaco, ed è stato progettato da Patrick Esser e Robin Rombach, che in precedenza hanno creato l’architettura del modello di diffusione latente utilizzata da Stable Diffusion.

Una collaborazione tra Stability AI, CompVis LMU, Runway, EleutherAI e LAION ha reso disponibile al pubblico Stable Diffusion.

La diffusione stabile può essere distribuita su varie piattaforme, inclusi dispositivi Windows e Apple. L’utilizzo della distribuzione su dispositivo in un’app può salvaguardare la privacy degli utenti, che è preferibile a un approccio basato su server.

Microsoft Bing Image Creator

Microsoft ha presentato un nuovo strumento chiamato Bing Image Creator, che consente agli utenti di creare le proprie immagini direttamente all’interno di Microsoft Edge. L’azienda ha rilasciato una suite di strumenti per creatori progettati per stimolare la creatività e l’espressione personale. Lo strumento consente agli utenti di creare immagini personalizzate per condividere i loro aggiornamenti sulla vita o per qualsiasi altro scopo di cui potrebbero aver bisogno.

Gli utenti possono accedere facilmente a Image Creator dalla barra laterale di Microsoft Edge. Microsoft ha adottato misure proattive per garantire che lo strumento venga utilizzato in modo responsabile e non faciliti la diffusione di contenuti offensivi.

La società ha stabilito una politica sui contenuti che proibisce l’uso di Image Creator in determinati casi e gli utenti possono segnalare eventuali violazioni di questa politica. Inoltre, Microsoft ha implementato la tecnologia per affrontare potenziali pregiudizi che potrebbero sorgere nella tecnologia dell’immagine generativa.

In questo articolo, intraprenderemo un viaggio per valutare i risultati di ciascun generatore di immagini AI descrittive quando richiesto con messaggi di testo identici.

Prompt 1: Babbo Natale moderno su una slitta trainata da renne in una calda e luminosa giornata di sole su un’autostrada

Prompt 2: un’inquadratura ravvicinata di un animale con grandi occhi, che cattura la sua innocenza e dolcezza

Prompt 3: Un astronauta umano che gioca ad atterrare su un nuovo pianeta è il benvenuto da creature aliene ostili che estraggono le loro armi

Prompt 4: arte astratta moderna di una copertina del libro di un romanzo ambientato a New York City in colori vivaci e audaci

Prompt 5: Un uomo che decide tra due piatti: uno con la pizza e uno con sopra un cheeseburger

Prompt 6: Un guerriero ferito in sella al suo cavallo su una montagna innevata con una spada in mano

Prompt 7: Un’immagine astratta che utilizza diverse sfumature che mostra il movimento e il flusso dell’acqua

Prompt 8: Salmone in un fiume con lussureggianti alberi verdi sullo sfondo

Prompt 9: Un bicchiere d’acqua su un tavolo con un limone spremuto da una mano

Prompt 10: Vista dell’orizzonte in un deserto dal punto di vista delle persone che vi cavalcano un elefante

Prompt 11: Una foresta dove la carta moneta cresce sugli alberi e gli uccelli sono fatti di monete

Prompt 12: Ciotola di ramen, cel shading, illuminazione serale, fotorealistica

Prompt 13: Elon Musk è povero e disoccupato

Verdetto

Dopo aver valutato i risultati di MidJourney, Stable Diffusion e Bing Image Creator, è evidente che non esiste un vincitore definitivo.

Ogni generatore interpreta i prompt in modo distinto, con somiglianze riscontrate negli output di Bing Image Creator e MidJourney. La diffusione stabile è efficiente quando i prompt hanno descrizioni chiare ma spesso prendono le parole troppo alla lettera. Sebbene MidJourney e Bing Image Creator abbiano generalmente successo, occasionalmente producono risultati che non corrispondono ai prompt.

In particolare, Bing Image Creator utilizza cautela nel generare qualsiasi output offensivo o incitante, emettendo un messaggio di avviso quando viene richiesto di creare un’immagine di un Elon Musk povero e disoccupato. L’adozione di tali misure protettive da parte di Microsoft è encomiabile.

Nel frattempo, l’esperienza della rete neurale di MidJourney ha generato un’immagine di un Elon Musk indigente e abbandonato. Pertanto, si può concludere che ciascun generatore soddisferà la rispettiva base di utenti.