Μια ματιά στο νέο Al Generative Art

Al Generative Art είναι ένα είδος τέχνης, στις περισσότερες περιπτώσεις εικαστική, που βασίζεται στη συνεργασία μεταξύ ενός ανθρώπου και ενός αυτόνομου συστήματος. Ένα «αυτόνομο σύστημα» ορίζεται ως ένα Τεχνητή νοημοσύνη λογισμικό, αλγόριθμος ή μοντέλο ικανό να εκτελεί σύνθετες λειτουργίες χωρίς την ανάγκη παρέμβασης προγραμματιστή.

Από τις παράξενες αντιπαραθέσεις εικόνων που δημιουργούνται από Dall-E Mini στο NFT στην αγορά, οι εικόνες που παράγονται από αλγόριθμους τεχνητής νοημοσύνης εισέρχονται ολοένα και περισσότερο στην επικρατούσα φαντασία. Μάλιστα, δύο σημαντικά έργα πάνω στο θέμα που αξίζει να αναλυθούν είναι: Μεσοταξίδι και DALL-E2.

Φυσικά, η είδηση έχει φτάσει και στο Twitter. Σχολιάζοντας, μεταξύ άλλων, ο Τσαρλς Χόσκινσον, ο οποίος έγραψε:

Τέχνη που δημιούργησε το AI. Κατάφερα να φτιάξω αυτή την εικόνα μέσα σε λίγα λεπτά. Δεν μπορώ να φανταστώ πόσο αξιοσημείωτη θα είναι αυτή η τεχνολογία σε 3 χρόνια pic.twitter.com/jOToCZj7ki
- Charles Hoskinson (@IOHK_Charles) Φεβρουάριος 1, 2023

Al Generative Art: πρώιμα πειράματα και χαρακτηριστικά

Έχοντας κατανοήσει τι είναι η Generative Art, είναι σημαντικό να τονίσουμε μια από τις ιδρυτικές της αρχές: τυχαία. Η οποία είναι θεμελιώδης ιδιότητα της Γενετικής Τέχνης.

Πράγματι, ανάλογα με τον τύπο του λογισμικού, το αυτόνομο σύστημα μπορεί να επεξεργάζεται αποτελέσματα που είναι πάντα διαφορετικά και μοναδικά κάθε φορά που εκτελείται η εντολή δημιουργίας ή μπορεί να επιστρέψει έναν μεταβλητό αριθμό αποτελεσμάτων ως απόκριση στην είσοδο του χρήστη.

Τα πρώτα πειράματα στη Generative Art χρονολογούνται στη δεκαετία του 1960 με τα πειράματα του Χάρολντ Κοέν και του Άαρον πρόγραμμα. Ο Κοέν χρησιμοποίησε για πρώτη φορά αυτόνομο λογισμικό για να δημιουργήσει αφηρημένα έργα τέχνης εμπνευσμένα από μεταξοτυπίες Pop Art. Τα έργα του Κοέν εκτίθενται τώρα στην Tate Gallery στο Λονδίνο.

Ένα άλλο χαρακτηριστικό της Generative Art, που όμως είναι όλο και λιγότερο προνόμιο, είναι η επανάληψη μοτίβων ή αφηρημένων στοιχείων που παρέχονται από τον προγραμματιστή και υλοποιούνται εντός του κώδικα λογισμικού.

Επιπλέον, η ανάπτυξη όλο και πιο πολύπλοκων νευρωνικών δικτύων που λειτουργούν με συσχετισμό κειμένου-εικόνας επέτρεψε την ανάπτυξη μοντέλων παραγωγής ικανών να δημιουργούν όλο και πιο ρεαλιστικές και ακριβείς εικόνες. Το πιο γνωστό παράδειγμα αυτής της κατηγορίας Generative Art είναι Νταλ-Ε.

Το Dall-E είναι ένα πολυτροπικό νευρωνικό δίκτυο που βασίζεται στο GPT-3 μοντέλο βαθιάς μάθησης από OpenAI, την ίδια εταιρεία που επίσης αναπτύχθηκε πρόσφατα ChatGPT, το chatbot κυκλοφόρησε τον Νοέμβριο του 2022 και βελτιστοποιήθηκε με «εποπτευόμενος» και τεχνικές ενισχυτικής μάθησης.

Επιστρέφοντας στο Dall-E, βλέπουμε ότι αυτό το σύστημα είναι ικανό να παράγει εικόνες από μια περιγραφή κειμένου, που ονομάζεται "προτροπή," με βάση ένα σύνολο δεδομένων ζευγών κειμένου-εικόνας.

Η πρώτη έκδοση του Dall-E, η οποία παρουσιάστηκε στο κοινό τον Ιανουάριο του 2021 και παρέμεινε προνόμιο ενός μικρού αριθμού επαγγελματιών του κλάδου, αντιπροσώπευε μια πραγματική επανάσταση όσον αφορά αυτόν τον τύπο παραγωγικού μοντέλου, ξεπερνώντας τις καινοτομίες του GPT- 3 η ίδια.

Σημαντικό είναι επίσης το γεγονός ότι η ακρίβεια των αποτελεσμάτων που επεξεργάστηκε το Dall-E αποδείχθηκε ότι ήταν το τέλειο πεδίο για μια άλλη λύση OpenAI: CLIP (Contrastive Language-Image Pre-training).

Ένα νευρωνικό δίκτυο ταξινόμησης και κατάταξης εικόνων που εκπαιδεύεται με βάση συσχετισμούς κειμένου-εικόνας, όπως λεζάντες που βρίσκονται στο Διαδίκτυο. Χάρη στην παρέμβαση του CLIP, που μειώνει τον αριθμό των αποτελεσμάτων που προτείνονται στον χρήστη ανά προτροπή σε 32, το Dall-E βρέθηκε να επιστρέφει ικανοποιητικές εικόνες στις περισσότερες περιπτώσεις.

Midjourney: σχεδιασμός, ανθρώπινη υποδομή και τεχνητή νοημοσύνη

Όπως αναμενόταν, Μεσοταξίδι είναι ένα σημαντικό έργο που αποτελεί μέρος της αναδυόμενης ιδέας Al Generative Art. Συγκεκριμένα, το Midjourney είναι ένα ανεξάρτητο ερευνητικό εργαστήριο που εξερευνά νέα μέσα σκέψης και διευρύνει τις φαντασιακές δυνάμεις του ανθρώπινου είδους.

Η χρήση του είναι απλή: πρώτα πρέπει να δημιουργηθεί ένας λογαριασμός Διχόνοια, μια πλατφόρμα που φιλοξενεί διάφορες κοινότητες, όπου το Midjourney είναι μία από αυτές. Μέσα στην εφαρμογή βρίσκονται τα διάφορα chatrooms στα οποία μπορεί κανείς να συμμετέχει ενεργά ή όχι σε συζητήσεις.

Είναι σημαντικό να επισημάνουμε ότι για να δοκιμάσετε να χρησιμοποιήσετε την Τεχνητή Νοημοσύνη για πρώτη φορά πρέπει να πάτε στο “πρωτάκια” κανάλια, όπου 25 δωρεάν renders είναι διαθέσιμες.

Μία απόδοση αντιστοιχεί στη δημιουργία τεσσάρων διαφορετικών παραλλαγών που δημιουργούνται από την ίδια είσοδο κειμένου.

Έτσι, οι 25 αποδόσεις αναφέρονται σε 25 εργασίες επεξεργασίας που εκτελούνται από το bot Midjourney. Κατά συνέπεια, η δημιουργία της εικόνας απαιτεί αλληλεπίδραση με το ρομπότ Midjourney μέσω ενός μηνύματος κειμένου που ονομάζεται "προτροπή", στο οποίο θα υπάρχουν λέξεις-κλειδιά που περιγράφουν την εικόνα που έχει στο μυαλό του ο χρήστης.

Μπορείτε να προσθέσετε όσες λεπτομέρειες θέλετε, το σημαντικό είναι να διαιρέσετε τις λέξεις-κλειδιά με κόμμα. Μόλις ολοκληρωθεί η απόδοση, ο υπολογιστής επιστρέφει τέσσερις διαφορετικές εικόνες με βάση τις περιγραφές από τις οποίες μπορείτε να επιλέξετε.

Επιπλέον, μόλις ολοκληρωθεί η απόδοση του προγράμματος, μπορείτε να επικοινωνήσετε τις προτιμήσεις σας με βάση τις εικόνες και, αν θέλετε, να δημιουργήσετε ξανά τέσσερις άλλες εκδόσεις.

DALL-E 2: το νέο σύστημα AI για έργα τέχνης

Εκτός από το Midjourney, το DALL-E 2 είναι επίσης το νέο σύστημα AI που μπορεί να δημιουργήσει ρεαλιστικές εικόνες και έργα τέχνης από περιγραφή φυσικής γλώσσας. Όχι μόνο αυτό, το DALL-E 2 μπορεί επίσης να συνδυάσει έννοιες, χαρακτηριστικά και στυλ.

Η δύναμη του νέου συστήματος AI έγκειται επίσης στο ότι μπορεί να επεκτείνει τις εικόνες πέρα από αυτό που υπάρχει στον αρχικό καμβά, δημιουργώντας νέες επεκτατικές συνθέσεις. Επιπλέον, μπορεί να κάνει ρεαλιστικές αλλαγές σε υπάρχουσες εικόνες από μια λεζάντα φυσικής γλώσσας και μπορεί να προσθέτει και να αφαιρεί στοιχεία λαμβάνοντας υπόψη τις σκιές, τις αντανακλάσεις και τις υφές.

Οι δυνατότητες του DALL-E 2 περιλαμβάνουν επίσης τη λήψη μιας εικόνας και τη δημιουργία πολλών παραλλαγών της εμπνευσμένες από το πρωτότυπο. Το DALL-E 2 έχει μάθει τη σχέση μεταξύ των εικόνων και του κειμένου που χρησιμοποιείται για την περιγραφή τους.

Χρησιμοποιεί μια διαδικασία που ονομάζεται "διάχυση," που ξεκινά με ένα μοτίβο τυχαίων κουκκίδων και σταδιακά αλλάζει αυτό το μοτίβο προς μια εικόνα όταν αναγνωρίζει συγκεκριμένες πτυχές αυτής της εικόνας.

Έτσι, αφού το OpenAI παρουσίασε το DALL-E τον Ιανουάριο του 2021, τώρα το νεότερο σύστημα, το DALL-E 2, παράγει πιο ρεαλιστικές και ακριβείς εικόνες με τετραπλάσια ανάλυση.

Το DALL-E 2 ξεκίνησε ως ερευνητικό έργο και τώρα είναι διαθέσιμο ως δοκιμαστική έκδοση. Τα μέτρα μετριασμού ασφαλείας που έχει αναπτύξει το σύστημα και συνεχίζει να βελτιώνει περιλαμβάνουν: τον περιορισμό της ικανότητας του συστήματος να δημιουργεί εικόνες βίας, μίσους ή ενηλίκων και σταδιακή ανάπτυξη με βάση τη μάθηση.

Πηγή: https://en.cryptonomist.ch/2023/02/02/ai-generative-art/