Τι σημαίνει το νέο Text-to-3D της Nvidia για τη μηχανική και το σχεδιασμό προϊόντων

tl? dr: Το Generative AI εξελίσσεται με συναρπαστικό ρυθμό. Ο πιο πρόσφατος αλγόριθμος της Nvidia μετατρέπει κείμενο σε τρισδιάστατο πλέγμα δύο φορές πιο γρήγορα από έργα που δημοσιεύτηκαν μόλις πριν από 3 μήνες. Αυτό σημαίνει ότι οι τεχνικές δυνατότητες ξεπερνούν ήδη την ικανότητά μας να συνεργαστούμε μαζί τους.

Την περασμένη εβδομάδα χαρτί από επιστήμονες της Nvidia απέδειξαν την εκθετική ταχύτητα με την οποία εξελίσσεται ο χώρος παραγωγής τεχνητής νοημοσύνης. Αυτή η έκρηξη δραστηριότητας – ιδιαίτερα ορατή τους τελευταίους 9 μήνες – θα έχει αντίκτυπο σε κάθε μέρος της ζωής, κυρίως στο σχεδιασμό, τη μηχανική και την παραγωγή προϊόντων. Οι αλλαγές θα απεγκλωβίσουν τη βιομηχανία από τους διαρθρωτικούς περιορισμούς στον τρόπο επικοινωνίας των ιδεών, θα ενισχύσουν τους ταχύτερους κύκλους καινοτομίας και θα της επιτρέψουν τελικά να εκπληρώσει τις υποσχέσεις της για βιωσιμότητα.

Παράδειγμα Meshes από τους αλγόριθμους Magic 3D της Nvidia Research, με τα μηνύματα που χρησιμοποιούνται για τη δημιουργία τους.

Nvidia Deep Imagination Research

Έχοντας ειπωθεί εδώ και χρόνια ότι η τεχνητή νοημοσύνη θα έφερε θεμελιώδη επανάσταση στον τρόπο που εργαζόμαστε, λίγοι περίμεναν ότι ο δημιουργικός τομέας θα ήταν από τα πρώτα θύματά του. Η εμφάνιση της ανθρώπινης δημιουργίας κειμένου του GPT-3 το 2020 έφερε τις δυνατότητες σε μεγαλύτερη εστίαση. Ήταν μια τρελή διαδρομή από τότε: DALL-E (κείμενο σε εικόνα), Whisper (αναγνώριση ομιλίας) και πιο πρόσφατα Stable Diffusion (κείμενο σε εικόνα) όχι μόνο αύξησαν τις δυνατότητες ομιλίας και οπτικών εργαλείων AI, αλλά και μείωσε τους πόρους που απαιτούνται για τη χρήση τους (από 175 δισεκατομμύρια παραμέτρους για το GPT-3 σε 900 εκατομμύρια για τη Σταθερή Διάχυση).

Το μέγεθος του Stable Diffusion σημαίνει λιγότερο από 5gb χώρο στο δίσκο – που μπορεί να εκτελεστεί σε οποιοδήποτε φορητό υπολογιστή. Οχι μόνο αυτό; Σε αντίθεση με το OpenAI (το οποίο χρηματοδοτείται κυρίως από τη Microsoft και δημοσιεύει τα GPT-3, DALL-E και Whisper), το Stable Diffusion είναι ανοιχτού κώδικα, που σημαίνει ότι άλλοι μπορούν να αξιοποιήσουν τις γνώσεις του πολύ πιο εύκολα. Αυτό σημαίνει ότι βλέπουμε μόνο την αρχή του καινοτόμου κύκλου – όπως δείχνει τώρα το έγγραφο της Nvidia, θα ακολουθήσουν πολλά περισσότερα.

Οι υποστηρικτές της Stable Diffusion (stability.ai) προωθούν περαιτέρω αυτή την τάση παρέχοντας τεχνολογικές και οικονομικές επιχορηγήσεις σε άλλες ομάδες που οδηγούν την εξερεύνηση σε νέες κατευθύνσεις. Επιπλέον, μια πληθώρα έργων καθιστά τα εργαλεία διαθέσιμα σε ένα ολοένα ευρύτερο φάσμα χρηστών. Μεταξύ αυτών είναι πρόσθετα για το Blender, ένα εργαλείο σχεδιασμού ανοιχτού κώδικα, και το ιδιόκτητο αντίστοιχο της Adobe στο Photoshop. Η πλήρης πρόσβαση API στα εργαλεία χρηματοδοτείται με μεγάλα δολάρια Venture Capital, πράγμα που σημαίνει ότι εκατοντάδες εκατομμύρια προγραμματιστές λογισμικού, όχι μόνο μερικές εκατοντάδες χιλιάδες μηχανικοί δεδομένων, θα δημιουργήσουν τώρα τα δικά τους εργαλεία σε αυτούς τους αλγόριθμους.

Ο λόγος, οι εικόνες και το κείμενο είναι από τους πρώτους κλάδους που διαταράσσονται από αυτές τις τεχνολογίες. Αλλά το 3D δεν είναι πολύ πίσω. Πέρα από την εξειδικευμένη τέχνη, τα κινούμενα σχέδια είναι το προφανές πρώτο σημείο εφαρμογής. Υπάρχει ήδη μια γεννήτρια Pokémon που βασίζεται στο Stable Diffusion. Τα Visual Effects και οι ταινίες ακολουθούν. Ωστόσο, πολλοί άλλοι τομείς είναι πιθανό να διαταραχθούν – μεταξύ αυτών ο εσωτερικός σχεδιασμός με το Interiorai.com να ηγείται της χρέωσης.

Μέσα σε όλον αυτόν τον ενθουσιασμό, η εφαρμογή των καινοτομιών στο Design & Engineering φαίνεται σαν μια μεταγενέστερη σκέψη. Ωστόσο, είναι πιθανό να είναι η περιοχή που τελικά επηρεάστηκε περισσότερο. Φυσικά, υπάρχουν αρχικές προκλήσεις: Για ένα, το Stable Diffusion και οι συμπατριώτες του δεν είναι ακόμη πολύ ακριβείς. Αυτό δεν αποτελεί πρόβλημα για τα κινούμενα σχέδια, αλλά είναι μια μεγάλη πρόκληση για κάθε προσπάθεια μετατροπής κειμένου σε πλήρεις τρισδιάστατες γεωμετρίες που χρησιμοποιούνται σε βιομηχανικά περιβάλλοντα. Αυτή είναι μια περιοχή που είχε κάποιο εκκολαπτόμενο ενδιαφέρον (ένα έργο που ονομάζεται Bits3 ξεκίνησε στο Ισραήλ το 101). Αυτό μπορεί να είναι το ιερό δισκοπότηρο του κλάδου, αλλά υπάρχουν πολλές ενδιάμεσες προκλήσεις που μπορεί να είναι πολύ πιο εύκολο να επιλυθούν. Αυτά περιλαμβάνουν βελτιωμένη αναγνώριση αντικειμένων (ο αλγόριθμος Yolo χρησιμοποιείται ήδη με μεγάλη αποτελεσματικότητα), η οποία θα οδηγήσει σε βελτιωμένη αναφορά και σχολιασμό – βελτίωση της ποιότητας και μείωση των λαθών. Τα πρόσθετα θα πρέπει επίσης να διευκολύνουν τη χρήση του Generative AI για την ανάπτυξη βασικών σχεδίων (Primitives), τα οποία στη συνέχεια μπορούν να επεξεργαστούν περαιτέρω σε εργαλεία σχεδίασης για τη βελτίωση της ανοχής σύμφωνα με την απαίτηση. Αυτή είναι μια προσέγγιση που χρησιμοποιείται ήδη στο Inspire του Altair, το οποίο χρησιμοποίησε την Ανάλυση πεπερασμένων στοιχείων για να κάνει το ίδιο. Αυτά τα Primitives μπορούν επίσης να χρησιμεύσουν ως συνθετική βάση δεδομένων σχολιασμένων μοντέλων, από τα οποία υπάρχει έλλειψη στη βιομηχανία 2015D CAD. Διευθύνων Σύμβουλος και ιδρυτής της Physna το επισημαίνει σε άρθρο περιγράφοντας λεπτομερώς τις προσπάθειές τους να χρησιμοποιήσουν αυτές τις καινοτόμες μεθόδους για τη δημιουργία λεπτομερών τρισδιάστατων σχεδίων, γεγονός που υπογραμμίζει επίσης μια σειρά από παγίδες στη χρήση συνθετικών δεδομένων για την οδήγηση αυτών των αλγορίθμων. βιβλιοθήκη φθοράς εργαλείων για τον προσδιορισμό των καλύτερων στρατηγικών μηχανικής κατεργασίας.

Αυτές οι προκλήσεις είναι σημαντικές και επικερδείς για να αντιμετωπιστούν από μόνες τους. Ωστόσο, ο κύριος αντίκτυπός τους θα είναι να βοηθήσουν στην εξέλιξη της οδού ιδέας-σχεδίου μειώνοντας τελικά την εξάρτηση από τα τρισδιάστατα σχέδια για την επικοινωνία της πρόθεσης. Τα σχέδια, είτε δισδιάστατα είτε τρισδιάστατα, έχουν χρησιμεύσει ως το κύριο μέσο για τη μετάφραση των αναγκών των πελατών στα τελικά προϊόντα. Αυτό περιορίζει τη βιομηχανία, επειδή αυτά τα σχέδια χρησιμεύουν ως ένα μαύρο κουτί στο οποίο αποθηκεύονται όλες αυτές οι πολύτιμες γνώσεις πελατών, οι περιορισμοί παραγωγής και οι στόχοι της εταιρείας, που δεν μπορούν να διαχωριστούν, αλλά να εντοπιστούν μόνα τους. Αυτό σημαίνει ότι όταν κάτι αλλάζει, είναι σχεδόν αδύνατο να προσαρμόσετε απλώς το σχέδιο. Αυτός είναι ο λόγος που οι καινοτομίες κατασκευής όπως η τρισδιάστατη εκτύπωση χρειάζονται πολύ χρόνο για να υιοθετηθούν και να απογοητεύουν διαρκώς τους βραχυπρόθεσμους επενδυτές. Τα εξαρτήματα που συνθέτουν ένα αεροσκάφος «ρυθμίζονται» από τη στιγμή που σχεδιάζονται, παρά την παραγωγική ζωή 3+ ετών. Δεν υπάρχει σχεδόν κανένα πεδίο καινοτομίας – αυτές πρέπει να περιμένουν την κυκλοφορία της επόμενης γενιάς.

Το να μπορούμε να αλλάξουμε έναν μόνο περιορισμό και να επιτρέψουμε σε έναν αλγόριθμο όπως το Stable Diffusion να ανασυνθέσει τις παραμέτρους σχεδίασης και παραγωγής θα επιταχύνει σημαντικά την υιοθέτηση νέων καινοτομιών και θα μας επιτρέψει να κατασκευάζουμε ελαφρύτερα προϊόντα με καλύτερη απόδοση, πιο γρήγορα. Όπως κάνουν στη Formula 1 ή στο Systems Design, οι μελλοντικοί μηχανικοί θα ενεργούν ως διαχειριστές περιορισμών ικανοί να εκφράσουν με λόγια και με αναφορά σε πηγές δεδομένων ποιος είναι ο στόχος και οι περιορισμοί του προϊόντος.

Χωρίς να επιταχύνουμε τη διαδικασία μηχανικής για νέα και υπάρχοντα προϊόντα με αυτόν τον τρόπο, δεν έχουμε σχεδόν κανένα μέσο για να επιτύχουμε τους φιλόδοξους στόχους βιωσιμότητας που πρέπει να θέσουμε. Για να γίνει αυτό, πρέπει πρώτα να συμφωνήσουμε σε μια γλώσσα που μπορούμε να χρησιμοποιήσουμε για να επικοινωνήσουμε πέρα από τα σχέδια. Αυτό το νέο σημασιολογικό μοντέλο είναι το προφανές κενό στις καινοτομίες που περιγράφονται παραπάνω. Ήδη μια σειρά από εταιρείες έχουν αρχίσει να πειραματίζονται με αυτό, όπως π.χ nΤοπολογία με τις έννοιες των Πεδίων. Κι όμως, ο ρυθμός της αλλαγής είναι αργός, σε αντίθεση με τους αλγόριθμους που θα τροφοδοτήσει το σημασιολογικό μοντέλο. Ο νέος αλγόριθμος της Nvidia φέρεται να είναι διπλάσιος από αυτόν DreamFusion, που δημοσιεύτηκε πριν από λιγότερο από 2 μήνες. Οι εταιρείες προϊόντων και μηχανικών πρέπει να εργάζονται για να συλλάβουν τις ιδέες τους με νέους, ασφαλείς για το μέλλον τρόπους τώρα, προκειμένου να αξιοποιήσουν στο έπακρο τις δυνατότητες που έχει αυτή η έκρηξη της γενετικής τεχνητής νοημοσύνης. Η ταχύτητα της αλλαγής στους αλγόριθμους έδειξε, για άλλη μια φορά, ότι ο νόμος Μορς εφαρμόζεται παντού όπου τα εργαλεία ψηφιοποιούνται. Η πρόκληση παραμένει η ανθρώπινη ανικανότητά μας να αγκαλιάσουμε αυτήν την αλλαγή και να αναπτύξουμε νέες μεθόδους επικοινωνίας ικανές να ξεκλειδώσουν τις δυνατότητές τους, παρά τον επείγοντα χαρακτήρα του έργου.

Πηγή: https://www.forbes.com/sites/andrewegner/2022/11/24/what-nvidias-new-text-to-3d-means-for-engineering–product-design/