Η τρισδιάστατη όραση είναι ένα πολυεπιστημονικό πεδίο που περιλαμβάνει γραφικά υπολογιστών, όραση υπολογιστή και τεχνητή νοημοσύνη. Στόχος του είναι να επιτρέψει στις μηχανές να κατανοούν και να επεξεργάζονται πληροφορίες σε τρισδιάστατο- χώρο, επιτυγχάνοντας αντίληψη βάθους, αναγνώριση και κατανόηση αντικειμένων και σκηνών.
Κύρια καθήκοντα
3D ανακατασκευή
Εκτίμηση βάθους τρισδιάστατων σκηνών ή ψηφιακή δειγματοληψία επιφανειών αντικειμένων, καθώς και επεξεργασία και απεικόνιση τρισδιάστατων δεδομένων. μονόφθαλμη ανακατασκευή, διόφθαλμη ανακατασκευή, δομημένο φως-ανακατασκευή βάσει λέιζερ-ανακατασκευή. τρισδιάστατη ανακατασκευή μεγάλης-κλίμακας, τρισδιάστατη ανακατασκευή για φορητές συσκευές.
Εκτίμηση πόζας
Υπολογισμός της θέσης και του προσανατολισμού καμερών ή αντικειμένων σε τρισδιάστατο φυσικό χώρο και παρακολούθηση σε πραγματικό χρόνο.
3D Κατανόηση
Ανίχνευση, αναγνώριση και ανάκτηση αντικειμένων, καθώς και τμηματοποίηση και σημασιολογική επισήμανση σκηνών ή αντικειμένων.
Αρχές Εργασίας
Η τρισδιάστατη απεικόνιση όρασης είναι μια από τις πιο σημαντικές μεθόδους για την αντίληψη πληροφοριών στα βιομηχανικά ρομπότ και μπορεί να χωριστεί σε οπτικές και μη-μεθόδους οπτικής απεικόνισης. Επί του παρόντος, οι οπτικές μέθοδοι είναι οι πιο ευρέως χρησιμοποιούμενες.
Μέθοδος ώρας-από-Πτήσης (TOF).
Αυτή η μέθοδος υπολογίζει την απόσταση από ένα αντικείμενο μετρώντας τη διαφορά χρόνου μεταξύ εκπομπής φωτός και λήψης. Λαμβάνοντας ως παράδειγμα μια κάμερα TOF, κάθε pixel χρησιμοποιεί τη διαφορά ώρας της πτήσης φωτός για να λάβει το βάθος του αντικειμένου. Στις κλασικές μεθόδους μέτρησης, το σύστημα ανιχνευτή ξεκινά τον χρονισμό όταν εκπέμπει έναν παλμό φωτός, αποθηκεύει τον χρόνο επιστροφής-όταν λαμβάνει την ηχώ φωτός στόχου και εκτιμά την απόσταση στόχο σύμφωνα με έναν τύπο.
Χωρίζεται σε άμεσο TOF (DTOF) και έμμεσο TOF (I-TOF). Το DTOF χρησιμοποιείται συνήθως σε συστήματα μονού-σημειακού εύρους και η επίτευξη ευρείας περιοχής-3D απεικόνισης απαιτεί συχνά τεχνολογία σάρωσης. Το I-TOF προεκτείνει έμμεσα τον χρόνο του μετ' επιστροφής από τις χρονικές-περιορισμένες μετρήσεις της έντασης του φωτός, εξαλείφοντας την ανάγκη για ακριβή χρονισμό και είναι επί του παρόντος μια εμπορευματοποιημένη λύση για ηλεκτρονικούς και οπτικούς μείκτες που βασίζονται σε κάμερες TOF. Η απεικόνιση TOF μπορεί να χρησιμοποιηθεί για λήψη τρισδιάστατων εικόνων μεγάλου-μεγάλων αποστάσεων, χαμηλής-ακρίβειας και χαμηλού{10}}κοστήματος και χρησιμοποιείται για την περιβαλλοντική αντίληψη σε έξυπνα μη επανδρωμένα συστήματα (όπως ρομπότ, μη επανδρωμένα οχήματα, drones κ.λπ.).
Τρισδιάστατη απεικόνιση δομημένου φωτός
Η τρισδιάστατη απεικόνιση δομημένου φωτός είναι επί του παρόντος η κύρια μέθοδος για την αντίληψη της τρισδιάστατης όρασης στα ρομπότ. Ένας προβολέας προβάλλει ένα συγκεκριμένο δομημένο μοτίβο φωτισμού στο αντικείμενο-στόχο, όπως ρίγες ή μοτίβα κώδικα γκρίζου, και μια κάμερα καταγράφει την εικόνα που διαμορφώνεται από τον στόχο. Λόγω των κυματισμών της επιφάνειας του αντικειμένου, το δομημένο σχέδιο φωτός παραμορφώνεται στην επιφάνεια του αντικειμένου. Με την επεξεργασία εικόνων και τη χρήση οπτικών μοντέλων για σύγκριση των μοτίβων πριν και μετά την παραμόρφωση, και αναλύοντας την παραμόρφωση του σχεδίου, μπορούν να υπολογιστούν οι τρισδιάστατες- πληροφορίες συντεταγμένων κάθε σημείου στην επιφάνεια του αντικειμένου στόχου.
Σε εφαρμογές ρομποτικού συστήματος ματιών-για σενάρια όπου δεν απαιτείται υψηλή ακρίβεια μέτρησης 3D (όπως η παλετοποίηση, η αποπαλετοποίηση και η τρισδιάστατη σύλληψη), η μέθοδος προβολής ψευδο-τυχαίων μοτίβων κηλίδων για τη λήψη πληροφοριών στόχων 3D είναι αρκετά δημοφιλής. Αυτή η μέθοδος χρησιμοποιείται συνήθως στη βιομηχανική επιθεώρηση και στην τρισδιάστατη μοντελοποίηση και μπορεί να λάβει γρήγορα τρισδιάστατα δεδομένα της επιφάνειας του αντικειμένου. Ένα σύστημα δομημένης απεικόνισης φωτός αποτελείται από πολλούς προβολείς και κάμερες. Οι συνήθεις δομικές μορφές περιλαμβάνουν: μονή κάμερα{10}}μονό προβολέα-διπλή κάμερα, μονή συσκευή προβολής-πολλαπλές κάμερες, μονή κάμερα-διπλούς προβολείς και μονή κάμερα-πολλαπλούς προβολείς.
Η βασική αρχή λειτουργίας της τρισδιάστατης απεικόνισης δομημένης προβολής φωτός είναι η εξής: ο προβολέας προβάλλει ένα συγκεκριμένο μοτίβο δομημένου φωτισμού στο αντικείμενο-στόχο, η κάμερα καταγράφει την εικόνα που διαμορφώνεται από τον στόχο και, στη συνέχεια, οι τρισδιάστατες πληροφορίες του αντικειμένου στόχου λαμβάνονται μέσω επεξεργασίας εικόνας και οπτικών μοντέλων. Οι συνήθεις τύποι προβολέων περιλαμβάνουν: οθόνη υγρών κρυστάλλων (LCD), προβολή ψηφιακής διαμόρφωσης φωτός (DLP: όπως συσκευές ψηφιακών μικροκαθρέφτη (DMD)) και άμεση προβολή μοτίβου LED λέιζερ.
Με βάση τον αριθμό των προβολών δομημένου φωτός, η τρισδιάστατη απεικόνιση δομημένου φωτός μπορεί να χωριστεί σε μεθόδους μονής-τρισδιάστατης λήψης και πολλαπλών-3D. Το δομημένο φως μονής-φωτογραφίας χρησιμοποιεί κυρίως χωρική κωδικοποίηση πολυπλεξίας και κωδικοποίηση πολυπλεξίας συχνότητας. Οι συνήθεις μορφές κωδικοποίησης περιλαμβάνουν: χρωματική κωδικοποίηση, ευρετηρίαση σε κλίμακα του γκρι, κωδικοποίηση γεωμετρικών σχημάτων και τυχαία μοτίβα κηλίδων. Επί του παρόντος, σε εφαρμογές ρομποτικού συστήματος ματιών-για σενάρια όπου δεν απαιτείται υψηλή ακρίβεια μέτρησης 3D, όπως η παλετοποίηση, η αποπαλετοποίηση και η τρισδιάστατη σύλληψη, χρησιμοποιείται ευρέως η μέθοδος προβολής ψευδο-τυχαίων μοτίβων κηλίδων για τη λήψη πληροφοριών στόχων 3D.
Οι μέθοδοι πολλαπλών-3D λήψεων χρησιμοποιούν κυρίως χρονική-κωδικοποίηση πολυπλεξίας. Οι συνήθεις μορφές κωδικοποίησης μοτίβων περιλαμβάνουν: δυαδική κωδικοποίηση, κωδικοποίηση φάσης πολλών-συχνοτήτων-μετατόπισης και υβριδικές μεθόδους κωδικοποίησης (όπως ο Γκρίζος κώδικας και οι κροσσοί μετατόπισης φάσης-). Η βασική αρχή της τρισδιάστατης απεικόνισης δομημένου φωτός φαίνεται στο παρακάτω σχήμα. Ένα δομημένο μοτίβο φωτός δημιουργείται χρησιμοποιώντας έναν υπολογιστή ή μια ειδική οπτική συσκευή και στη συνέχεια προβάλλεται στην επιφάνεια του υπό δοκιμή αντικειμένου χρησιμοποιώντας ένα σύστημα οπτικής προβολής. Μια συσκευή λήψης εικόνας (όπως μια κάμερα CCD ή CMOS) χρησιμοποιείται για τη λήψη της εικόνας δομημένου φωτός που διαμορφώνεται και παραμορφώνεται από την επιφάνεια του αντικειμένου. Στη συνέχεια, χρησιμοποιούνται αλγόριθμοι επεξεργασίας εικόνας για τον υπολογισμό της αντιστοιχίας μεταξύ κάθε pixel στην εικόνα και των σημείων στο περίγραμμα του αντικειμένου. Τέλος, οι τρισδιάστατες{13}}πληροφορίες περιγράμματος του αντικειμένου υπολογίζονται χρησιμοποιώντας το μοντέλο δομής συστήματος και την τεχνολογία βαθμονόμησής του. Σε πρακτικές εφαρμογές, χρησιμοποιούνται συνήθως η προβολή γκρι κώδικα, η ημιτονοειδής φάση-μετατόπιση περιθωρίου προβολής ή ένας υβριδικός κώδικας γκρι και η τεχνολογία μετατόπισης 3D ημιτονοειδούς φάσης{16}}.
Για τραχιές επιφάνειες, το δομημένο φως μπορεί να προβληθεί απευθείας στην επιφάνεια του αντικειμένου για μέτρηση οπτικής απεικόνισης. Ωστόσο, για τρισδιάστατη μέτρηση λείων επιφανειών υψηλής ανακλαστικότητας και αντικειμένων με καθρέφτη, η δομημένη προβολή φωτός δεν μπορεί να προβληθεί απευθείας στην υπό δοκιμή επιφάνεια και η τρισδιάστατη μέτρηση απαιτεί τη χρήση τεχνικών κατοπτρικής ανάκλασης.
Σε αυτό το σχήμα, τα κρόσσια δεν προβάλλονται απευθείας στο περίγραμμα του υπό δοκιμή αντικειμένου, αλλά μάλλον σε μια οθόνη σκέδασης ή χρησιμοποιείται οθόνη υγρών κρυστάλλων (LCD) για την απευθείας εμφάνιση των κροσσών. Η κάμερα αποκτά τις πληροφορίες κροσσών που διαμορφώνονται από τις αλλαγές καμπυλότητας της φωτεινής επιφάνειας μέσω της διαδρομής του ανακλώμενου φωτός και στη συνέχεια υπολογίζει την τρισδιάστατη-μορφολογία του περιγράμματος.
Σάρωση τρισδιάστατης απεικόνισης
Οι μέθοδοι σάρωσης τρισδιάστατης απεικόνισης μπορούν να χωριστούν σε μεθόδους εμβέλειας σάρωσης, ενεργού τριγωνισμού και χρωματικές ομοεστιακές μεθόδους. Το εύρος σάρωσης χρησιμοποιεί μια ευθυγραμμισμένη δέσμη φωτός για τη σάρωση ολόκληρης της επιφάνειας στόχου για τρισδιάστατη μέτρηση. Οι τυπικές μέθοδοι εύρους σάρωσης περιλαμβάνουν: ένα-χρόνο σημείου-των-μεθόδων πτήσης, όπως η διαμόρφωση συχνότητας συνεχούς κύματος (FM-CW) και η εμβέλεια παλμών (LiDAR). συμβολομετρία σκέδασης λέιζερ, όπως συμβολόμετρα που βασίζονται σε παρεμβολές πολλαπλών-μηκών κύματος, ολογραφικές παρεμβολές, παρεμβολές λευκού φωτός και αρχές παρεμβολής κηλίδων. και ομοεστιακές μεθόδους, όπως χρωματική ομοεστιακή και αυτόματη εστίαση.
Στις τρισδιάστατες μεθόδους σάρωσης εύρους μονής-σημείου, η μέθοδος μονής-χρόνου{3}}του{4}}πτήματος είναι κατάλληλη για σάρωση μεγάλων-απόστασης, αλλά η ακρίβεια μέτρησης είναι σχετικά χαμηλή, γενικά στο εύρος χιλιοστών. Άλλες μέθοδοι σάρωσης μεμονωμένων-σημείων περιλαμβάνουν συμβολομετρία λέιζερ μονού-σημείου, συνεστιακή μικροσκοπία και τριγωνοποίηση ενεργού λέιζερ μονού-σημείου. Αυτές οι μέθοδοι προσφέρουν υψηλή ακρίβεια μέτρησης, αλλά η πρώτη απαιτεί ένα ελεγχόμενο περιβάλλον. Η σάρωση γραμμής προσφέρει μέτρια ακρίβεια και υψηλή απόδοση. Η ενεργή τριγωνοποίηση με λέιζερ και η χρωματική ομοεστιακή μικροσκοπία είναι ιδιαίτερα κατάλληλες για τρισδιάστατη μέτρηση στο ακραίο τελεστή ενός ρομποτικού βραχίονα. Ο ενεργός τριγωνισμός βασίζεται στην αρχή της τριγωνοποίησης, χρησιμοποιώντας μια ευθυγραμμισμένη δέσμη ή μία ή περισσότερες επίπεδες δέσμες για τη σάρωση της επιφάνειας στόχου για τρισδιάστατη μέτρηση.
Η δέσμη φωτός λαμβάνεται συνήθως με τους ακόλουθους τρόπους: ευθυγράμμιση με λέιζερ, διόγκωση πρισματικής δέσμης κυλινδρικής ή τετραγωνικής επιφάνειας, μη συνεκτικό φως (όπως λευκό φως, πηγή φωτός LED) που προβάλλεται μέσω μικρών οπών, σχισμών (σχισμών) ή συνεκτικής περίθλασης φωτός. Ο ενεργός τριγωνισμός μπορεί να χωριστεί σε τρεις τύπους: σάρωση με ένα-σημείο, σάρωση μονής-γραμμής και σάρωση πολλαπλών-γραμμών. Επί του παρόντος, τα περισσότερα εμπορικά διαθέσιμα προϊόντα για ρομποτικούς τελικούς τελικούς βραχίονες είναι σαρωτές μονής-σημείου και μονής-γραμμής.
Στις μεθόδους σάρωσης πολλαπλών{0}}γραμμών, η αξιόπιστη αναγνώριση των αριθμών περιθωρίου είναι μια πρόκληση. Για τον ακριβή προσδιορισμό των αριθμών περιθωρίου, δύο σετ κάθετων επιπέδων φωτός απεικονίζονται συνήθως με υψηλή ταχύτητα εναλλάξ. Αυτό επιτρέπει επίσης τη σάρωση "Flying Triangulation", της οποίας η διαδικασία σάρωσης και τρισδιάστατης ανακατασκευής φαίνεται στο παρακάτω σχήμα. Η προβολή πολλαπλών-γραμμών και η απλή-απεικόνιση φλας παράγουν μια αραιή τρισδιάστατη προβολή. Πολλές ακολουθίες τρισδιάστατων προβολών δημιουργούνται μέσω της σάρωσης διαμήκους και εγκάρσιας προβολής κροσσών και, στη συνέχεια, δημιουργείται ένα μοντέλο τρισδιάστατης επιφάνειας υψηλής ανάλυσης, πλήρες και πυκνό μέσω της καταχώρισης τρισδιάστατης εικόνας.
Η χρωματική ομοεστιακή μικροσκοπία φαίνεται ικανή να σαρώνει και να μετράει τραχιά και λεία αδιαφανή και διαφανή αντικείμενα, όπως ανακλαστικές επιφάνειες και διαφανείς γυάλινες επιφάνειες, και αυτή τη στιγμή χρησιμοποιείται ευρέως σε πεδία όπως η τρισδιάστατη επιθεώρηση καλυμμάτων κινητών τηλεφώνων. Η χρωματική ομοεστιακή σάρωση έχει τρεις τύπους: σάρωση μονού-σημείου μίας-σάρωσης μέτρησης απόλυτης απόστασης, σάρωση πολλαπλών-σημείων και συνεχής σάρωση γραμμής. Το παρακάτω σχήμα δείχνει παραδείγματα μέτρησης απόλυτης απόστασης και συνεχούς σάρωσης γραμμής. Η συνεχής σάρωση γραμμής είναι επίσης ένας τύπος σάρωσης συστοιχιών, αλλά με μεγαλύτερη και πυκνότερη σειρά σημείων.
Stereo Vision 3D Imaging
Η στερεοφωνική όραση αναφέρεται γενικά στην ανακατασκευή της τρισδιάστατης δομής ή των πληροφοριών βάθους ενός αντικειμένου στόχου με τη λήψη δύο ή περισσότερων εικόνων από διαφορετικές οπτικές γωνίες. Οι οπτικές ενδείξεις αντίληψης βάθους μπορούν να χωριστούν σε οφθαλμικά και διόφθαλμα (διόφθαλμη ανισότητα). Επί του παρόντος, η στερεοφωνική όραση 3D μπορεί να επιτευχθεί μέσω της μονόφθαλμης όρασης, της διόφθαλμης όρασης, της όρασης πολλαπλής{4}}όψης και της τρισδιάστατης απεικόνισης φωτεινού πεδίου (ηλεκτρονική σύνθετη κάμερα ματιών ή συστοιχίας). Τα σημάδια αντίληψης του βάθους της μονοφθάλμιας όρασης περιλαμβάνουν συνήθως: προοπτική, διαφορές εστιακής απόστασης, απεικόνιση πολλαπλών-προβολών, απόφραξη, σκιές, παράλλαξη κίνησης κ.λπ.
Στη ρομποτική όραση, μπορεί επίσης να επιτευχθεί χρησιμοποιώντας κατοπτρική απεικόνιση και άλλες μεθόδους σχήματος-από-Χ. Οι οπτικές ενδείξεις για την αντίληψη του βάθους της διόφθαλμης όρασης περιλαμβάνουν: τη θέση σύγκλισης των ματιών και τη διόφθαλμη διαφορά. Στη μηχανική όραση, δύο κάμερες χρησιμοποιούνται για τη λήψη δύο εικόνων οπτικής γωνίας της ίδιας σκηνής στόχου από δύο οπτικές γωνίες και στη συνέχεια υπολογίζεται η διαφορά των αντίστοιχων σημείων στις δύο εικόνες οπτικής γωνίας για να ληφθούν οι τρισδιάστατες πληροφορίες βάθους της σκηνής στόχου. Μια τυπική διόφθαλμη διαδικασία υπολογισμού στερεοφωνικής όρασης περιλαμβάνει τα ακόλουθα τέσσερα βήματα: διόρθωση παραμόρφωσης εικόνας, διόρθωση ζεύγους στερεοφωνικής εικόνας, καταχώριση εικόνας και υπολογισμός χάρτη ανισότητας αναπροβολής τριγωνισμού.
Η απεικόνιση πολλαπλής-όρασης ή η στερεοφωνική απεικόνιση πολλαπλών-προβολών, χρησιμοποιεί μία ή πολλές κάμερες για τη λήψη πολλαπλών εικόνων της ίδιας σκηνής στόχου από πολλαπλές οπτικές γωνίες για την ανακατασκευή των τρισδιάστατων-πληροφοριών της σκηνής στόχου.
Η στερεοφωνική απεικόνιση πολλαπλής-προβολής χρησιμοποιείται κυρίως στα ακόλουθα σενάρια: χρήση πολλαπλών καμερών από διαφορετικές οπτικές γωνίες για λήψη πολλαπλών εικόνων της ίδιας σκηνής στόχου και στη συνέχεια χρήση στερεοφωνικής ανακατασκευής βάσει δυνατοτήτων και άλλων αλγορίθμων για τη λήψη πληροφοριών βάθους σκηνής και χωρικής δομής. χρησιμοποιώντας την τεχνική δομής-από-κίνηση (SFM), χρησιμοποιώντας την ίδια κάμερα με αμετάβλητες τις εγγενείς παραμέτρους της, για τη λήψη πολλαπλών εικόνων από διαφορετικές οπτικές γωνίες για την ανακατασκευή των τρισδιάστατων-πληροφοριών της σκηνής στόχου. Αυτή η τεχνολογία χρησιμοποιείται συνήθως για την παρακολούθηση μεγάλου αριθμού σημείων ελέγχου σε μια σκηνή στόχο, ανακτώντας συνεχώς τις τρισδιάστατες δομικές πληροφορίες της σκηνής, καθώς και τη στάση και τη θέση της κάμερας. Η απεικόνιση φωτεινού πεδίου διαφέρει από τις παραδοσιακές αρχές απεικόνισης της κάμερας. Οι παραδοσιακές κάμερες σχηματίζουν μια εικόνα 2D απευθείας στο επίπεδο απεικόνισης αφού το φως περάσει μέσα από το φακό.
Οι κάμερες φωτεινού πεδίου προσθέτουν μια διάταξη μικροφακών μπροστά από το επίπεδο αισθητήρα. Το φως που προσπίπτει μέσω του κύριου φακού διέρχεται ξανά από κάθε μικροφακό και λαμβάνεται από τη φωτοευαίσθητη διάταξη, λαμβάνοντας έτσι πληροφορίες για την κατεύθυνση και τη θέση των ακτίνων φωτός. Αυτό επιτρέπει την επεξεργασία των αποτελεσμάτων της απεικόνισης αργότερα, επιτυγχάνοντας ένα εφέ "πρώτο λήψη, εστίαση αργότερα" και επιτρέποντας την ανάκτηση της τρισδιάστατης- δομής της σκηνής χρησιμοποιώντας αυτές τις πληροφορίες. Σε πεδία όπως η εικονική πραγματικότητα και η επαυξημένη πραγματικότητα, η τεχνολογία απεικόνισης φωτεινού πεδίου βοηθά στην παροχή μιας πιο ρεαλιστικής οπτικής εμπειρίας και επιτρέπει πιο ακριβή τρισδιάστατη-αντίληψη και αλληλεπίδραση με τη σκηνή.
Η αρχή της τρισδιάστατης απεικόνισης φωτεινού πεδίου διαφέρει δομικά από τις αρχές απεικόνισης των παραδοσιακών καμερών CCD και CMOS. Οι παραδοσιακές κάμερες απεικονίζουν το φως απευθείας στο επίπεδο απεικόνισης αφού περάσει μέσα από τον φακό, παράγοντας γενικά μια εικόνα 2D. Οι κάμερες φωτεινού πεδίου προσθέτουν μια διάταξη μικροφακών μπροστά από το επίπεδο αισθητήρα, με αποτέλεσμα το φως που προσπίπτει μέσω του κύριου φακού να περάσει ξανά από κάθε μικροφακό και να ληφθεί από τη φωτοευαίσθητη διάταξη, λαμβάνοντας έτσι πληροφορίες για την κατεύθυνση και τη θέση των ακτίνων φωτός. Αυτό επιτρέπει τη μετα{5}}επεξεργασία των αποτελεσμάτων απεικόνισης, επιτυγχάνοντας ένα εφέ "πρώτο λήψη, εστίαση αργότερα".

