Home | Impressum | KIT

Machine Vision

Machine Vision
Typ: Vorlesung Links:
Semester: Wintersemester
Ort:

Rudolf-Plank-Hörsaal (RPH), Geb. 40.32.

Zeit:

Do. 11:30 - 13:00 Uhr im RPH und


Mo. 11:30 - 13:00 Uhr 14 täglich im RPH oder
im Geb. 20.21 SCC-PC-Pool K + L

Beginn: 20.10.2016
Dozent:

Dr. rer. nat Martin Lauer
M.Sc. Jannik Quehl

SWS: 4 h
LVNr.: 2137308

Prüfung / Exam

Die Klausur zur Vorlesung "Machine Vision" (Dr. Lauer) findet am 09. August 2017 in der Zeit von 11:30 bis 12:30 Uhr statt. Weitere Informationen zur Klausur finden Sie hier.

The written exam of the lecture "Machine Vision" (Dr. Lauer) will be held on 09th of August, 2017 in the time between 11:30 and 12:30. Futher information about the exam can be found here.

Info zur Vorlesung

Regulärer Rhytmus:

  • Donnerstags Vorlesung im Rudolph-Plank-Hörsaal
  • Montags im Wechsel Vorlesung und Rechenübung im RPH oder 20.21 SCC-PC-Pool K+ L

Der Ausdruck "Maschinelles Sehen" (engl. "Computer Vision" bzw. "Machine Vision") beschreibt die computergestützte Lösung von Aufgabenstellungen, die sich an den Fähigkeiten des menschlichen visuellen Systems orientieren. Das  Fachgebiet Maschinelles Sehen umfasst zahlreiche Forschungsdisziplinen, wie klassischer Optik, digitale Bildverarbeitung, 3D-Messtechnik oder Mustererkennung. Ein Schwerpunkt liegt dabei auf dem Bildverstehen (engl. "Image Understanding"), mit dem Ziel, die Bedeutung von Bildern zu ermitteln und damit vom Bild ausgehend zum Bildinhalt zu gelangen.

Der Inhalt der Vorlesung orientiert sich am Ablauf der Bildentstehung bzw. -verarbeitung. Folgende Themenkomplexe werden dabei behandelt:

Beleuchtung einer Szene

Die Ausleuchtung der vom Bilderfassungssystem erfassbaren Umgebung ist ein entscheidender Faktor für die Qualität der aufgenommenen Bilder und somit für die Genauigkeit der daraus zu ermittelnden Größen. Viele Anwendungen automatischer Bildverarbeitungssysteme erlauben eine Beeinflussung der Beleuchtung der zu untersuchenden Szene.  Ein Beispiel, wie sich verschiedene Beleuchtungsarten auswirken können,  zeigt Abb. 1 für den Schriftzug auf einem Löffel.

Löffel - diffus homogen beleuchtetLöffel - gerichtet homogen beleuchtetLöffel - diffus strukturiert beleuchtet
Abb. 1: Schriftzug auf einem Löffel bei homogen-diffuser (a), gerichteter (b) und strukturiert-diffuser Beleuchtung (c).

Bilderfassung

Im Vorlesungsabschnitt zur Bilderfassung werden grundlegende Eigenschaften der Bildaufnahme mit einer digitalen (Video-)kamera beschrieben. Dazu gehört zum einen eine Beschreibung der abbildenden Optik inklusive der dabei auftretenden Abbildungsfehler, und zum anderen eine Beschreibung des elektronischen Systems, welches ein diskretes und quantisiertes Bild ausgibt.

Bildvorverarbeitung

Ziel der Bildvorverarbeitung ist eine "Bildverbesserung" im Sinne einer gegebenen Aufgabenstellung. D.h. das Ergebnis der Bildvorverarbeitung ist wiederum ein Bild, welches als Basis für nachfolgende Auswerteschritte (Segmentierung, Merkmalsextraktion, Klassifikation) dient. In Abb. 2 ist ein Beispiel für eine einfache Bildvorverarbeitungsoperation dargestellt, bei dem mit einer Grauwernormalisierung eine Optimierung der Helligkeit und des Kontrasts erzielt wurden.

KunststofflinsenKunststofflinsen - normalisieretes Bild
Abb. 2: Unbearbeitete Kameraaufnahme zweier Kunstofflinsen (links) und Ergebnis der Helligkeits- und Kontrastoptimierung (rechts).

Merkmalsextraktion

Bei einer Merkmalsextraktion bestimmt man lokale Bildeigenschaften, die auf irgendeine Art und Weise dominant sind. Diese Bildmerkmale eignen sich für eine anschließende Schätzung von Modellparametern sowohl der in der Szene enthaltenen Objekte als auch der zur Beobachtung verwendeten Kamera. Bildmerkmale sind beispielsweise Kanten oder Eckpunkte.

Merkmalsextraktion
Abb. 3: Ausrichtung der Bilder zweier Metallecken (a) und (b); Ergebnis der Bildvorverarbeitung von (a) (c), Merkmalsvektor für den in (d) rot markierten Konturpunkt (e), Konturzuordnung als Vorstufe der Abbilddungsschätzung (f).

Szenenrekonstruktion / 3D-Vermessung

Bei der Bilderfassung mit einer Kamera wird die dreidimensionale Umwelt auf  einen zweidimensionalen Sensor projiziert, wodurch Informationen verloren gehen. Durch Kombination  mehrerer Bilder oder durch Verwendung von Vorwissen (Modell der beobachteten Szene)ist prinzipiell eine Rekonstruktion der verloren gegangenen Daten und damit der dreidimensionalen Szene möglich. Durch die Aufnahme mehrerer Bilder von verschiedenen Beobachtungspunkten aus, können beliebige Körper, vom Werkstück in der Fertigung bis hin zum kompletten Auto berührungslos erfasst und im Computer genau vermessen und rekonstruiert werden.

StereoskopieBeispiel für eine TriangulationSchema eines deflektometrischen Messaufbaus
Abb. 4: Beispiel für eine stereoskopische Messung, eine triangulatorische 3D-Rekonstruktion und schematische Darstellung eines Messaufbaus zur deflektometrischen  Formerfassung (v.l.n.r.).

Robuste Parameterschätzung

Mit einer Parameterschätzung werden die gemessenen Daten an ein Modell der Szene angepasst. Das können einerseits geometrische Modelle der  in der  Szene  befindlichen Objekte sein oder andererseits Parameter der beobachtenden Kamera(s), Objektbewegungen oder -deformationen. In dieser Vorlesung werden zu diesem Zweck mehrere robuste Schätzverfahren vorgestellt (M-Estimator, RANSAC und LMedS), die tolerant gegenüber Fehlern in den Daten sind, die sich nicht mit einer Verteilung beschreiben lassen ("Ausreißer").

Klassifikation und Interpretation

Für eine Interpretation der von der Kamera erfassten Szene erfolgt zunächst eine Klassifikation an Hand der zuvor geschätzten Modellparameter oder den extrahierten Merkmalen. Abbildung 5 zeigt das Ergebnis einer Bewegungsschätzung für einige ausgewählte Merkmalspunkte.  Zusammen mit weiteren Merkmalen, wie z.B. der Kontur, wird dadurch eine Klassifikation sich bewegender Objekte ("Radfahrer") möglich.

Abb. 5: Beispiel für eine Bewegungsschätzung zur Klassifikation der in der Szene sichtbaren Objekte (z.B. "Radfahrer").