KI begradigen: Wie MIT-Forscher die Lücke zwischen menschlichem und maschinellem Sehen schließen

Von Adam Zewe, Massachusetts Institute of Technology, 9. Mai 2023

MIT-Forscher haben herausgefunden, dass das Training von Computer-Vision-Modellen mithilfe von kontradiktorischem Training ihre Wahrnehmungsgeradlinigkeit verbessern und sie der menschlichen visuellen Verarbeitung ähnlicher machen kann. Durch die Wahrnehmungsgeradheit können Modelle Objektbewegungen besser vorhersagen und so möglicherweise die Sicherheit autonomer Fahrzeuge verbessern. Gegnerisch trainierte Modelle sind robuster und behalten trotz geringfügiger Bildänderungen eine stabile Darstellung von Objekten bei. Die Forscher wollen ihre Erkenntnisse nutzen, um neue Trainingsschemata zu entwickeln und weiter zu untersuchen, warum kontradiktorisches Training dazu beiträgt, dass Modelle die menschliche Wahrnehmung nachahmen.

Forscher identifizieren eine Eigenschaft, die Computer-Vision-Modellen dabei hilft, die visuelle Welt stabiler und vorhersehbarer darzustellen.

MITMIT is an acronym for the Massachusetts Institute of Technology. It is a prestigious private research university in Cambridge, Massachusetts that was founded in 1861. It is organized into five Schools: architecture and planning; engineering; humanities, arts, and social sciences; management; and science. MIT's impact includes many scientific breakthroughs and technological advances. Their stated goal is to make a better world through education, research, and innovation." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">MIT-Forscher fanden heraus, dass kontradiktorisches Training die Wahrnehmungsgeradlinigkeit in Computer-Vision-Modellen verbessert, sie der menschlichen visuellen Verarbeitung ähnlicher macht und eine bessere Vorhersage von Objektbewegungen ermöglicht.

Stellen Sie sich vor, Sie sitzen auf einer Parkbank und beobachten, wie jemand vorbeigeht. Während sich die Szene beim Gehen der Person ständig ändern kann, kann das menschliche Gehirn diese dynamischen visuellen Informationen im Laufe der Zeit in eine stabilere Darstellung umwandeln. Diese als Wahrnehmungsaufrichtung bekannte Fähigkeit hilft uns, die Flugbahn der gehenden Person vorherzusagen.

Im Gegensatz zu Menschen weisen Computer-Vision-Modelle in der Regel keine geradlinige Wahrnehmung auf und lernen daher, visuelle Informationen auf höchst unvorhersehbare Weise darzustellen. Wenn Modelle für maschinelles Lernen jedoch über diese Fähigkeit verfügten, könnten sie möglicherweise besser abschätzen, wie sich Objekte oder Personen bewegen.

MIT-Forscher haben herausgefunden, dass eine bestimmte Trainingsmethode Computer-Vision-Modellen dabei helfen kann, wahrnehmungsgetreuere Darstellungen zu erlernen, wie es Menschen tun. Beim Training werden einem maschinellen Lernmodell Millionen von Beispielen gezeigt, damit es eine Aufgabe lernen kann.

Die Forscher fanden heraus, dass das Training von Computer-Vision-Modellen mithilfe einer Technik namens „Adversarial Training“, die sie weniger reaktiv auf winzige Fehler in Bildern reagiert, die Wahrnehmungsgeradlinigkeit der Modelle verbessert.

MIT-Forscher haben herausgefunden, dass eine bestimmte Trainingstechnik es bestimmten Arten von Computer-Vision-Modellen ermöglichen kann, stabilere, vorhersehbare visuelle Darstellungen zu lernen, die denen ähneln, die Menschen mithilfe einer biologischen Eigenschaft, die als Wahrnehmungsbegradigung bekannt ist, lernen. Bildnachweis: MIT News mit iStock

Das Team entdeckte außerdem, dass die Geradlinigkeit der Wahrnehmung durch die Aufgabe beeinflusst wird, die einem Modell beigebracht wird. Modelle, die für die Ausführung abstrakter Aufgaben wie das Klassifizieren von Bildern trainiert wurden, lernen wahrnehmungsgetreuere Darstellungen als Modelle, die für die Ausführung feinkörnigerer Aufgaben wie das Zuordnen jedes Pixels in einem Bild zu einer Kategorie trainiert wurden.

Beispielsweise verfügen die Knoten innerhalb des Modells über interne Aktivierungen, die „Hund“ darstellen und es dem Modell ermöglichen, einen Hund zu erkennen, wenn es ein Bild eines Hundes sieht. Wahrnehmungsgerade Darstellungen behalten eine stabilere „Hund“-Darstellung bei, wenn es kleine Änderungen im Bild gibt. Dadurch sind sie robuster.

Durch ein besseres Verständnis der Wahrnehmungsgeradheit beim Computersehen hoffen die Forscher, Erkenntnisse zu gewinnen, die ihnen bei der Entwicklung von Modellen helfen könnten, die genauere Vorhersagen treffen. Diese Eigenschaft könnte beispielsweise die Sicherheit autonomer Fahrzeuge verbessern, die Computer-Vision-Modelle verwenden, um die Flugbahnen von Fußgängern, Radfahrern und anderen Fahrzeugen vorherzusagen.

„Eine der Botschaften zum Mitnehmen hier ist, dass die Inspiration durch biologische Systeme, wie zum Beispiel das menschliche Sehvermögen, sowohl Erkenntnisse darüber vermitteln kann, warum bestimmte Dinge so funktionieren, wie sie funktionieren, als auch Ideen zur Verbesserung neuronaler Netze inspirieren kann“, sagt Vasha DuTell , ein MIT-Postdoc und Co-Autor einer Arbeit, die sich mit der Wahrnehmungsgeradlinigkeit in der Computervision befasst.

Neben DuTell sind die Hauptautorin Anne Harrington, eine Doktorandin am Fachbereich Elektrotechnik und Informatik (EECS), an der Arbeit beteiligt; Ayush Tewari, ein Postdoc; Mark Hamilton, ein Doktorand; Simon Stent, Forschungsleiter bei Woven Planet; Ruth Rosenholtz, leitende Forschungswissenschaftlerin in der Abteilung für Gehirn- und Kognitionswissenschaften und Mitglied des Computer Science and Artificial Intelligence Laboratory (CSAIL); und leitender Autor William T. Freeman, Thomas und Gerd Perkins Professor für Elektrotechnik und Informatik und Mitglied von CSAIL. Die Forschung wird auf der International Conference on Learning Representations vorgestellt.

After reading a 2019 paper from a team of New York UniversityFounded in 1831, New York University (NYU) is a private research university based in New York City." data-gt-translate-attributes="[{"attribute":"data-cmtooltip", "format":"html"}]">Forscher der New York University, DuTell, Harrington und ihre Kollegen, die sich mit der Wahrnehmungsgeradheit beim Menschen beschäftigten, fragten sich, ob diese Eigenschaft auch in Computer-Vision-Modellen nützlich sein könnte.

Sie wollten herausfinden, ob verschiedene Arten von Computer-Vision-Modellen die visuellen Darstellungen, die sie lernen, korrigieren. Sie fütterten jedes Modell mit Bildern eines Videos und untersuchten dann die Darstellung in verschiedenen Phasen des Lernprozesses.

Wenn sich die Darstellung des Modells über die Frames des Videos hinweg auf vorhersehbare Weise ändert, richtet sich das Modell gerade aus. Am Ende sollte seine Ausgabedarstellung stabiler sein als die Eingabedarstellung.

„Man kann sich die Darstellung als eine Linie vorstellen, die zunächst sehr kurvig ist. Ein Modell, das die Kurve begradigt, kann diese kurvige Linie aus dem Video übernehmen und sie durch seine Verarbeitungsschritte begradigen“, erklärt DuTell.

Die meisten von ihnen getesteten Modelle richteten sich nicht auf. Von den wenigen, die dies taten, waren diejenigen, die sich am effektivsten aufrichteten, für Klassifizierungsaufgaben mithilfe der Technik trainiert worden, die als kontradiktorisches Training bekannt ist.

Beim kontradiktorischen Training werden Bilder subtil verändert, indem jedes Pixel leicht verändert wird. Während ein Mensch den Unterschied nicht bemerken würde, können diese geringfügigen Änderungen eine Maschine täuschen und das Bild falsch klassifizieren. Durch gegnerisches Training wird das Modell robuster, sodass es durch diese Manipulationen nicht ausgetrickst wird.

Da das Modell durch kontradiktorisches Training weniger auf geringfügige Änderungen in Bildern reagiert, hilft es ihm, eine Darstellung zu erlernen, die im Laufe der Zeit vorhersehbarer ist, erklärt Harrington.

„Die Leute hatten bereits die Idee, dass gegnerisches Training Ihnen dabei helfen könnte, Ihr Modell einem Menschen ähnlicher zu machen, und es war interessant zu sehen, wie sich dies auf eine andere Eigenschaft übertragen lässt, die die Leute zuvor noch nicht getestet hatten“, sagt sie.

Die Forscher fanden jedoch heraus, dass kontradiktorisch trainierte Modelle nur lernen, sich zu begradigen, wenn sie für weitreichende Aufgaben trainiert werden, etwa das Klassifizieren ganzer Bilder in Kategorien. Modelle, die mit der Segmentierung beauftragt waren – also jedes Pixel in einem Bild als eine bestimmte Klasse kennzeichnen – wurden nicht korrigiert, selbst wenn sie kontradiktorisch trainiert wurden.

Die Forscher testeten diese Bildklassifizierungsmodelle, indem sie ihnen Videos zeigten. Sie fanden heraus, dass die Modelle, die wahrnehmungsgetreuere Darstellungen lernten, dazu neigten, Objekte in den Videos konsistenter korrekt zu klassifizieren.

„Für mich ist es erstaunlich, dass diese kontradiktorisch trainierten Modelle, die noch nie ein Video gesehen und noch nie auf Zeitdaten trainiert wurden, immer noch ein gewisses Maß an Begradigung zeigen“, sagt DuTell.

Die Forscher wissen nicht genau, was mit dem kontradiktorischen Trainingsprozess es einem Computer-Vision-Modell ermöglicht, sich zu begradigen, aber ihre Ergebnisse deuten darauf hin, dass stärkere Trainingsschemata dazu führen, dass sich die Modelle stärker begradigen, erklärt sie.

Aufbauend auf dieser Arbeit wollen die Forscher das Gelernte nutzen, um neue Trainingsschemata zu erstellen, die einem Modell explizit diese Eigenschaft verleihen. Sie möchten sich auch eingehender mit dem gegnerischen Training befassen, um zu verstehen, warum dieser Prozess einem Modell dabei hilft, sich zurechtzufinden.

„Aus biologischer Sicht macht gegnerisches Training nicht unbedingt Sinn. Es geht nicht darum, wie Menschen die Welt verstehen. Es gibt immer noch viele Fragen dazu, warum dieser Trainingsprozess Modellen zu helfen scheint, sich mehr wie Menschen zu verhalten“, sagt Harrington.

„Das Verständnis der von tiefen neuronalen Netzen erlernten Darstellungen ist entscheidend, um Eigenschaften wie Robustheit und Generalisierung zu verbessern“, sagt Bill Lotter, Assistenzprofessor am Dana-Farber Cancer Institute und der Harvard Medical School, der nicht an dieser Forschung beteiligt war. „Harrington et al. führen eine umfassende Auswertung durch, wie sich die Darstellungen von Computer-Vision-Modellen im Laufe der Zeit bei der Verarbeitung natürlicher Videos ändern, und zeigen, dass die Krümmung dieser Trajektorien je nach Modellarchitektur, Trainingseigenschaften und Aufgabe stark variiert. Diese Ergebnisse können Aufschluss geben Entwicklung verbesserter Modelle und bieten auch Einblicke in die biologische visuelle Verarbeitung.“

„Das Papier bestätigt, dass die Begradigung natürlicher Videos eine ziemlich einzigartige Eigenschaft des menschlichen visuellen Systems ist. Nur kontradiktorisch trainierte Netzwerke zeigen sie an, was einen interessanten Zusammenhang mit einer anderen Signatur der menschlichen Wahrnehmung herstellt: ihrer Robustheit gegenüber verschiedenen Bildtransformationen, ob natürlich oder künstlich.“ „, sagt Olivier Hénaff, ein Forschungswissenschaftler bei DeepMind, der nicht an dieser Forschung beteiligt war. „Dass selbst kontradiktorisch trainierte Szenensegmentierungsmodelle ihre Eingaben nicht korrigieren, wirft wichtige Fragen für zukünftige Arbeiten auf: Analysieren Menschen natürliche Szenen auf die gleiche Weise wie Computer-Vision-Modelle? Wie kann man die Flugbahnen von Objekten in Bewegung darstellen und vorhersagen und gleichzeitig sensibel für sie bleiben?“ räumliches Detail? Durch die Verbindung der Begradigungshypothese mit anderen Aspekten des visuellen Verhaltens legt der Artikel den Grundstein für einheitlichere Wahrnehmungstheorien.

Referenz: „Exploring Perceptual Straightness in Learned Visual Representations“ von Anne Harrington, Vasha DuTell, Ayush Tewari, Mark Hamilton, Simon Stent, Ruth Rosenholtz und William T. Freeman, ICLR 2023.PDF

Die Forschung wird zum Teil vom Toyota Research Institute, dem MIT CSAIL METEOR Fellowship, der National Science Foundation, dem US Air Force Research Laboratory und dem US Air Force Artificial Intelligence Accelerator finanziert.

Forscher identifizieren eine Eigenschaft, die Computer-Vision-Modellen dabei hilft, die visuelle Welt stabiler und vorhersehbarer darzustellen. Studium des Richtens

Blog

KI begradigen: Wie MIT-Forscher die Lücke zwischen menschlichem und maschinellem Sehen schließen