banner

Nachricht

Apr 24, 2023

Forscher identifizieren Eigenschaften, die Maschinen ausbilden, um mehr zu lernen, wie es Menschen tun

Stellen Sie sich vor, Sie sitzen auf einer Parkbank und beobachten, wie jemand vorbeigeht. Während sich die Szene beim Gehen der Person ständig ändern kann, kann das menschliche Gehirn diese dynamischen visuellen Informationen im Laufe der Zeit in eine stabilere Darstellung umwandeln. Diese Fähigkeit, die als Wahrnehmungsaufrichtung bekannt ist, hilft uns, die Flugbahn der gehenden Person vorherzusagen. Im Gegensatz zu Menschen weisen Computer-Vision-Modelle normalerweise keine Wahrnehmungsgeradheit auf, sodass sie lernen, visuelle Informationen auf höchst unvorhersehbare Weise darzustellen. Aber wenn Modelle für maschinelles Lernen über diese Fähigkeit verfügten, könnten sie dadurch möglicherweise besser abschätzen können, wie sich Objekte oder Personen bewegen. MIT-Forscher haben herausgefunden, dass eine bestimmte Trainingsmethode Computer-Vision-Modellen dabei helfen kann, wahrnehmungsmäßig klarere Darstellungen zu lernen, wie es Menschen tun. Beim Training werden einem maschinellen Lernmodell Millionen von Beispielen gezeigt, damit es eine Aufgabe lernen kann. Die Forscher fanden heraus, dass das Training von Computer-Vision-Modellen mit einer Technik namens „Adversarial Training“, die sie weniger reaktiv auf winzige Fehler in Bildern reagiert, die Wahrnehmung der Modelle verbessert Geradheit. Das Team entdeckte außerdem, dass die Geradheit der Wahrnehmung durch die Aufgabe beeinflusst wird, für die man einem Modell beibringt. Modelle, die für die Ausführung abstrakter Aufgaben wie das Klassifizieren von Bildern trainiert wurden, lernen wahrnehmungsgetreuere Darstellungen als Modelle, die für die Ausführung feinkörnigerer Aufgaben wie das Zuordnen jedes Pixels in einem Bild zu einer Kategorie trainiert wurden. Beispielsweise verfügen die Knoten innerhalb des Modells über interne Aktivierungen, die „Hund“ darstellen und es dem Modell ermöglichen, einen Hund zu erkennen, wenn es ein Bild eines Hundes sieht. Wahrnehmungsgerade Darstellungen behalten eine stabilere „Hund“-Darstellung bei, wenn es kleine Änderungen im Bild gibt. Dadurch werden sie robuster. Durch ein besseres Verständnis der Wahrnehmungsgeradheit in der Computervision hoffen die Forscher, Erkenntnisse zu gewinnen, die ihnen bei der Entwicklung von Modellen helfen könnten, die genauere Vorhersagen treffen. Diese Eigenschaft könnte beispielsweise die Sicherheit autonomer Fahrzeuge verbessern, die Computer-Vision-Modelle verwenden, um die Flugbahnen von Fußgängern, Radfahrern und anderen Fahrzeugen vorherzusagen Vision kann Ihnen sowohl Einblicke in die Gründe geben, warum bestimmte Dinge so funktionieren, wie sie funktionieren, als auch Ideen zur Verbesserung neuronaler Netze inspirieren“, sagt Vasha DuTell, Postdoktorandin am MIT und Co-Autorin einer Arbeit, die sich mit der Geradlinigkeit der Wahrnehmung in Computer Vision befasst. Beitritt zu DuTell Auf dem Papier sind Hauptautorin Anne Harrington, eine Doktorandin am Fachbereich Elektrotechnik und Informatik (EECS); Ayush Tewari, ein Postdoc; Mark Hamilton, ein Doktorand; Simon Stent, Forschungsleiter bei Woven Planet; Ruth Rosenholtz, leitende Forschungswissenschaftlerin in der Abteilung für Gehirn- und Kognitionswissenschaften und Mitglied des Computer Science and Artificial Intelligence Laboratory (CSAIL); und leitender Autor William T. Freeman, Thomas und Gerd Perkins Professor für Elektrotechnik und Informatik und Mitglied von CSAIL. Die Forschung wird auf der International Conference on Learning Representations vorgestellt. Untersuchung der Geraderichtung Nachdem DuTell, Harrington und ihre Kollegen einen Artikel eines Forscherteams der New York University aus dem Jahr 2019 über die Wahrnehmungsgeradheit beim Menschen gelesen hatten, fragten sie sich, ob diese Eigenschaft für das Computersehen nützlich sein könnte Auch Modelle. Sie wollten herausfinden, ob verschiedene Arten von Computer-Vision-Modellen die visuellen Darstellungen, die sie lernen, begradigen. Sie fütterten jedes Modell mit Bildern eines Videos und untersuchten dann die Darstellung in verschiedenen Phasen des Lernprozesses. Wenn sich die Darstellung des Modells über die Bilder des Videos hinweg auf vorhersehbare Weise ändert, richtet sich das Modell gerade aus. Am Ende sollte die Ausgabedarstellung stabiler sein als die Eingabedarstellung. „Sie können sich die Darstellung als eine Linie vorstellen, die zunächst sehr kurvig ist. Ein Modell, das sich gerade richtet, kann diese kurvige Linie aus dem Video übernehmen und sie durchgängig begradigen seine Verarbeitungsschritte“, erklärt DuTell. Die meisten von ihnen getesteten Modelle richteten sich nicht gerade. Von den wenigen, die dies taten, waren diejenigen, die sich am effektivsten begradigten, für Klassifizierungsaufgaben mithilfe der Technik trainiert worden, die als „kontradiktorisches Training“ bekannt ist. Beim kontradiktorischen Training werden Bilder subtil verändert, indem jedes Pixel leicht verändert wird. Während ein Mensch den Unterschied nicht bemerken würde, können diese geringfügigen Änderungen eine Maschine täuschen und das Bild falsch klassifizieren. Durch das gegnerische Training wird das Modell robuster, sodass es durch diese Manipulationen nicht ausgetrickst wird. Da das gegnerische Training dem Modell beibringt, weniger auf geringfügige Änderungen in Bildern zu reagieren, hilft ihm dies dabei, eine Darstellung zu erlernen, die im Laufe der Zeit vorhersehbarer ist, erklärt Harrington „Die Leute hatten bereits die Idee, dass gegnerisches Training Ihnen dabei helfen könnte, Ihr Modell einem Menschen ähnlicher zu machen, und es war interessant zu sehen, wie sich dies auf eine andere Eigenschaft übertragen lässt, die die Leute zuvor noch nicht getestet hatten“, sagt sie.Aber die Forscher fanden heraus, dass kontradiktorisch trainierte Modelle nur lernen, sich zu begradigen, wenn sie für umfassende Aufgaben trainiert werden, etwa das Klassifizieren ganzer Bilder in Kategorien. Mit der Segmentierung betraute Modelle – also die Kennzeichnung jedes Pixels in einem Bild als eine bestimmte Klasse – korrigierten sich nicht, selbst wenn sie kontradiktorisch trainiert wurden.Konsistente KlassifizierungDie Forscher testeten diese Bildklassifizierungsmodelle, indem sie ihnen Videos zeigten. Sie fanden heraus, dass die Modelle, die wahrnehmungsgetreuere Darstellungen erlernten, dazu neigten, Objekte in den Videos konsistenter korrekt zu klassifizieren , zeigen immer noch ein gewisses Maß an Begradigung“, sagt DuTell. Die Forscher wissen nicht genau, was mit dem kontradiktorischen Trainingsprozess es einem Computer-Vision-Modell ermöglicht, sich zu begradigen, aber ihre Ergebnisse deuten darauf hin, dass stärkere Trainingsschemata dazu führen, dass sich die Modelle stärker begradigen, erklärt sie Aufbauend auf dieser Arbeit möchten die Forscher das Gelernte nutzen, um neue Trainingsschemata zu erstellen, die einem Modell explizit diese Eigenschaft verleihen. Sie wollen sich auch eingehender mit dem gegnerischen Training befassen, um zu verstehen, warum dieser Prozess einem Modell dabei hilft, sich zurechtzufinden „Das Verständnis der von tiefen neuronalen Netzen gelernten Darstellungen ist entscheidend, um Eigenschaften wie Robustheit und Generalisierung zu verbessern“, sagt Bill Lotter, Assistenzprofessor am Dana-Farber Cancer Institut und Harvard Medical School, der nicht an dieser Forschung beteiligt war. „Harrington et al. führen eine umfassende Auswertung durch, wie sich die Darstellungen von Computer-Vision-Modellen im Laufe der Zeit bei der Verarbeitung natürlicher Videos ändern, und zeigen, dass die Krümmung dieser Trajektorien je nach Modellarchitektur, Trainingseigenschaften und Aufgabe stark variiert. Diese Ergebnisse können Aufschluss geben Entwicklung verbesserter Modelle und bieten auch Einblicke in die biologische visuelle Verarbeitung.“ „Der Artikel bestätigt, dass das Begradigen natürlicher Videos eine ziemlich einzigartige Eigenschaft ist, die vom menschlichen visuellen System angezeigt wird menschliche Wahrnehmung: seine Robustheit gegenüber verschiedenen Bildtransformationen, ob natürlich oder künstlich“, sagt Olivier Hénaff, ein Forschungswissenschaftler bei DeepMind, der nicht an dieser Forschung beteiligt war. „Dass selbst kontradiktorisch trainierte Szenensegmentierungsmodelle ihre Eingaben nicht korrigieren, wirft wichtige Fragen für zukünftige Arbeiten auf: Analysieren Menschen natürliche Szenen auf die gleiche Weise wie Computer-Vision-Modelle? Wie kann man die Flugbahnen von Objekten in Bewegung darstellen und vorhersagen und gleichzeitig sensibel für sie bleiben?“ räumliche Details? Durch die Verbindung der Geraderichtungshypothese mit anderen Aspekten des visuellen Verhaltens legt der Artikel den Grundstein für einheitlichere Wahrnehmungstheorien. „Die Forschung wird teilweise vom Toyota Research Institute, dem MIT CSAIL METEOR Fellowship und dem National finanziert Science Foundation, das US Air Force Research Laboratory und der US Air Force Artificial Intelligence Accelerator.

AKTIE