anderson1

Suche

Home

Einstellungen

Anmelden

Hilfe

2. Wahrnehmung

Unsere Untersuchung der menschlichen Kognition beginnt in diesem Kapitel mit einer sehr grundlegenden Frage: Wie erkennen wir das, worauf wir treffen? Der Schwerpunkt dieses Kapitels liegt auf der visuellen Wahrnehmung, da diese besonders gut erforscht ist;
wir berücksichtigen allerdings auch Bereiche wie die Wahrnehmung von Sprache und andere Arten der Mustererkennung. Wir werden sehen, daß zur Wahrnehmung mehr gehört als nur das einfache Registrieren der Information, die unsere Augen und Ohren erreicht. Ein wichtiger Sachverhalt betrifft die Zuordnung von Interpretationen zu diesen Informationen. Eine interessante Demonstration dieses Sachverhalts ist das Beispiel eines Soldaten, der durch eine Kohlenmonoxidvergiftung eine Gehirnschädigung erlitt. Er konnte Objekte durch ihre ertastete Form, ihren Geruch oder ihren Klang erkennen, war jedoch nicht in der Lage, das Bild eines Kreises vom Bild eines Quadrates zu unterscheiden oder Gesichter und Buchstaben zu erkennen (Benson & Greenberg, 1969). Andererseits konnte er Helligkeitsabstufungen und Farben unterscheiden und angeben, in welche Richtung sich ein Objekt bewegt. Folglich war sein System in der Lage, visuelle Information zu registrieren, aber seine Gehirnschädigung hatte zu einem Verlust der Fähigkeit geführt, visuelle Information zu einer Wahrnehmungserfahrung zu kombinieren. Dieses Fallbeispiel zeigt, daß Wahrnehmung viel mehr ist als das einfache Registrieren sensorischer Information.

Dieser Patient ist einer von vielen, bei denen beobachtet wurde, daß sie an einer sogenannten visuellen Agnosie leiden. Visuelle Agnosie bezieht sich auf die Unfähigkeit, sichtbare Objekte zu erkennen, und zwar weder als Folge eines allgemeinen Verlustes der intellektuellen Fähigkeiten noch des Verlustes grundlegender sensorischer Fähigkeiten. Üblicherweise wird zwischen der sogenannten apperzeptiven Agnosie und der assoziativen Agnosie unterschieden (zum Überblick vgl. Farah, 1990). Dem erwähnten Patienten von Benson und Greenberg wird eine apperzeptive Agnosie zugeschrieben. Solche Patienten sind nicht in der Lage, einfache Figuren wie Kreise oder Dreiecke zu erkennen oder Figuren nach Vorlagen zu zeichnen. Im Gegensatz dazu können Patienten mit assoziativer Agnosie einfache Formen erkennen und sogar komplexe Figuren erfolgreich nachzeichnen.

Abb. 2.1 Der Patient war in der Lage, diesen Anker nachzuzeichnen, konnte ihn aber nicht erkennen (aus Ellis & Younü,19S8).

Sie sind jedoch nicht in der Lage, die Objekte zu erkennen. In Abbildung 2.1 sind das Original und die Zeichnung eines Ankers dargestellt, die ein Patient anfertigte, der von Ratcliff und Newcombe (1982) untersucht wurde. Trotz der Fähigkeit, eine relativ akkurate Zeichnung anzufertigen, war es dem Patienten nicht möglich, das Dargestellte als Anker zu erkennen (er bezeichnete es als Regenschirm). Es wird allgemein angenommen, daß bei Patienten mit apperzeptiver Agnosie Probleme bei relativ frühen visuellen Prozessen bestehen, wohingegen bei Patienten mit assoziativer Agnosie die frühen Prozesse intakt sind, sie aber Schwierigkeiten mit der Mustererkennung haben, die in späteren Informationsprozessen eine Rolle spielt. Dieses Kapitel beginnt mit einer Diskussion darüber, wie visuelle Information vor der Mustererkennung verarbeitet wird. Im Anschluß daran werden Prozesse der Mustererkennung diskutiert.
Die visuelle Wahrnehmung kann in eine frühe Phase, in der Formen und Objekte aus der visuellen Szenerie extrahiert werden, und eine späte Phase, in der Formen und Objekte erkannt werden, unterteilt werden.

Die Verarbeitung visueller Information
Frühe Prozesse der visuellen Informationsverarbeitung

Man weiß eine ganze Menge über die neuronalen Prozesse, die der frühen visuellen Informationsverarbeitung zugrunde liegen. Abbildung 2.2 zeigt eine schematische Darstellung des Auges. Das Licht durchquert die Linse und den Glaskörper und fällt auf die Netzhaut an der Rückseite des Auges. Es sind die lichtempfindlichen Zellen der Netzhaut, die auf das Licht reagieren. Das Licht wird beim Durchqueren des Glaskörpers leicht gestreut, so daß das Bild, das auf der Netzhaut entsteht, nicht völlig scharf ist. Eine der Funktionen der frühen Prozesse der visuellen Informationsverarbeitung besteht darin, dieses Bild scharf zu bekommen.
Das Licht wird durch einen photochemischen Prozeß in Nervenimpulse umgewandelt. Es gibt zwei verschiedene Typen von Photorezeptoren im Auge - Stäbchen und Zapfen. Die Zapfen sind für das Farbsehen zuständig und erbringen eine hohe Auflösung und Schärfe. Weniger Lichtenergie ist notwendig, um eine Reaktion der Stäbchen hervorzurufen, jedoch ist ihre Auflösung geringer. Daraus ergibt sich, daß sie im allgemeinen für weniger scharfes Schwarz-weiß-Sehen zuständig sind, wie wir es zum Beispiel nachts erleben. Eine hohe Dichte an Zapfen findet man vor allem in einem kleinen Bereich der Netzhaut, der Gelber Fleck (Fovea) genannt wird. Wenn wir ein Objekt fixieren, dann bewegen wir unsere Augen so, daß das Objekt auf die Fovea fällt. Dies ermöglicht uns, die hohe Auflösung bei der Wahrnehmung des Objekts durch die Zapfen zu maximieren. Foveales Sehen betrifft die Erkennung feiner Details. Der Rest des visuellen Feldes, die Peripherie, ist für die Erkennung eher globaler Information einschließlich des Erkennens von Bewegung verantwortlich.
Die Rezeptorzellen sind synaptisch mit Bipolarzellen und diese mit Ganglionzellen verbunden, deren Axone aus dem Auge austreten und den optischen Nerv bilden, der zum Gehirn führt.

Abb. 2.2 Eine schematische Darstellung des Auges. Das Licht tritt durch die Hornhaut (Cornea) ein, durchquert das Kammerwasser, die Pupille, die Linse und den Glaskörper, um auf die Netzhaut (Retina) aufzutreffen, die durch das Licht stimuliert wird (aus Lindsay & Norman, 1977).

Insgesamt befinden sich etwa 800 000 Ganglionzellen im optischen Nerv jedes Auges. Jede Ganglionzelle enkodiert Informationen einer kleinen Region der Netzhaut. Die Feuerrate einer Ganglionzelle enkodiert typischerweise den Betrag an Stimulation, der sich durch das auf diese Region der Netzhaut auftreffende Licht ergibt.

Abbildung 2.3 zeigt die Nervenbahnen vom Auge zum Gehirn. Die optischen Nerven beider Augen treffen sich im Chiasma opticum; dabei überkreuzen sich die Nerven der nasalen Seite der Netzhaut und führen zur gegenüberliegenden Seite des Gehirns, während die Nerven der Außenseite der Netzhaut zur ipsilateralen Hirnhälfte weiterführen. Dies bedeutet, daß die rechten Hälften beider Augen mit der rechten Gehirnhälfte verbunden sind.

Wie Abbildung 2.3 zeigt, bündelt die Linse das Licht so, daß der linke Teil des visuellen Feldes auf die rechte Hälfte jedes Auges fällt. Dadurch wird Information über den linken Teil des visuellen Feldes an die rechte Gehirnhälfte und entsprechend Information über die rechte Seite des visuellen Feldes an die linke Gehirnhälfte übermittelt. Dies ist ein Beispiel für die allgemeine Tatsache, daß die linke Hirnhemisphäre Informationen über den rechten Teil der Welt und die rechte Hirnhemisphäre Informationen über den linken Teil der Welt verarbeitet. (Dies wurde bereits im vorangehenden Kapitel angesprochen.)
Die Fasern der Ganglionzellen sind synaptisch mit Zellen entweder des Seitlichen Kniehöckers (Nucleus geniculatum laterale) oder des Colliculus superior (vgl. Abbildung 2.3) verbunden. Beides sind Hirnareale unterhalb des Cortex. Man nimmt an, daß der Nucleus geniculatum laterale ein Bestandteil des neuronalen Pfades ist, der wichtig für das Wahrnehmen von Details und das Erkennen von Objekten ist, während der Colliculus superior mit dem Lokalisieren von Objekten im Raum zu tun hat. Beide neuronalen Strukturen sind mit der Sehrinde verbunden, die ähnlich aufgeteilt ist: Areale des Temporallappens sind verantwortlich für die Objekterkennung, Areale des Parietallappens für die Objektlokalisation. Lichtenergie wird durch einen photochemischen Prozeß in neuronale Aktivität umgewandelt. Diese Information wird über verschiedene neuronale Bahnen zur Sehrinde weitergeleitet.

Die Wahrnehmung von Tiefe und von Oberflächen

Auch nachdem das visuelle System Kanten und Balken in der Umgebung identifiziert hat, muß noch eine umfangreiche Informationsverarbeitung geleistet werden, bevor das System in der Lage ist, die Welt wahrzunehmen. Eines der zu lösenden Probleme betrifft die Entscheidung, wo sich diese Kanten und Balken im Raum befinden. Das grundlegende Problem ist dabei die an der Netzhaut anliegende Information, da diese Information von Natur aus zweidimensional ist (2-D), während wir eine dreidimensionale (3-D) Repräsentation der Welt aufbauen müssen. Das visuelle System bedient sich beim Schließen auf Entfernungen einer ganzen Anzahl von Hinweisreizen. Einer dieser Hinweisreize ist der Texturgradient. Die wahrgenommenen Elemente scheinen mit steigender Entfernung zum Betrachter dichter gepackt zu sein. Gibson (1950) gibt hierfür anschauliche Beispiele (vgl. Abbildung 2.8). Obwohl es sich bei der Darstellung um eine ebene Fläche handelt, führt die Veränderung in der Textur zum Eindruck von Tiefe. Ein anderer Hinweisreiz für Tiefe ist die Stereopsie, die sich auf die Tatsache bezieht, daß beide Augen ein leicht unterschiedliches Bild der Welt erreicht. 3-D-Brillen, wie man sie in einigen Kinos und bei anderen Vorführungen findet, beruhen auf diesem Prinzip. Sie filtern das Licht, das von einer einzigen 2-D-Quelle (beispielsweise einer Kinoleinwand) kommt, so, daß unterschiedliches Licht auf die beiden Augen fällt. Die Wahrnehmung einer dreidimensionalen Struktur durch Stereopsie kann sehr eindrucksvoll sein.

Abb. 2.8 Beispiele für Texturgradienten (aus Gibson, 1950).

Eine dritte abgrenzbare Informationsquelle über dreidimensionale Strukturen beruht auf der sogenannten Bewegungsparallaxe. Wenn man den Kopf bewegt, bewegen sich nahe Objekte schneller über die Netzhaut, als dies weiter entfernte Objekte tun. Überprüfen kann man dies, wenn man auf die Blätter eines nahen Baumes oder Busches blickt und dabei ein Auge geschlossen hält. Ohne die stereoptische Information wird man den Eindruck eines sehr flachen Bildes haben, wobei es schwierig ist, die Lage der vielen Blätter relativ zueinander zu bestimmen. Durch Bewegen des Kopfes erscheint plötzlich sehr klar die dreidimensionale Struktur des Baumes, und es ist leicht, die Lage der Blätter und der Zweige relativ zueinander einzuschätzen.
Obwohl es einfach ist, die Bedeutung von Hinweisreizen wie Texturgradient, Stereopsie und Bewegungsparallaxe für die Tiefenwahrnehmung zu demonstrieren, ist es eine schwierige Sache, zu verstehen, wie das Gehirn die Informationen, die diese deutlichen Demonstrationen ermöglichen, tatsächlich verarbeitet. Im Bereich konstruktivistischer Ansätze (computional vision) wurde viel über diese Vorgänge gearbeitet. David Marr (1982) hatte großen Einfluß mit seinem Vorschlag, daß diese verschiedenen Informationsquellen zusammenarbeiten, um das aufzubauen, was er eine 2 1/2-D-Skizze nennt; diese 2 1/2-D-Skizze erlaubt die Bestimmung der relativen Lage von Oberflächen zum Betrachter. Er erkannte jedoch auch, wie weit diese Repräsentation vor der eigentlichen Wahrnehmung der Welt entfernt ist. Genaugenommen erlaubt diese Repräsentation noch nicht die Bestimmung, welche Objekte sich draußen in der Umgebung befinden. Er verwendete den Begriff der 3-D-Skizze, um sich auf eine objektzentrierte Repräsentation zu beziehen, die diese Information beinhaltet.

Objektzentrierte Wahrnehmung
Ein Hauptproblem bei der Berechnung einer solchen Repräsentation der Welt liegt in der Segmentierung von Objekten. Zu wissen, wo sich die Linien und Balken im Raum befinden, reicht nicht aus. Wir müssen darüber hinaus wissen, was genau zusammengehört, um Objekte zu bilden. Betrachten Sie die Anordnung in Abbildung 2.9.

Viele Linien verlaufen kreuz und quer, aber irgendwie gliedern wir sie, um zur Wahrnehmung einer Reihe von Objekten zu gelangen.
Gewöhnlich folgen wir bei der Organisation von Objekten zu Einheiten bestimmten Gesetzen. Diese Gesetze werden nach den Gestalt-Psychologen, die sie zuerst formuliert haben (zum Beispiel Wertheimer, 1912), Gestaltgesetze der Wahrnehmungsorganisation genannt. Betrachten Sie die verschiedenen Teile der Abbildung 2.10. In Abbildung 2.10a nehmen wir eher vier Paare von Linien und nicht etwa acht einzelne Linien wahr. Hier wird das Gesetz der Nähe veranschaulicht: Nahe beieinanderliegende Elemente organisieren sich oft zu Einheiten. Abbildung 2.10b veranschaulicht das Gesetz der Ähnlichkeit. Wir neigen dazu, diese Anordnung als Reihen von Kreisen zu sehen, die sich mit Reihen von Kreuzen abwechseln. Ähnlich aussehende Objekte werden bevorzugt zu einer Gruppe zusammengefaßt.

Abbildung 2.10c veranschaulicht das Gesetz des glatten Verlaufs. Wir nehmen zwei Linien wahr, eine von A nach B und eine andere von C nach D, obwohl es dafür eigentlich keinen Grund gibt. Diese Skizze könnte auch für ein anderes Paar von Linien stehen: eine, die von A nach D führt, und die andere, die von C nach B führt. Die Linie von A nach B weist jedoch einen glatteren Verlauf auf als die stark abgeknickte Linie von A nach D. Abbildung 2. l0c veranschaulicht das Gesetz der Geschlossenheit und der guten Gestalt. Wir sehen in der Zeichnung einen Kreis, der teilweise einen anderen Kreis verdeckt, obwohl das verdeckte Objekt viele andere Formen haben könnte.
Aufgrund dieser Gesetze besitzen sogar völlig unbekannte Stimuli die Tendenz, sich zu Einheiten zusammenzuschließen. Palmer (1977) untersuchte das Wiedererkennen von Figuren, wie sie Abbildung 2.11 darstellt. Er zeigte den Probanden zunächst Stimuli der Art von Teil (a) und ließ sie dann entscheiden, ob die Teilstücke (b) bis (e) einen Bestandteil der Originalfigur darstellen. Der Stimulus in Abbildung 2.11 a neigt dazu, sich in ein Dreieck (Geschlossenheit) und in einen verbogenen Buchstaben ,,11" (glatter Verlauf) zu gliedern. Palmer konnte zeigen, daß die Wiedererkennung der Teilstücke am schnellsten erfolgte, wenn diese Teilstücke den von den Gestaltgesetzen vorhergesagten Segmenten entsprachen. Die Stimuli der Abbildungen 2.11b und 2.11c wurden also schneller als jene der Abbildungen 2. l1d und 2. l le wiedererkannt. Wir sehen also, daß das Wiedererkennen entscheidend von der ursprünglichen Gliederung der Figur abhängt. Wenn die Gestaltgesetze zu einer Gliederung führen, die der tatsächlichen Struktur des Musters widerspricht, wird das Erkennen unter Umständen in starkem Maße beeinträchtigt. ZuMbEiSpIeL-iStDiEsErSaTzScHwIeRiGzUlEsEn. Die Gründe für die Schwierigkeiten liegen darin, daß das Gestaltgesetz der Nähe es erschwert, benachbarte Buchstaben unterschiedlicher Groß- und Kleinschreibung zusammen zu sehen, und daß Hinweise, die sich aus dem Gesetz der Nähe ergeben, durch das Fehlen der Wortzwischenräume ausbleiben.

Abb. 2.11 Beispiele für Stimuli, wie sie Palmer (1977) zur Untersuchung der Segmentierung unbekannter Figuren verwendete, (a) zeigt den Originalstimulus, den die Probanden sahen, (b) bis (e) zeigen Teilfiguren zur Wiedererkennung. wobei die Stimuli (b) und (c) gute Teilfiguren, die Stimuli (d) und (e) schlechte Teilfiguren darstellen.

Diese Vorstellungen über die Gliederung können ausgebaut werden, um die Segmentierung komplexerer dreidimensionaler Strukturen zu beschreiben. Abbildung 2.12 veranschaulicht einen Vorschlag von Hoffman und Richards (1985), wie gestaltartige Gesetze genutzt werden können, um eine Umrißzeichnung eines Objekts in Teilobjekte zu gliedern. Sie stellten fest, daß sich an der Stelle, an der ein Segment an ein anderes angefügt wird, typischerweise ein konkaver Verlauf der Umrißlinie zeigt. Hier scheint das Gestaltgesetz des glatten Verlaufs herangezogen zu werden: Die Linien an den konkaven Stellen sind keine glatten Verläufe; deshalb können sie die zu verbindenden Teile nicht gruppieren.
Wir haben die visuelle Informationsverarbeitung bis zu dem Punkt behandelt, an dem die Lage und die Form von Objekten im dreidimensionalen Raum erkannt wurden.

Abb. 2.12 Segmentierung eines Objekts in Teilobjekte: Die Teilobjektgrenze kann durch die Kontur identifiziert werden. die den Stellen mit maximaler konkaver Biegung folgt (Stillings et al-, 1987; nach Hoffmann & Richards. 1985).

Gegenwärtig glaubt man, daß die zugrundeliegenden visuellen Mechanismen zum großen Teil angeboren sind. Bereits im Säuglingsalter scheinen Objekte und Formen wiedererkannt zu werden und Einschätzungen, wo sich diese Objekte im dreidimensionalen Raum befinden, möglich zu sein (zum Beispiel Granrud, 1986, 1987). Im folgenden Abschnitt befassen wir uns mit einer Frage, bei deren Beantwortung Lernprozessen in der Wahrnehmung eine wichtige Rolle zukommt: Wie erkennen wir, um welche sichtbaren Objekte es sich handelt?

Visuelle Szenen werden mit Hilfe der Gestaltgesetze der Wahrnehmungsorganisation in Objekte gegliedert.

Benutzer: Gast • Besitzer: matthias • Zuletzt geändert am: