|
Unsere Untersuchung der menschlichen Kognition beginnt in diesem Kapitel
mit einer sehr grundlegenden Frage: Wie erkennen wir das, worauf wir treffen?
Der Schwerpunkt dieses Kapitels liegt auf der visuellen Wahrnehmung, da
diese besonders gut erforscht ist;
wir berücksichtigen allerdings auch Bereiche wie die Wahrnehmung
von Sprache und andere Arten der Mustererkennung. Wir werden sehen, daß
zur Wahrnehmung mehr gehört als nur das einfache Registrieren der
Information, die unsere Augen und Ohren erreicht. Ein wichtiger Sachverhalt
betrifft die Zuordnung von Interpretationen zu diesen Informationen. Eine
interessante Demonstration dieses Sachverhalts ist das Beispiel eines Soldaten,
der durch eine Kohlenmonoxidvergiftung eine Gehirnschädigung erlitt.
Er konnte Objekte durch ihre ertastete Form, ihren Geruch oder ihren Klang
erkennen, war jedoch nicht in der Lage, das Bild eines Kreises vom Bild
eines Quadrates zu unterscheiden oder Gesichter und Buchstaben zu erkennen
(Benson & Greenberg, 1969). Andererseits konnte er Helligkeitsabstufungen
und Farben unterscheiden und angeben, in welche Richtung sich ein Objekt
bewegt. Folglich war sein System in der Lage, visuelle Information zu registrieren,
aber seine Gehirnschädigung hatte zu einem Verlust der Fähigkeit
geführt, visuelle Information zu einer Wahrnehmungserfahrung zu kombinieren.
Dieses Fallbeispiel zeigt, daß Wahrnehmung viel mehr ist als das
einfache Registrieren sensorischer Information.
Dieser Patient ist einer von vielen, bei denen beobachtet wurde, daß sie an einer sogenannten visuellen Agnosie leiden. Visuelle Agnosie bezieht sich auf die Unfähigkeit, sichtbare Objekte zu erkennen, und zwar weder als Folge eines allgemeinen Verlustes der intellektuellen Fähigkeiten noch des Verlustes grundlegender sensorischer Fähigkeiten. Üblicherweise wird zwischen der sogenannten apperzeptiven Agnosie und der assoziativen Agnosie unterschieden (zum Überblick vgl. Farah, 1990). Dem erwähnten Patienten von Benson und Greenberg wird eine apperzeptive Agnosie zugeschrieben. Solche Patienten sind nicht in der Lage, einfache Figuren wie Kreise oder Dreiecke zu erkennen oder Figuren nach Vorlagen zu zeichnen. Im Gegensatz dazu können Patienten mit assoziativer Agnosie einfache Formen erkennen und sogar komplexe Figuren erfolgreich nachzeichnen.
Abb. 2.1 Der Patient war in der Lage, diesen Anker nachzuzeichnen, konnte ihn aber nicht erkennen (aus Ellis & Younü,19S8).
Sie sind jedoch nicht in der Lage, die Objekte zu erkennen. In Abbildung
2.1 sind das Original und die Zeichnung eines Ankers dargestellt, die ein
Patient anfertigte, der von Ratcliff und Newcombe (1982) untersucht wurde.
Trotz der Fähigkeit, eine relativ akkurate Zeichnung anzufertigen,
war es dem Patienten nicht möglich, das Dargestellte als Anker zu
erkennen (er bezeichnete es als Regenschirm). Es wird allgemein angenommen,
daß bei Patienten mit apperzeptiver Agnosie Probleme bei relativ
frühen visuellen Prozessen bestehen, wohingegen bei Patienten mit
assoziativer Agnosie die frühen Prozesse intakt sind, sie aber Schwierigkeiten
mit der Mustererkennung haben, die in späteren Informationsprozessen
eine Rolle spielt. Dieses Kapitel beginnt mit einer Diskussion darüber,
wie visuelle Information vor der Mustererkennung verarbeitet wird. Im Anschluß
daran werden Prozesse der Mustererkennung diskutiert.
Die visuelle Wahrnehmung kann in eine frühe Phase, in der Formen
und Objekte aus der visuellen Szenerie extrahiert werden, und eine späte
Phase, in der Formen und Objekte erkannt werden, unterteilt werden.
Die Verarbeitung visueller Information
Frühe Prozesse der visuellen Informationsverarbeitung
Man weiß eine ganze Menge über die neuronalen Prozesse, die
der frühen visuellen Informationsverarbeitung zugrunde liegen. Abbildung
2.2 zeigt eine schematische Darstellung des Auges. Das Licht durchquert
die Linse und den Glaskörper und fällt auf die Netzhaut an der
Rückseite des Auges. Es sind die lichtempfindlichen Zellen der Netzhaut,
die auf das Licht reagieren. Das Licht wird beim Durchqueren des Glaskörpers
leicht gestreut, so daß das Bild, das auf der Netzhaut entsteht,
nicht völlig scharf ist. Eine der Funktionen der frühen Prozesse
der visuellen Informationsverarbeitung besteht darin, dieses Bild scharf
zu bekommen.
Das Licht wird durch einen photochemischen Prozeß in Nervenimpulse
umgewandelt. Es gibt zwei verschiedene Typen von Photorezeptoren im Auge
- Stäbchen und Zapfen. Die Zapfen sind für das Farbsehen zuständig
und erbringen eine hohe Auflösung und Schärfe. Weniger Lichtenergie
ist notwendig, um eine Reaktion der Stäbchen hervorzurufen, jedoch
ist ihre Auflösung geringer. Daraus ergibt sich, daß sie im
allgemeinen für weniger scharfes Schwarz-weiß-Sehen zuständig
sind, wie wir es zum Beispiel nachts erleben. Eine hohe Dichte an Zapfen
findet man vor allem in einem kleinen Bereich der Netzhaut, der Gelber
Fleck (Fovea) genannt wird. Wenn wir ein Objekt fixieren, dann bewegen
wir unsere Augen so, daß das Objekt auf die Fovea fällt. Dies
ermöglicht uns, die hohe Auflösung bei der Wahrnehmung des Objekts
durch die Zapfen zu maximieren. Foveales Sehen betrifft die Erkennung feiner
Details. Der Rest des visuellen Feldes, die Peripherie, ist für die
Erkennung eher globaler Information einschließlich des Erkennens
von Bewegung verantwortlich.
Die Rezeptorzellen sind synaptisch mit Bipolarzellen und diese mit
Ganglionzellen verbunden, deren Axone aus dem Auge austreten und den optischen
Nerv bilden, der zum Gehirn führt.
Abb. 2.2 Eine schematische Darstellung des Auges. Das Licht tritt durch die Hornhaut (Cornea) ein, durchquert das Kammerwasser, die Pupille, die Linse und den Glaskörper, um auf die Netzhaut (Retina) aufzutreffen, die durch das Licht stimuliert wird (aus Lindsay & Norman, 1977).
Insgesamt befinden sich etwa 800 000 Ganglionzellen im optischen Nerv jedes Auges. Jede Ganglionzelle enkodiert Informationen einer kleinen Region der Netzhaut. Die Feuerrate einer Ganglionzelle enkodiert typischerweise den Betrag an Stimulation, der sich durch das auf diese Region der Netzhaut auftreffende Licht ergibt.
Abbildung 2.3 zeigt die Nervenbahnen vom Auge zum Gehirn. Die optischen Nerven beider Augen treffen sich im Chiasma opticum; dabei überkreuzen sich die Nerven der nasalen Seite der Netzhaut und führen zur gegenüberliegenden Seite des Gehirns, während die Nerven der Außenseite der Netzhaut zur ipsilateralen Hirnhälfte weiterführen. Dies bedeutet, daß die rechten Hälften beider Augen mit der rechten Gehirnhälfte verbunden sind.
Wie Abbildung 2.3 zeigt, bündelt die Linse das Licht
so, daß der linke Teil des visuellen Feldes auf die rechte Hälfte
jedes Auges fällt. Dadurch wird Information über den linken Teil
des visuellen Feldes an die rechte Gehirnhälfte und entsprechend Information
über die rechte Seite des visuellen Feldes an die linke Gehirnhälfte
übermittelt. Dies ist ein Beispiel für die allgemeine Tatsache,
daß die linke Hirnhemisphäre Informationen über den rechten
Teil der Welt und die rechte Hirnhemisphäre Informationen über
den linken Teil der Welt verarbeitet. (Dies wurde bereits im vorangehenden
Kapitel angesprochen.)
Die Fasern der Ganglionzellen sind synaptisch mit Zellen entweder des
Seitlichen Kniehöckers (Nucleus geniculatum laterale) oder des Colliculus
superior (vgl. Abbildung 2.3) verbunden. Beides sind Hirnareale unterhalb
des Cortex. Man nimmt an, daß der Nucleus geniculatum laterale ein
Bestandteil des neuronalen Pfades ist, der wichtig für das Wahrnehmen
von Details und das Erkennen von Objekten ist, während der Colliculus
superior mit dem Lokalisieren von Objekten im Raum zu tun hat. Beide neuronalen
Strukturen sind mit der Sehrinde verbunden, die ähnlich aufgeteilt
ist: Areale des Temporallappens sind verantwortlich für die Objekterkennung,
Areale des Parietallappens für die Objektlokalisation. Lichtenergie
wird durch einen photochemischen Prozeß in neuronale Aktivität
umgewandelt. Diese Information wird über verschiedene neuronale Bahnen
zur Sehrinde weitergeleitet.
Die Wahrnehmung von Tiefe und von Oberflächen
Auch nachdem das visuelle System Kanten und Balken in der Umgebung identifiziert hat, muß noch eine umfangreiche Informationsverarbeitung geleistet werden, bevor das System in der Lage ist, die Welt wahrzunehmen. Eines der zu lösenden Probleme betrifft die Entscheidung, wo sich diese Kanten und Balken im Raum befinden. Das grundlegende Problem ist dabei die an der Netzhaut anliegende Information, da diese Information von Natur aus zweidimensional ist (2-D), während wir eine dreidimensionale (3-D) Repräsentation der Welt aufbauen müssen. Das visuelle System bedient sich beim Schließen auf Entfernungen einer ganzen Anzahl von Hinweisreizen. Einer dieser Hinweisreize ist der Texturgradient. Die wahrgenommenen Elemente scheinen mit steigender Entfernung zum Betrachter dichter gepackt zu sein. Gibson (1950) gibt hierfür anschauliche Beispiele (vgl. Abbildung 2.8). Obwohl es sich bei der Darstellung um eine ebene Fläche handelt, führt die Veränderung in der Textur zum Eindruck von Tiefe. Ein anderer Hinweisreiz für Tiefe ist die Stereopsie, die sich auf die Tatsache bezieht, daß beide Augen ein leicht unterschiedliches Bild der Welt erreicht. 3-D-Brillen, wie man sie in einigen Kinos und bei anderen Vorführungen findet, beruhen auf diesem Prinzip. Sie filtern das Licht, das von einer einzigen 2-D-Quelle (beispielsweise einer Kinoleinwand) kommt, so, daß unterschiedliches Licht auf die beiden Augen fällt. Die Wahrnehmung einer dreidimensionalen Struktur durch Stereopsie kann sehr eindrucksvoll sein.
Abb. 2.8 Beispiele für Texturgradienten (aus Gibson, 1950).
Eine dritte abgrenzbare Informationsquelle über dreidimensionale Strukturen
beruht auf der sogenannten Bewegungsparallaxe. Wenn man den Kopf bewegt, bewegen
sich nahe Objekte schneller über die Netzhaut, als dies weiter entfernte
Objekte tun. Überprüfen kann man dies, wenn man auf die Blätter eines nahen
Baumes oder Busches blickt und dabei ein Auge geschlossen hält. Ohne die
stereoptische Information wird man den Eindruck eines sehr flachen Bildes haben,
wobei es schwierig ist, die Lage der vielen Blätter relativ zueinander zu
bestimmen. Durch Bewegen des Kopfes erscheint plötzlich sehr klar die
dreidimensionale Struktur des Baumes, und es ist leicht, die Lage der Blätter
und der Zweige relativ zueinander einzuschätzen.
Obwohl es einfach ist, die Bedeutung von Hinweisreizen wie Texturgradient,
Stereopsie und Bewegungsparallaxe für die Tiefenwahrnehmung zu demonstrieren,
ist es eine schwierige Sache, zu verstehen, wie das Gehirn die Informationen,
die diese deutlichen Demonstrationen ermöglichen, tatsächlich
verarbeitet. Im Bereich konstruktivistischer Ansätze (computional vision) wurde
viel über diese Vorgänge gearbeitet. David Marr (1982) hatte großen Einfluß
mit seinem Vorschlag, daß diese verschiedenen Informationsquellen
zusammenarbeiten, um das aufzubauen, was er eine 2 1/2-D-Skizze nennt;
diese 2 1/2-D-Skizze erlaubt die Bestimmung der relativen Lage von Oberflächen
zum Betrachter. Er erkannte jedoch auch, wie weit diese Repräsentation vor der
eigentlichen Wahrnehmung der Welt entfernt ist. Genaugenommen erlaubt diese
Repräsentation noch nicht die Bestimmung, welche Objekte sich draußen in der
Umgebung befinden. Er verwendete den Begriff der 3-D-Skizze, um sich auf
eine objektzentrierte Repräsentation zu beziehen, die diese Information
beinhaltet.
Objektzentrierte Wahrnehmung
Ein Hauptproblem bei der Berechnung einer solchen Repräsentation
der Welt liegt in der Segmentierung von Objekten. Zu wissen, wo sich die
Linien und Balken im Raum befinden, reicht nicht aus. Wir müssen darüber
hinaus wissen, was genau zusammengehört, um Objekte zu bilden. Betrachten
Sie die Anordnung in Abbildung 2.9.
Viele Linien verlaufen kreuz und quer,
aber irgendwie gliedern wir sie, um zur Wahrnehmung einer Reihe von Objekten
zu gelangen.
Gewöhnlich folgen wir bei der Organisation von Objekten zu Einheiten
bestimmten Gesetzen. Diese Gesetze werden nach den Gestalt-Psychologen,
die sie zuerst formuliert haben (zum Beispiel Wertheimer, 1912), Gestaltgesetze
der Wahrnehmungsorganisation genannt. Betrachten Sie die verschiedenen
Teile der Abbildung 2.10. In Abbildung 2.10a nehmen wir eher vier Paare
von Linien und nicht etwa acht einzelne Linien wahr. Hier wird das Gesetz
der Nähe veranschaulicht: Nahe beieinanderliegende Elemente organisieren
sich oft zu Einheiten. Abbildung 2.10b veranschaulicht das Gesetz der Ähnlichkeit.
Wir neigen dazu, diese Anordnung als Reihen von Kreisen zu sehen, die sich
mit Reihen von Kreuzen abwechseln. Ähnlich aussehende Objekte werden
bevorzugt zu einer Gruppe zusammengefaßt.
Abbildung 2.10c veranschaulicht
das Gesetz des glatten Verlaufs. Wir nehmen zwei Linien wahr, eine von
A nach B und eine andere von C nach D, obwohl es dafür eigentlich
keinen Grund gibt. Diese Skizze könnte auch für ein anderes Paar
von Linien stehen: eine, die von A nach D führt, und die andere, die
von C nach B führt. Die Linie von A nach B weist jedoch einen glatteren
Verlauf auf als die stark abgeknickte Linie von A nach D. Abbildung 2.
l0c veranschaulicht das Gesetz der Geschlossenheit und der guten
Gestalt. Wir sehen in der Zeichnung einen Kreis, der teilweise einen anderen
Kreis verdeckt, obwohl das verdeckte Objekt viele andere Formen haben könnte.
Aufgrund dieser Gesetze besitzen sogar völlig unbekannte Stimuli
die Tendenz, sich zu Einheiten zusammenzuschließen. Palmer (1977)
untersuchte das Wiedererkennen von Figuren, wie sie Abbildung 2.11 darstellt. Er zeigte den Probanden zunächst
Stimuli der Art von Teil (a) und ließ sie dann entscheiden, ob die
Teilstücke (b) bis (e) einen Bestandteil der Originalfigur darstellen.
Der Stimulus in Abbildung 2.11 a neigt dazu, sich in ein Dreieck (Geschlossenheit)
und in einen verbogenen Buchstaben ,,11" (glatter Verlauf) zu gliedern.
Palmer konnte zeigen, daß die Wiedererkennung der Teilstücke
am schnellsten erfolgte, wenn diese Teilstücke den von den Gestaltgesetzen
vorhergesagten Segmenten entsprachen. Die Stimuli der Abbildungen 2.11b
und 2.11c wurden also schneller als jene der Abbildungen 2. l1d und 2.
l le wiedererkannt. Wir sehen also, daß das Wiedererkennen entscheidend
von der ursprünglichen Gliederung der Figur abhängt. Wenn die
Gestaltgesetze zu einer Gliederung führen, die der tatsächlichen
Struktur des Musters widerspricht, wird das Erkennen unter Umständen
in starkem Maße beeinträchtigt. ZuMbEiSpIeL-iStDiEsErSaTzScHwIeRiGzUlEsEn. Die Gründe für die
Schwierigkeiten liegen darin, daß das Gestaltgesetz der Nähe
es erschwert, benachbarte Buchstaben unterschiedlicher Groß- und
Kleinschreibung zusammen zu sehen, und daß Hinweise, die sich aus
dem Gesetz der Nähe ergeben, durch das Fehlen der Wortzwischenräume
ausbleiben.
Abb. 2.11 Beispiele für Stimuli, wie sie Palmer (1977) zur Untersuchung der Segmentierung unbekannter Figuren verwendete, (a) zeigt den Originalstimulus, den die Probanden sahen, (b) bis (e) zeigen Teilfiguren zur Wiedererkennung. wobei die Stimuli (b) und (c) gute Teilfiguren, die Stimuli (d) und (e) schlechte Teilfiguren darstellen.
Diese Vorstellungen über die Gliederung können ausgebaut
werden, um die Segmentierung komplexerer dreidimensionaler Strukturen zu
beschreiben. Abbildung 2.12 veranschaulicht einen Vorschlag von Hoffman
und Richards (1985), wie gestaltartige Gesetze genutzt werden können,
um eine Umrißzeichnung eines Objekts in Teilobjekte zu gliedern.
Sie stellten fest, daß sich an der Stelle, an der ein Segment an
ein anderes angefügt wird, typischerweise ein konkaver Verlauf der
Umrißlinie zeigt. Hier scheint das Gestaltgesetz des glatten Verlaufs
herangezogen zu werden: Die Linien an den konkaven Stellen sind keine glatten
Verläufe; deshalb können sie die zu verbindenden Teile nicht
gruppieren.
Wir haben die visuelle Informationsverarbeitung bis zu dem Punkt behandelt,
an dem die Lage und die Form von Objekten im dreidimensionalen Raum erkannt
wurden.
Abb. 2.12 Segmentierung eines Objekts in Teilobjekte: Die Teilobjektgrenze
kann durch die Kontur identifiziert werden. die den Stellen mit maximaler
konkaver Biegung folgt (Stillings et al-, 1987; nach Hoffmann & Richards.
1985).
Gegenwärtig glaubt man, daß die zugrundeliegenden visuellen Mechanismen zum großen Teil angeboren sind. Bereits im Säuglingsalter scheinen Objekte und Formen wiedererkannt zu werden und Einschätzungen, wo sich diese Objekte im dreidimensionalen Raum befinden, möglich zu sein (zum Beispiel Granrud, 1986, 1987). Im folgenden Abschnitt befassen wir uns mit einer Frage, bei deren Beantwortung Lernprozessen in der Wahrnehmung eine wichtige Rolle zukommt: Wie erkennen wir, um welche sichtbaren Objekte es sich handelt?
Visuelle Szenen werden mit Hilfe der Gestaltgesetze der Wahrnehmungsorganisation in Objekte gegliedert.
|