Nederlandse samenvatting (Summary in Dutch)
Schijnbaar zonder enige inspanning interpreteren onze hersenen het licht dat op ons netvlies wordt geprojecteerd, en in een oogwenk herkennen we de voorwerpen om ons heen. In tegenstelling tot een camera, die slechts ruwe visuele informatie opslaat die vanuit de fysieke wereld wordt geprojecteerd, begrijpen we onze omgeving in termen van levendige visuele kenmerken, structuren en objecten. Deze prestatie is vooral indrukwekkend omdat objectherkenning een rekenintensief proces is. Een enkel voorwerp, bijvoorbeeld een banaan, kan voor een vrijwel oneindig aantal verschillende projecties op ons netvlies zorgen, afhankelijk van vele factoren, zoals het gezichtspunt, de belichting of zelfs de rijpheid. Bovendien kunnen objecten uit dezelfde categorie verschillen in kleur, grootte, textuur en andere kenmerken. Om het nog ingewikkelder te maken zien we maar zelden een object op zichzelf. We zien de wereld in scènes, waarin objecten zijn ingebed en vaak gedeeltelijk verborgen zijn in een rijke en complexe omgeving. Hoe verwerken de hersenen deze visuele informatie en transformeren ze die tot robuuste visuele representaties van objecten en structuren?
We weten dat het visuele systeem hiërarchisch is opgebouwd. Dat betekent dat de visuele informatie van ‘vroege visuele gebieden’, zoals de primaire visuele cortex, naar hogere of latere visuele gebieden gaat. Hoe verder de informatie in de hiërarchie komt, hoe complexer de wijze is waarop die informatie verwerkt wordt. Door achtereenvolgens steeds complexere kenmerkcombinaties op te bouwen, zou een enkele golf van activiteit door deze gebieden kunnen volstaan om een object te herkennen. Deze golf van activiteit van vroege naar latere visuele gebieden wordt ook wel de feedforward sweep genoemd (zie ook Figuur 1 uit de introductie). Na deze feedforward sweep, is het verwerken echter nog niet altijd afgelopen. Terugkerende signalen vanuit de hogere gebieden kunnen de lagere hersengebieden heractiveren via feedback verbindingen. Dit wordt ook wel recurrent processing genoemd.
Het hoofddoel in dit proefschrift is het onderzoeken in hoeverre het menselijk brein beïnvloed wordt door eigenschappen van onze natuurlijke omgeving tijdens het herkennen van objecten. We hebben met name onderzocht hoe verschillende functionele architecturen of verschillen in informatieverwerking (feedforward of recurrent processing) informatie onttrekken aan objecten en hun achtergronden. Om dit psychobiologische proces goed te begrijpen hebben we verschillende experimenten uitgevoerd en verschillende technieken gebruikt. Om de complexiteit van een afbeelding te kwantificeren hebben we gebruik gemaakt van modellen die de statistische eigenschappen van plaatjes berekenen (op een manier die het brein ook zou kunnen uitvoeren). Deze plaatjes hebben we vervolgens laten zien in psychologische experimenten, gecombineerd met EEG metingen en beslismodellen om de hersenactiviteit en de processen die optreden tijdens visuele verwerking in kaart te brengen. Bovendien hebben we computermodellen gebruikt als ‘kunstmatige diermodellen’ van het visuele systeem in mensen, om op die manier meer te leren over de berekeningen die ten grondslag liggen aan succesvolle objectherkenning.
Lange tijd waren computers niet in staat om objecten net zo goed te herkennen als mensen. Tegenwoordig, gestimuleerd door grotere datasets en toenemende rekenkracht, hebben de vorderingen in kunstmatige neurale netwerken geleid tot ‘visuele systemen’ die beginnen te concurreren met mensen. Aangezien het hier om computermodellen gaat, kunnen we de architectuur gemakkelijk wijzigen, bepaalde gebieden in het netwerk ‘beschadigen’, of verschillende architecturen met elkaar vergelijken om de mechanismen of berekeningen die tot objectherkenning leiden te evalueren. Naast het manipuleren van de architectuur, kunnen we ook visuele input manipuleren en evalueren hoe verschillende modellen omgaan met variaties in zintuiglijke input, net als in experimenten met menselijke deelnemers.
In Hoofdstuk 2 onderzochten we of de complexiteit van een plaatje beïnvloedt hoe de hersenen het plaatje verwerken tijdens het nemen van een beslissing. Om dit te onderzoeken vroegen we deelnemers om wisselend zo snel of zo accuraat mogelijk aan te geven of ze een dier herkenden in verschillende scènes met een lage, gemiddelde of hoge complexiteit (gekwantificeerd door twee statistieken). Analyses met behulp van beslismodellen toonden aan dat de snelheid van informatieverwerking werd beïnvloed door de complexiteit van de scène. Afzonderlijke manipulatie van de twee statistieken verfijnde deze waarnemingen door aan te tonen dat de effecten met name te wijden waren aan de mate van coherentie in de scene.
In Hoofdstuk 3, evalueerden we of deze gedragseffecten direct gebaseerd waren op de berekening van SC en CE, als een soort algemene maat voor beeldcomplexiteit, of meer indirect, als diagnostische informatie om andere taak-relevante eigenschappen in te schatten. Onze resultaten suggereren het eerste, omdat we laten zien dat hoe objectherkenning wordt opgelost afhangt van de complexiteit van de context, ook als die context geen taak-relevante eigenschappen bevat: voor objecten die geïsoleerd of in ‘eenvoudige’ omgevingen worden aangeboden lijkt objectherkenning vooral afhankelijk te zijn van het object zelf, wat resulteert in een situatie die waarschijnlijk kan worden opgelost binnen de eerste feed-forward sweep van visuele informatieverwerking. Wanneer de omgeving complexer of chaotischer is, lijkt recurrent processing nodig om de elementen die bij het object horen te groeperen en het object ‘uit te lichten’ van de achtergrond.
In Hoofdstuk 4, onderzochten we de mate waarin object- en contextinformatie wordt gerepresenteerd en gebruikt voor objectherkenning in verschillende kunstmatige neurale netwerken. We laten zien dat architecturen met meerdere lagen van verwerking (d.w.z. een dieper netwerk) of architecturen met feedback connecties beter in staat zijn om een object te scheiden ten opzichte van de achtergrond, op grond van een toenemende selectiviteit voor de relevante kenmerken.
Tenslotte hebben we in Hoofdstuk 5 onderzocht wat er gebeurt als visuele informatie niet langer betrouwbaar vertaald kan worden naar bestaande conceptuele kennis. In deze studie testten we object- en scèneherkenning in een patiënt met hersenbeschadigingen. Een opmerkelijke bevinding bij deze patiënt was dat hij een specifieke prestatievermindering vertoonde voor bepaalde categorieën, zoals voor ‘levende dingen’ ten opzichte van ‘niet-levende dingen’. De resultaten in hoofdstuk 5 laten zien dat de categorie-specifieke effecten, althans voor deze patiënt, niet verklaard kunnen worden door een semantische stoornis alleen. Met behulp van de kunstmatige neurale netwerken probeerden we ook hier weer te onderzoeken welk type berekeningen dergelijk gedrag zou kunnen produceren. Over het algemeen vertoonden de netwerken met ‘beschadigingen’ in hogere gebieden (en niet vroege gebieden) vergelijkbare reactiepatronen, met verminderde prestaties voor kunstmatige scenes en levende dingen.
Samenvattend toont het onderzoek in dit proefschrift aan dat hoe objectherkenning wordt opgelost in het brein afhangt van de context waarin het object verschijnt: voor objecten gepresenteerd in een eenvoudige omgeving (bijvoorbeeld een vogel in een strakblauwe lucht), kan herkenning waarschijnlijk worden opgelost binnen de eerste feed-forward sweep van visuele informatieverwerking, gebaseerd op een ongebonden verzameling van beeldkenmerken. Voor meer complexe scènes of in meer uitdagende situaties, is aanvullende activiteit (in de vorm van in de vorm van recurrente berekeningen) nodig, om de elementen die bij het object horen te groeperen en te scheiden van de drukke achtergrond.