Corpus (taalkunde)

Een corpus (meervoud corpora) is in de taalkunde een verzameling teksten of mondelinge uitingen (klankopnames) in een bepaalde taal, die gebruikt wordt om onderzoek van linguïstische of statistische aard op te verrichten. In het onderzoek naar de kindertaalverwerving refereert men ook aan de (totale) taalproductie van een kind als een corpus.

Het taalkundige onderzoek zelf dat aan de hand van corpora gebeurt staat bekend als corpustaalkunde of -linguïstiek.

Soorten corpora

Er bestaan, naargelang van de functie, verschillende soorten corpora:

Diachrone corpora

Diachrone corpora zijn tekstbestanden uit verschillende periodes: zo is een verzameling die bijvoorbeeld teksten uit de twaalfde, dertiende, veertiende, vijftiende, zestiende en zeventiende eeuw bevat, een diachroon corpus, omdat men aan de hand van deze teksten kan vergelijken hoe sommige woorden of patronen in onbruik raken, geïntroduceerd worden of anderszins evolueren. De teksten hoeven in principe niet aan hetzelfde genre te beantwoorden, alhoewel dit uiteraard mooi meegenomen is.

Synchrone corpora

Synchrone corpora zijn verzamelingen van teksten uit ongeveer dezelfde periode, bijvoorbeeld alle geschreven in 1986. Bij dit soort corpus worden teksten van verschillende stijlen, genres en niveaus vergeleken, zodat men kan onderzoeken welke patronen en woordkeuzes typerend zijn voor welke doelgroepen.

Gesproken corpora

Naast geschreven corpora bestaan er gesproken corpora van gesproken taal: in zo'n geval registreert men gesprekken, dialogen, interviews, conferenties enzovoorts.

In veel gevallen zijn gesproken corpora geannoteerd met een transcriptie, dat wil zeggen, met een tekstbestand waarin is opgeslagen wat er in het gesproken corpus gezegd wordt. De meest gebruikelijke vormen van transcriptie zijn orthografische en fonetische transcriptie.

Gesproken corpora zijn veelal gealigneerd met hun transcriptie. Dat wil zeggen dat het corpus niet alleen bestaat uit het geluidsbestand en het bestand met de transcriptie-informatie, maar dat ook aangegeven is welk deel van het geluidsbestand correspondeert met welk deel van het transcriptiebestand. De meest bekende vorm van gealigneerde ortografische transcriptie van tekst zijn de ondertitelingsbestanden van films.

De fonetische transcriptie maakt gebruik van een fonetisch alfabet om de klanken in tekst weer te geven. Daarnaast worden vaak ook andere aspecten van de spraak in de transcriptie aangegeven: men maakt gebruik van een speciale notatie om aan te duiden waar de sprekers van volume veranderden, hun intonatie wijzigden en elkaar onderbraken. Gesproken corpora met een rijke transcriptie zijn doorgaans zo accuraat mogelijke weergaves van de spreeksituatie en in sommige gevallen worden ook achtergrondgeluiden, versprekingen, aarzelingen en andere niet-verbale geluiden opgenomen in de transcriptie.

Het internet als corpus

In wezen is uiteindelijk elke verzameling teksten een corpus: men kan reeds een (oppervlakkig) taalkundig onderzoek uitvoeren met behulp van een zoekmachine, vermits het internet op zich ook een corpus is. Weliswaar biedt het geen garantie dat de teksten representatief zijn, en daarenboven zal onvermijdelijk een aantal niet door moedertaalsprekers geschreven zijn. Een bijzonder laag aantal 'Google-hits' kan echter een krachtige en bruikbare indicatie voor de frequentie van een patroon of lexeem vormen.

Meertalige corpora

Meertalige (of gemengde) corpora zijn corpora waarin teksten in verschillende talen zijn opgenomen. Er zijn verschillende soorten meertalige corpora:

vergelijkbare corpora zijn corpora waarin de teksten uit de verschillende talen vergelijkbaar zijn in grootte en inhoud, maar waarbij niet noodzakelijkerwijs iedere taal precies dezelfde teksten bevat
parallelle corpora zijn corpora waarin dezelfde teksten in alle talen aanwezig zijn. Een bekend meertalig corpus is de tekst van de bijbel in alle talen waarin ze vertaald is.
gealigneerde corpora zijn parallelle corpora waarin niet alleen alle talen dezelfde teksten bevatten, maar waarin ook is aangegeven welk deel uit de tekst uit de ene taal correspondeert met welk deel van de tekst uit een andere taal. Deze correspondentie is vaak ofwel op het niveau van de paragrafen aangegeven, ofwel op het niveau van de zinnen. Gealigneerde corpora worden gebruikt als trainingsmateriaal voor statistische computervertaling.

Meertalige corpora zijn nuttig voor contrasteren van talen: men kan werken met teksten die georiënteerd zijn naar het genre, bijvoorbeeld krantenartikelen met betrekking tot streeknieuws in het Fins en Portugees, of men kan met teksten werken die onderling vertalingen van elkaar zijn, bijvoorbeeld farmaceutische bijsluiters. Dit soort corpus vertelt vaak veel over hoe bepaalde constructies zich, qua frequentie, ten opzichte van elkaar verhouden in verschillende talen. Veel hedendaagse automatische vertaalsystemen zijn gebaseerd op grote meertalige corpora.

Specialistische corpora

Verschillende universiteiten hebben in de loop der jaren corpora aangelegd met het oog op bepaalde onderzoeken. Zo bestaan er corpora die uitsluitend teksten van mensen bevatten die de desbetreffende taal nog aan het leren zijn en dus nog fouten maken; dit verschaft waardevolle inzichten over welk soort fouten vaak voorkomt bij het verwerven van een bepaalde taal. Andere corpora bestaan uitsluitend uit telefoongesprekken. Specialistische corpora ontspruiten vaak aan universiteitsvakgroepen en zijn niet vrij toegankelijk: er bestaat echter een klein aantal corpora die vrij consulteerbaar zijn op het Internet, zoals de LOB- en Brown-corpora, die beide formele teksten uit 1961 bevatten, de eerste Brits, de tweede Amerikaans. Grote corpora, met een breed gamma aan genres en periodes, bevatten vaak miljoenen woorden: een van de gezaghebbendste is de British National Corpus.

Voor de (studie van de) kindertaal is "CHILDES" (Child Language Data Exchange System) een bekende en veelgebruikte (digitale) verzameling.

Treebank

Een treebank (Engels, 'bomenbank') is een corpus van zinnen met syntactische annotatie. Treebanks worden gebruikt voor syntactisch onderzoek en voor het trainen van automatische ontleedprogramma's.

Naar analogie met parallelle corpora bestaan er ook parallelle treebanks. Deze worden gebruikt voor onderzoek in de vertaalkunde en de comparatieve linguistiek, en voor het trainen van automatische vertaalprogramma's.

Externe links

(en) Alpino Treebank
(en) CHILDES (gearchiveerd)
Corpus Gesproken Nederlands (CGN)
Corpus Nederlandse Gebarentaal
(en) GrETEL zoekmachine voor Nederlandse treebanks