In de afgelopen 15 jaar zijn er 3 grote, op Taal- en Spraaktechnologie gerichte infrastructuurprojecten geweest:

  • CGN: Corpus Gesproken Nederlands
  • STEVIN: Vlaams-Nederlandse TST-programma
  • CLARIN: Common Language Architecture Research Infrastructure Network

Resultaten

Voor een goede ontwikkeling van (Nederlandstalige) TST (Taal- en Spraaktechnologie) zijn het CGN, STEVIN en CLARIN-NL essentieel geweest. Veel bedrijven en universiteiten hebben het CGN en verschillende STEVIN-projecten gebruikt voor het testen en verbeteren van de spraakherkenners, voor het POS-tagging op gesproken data (itt geschreven data), voor het beter kunnen zoeken, etc.. Ook is er veel gepubliceerd: zowel wetenschappelijk als meer populair-wetenschappelijk.

 

CGN stevin CLARIN
CGN STEVIN CLARIN
  • 917 resultaten op spoken dutch corpus cgn
  • 862 resultaten op “spoken dutch corpus” (met de quotes)
De resultaten van het STEVIN programma staan in het STEVIN factbook (Spyns & Odijk).

CLARIN heeft ervoor gezorgd dat een groot deel van de bestaande data en tools nu ook beschikbaar zijn/komen voor niet-taaltechnologen (TTNWW, OpenSONAR). Voor een uitgebreider overzicht van de resultaten van CLARIN zie hier.