Nummer 35 Inhoudsopgave - Human Media Interaction

Commentaren

Transcriptie

Nummer 35 Inhoudsopgave - Human Media Interaction
ParleBode
Het Schettergezang van de Vink
Domineert het Vogelconcert
Nummer 35
September-October 1997
Jrgng 5, Nr. 6
Inhoudsopgave
De WauwelWok
Computerhumor: Interview
Geautomatiseerd Nederlands
Tweetalige hersenen
Ma Mignonne
Djoerd H. naar Bulgarije en Canada
Call Centre Pages
Virtueel Theater: Interviews
Parlevink / Deelprojecten / Overzicht Afstudeerders
Stages en D-opdrachten, Recente Publicaties
Nieuwe projecten binnen Parlevink
Monitoring: Binnenlandse Zaken stelt 1 ton beschikbaar voor onderzoek op het gebied van (deels geautomatiseerde) informatieverstrekkende systemen binnen
Nederlandse gemeenten. Dit onderzoek is deel van het
OL2000 project. Roel van Veen is aangesteld om dit
onderzoek mede vorm te geven.
Belastingdienst: Deze dienst wil graag onderzoek
starten op het terrein van information retrieval en de
betekenis die dit onderwerp heeft voor de belastingdienst. Djoerd Hiemstra gaat een poosje voor hen aan het
werk.
1
D.C. Dennett goes Parlevink
DD heeft toegezegd 7 october 1997
een informele Parlevinkbijeenkomst
op te sieren met zijn aanwezigheid.
D. Hofstadter went Parlevink
DH is 16 juli langs geweest. Zie
volgende ParleBode voor verslag.
Verantwoording
Jaargang 5, Nr.6 van de PARLEBODE,
Taaluitgeverij
met nieuws en informatie over het
Neslia Paniculata
PARLEVINK project. De informatie richt
Enschede
zich vooral op studenten met belangstelling voor, of al ’werkzaam’ binnen
het Parlevink project. Onderzoek (en
dus ook stage en D-opdrachten) vindt plaats op
Uitgeverij voor Lezers en Schrijvers
het terrein van taaltheorie, taaltechnologie en
van Talige Boeken.
neurale netwerken. Mens-machine interactie en
de toegankelijkheid van informatiesystemen (incl.
Internet/WWW) zijn de meer globale aandachtsgebieden van het project. Specificatie,
parallelle processen en software engineering zijn invalshoeken die soms ook aan bod
komen. Het ontwerpen van programmeertalen en bijbehorende grammatica’s en compilers
valt ook binnen het belangstellingsgebied van dit project. Kunnen computers taal begrijpen is
een onderliggend thema.
Kijk voor informatie over Parlevink-activiteiten,
discussies, wauwelwokjes, aankondigingen, korte artikeltjes, etc. op inf.seti.parlevink. Op
WWW is ook informatie over Parlevink beschikbaar. Kijk op:
http://wwwseti.cs.utwente.nl/Docs/parlevink/parlevink.html
En als je dan toch bezig bent,
http://wwwseti.cs.utwente.nl/~scollo/seti-i3.html
voor links naar deelprojecten van Parlevink, en
http://wwwseti.cs.utwente.nl/Docs/parlevink/sigparse
voor informatie op het gebied van parsing, en
http://twentyone.tpd.tno.nl/
voor informatie over project ‘Twenty-One’.
Laatste Nieuws
Vandaag: Documentaire van Thomas Rodsky over
taalontwikkeling van jonge kinderen (1 tot 3 jaar) die
niet geheel volgens plan verloopt. Zo stuitte Rodsky
in Appingedam op een peuter die in plaats van het
Appingedams dat zijn ouders spraken, het Indiaas
machtig bleek te zijn. Ondanks pogingen van ouders,
artsen en linguïsten is de peuter niet op andere
gedachten te brengen.
Bezorging
Hulp bij de samenstelling van ook deze
ParleBode weer van het SETI-Promo-Team
(Charlotte & Alice), Djoerd en vele anderen.
2
GEEN
PARLEBODE
VANGEN?
ONT-
Zie colofon rechtsonder deze
pagina onder kopje Bezorging
Franse taalpolitie
Francofone autoriteiten in Canada zijn op het net op
oorlogspad, laat Marco van het Hoog weten vanuit Montreal.
De Office de la Langue Francaise (OLF) van de Franstalige
provincies maant bedrijven dat ze hun homepages in de
Franse taal moeten opstellen. Weigeraars riskeren boetes.
Het bedrijf Micro-Bytes Logiciels zag zich genoodzaakt de
eigen website uit de lucht te halen ondanks het feit dat 75
procent van de Engelstalige informatie ook het Frans
beschikbaar was. The Gazette heeft er een - Engelstalig verhaal over.
http://www.microbytes.com/
http://www.montrealgazette.com/ARCHIVES/970614quebec1.html
Ambitieus en gedegen
Of het nu komt omdat de wijzen uit het oosten komen of
omdat de gemeente Enschede samenwerkt met de
Universiteit Twente is onbekend, maar zeker is dat de KenUw-Rechten pilot in Enschede bezig is zich tot een
toonaangevend project te ontwikkelen. Onlangs is de start
gemaakt met het bouwen van een uniek kennissysteem dat
de basis moet gaan vormen van een virtueel loket Bouwen &
Wonen. "Er moet nog veel gebeuren" zo tempert Hans
Koenders het optimisme "we zijn begonnen met slechts drie produkten en dat is al een
enorme klus. Van elk produkt maken we nu een complete analyse van de regelgeving en het
achterliggende administratieve proces. Resultaat is onder meer een soort beslissingsboom
of stroomschema waarmee afnemers afhankelijk van hun vraagpatroon een route in kunnen
volgen. Dat levert zelfs bij eenvoudige produkten al snel een notitie op van een pagina of
tien." Bij de drie produkten die Enschede momenteel uittest zitten niet direct de
eenvoudigste. Bij de vraag naar (huur)woningen wil Enschede expliciet samenwerking
zoeken met woningbouwverenigingen en makelaars. "Het is nu de tijd om de hobbels die je
op je weg tegenkomt in kaart te brengen. Interorganisatorische samenwerking hoort daarbij.
Bovendien, wat is een loket voor Bouwen & Wonen als daar geen informatie over
beschikbare woningen in zit?" zo verklaart Koenders de keuze voor het traject.
Is een produkt eenmaal geheel geanalyseerd dan is het onderbrengen van de informatie in
het kennissysteem een relatief kleine stap. Daarbij is het echter niet ondenkbaar dat
3
naarmate het aantal produkten in het virtuele loket stijgt er door de integratie ook technische
problemen kunnen ontstaan. Enschede hoopt aan het eind van het jaar de belangrijkste van
de 200 relevante produkten en diensten in het systeem te hebben ondergebracht.
Eind juni is een eerste prototype met beperkte inhoud gereed die uitgebreid in het college
van B&W besproken zal worden. Niet alleen in het ontwikkelen van het virtuele loket is
Enschede voortvarend bezig, ook de organisatorische omslag begint in Enschede
werkelijkheid te worden. De onlangs met elkaar gefuseerde Bouw- en Milieudiensten zullen
alle loketten op iin plek gaan plaatsen. Dit vergt een behoorlijke verbouwing van het centrale
pand maar wordt toch uitgevoerd ondanks het feit dat er plannen zijn om over enkele jaren
een compleet nieuw stadskantoor te bouwen waar alle gemeentelijke diensten in gehuisvest
zullen worden. Daarnaast krijgt de pilot in Enschede steeds duidelijker politieke steun.
Wethouder Marco Swart is al vanaf het begin enthousiast maar nu willen ook raadsleden
meer weten en zal het project en de demo binnenkort in de commissie middelen
gepresenteerd worden.
Heel concreet en tastbaar gaat de samenwerking met KPN worden. Binnenkort start vanuit
de KPN landelijk een proef met informatiezuilen. Een aantal hiervan zullen in Enschede
geplaatst worden met ondermeer de informatie vanuit het Bouwen & Wonen project. Hoewel
er nog discussie is over het aantal in Enschede te plaatsen zuilen (KPN wil er drie plaatsen,
Enschede liefst 60) en de menustructuur die erg aanbod gericht is zal de proef in Enschede
zeker doorgang vinden.
Van: C. H. & D. van Schooneveld <[email protected]>
Datum: Zaterdag 26 juli 1997 15:16
--------------------------------------------------------------------------re: recensie van Barsky, Noam Chomsky
Naar aanleiding van de recensie van Robert F. Barsky, Noam Chomsky, door H. Brandt
Corstius (NRC Handelsblad 18.7.1997 Boeken 7) de volgende kanttekening. Na het
verschijnen van Chomsky’s Syntactic Structures in 1957 in de serie Janua Linguarum van
Mouton en voor mijn vertrek van Leiden naar Stanford in 1959 heb ik met A.A. Reichling
onderhandeld over het opnemen van een Engelse vertaling van zijn bekende dissertatie "Het
Woord" in dezelfde serie, waarvan ik redacteur was. Reichling was toen nog bijzonder goed
te spreken over Chomsky’s Syntactic Structures, en noemde het boekje "een juweeltje" of
iets dergelijks. Ikzelf had het boekje voor de Janua Lingarum willen weigeren, omdat het als
basis heeft de op de 19e eeuwse Junggrammatiker teruggaande distributionalistische
theorie van Chomsky’s leermeester Z.S. Harris, die volgens mij nergens toe kan leiden. De
directeur van de uitgeverij Mouton, P. de Ridder, heeft mij toen overtuigd dat de Janua serie
een forum zou moeten zijn waarin diverse ideeen verkondigd konden worden. Derhalve
hebben we het toch in de serie opgenomen. Ik ben het in één opzicht met de heer Brandt
Corstius oneens, namelijk wanneer hij Chomsky de grootste taalkundige van deze eeuw
noemt. Er zijn helaas vrij talrijke in de wetenschap actieve Amerikanen die personen, feiten
en logische redeneringen aan hun laars lappen als ze denken dat ze daarmee hun carrière
kunnen bevorderen. Zodoende worden ze bekend zonder nochtans groot te zijn. Chomsky
moge de bekendste taalkundige van deze eeuw zijn, de grootste is ongetwijfeld de tot
Amerikaan genaturaliseerde Rus Roman Jakobson, in leven hoogleraar aan Harvard en aan
het Massachusetts Institute of Technology, van wie Chomsky verschillende ideeen heeft
overgenomen en verdraaid. Als men de salarissen nutteloos betaald aan Chomsky's
volgelingen gaat berekenen, heeft hij een schade aan de taalwetenschap toegebracht die
waarschijnlijk in de miljarden dollars loopt.
Prof. Dr. C. H. van Schooneveld
4
Theater Pagina’s
http://www.nic.surfnet.nl/nlmenu.eng/kucu/thea.html
http://www.dino.nl/cabaretweb/
http://www.aub.nl/
http://www.ai.mit.edu/projects/infolab/globe.html
Einde van de WauwelWok
Wetenschap, Cultuur & Samenleving
THEMA Nummer 3, September/Oktober 1997-09-03
MACHINALE moppen
Robert van Willigenburg
Het zal nog tientallen jaren duren voordat een computer echt bedreven is in de subtiliteiten
die humor vergt. Toch zijn er al verrassende resultaten geboekt. Vooral eenvoudige ’talige’
humor laat zich vrij gemakkelijk in modellen en formules vangen.
Julia en Robyn discussiëren via Internet.
Robyn: "Hoe voel je je?"
Julia: "Vreselijk"
Robyn: "Waarom, Julia?"
Julia: "Ik heb last van PMS"
Robyn: "Julia, ben je menselijk?"
Julia: "Komt de paus uit Polen?"
Robyn: "Ja, Julia, maar ben jij menselijk?"
Julia knipoogt.
Robyn: "Julia, ben je een computer?"
Julia is beledigd door de vraag.
Robyn: "Julia, ben je een vrouw?"
Julia: "Ik ben vrouwelijk."
Robyn: "En, Julia, ben je menselijk?"
Julia: "Niet wanneer ik ongesteld ben,
Robyn."
De discussie hiernaast is via het
beeldscherm gevoerd. Julia is inderdaad
geen mens maar een chatterbot, een
computerprogramma dat in staat is
gesprekken te voeren. Ze doet haar uiterste
best om via het beeldscherm zo menselijk
mogelijk over te komen. Julia is ontwikkeld
aan de Carnegie Mellon Universiteit in het
Amerikaanse Pittsburgh.
De grapjes die Julia maakt, zijn door de
programmeurs ingeblikt maar worden niet
zomaar volgens een willekeurig schema
afgedraaid. Julia is in staat te associëren
met woorden en zinspatronen. Tegelijk
probeert ze het gesprek een bepaalde kant
op te sturen.
Wanneer Julia vraagt: "Wat voor dieren had u als kind?", dan is de kans erg groot dat de
gebruiker een aantal knaagdieren opsomt. De vooraf geprogrammeerde opmerking "Cavia's
hebben ongeveer de intelligentie van een komkommer" maakt dan deel uit van de context.
Mocht de gebruiker een onlogisch of vaag antwoord geven, dan begint Julia te vertellen over
haar eigen jeugd op de boerderij. Daarna kan ze alsnog de grap maken. Slimmerikken die
5
een wedervraag stellen, zoals "waarom wil je dat weten",krijgen als antwoord "Oh, ik ben
gewoon nieuwsgierig".
Tot op heden is Julia overigens vooral gespecialiseerd in discussies over huisdieren in het
algemeen en katten (ze heeft er zelf twee) in het bijzonder.
Om Internetgebruikers met opspelende hormonen op het verkeerde been te zetten, is Julia
bovendien bedreven in het afwijzen van aanzoeken en oneerbare voorstellen.
Slapstick
De makers van Julia zijn grotendeels afkomstig uit het veld van de linguïstiek, het
automatisch vertalen en kunstmatige intelligentie. Een breed vakgebied waartoe ook prof.dr
ir Anton Nijholt van de vakgroep Software Engineering en Theoretische Informatica (SETI)
aan de Universiteit Twente zich mag rekenen. Eind 1996 organiseerde hij een internationale
workshop over 'computationele humor' in Enschede.
De hele wereldtop in het betrekkelijk kleine vakgebied kwam opdraven. Het onderzoek en
zeker de praktische toepassing van humor die door de computer wordt begrepen of zelfs
gegenereerd, staat ondanks de stormachtige ontwikkelingen in de informatisering nog
steeds in de kinderschoenen. Het concentreert zich vooral op taal. Non-verbale humor denk bijvoorbeeld aan slapstick of het trekken van gekke bekken - is nog moeilijker in
formules en programma's te vatten.
Nijholt: "We zijn hier in de vakgroep al jaren bezig met het modelleren van taalgebruik om
teksten machinaal te vertalen. Het doel is natuurlijk om elke tekst aan te kunnen. Daarbij
stuit je onherroepelijk op expliciete of impliciete humor. Dat is een aspect van de taal dat
zich nog veel moeilijker laat definiëren. Want bij het vertalen moet je een tekst soms niet al
te letterlijk nemen. Sinds een paar jaar zijn we theorieën aan het formuleren over de manier
waarop een computer daarmee om moet gaan." De belangrijkste vorderingen op dit gebied
zijn vooral gemaakt op het gebied van het onderzoek gericht op het humoristische gebruik
van homoniemen en synoniemen. Er zijn zogeheten script-technieken die een computer
eenvoudige vormen van talige humor kunnen laten herkennen en genereren. Nijholt: "Op het
gebied van de zinsbouw en in mindere mate de betekenis van woorden worden echt
vorderingen gemaakt. De taal is tot op zekere hoogte inmiddels zo wiskundig gemodelleerd
dat je het in computerprogramma's kunt omzetten. Maar de rest, zeker het begrip van de
context van een tekst, staat nog op een laag niveau."
In Twente wordt op dit gebied niet zoveel praktisch onderzoek gedaan. Het is vooral
theorievorming. In het buitenland zijn wel toepassingen gecreërd. Onderzoekers van de
universiteit van Edinburgh ontwikkelden JAPE: Joke Analysis and Production Engine - een
grapjes analyserend en producerend programma. JAPE verzint raadseltjes op het niveau
van zinsbouw, klank en vorm. Het levert vooralsnog geen dijenkletsers op:
"Welke groente huilt na de winter?
- Een lente-ui."
JAPE is in staat dergelijke raadseltjes zelf te verzinnen. Hij kiest een woord, analyseert het
en brengt het in verband met andere woorden. Hij begint meestal bij het resultaat. Lente-ui is
in dit voorbeeld dus het eerst gekozen woord. In zijn elektronische woordenboek zoekt hij de
associaties en vindt dan bijvoorbeeld "Lente - seizoen - winter" en "ui -groente - huilen". Die
6
gegevens combineert hij via een acceptabele zinsbouw tot de vorm van een eenvoudige
vraag met een kort antwoord.
De babbelende conversatie-analyserende computer Julia, ontstaan in het begin van de jaren
’90, is niet de enige in haar generatie. Een afstammeling van Julia is Elmo, een vergelijkbare
robot die deel uitmaakt van een computerspel dat een virtuele wereld voorstelt. Meerdere
spelers kunnen deelnemen aan het spel en bij Elmo aankloppen voor assistentie. Zelf leert
Elmo ook zijn ’omgeving’ kennen. Samen met de spelers bouwt hij ervaring op.
Elmo is in Georgetown (VS) geïntegreerd met JAPE. Niet in eerste instantie om Elmo
vriendelijker of intelligenter te laten lijken, maar meer met de bedoeling om te ontdekken of
Elmo op een spontane manier gedoseerde grapjes kon brengen.
De onderzoekers onderscheidden verschillende mogelijke momenten om de raadsels op het
scherm te laten komen. De meest voor de hand liggende vorm is de directe vraag van de
gebruiker: "Elmo, kun je me een grapje vertellen?" Omdat JAPE nu gecombineerd is met
een babbelmachine, zal hij eerst reageren met een antwoord als: "Okee, maar hij is niet zo
heel leuk", waarna pas het raadseltje komt.
Een slimme manier om 'onverwacht' humor in te bouwen is door het te gebruiken bij een
gebrek aan gespreksstof. Wanneer Elmo het antwoord op een bepaalde vraag van een
medespeler in de virtuele wereld niet weet, dan zoekt hij een steekwoord uit de vraagstelling
en gaat er mee associëren. De gebruiker krijgt dan een raadsel of een stelling
voorgeschoteld. Maar vaak gaat de associatie te ver.
Dan Loehr van Georgetown University geeft in zijn analyse van de koppeling tussen JAPE
en Elmo twee duidelijke voorbeelden van de wijze waarop het genereren van grapjes precies
goed of precies mis kan gaan. De situatie was als volgt:: een speler vraagt aan Elmo of de
hond die in het spel voorkomt hem zal bijten. (De tekst is in het Engels).
You say, "Elmo, will the dog bite me??
Elmo says, "Hmmm..."
Elmo says, "What do you call affection that is used to store data?"
Elmo says, "A love byte"
De computer heeft hier het woord 'bite' geassocieerd met 'byte', en als woordgrapje de
betekenis van bijten behouden. Daarna is de computerterm, 'byte' terechtgekomen bij 'datastorage' (data-opslag). De grap is onschuldig en zelfs vrij elegant als ontwijkend antwoord op
de vraag. Maar het had net zo goed als volgt kunnen gaan:
You say, "Elmo, will the dog bite me??
Elmo says, "Hmmm..."
Elmo says, "What do you get when you cross a female relative with an insect nest?"
Elmo says, "An aunt hill."
Het woord 'bite' is ergens in het woordenboek van Elmo geassocieerd met 'insect', waarna
'ant' (mier) op de proppen kwam, dat weer fonologisch veranderd is in 'aunt' (tante). Heel erg
vergezocht dus, en eigenlijk gewoon niet leuk voor de argeloze gebruiker van de computer.
De proef met het combineren van JAPE en Elmo slaagde, ook al was het programma traag
en werd de humor nog als onnatuurlijk ervaren. Elmo is nu aan het bijleren.
7
Algoritme
Het ten behoeve van de computer modelleren van echt menselijke interpretatie van humor
staat nagenoeg gelijk aan een Tantaluskwelling. Behalve dat het nauwelijks mogelijk is om
zoiets subtiels als goede smaak in te bouwen, is het probleem vooral dat een computer
behoefte heeft aan regels. Zelfs een uitzondering is voor de computer een regel, omdat hij
nu eenmaal geprogrammeerd is.
Een computer kan combineren en associëren op basis van wat hij uit zijn databanken heeft
opgediept. Wanneer hij volgens een bepaalde wiskundige formule een grap genereert, wil
dat niet meteen zeggen dat die grap leuk is. Nog ingewikkelder wordt het, wanneer de
menselijke gebruiker van de computer, degene die van de grap kennisneemt, juist weer
moet lachen om zo'n stompzinnige poging tot humor. Daarmee wordt niet-leuk vanzelf weer
leuk.
Al in de jaren zestig was er Eliza, de patiënt-vriendelijke, luisterende psychotherapeut. Veel
gebruikers werden gefopt door de manier waarop Eliza het gesprek gaande hield. Wanneer
iemand bijvoorbeeld zei: "Ik voel me niet goed", dan kwam er antwoord in de trant van "hoe
zou je je willen voelen", of simpelweg "vertel verder". Hilarisch was het moment waarop Eliza
converseerde met een andere computer, Parry, die was geprogrammeerd om zich te
gedragen als paranoïde patiënt. Parry werd totaal achterdochtig van de rustige houding van
Eliza. Wanneer Parry bijvoorbeeld zei "Ik denk dat je me niet begrijpt", reageerde Eliza met
"Zou je willen dat ik je begreep?", waarna Parry vertwijfeld uitriep: "Waarom vraag je dat?".
Het resultaat kan komisch zijn, maar dat wil nog niet zeggen dat de computer daarmee
begrijpt wat er gebeurt. Nijholt: "Maar wat betekent begrijpen bij een computer? Dat twee
plus drie gelijk is aan vijf, dat is ook maar aangeleerd. We moeten denk ik accepteren dat
computers nu eenmaal zo werken. Het is dan helemaal niet zo vreemd om te proberen het
menselijk gedrag te modelleren. Je kunt je net zo goed afvragen in hoeverre bijvoorbeeld
verliefdheid of andere vormen van ons gedrag niet doodgewoon mechanismen zijn."
Ruzie
Het onderzoek naar computationele humor gaat tegenwoordig steeds meer in de richting van
de filosofie. In ieder geval leert het ons hoe ingewikkeld we zelf in elkaar zitten. Omdat het
ondoenlijk is alle mogelijke referenties, associaties en eigenlijk de kennis van de hele
wereldgeschiedenis te modelleren, wordt het meeste succes geboekt in
onderzoeksgebieden die afgebakend zijn. Nijholt is niettemin dwars genoeg om te vinden dat
de conventionele manier van het zoeken naar oplossingen omgedraaid moet worden.
"Er bestaan modellen voor de manier waarop mensen communiceren. Er wordt meestal van
uitgegaan dat een geslaagde uitwisseling van informatie een voorbeeld is van goede
communicatie. Er past een bepaalde dialoog bij een bepaalde vorm van informatieoverdracht. Maar je kunt je afvragen of dat de juiste benadering is. Ik denk dat de sleutel ligt
bij het zoeken naar dingen die juist niet passen. Misschien wordt er te veel gedacht vanuit
datgene wat de computer wèl kan, namelijk het opzetten van een sluitende conversatie. Het
lijkt mij veel interessanter om bijvoorbeeld een ruzie te modelleren."
Maar zoals bij zoveel takken van wetenschap, kost het 'opvoeden' van de computer tijd en
dus geld. Nijholt: "Het gereedschap laat het misschien wel toe, maar er zijn heel veel
mensen voor nodig. Met name informatici zijn pas geneigd om iets te doen wanneer het geld
opbrengt, dus dan moet je er de industrie al achter hebben staan. Maar bovendien is, om
echt flinke stappen vooruit te kunnen doen, hier samenwerking nodig tussen verschillende
disciplines. Denk maar aan filosofie, biologie, neurologie, psychologie, taalkunde,
kunstmatige intelligentie. Er staan nog steeds muren tussen al die afdelingen. Zoals zo vaak
8
is er nog nauwelijks sprake van dat de ene
wetenschapper weet wat de andere aan het doen
is."
Een van de problemen is de dosering van
grapjes bij de interactie tussen mens en
computer. Wanneer een leek een ’intelligente’,
reagerende computer raadpleegt, moet de
gebruiker het gevoel hebben op een prettige
manier te worden geholpen. Nijholt: "Mag je dat
ding zomaar allerlei grappen laten maken, of kap
je dat af? Het is niet de bedoeling om de
gebruiker te irriteren."
Nijholt laat zien wat hij bedoelt. Op zijn kamer legt hij verbinding met Internet. Studenten van
zijn vakgroep zijn bezig met een grafisch informatiesysteem voor een schouwburg. Via
Internet kan de bezoeker door de schouwburg wandelen, de zaal bekijken en een virtuele
informatrice aanspreken, net als in werkelijkheid. Het bewegende figuurtje aan de balie is in
staat om te reageren op uiteenlopende, door de gebruiker ingetypte vragen, zoals: ’wat staat
er vanavond op het programma’, of ’zijn er nog kaarten voor Tineke Schouten’. Abstractere
vormen van vragen, zoals ’vertel eens iets leuks’, zijn moeilijker te beantwoorden. Voorlopig
zal het antwoord in de context van het programma van de schouwburg staan. De
informatrice zal dan bijvoorbeeld reageren met: ’Op 10 september Youp van ’t Hek. Op 5
oktober Herman Finkers’.
Nijholt: "We hebben nu de basis van dit systeem. De komende tijd gaan we kijken in
hoeverre we ook de sociale omgeving mee kunnen laten spelen. Wanneer iemand een
gezellig gesprekje begint, moet de computer daar op een bepaalde manier op inspelen. Je
kunt niet volstaan met ingeblikte grapjes. En zelfs wanneer de computer iets onverwachts
verzint, dan nog heb je mensen nodig om de scheiding tussen leuk en niet-leuk aan te
brengen. We hebben bijvoorbeeld wel eens het script van een bankroof gekoppeld aan dat
van een fast food-restaurant. Daar kwam dan de grap uit: ’Geef me al het geld uit de kassa Jazeker, en wilt u er Franse frietjes bij?’ Het toepassen van humor is afhankelijk van de
gebruiker, van de context, van de geschiedenis die de gesprekspartners hebben opgebouwd
tijdens de dialoog. Het is bijna een onmogelijke opgave om dat allemaal te reconstrueren.
Want als je de computer dat allemaal hebt aangeleerd, dan heb je bijna een mens
geschapen."
(8523(6(
72/.(1
&200,66,(
=2(.7
1,(8:(
',*,7$/(
Geautomatiseerd Nederlands onmisbaar
Geavanceerde vertaalvoorzieningen zijn van groot belang voor de instandhouding van de
meertaligheid in Europa. Voor de relatief kleine talen betekent dit dat zij op tijd de beurs
moeten trekken. Anders ziet de toekomst er volgens sommigen somber uit.
door Marc van Oostendorp
9
Wie wil weten of de computers van de
Europese Commissie uit en naar het
Nederlands kunnen vertalen, moet eerst
Engels leren. Veel recente officiële
documenten zijn, bijvoorbeeld via Internet,
snel te raadplegen. Alleen staan die
teksten daar de eerste tijd vaak alleen in
het
Engels.
Na
enkele
maanden
verschijnen
vertalingen,
maar
dan
doorgaans eerst in de 'grote talen', Duits
en Frans. Wie alleen Nederlands verstaat,
is nauwelijks up-to-date.
meer dan een tussenoplossing. Iemand die
snel kennis wil nemen van de strekking van
een bepaald ambtelijk stuk, kan het door
Systran laten vertalen. Daarna kan hij of zij
bepalen of de tekst moet worden vertaald
door een echte, menselijke vertaler: de
uitvoer van Systran is zelf niet van een
voldoende hoog niveau om gepubliceerd te
worden.
Die stand van zaken is kenmerkend. Hij
laat zien dat goede en snelwerkende
vertaalsystemen belangrijk zijn voor de
Europese democratie. Op zijn minst de
verantwoordelijke ambtenaren en politici
moeten de stukken waarop ze hun beleid
baseren in hun eigen taal tot zich kunnen
nemen. Het recht van Engelstaligen is wat
dit betreft natuurlijk niet groter dan dat van
Nederlands-, Frans- of Griekstaligen.
Die vertaler zou vervolgens bij zijn werk
gebruik kunnen maken van de ruwe
vertaling die het systeem biedt. Zo'n
manier van werken, die post-editing
genoemd wordt, is in het verleden wel
aangeprezen als een groot voordeel van
vertaalcomputers. Postediting zou vertalers
veel werk besparen, omdat ze alleen de
uitvoer van de computer hoefden bij te
vijlen. In de praktijk werkt het niet zo.
Professionele vertalers vertalen liever alles
zelf, in een keer goed, in plaats dat ze de
grove producten van Systran corrigeren.
Nu zijn menselijke vertalers weliswaar vaak
erg goed, maar meestal ook duur en
langzaam, zodat lang niet alle teksten
vertaald kunnen worden. Wat zou het
prettig zijn als iedere ambtenaar van de
Unie met één druk op de knop in zijn
tekstverwerker een zojuist gemaakt
bestand kon opslaan in versies voor alle
officiële talen van de Europese Unie.
Maar zover is het nog lang niet. Over de
vertaalcomputer wordt al nagedacht sinds
in de jaren veertig de eerste computer
werd gebouwd, maar met één druk op de
knop lukt het nog altijd niet. Meer dan
twintig jaar geleden, in 1976, nam de
toenmalige
EEG
het
automatische
vertaalsysteem Systran in gebruik. Het
systeem vertaalt tegenwoordig ongeveer
100.000 bladzijden tekst per jaar voor
ambtenaren en politici, zowel bij de
Europese instanties (Europees Parlement,
Europese Commissie, enzovoorts) als bij
de regeringen van de lidstaten. Het is
daarmee waarschijnlijk het productiefste
vertaalsysteem van Europa.
Toch is het allesbehalve verfijnd. De
uitvoer geeft in het beste geval een globaal
idee van de inhoud van het vertaalde
document. Het systeem biedt dus niet
10
Bijvijlen
Voor het Nederlands wordt Systran
overigens nauwelijks gebruikt. De nadruk
ligt op de drie werktalen van de Europese
Commissie, het Engels, het Frans en het
Duits. Tussen die drie talen kan naar
hartelust vertaald worden: van het Frans
naar het Engels, van het Engels naar het
Frans, van het Frans naar het Duits,
enzovoorts.
Uit het Nederlands kan Systran helemaal
niet vertalen, en naar het Nederlands
alleen vanuit het Engels en het Frans, niet
uit het Duits. Vertaling Engels-Nederlands
maakt maar ongeveer anderhalf procent uit
van het totale aantal vertalingen. Uit het
Frans wordt iets vaker vertaald: ongeveer 4
procent van alle vertalingen die Systran in
Europa maakt gaan van die taal naar het
Nederlands.
Voor de Europese Commissie hebben
vertalingen van en naar het Nederlands
ook geen prioriteit. De Commissie geeft
van oudsher voorrang aan verbetering van
automatische vertalingen tussen de drie
werktalen. Onderlinge vertalingen tussen
het Frans en het Engels vormen het
paradepaardje
van
Systran.
Deze
vertalingen geven een behoorlijke indruk
van de inhoud van een document. Op dat
niveau moeten vertalingen tussen het Duits
en het Engels en tussen het Duits en het
Frans ook komen. Wie wat meer aandacht
wil voor een kleinere taal, doet er goed aan
zelf te investeren. De Nederlandse
Taalunie is dan ook sinds 1994 in overleg
met de Commissie over samenwerking om
het Nederlands een belangrijker plaats te
geven in het vertaalsysteem.
Naar welke talen kan het best vertaald
worden? Er werd al snel gekozen voor
vertalingen
vanuit
het
Nederlands.
Nederlandstaligen beheersen over het
algemeen voldoende Frans, Duits en
Engels om in ieder geval documenten in
die talen te kunnen begrijpen. Het is
belangrijker om uit het Nederlands naar de
drie grote talen te kunnen vertalen. Zo
kunnen zoveel mogelijk anderstalige
ambtenaren en politici kennisnemen van
teksten die in het Nederlands zijn
opgesteld.
Goede
en
snelwerkend
e
vertaalsyste
men
zijn
belangrijk
voor
de
Europese
d
i
Al in 1994 stuurden de verantwoordelijke
ministers in het Nederlandse taalgebied
een intentieverklaring aan de Europese
Commissie. Samen zouden ze ongeveer
280.000 gulden (ofwel 5,6 miljoen
Belgische frank) bijdragen om de gewenste
modules
aan
Sys~ tran toe te
voegen. Ondertussen was de
Europese Commissie
echter
van gedachten
veranderd. Systran was niet langer het
enige vertaalsysteem waarmee de officiële
Europese instanties zouden werken. Men
zou bekijken of
andere
bedrijven
vergelijkbare of misschien zelfs betere
programma's konden leveren.
Systran is een robuust systeem, maar het
heeft ook veel problemen. Een daarvan is
dat het werkt met aparte modules voor
taalparen. De vertalingen van het Frans
naar het Engels worden als het ware
gemaakt door een heel ander programma
dan die van het Frans naar het Duits, of
van het Duits naar het Engels. Dat
betekent dat er evenveel programmamodules nodig zijn als taalparen. En dat
betekent weer dat het aantal benodigde
modules enorm groeit naarmate het aantal
opgenomen talen toeneemt.
Hoe meer talen toegevoegd worden, des te
sterker het aantal taalparen toeneemt. Een
kleine rekensom kan dat verhelderen. Er
staan op dit moment elf landen op de
kandidatenlijst om toe te treden tot de
Unie. Voorbeelden zijn Polen, Hongarije,
Cyprus en Roemenië. Als alle aanvragen
gehonoreerd worden, komen er tien talen
in de Unie bij. Zelfs als er maar één taal
aan de elf van de huidige Unie zou worden
toegevoegd, komen er al tweeëntwintig
taalparen bij. Dat zou betekenen dat er
tweeëntwintig nieuwe programmamodules
bijbesteld zouden moeten worden bij de
Luxemburgse firma Gachot SA. En dat
terwijl nog geen fractie van de modules die
nu al nodig zijn op een bevredigend niveau
staan.
Alternatieven
Het ligt voor de hand om ook alternatieven
te bekijken, al is het maar omdat die voor
sommige
van
de
onderontwikkelde
taalparen al redelijk tot behoorlijk goed
werkende
computersystemen
hebben
gebouwd. Zo heeft het bedrijf SiemensNixdorff voor de Belgische federale overheid een systeem ontwikkeld voor vertaling
tussen het Nederlands en het Frans. Dat
systeem zou ook in aanmerking komen.
Overigens wordt op deze manier het
probleem van Systran nog steeds niet opgelost. Nog steeds neemt het aantal benodigde taalmodules toe bij elke nieuwe
taal in de Europese Unie. Om dit aantal te
beperken zal eerst geprobeerd worden
vertaalmodules te maken die Frans, Duits
en Engels kunnen vertalen uit en naar de
andere officiële talen van de Unie. Het
taalpaar Nederlands-Spaans zal volgens
die richtlijn dus nog op zich laten wachten.
Aan één voorwaarde zullen de systemen in
ieder geval moeten voldoen. Ze moeten
het eigenlijke vertaalprogramma gescheiden houden van het vertaalwoordenboek. Een goed vertaalprogramma
bestaat op zijn minst uit deze twee
11
onderdelen. Het programma kent de grammaticaregels van de twee talen. De te
vertalen woorden zoekt het daarbij op in
een tweetalige woordenlijst. Het is van
belang om de twee dingen uit elkaar te
houden, omdat er relatief veel tijd en geld
wordt gestoken in de woordenlijst.
’Die investeringen willen we niet weggooien
op het moment dat de software verouderd
is’, zegt J. Roukens, die bij de Europese
Commissie werkt aan het nieuwe
actieprogramma van die Commissie, Multi
Lingual
Information
Society
(MLIS,
’Meertalige Informatiemaatschappij’). In het
kader van dit programma zullen allerlei
projecten worden bekostigd die op de een
of andere manier de veeltaligheid in het
elektronische
tijdperk
bevorderen.
Systemen voor automatisch vertalen horen
daar uiteraard bij: geen veeltaligheid
zonder vertalingen. Ook de samenwerking
met de Taalunie zal uit de gelden voor dit
actieprogramma bekostigd worden.
Aanvraag
De Taalunie heeft een aanvraag ingediend
om het vertaalproject onder te brengen in
het MLIS-programma. Als deze aanvraag
gehonoreerd wordt, zal men moeten kiezen
welk product of welke producten in gebruik
zullen worden genomen. Die vertaalprogramma’s zullen eerst uitgebreid
worden getest, door ervaren vertalers, taaladviseurs, en deskundigen op het gebied
van taal en techniek. Het zal nog wel even
duren voordat de Nederlandse modules op
het niveau van Frans-Engels zijn.
Zijn andere landen ook al bezig? Roukens
zegt dat Nederland en Vlaanderen in ieder
geval het voordeel hebben van samenwerking in de Taalunie. ’Dat geldt lang niet
voor alle talen.’ Bovendien is ook gewoon
niet
iedereen
even
geïnteresseerd.
Engeland investeert bijvoorbeeld bijzonder
weinig. In zekere zin heeft dat land ook
geen investeringen nodig. Als de Taalunie,
Nederland, Vlaanderen en de Europese
Commissie een programma laten maken
om vertalingen te maken uit het Nederlands naar het Engels, profiteren de
Engelstaligen daar in zekere zin ook van.
12
De Franse regering investeert wel veel
geld in projecten die de positie van het
Frans in de nieuwe media verstevigen. Zo
probeert ze een Frans tegenwicht te
bieden tegen de hegemonie van het
Engels op het wereldwijde Internet. Dat
betekent overigens niet dat ze zou
investeren in een vertaalprogramma FransNederlands. Ook een land als Duitsland
heeft voorlopig nog geen belangstelling
getoond voor vertalingen uit of naar het
Nederlands, terwijl het wel degelijk belang
heeft bij de ontwikkeling van vertaalmodules. Het Duits is van de drie grote
talen het zwakst vertegenwoordigd in
Systran, maar de rol van die taal binnen de
Europese Unie is de laatste jaren steeds
groter geworden.
Moderne technologie
Wat de grote landen ook doen, het blijft
belangrijk dat het Nederlands goed
vertegenwoordigd wordt. Daar zijn politieke
redenen voor. Door te investeren in
automatische vertaalsystemen laat het
Nederlandse taalgebied zien dat de rol van
het Nederlands als officiële taal van de
Europese Unie serieus genomen wordt.
Maar er zijn ook andere argumenten. Met
deze projecten kunnen we veel kennis
opdoen die ook weer bij andere computertoepassingen voor taal en tekstverwerking
kan worden gebruikt; toepassingen die het
mogelijk maken om efficiënt Nederlandse
teksten te bewerken, te raadplegen en te
doorzoeken bijvoorbeeld. Naar verwachting
worden dit soort systemen in de toekomst
nog veel efficiënter en economisch
belangrijker dan ze nu al zijn.
Het is belangrijk dat het Nederlands ook in
de moderne technologie een rol blijft
spelen. 'Als we het niet opbrengen',
schreef de Nijmeegse hoogleraar Lou
Boves onlangs, 'zal het Nederlands als
cultuurtaal het jaar 2050 niet halen. Het zal
dan zoveel gemakkelijker zijn om teksten
te maken in met na me het Engels dan in
het Nederlands, dat geen enkel bedrijf het
zich kan veroorloven om het inefficiënte en
ineffectieve Nederlands serieus te nemen.'
Vreemde taal zit apart in hoofd
Wie in het Memorial Sloan-Kettering
Kankercentrum in New York wegens een
hersentumor geopereerd moet worden,
krijgt voortaan standaard de vraag of hij
tweetalig is. Zo ja, dan willen de artsen
weten of de patient van jongsaf aan
tweetalig is of dat hij zijn tweede taal op
latere leeftijd heeft geleerd.
Die wetenschap is nodig om bij de
hersenoperatie het motorische spraakcentrum (centrum van Broca) zo goed
mogelijk te sparen. Personen die op latere
leeftijd een tweede taal verwerven, zo
blijkt uit beeldvormend onderzoek van de
hersenen
hebben
namelijk
twee
motorische spraakcentra in plaats van
één. Bij mensen die van kindsbeen
tweetalig zijn, is het spraakvermogen voor
beide talen in één gebiedje geconcentreerd.
die na een hersenoperatie of door
epileptische aanvallen de beheersing van
één taal kwijtraakten. Neurologen van het
Memorial Sloan-Kettering en van de
Cornell Universiteit in New York hebben
met een geavanceerde beeldvormingstechniek kunnen aantonen dat ‘oudere’
tweetaligen
inderdaad
over
twee
motorische
spraakcentra
beschikken
(Nature 10 juli).
De onderzoekers opperen dat jonge
kinderen in de fase waarin ze voor het
eerst leren spreken, nog voldoende
‘hersenruimte’ hebben om twee talen in
één motorisch spraakcentrum vast te
leggen. Wie op latere leeftijd een tweede
taal leert, moet daarvoor ‘uitwijken’ naar
nabijgelegen
gedeelten
in
de
hersenvoorkwab, waar het centrum van
Broca is gesitueerd.
Aanwijzingen dat dit het geval is, waren al
eerder gevonden bij tweetalige patienten
Wie een tweede taal laat leert vertoont tweetalige hersenen.
Als je twee talen vloeiend
spreekt, hebben die dan
elk hun eigen plek in je
hoofd? Onderzoek van
Joy Hirsch en andere
neurowetenschappers in
New York, dat deze week
gepubliceerd is in Nature,
lijkt het begin van een
antwoord op die vraag te
geven: het ligt eraan
wanneer je die tweede
taal geleerd hebt. Wie
tweetalig
opgevoed
wordt, houdt daar deels
een andere ‘organisatie’
van de hersenschors aan
over dan degenen die als
‘vroeg-volwassene’ een
nieuwe taal leren.
na
een
hersenbeschadiging
hun
moedertaal niet meer
spraken en overschakelden op een tweede taal,
of die na een operatie
problemen kregen met
een of meer van de talen
die
ze
kenden.
Elektrische stimulatie van
de hersenschors (vaak
door
neurochirurgen
gebruikt om te bepalen
waar er vooral niet
gesneden mag worden)
liet ook iets soortgelijks
zien: daarmee blijk je
soms een van de talen
die iemand spreekt te
kunnen ‘uitschakelen’.
Uit de klinische literatuur
waren
wel
gevallen
bekend van mensen die
Over hoe en waar taal in
de hersenen zit, is nog
veel onduidelijk, maar de
13
onderzoekers
hebben
zich beperkt tot de twee
gebieden in de linker
hersenhelft, waarvan al
sinds de vorige week
vaststaat
dat
ze
belangrijk zijn voor taal:
het gebied van Broca (in
de voorhoofdskwab) en
dat van Wernicke (wat
verder naar achteren, in
de
slaapkwab).
Zes
‘vroeg-tweetaligen’ en zes
‘laat-tweetaligen’ moesten
in stilte in beide talen een
gebeurtenis beschrijven.
Tijdens die opdrachten
werden met behulp van
magnetische
velden
afbeeldingen, zogenaamde fMRI-scans, gemaakt.
Bij iedereen lichtte zowel
het gebied van Broca als
dat van Wernicke telkens
op, maar bij de laattweetaligen was er in het
gebied van Broca een
duidelijke
anatomische
scheiding te zien tussen
de twee talen. Tussen de
eerste en de tweede taal
werd bij alle zes een
afstand
gemeten,
varierend van 4,5 tot 9
millimeter. Bij de vroegtweetaligen
was
die
afstand er niet, en het
gebied van Wernicke liet
bij
beide
groepen
nauwelijks
of
geen
verschil tussen de talen
zien.
Resultaten die vooral
nieuwe vragen oproepen.
Bijvoorbeeld: wat gebeurt
er precies in ‘Broca’, en
wat in ‘Wernicke’? Wat
zegt dit over de ‘kritieke
periode’ voor taal, ons tot
in de puberteit aldoor
afnemende
vermogen
een taal tot in de puntjes
te leren beheersen? Hoe
zit het met mensen die
meer dan twee talen
beheersen? Kun je ook
zes gescheiden gebiedjes
hebben? En hoe goed
moet je kennis van een
taal zijn voordat je een
duidelijk
afgebakend
stukje hersenschors hebt
ontwikkeld?
(Liesbeth Koenen)
Uit de ROSKAM (15 augustus 1997)
Ma Mignonne
(Clement Marot)
Ma mignonne,
Je vous donne
Le bon jour;
Le sejour
Cest prison.
Guerison
Recouvrez,
Puis ouvrez
Votre porte
Et quon sorte
Vitement,
Car Clement
Le vous mande.
Va, friande
de ta bouche,
Qui se couche
En danger
Pour manger
Confitures;
Si tu dures
Trop malade,
Couleur fade
Tu prendras,
Et perdras
Lembonpoint
Dieu te doint
Sante bonne
Ma mignonne
14
Ma Mignonne
(Anton Nijholt/Clement Marot)
Teder wicht,
Dit gedicht
Wenst U rap
Beterschap.
Al te lang
In’t gevang.
Uw uitzicht
Vraagt om licht.
Weg gordijn!
Zonneschijn!
Voel de zon,
Zegt Anton.
Wordt gezond!
Gun je mond
Geen rust, maar
Kaviaar,
Fruit of cake,
Kleine bleekScheet! Geen zin?
Denk eens in,
Dun als riet,
Kan toch niet.
Eet je rond,
En gezond.
En dat is,
Zeer gewis,
Van gewicht
Teder wicht.
Eurolan ’97 Summer School on Corpus Linguistics
Djoerd Hiemstra
Preface
This report gives account of my participation to the Eurolan Summer School from the 13th of
July till the 26th of July 1997 in Tusnad, Romania. During the Summer School I had the
opportunity to give two presentations about the work of the University of Twente on
European Projects. At the workshop "Lexicon and Corpora" the use of parallel corpora in
Twenty-One project was presented. During the "Language Awareness Seminar" crosslanguage retrieval initiatives were presented including the Pop-Eye project and participation
of Twenty-One to the TREC competition.
I wish to thank the Telematics Programme of the European Union, Sector Language Engineering for sponsoring
the participation to Eurolan’97.
1 Introduction
The Eurolan Summer School was organised for the third time in its history and is getting
bigger and bigger. This time there were 15 faculty members giving lectures to 75 students
from 13 different European countries. Topics covered by the Summer School were: Corpus
Annotation, Word-sense Disambiguation, Lexicography, Discourse Linguistics, Statistical
methods, Grammar Engineering and Finite State methods. In the remainder of this report a
short description will be given of the most striking lectures per topic.
2 Corpus Annotation and Sense Disambiguation
The lecture of Tomaz Erjavec from Josef Stefan Institute, Ljubljana covered the use of
SGML (Standard Generalised Mark-up Language) for Corpus Annotation. SGML was used
in the Multext East Project (http://nl.ijs.si/ME/) for the annotation of parallel versions of 1984
of Orwell, fiction and Newspapers. Dan Tufis from the Romanian Academy, Bucharest also
presented work on Multext East.
Nancy Ide from the Vassar College, USA and University of Aix-en-Province, France also
presented work on corpus annotation. Ide mentioned standards developed in the Text
Encoding Initiative (TEI) project (http://etext.virginia.edu/TEI.html) and the Corpus Encoding
Standard (CES) project (http://www.cs.vassar.edu/CES/). Ide also gave an extensive
overview (from the sixties until now) of work on word sense disambiguation, which will be
published in the Computational Linguistics of early 1998.
3 Lexicography
John Sinclair from the University of Birmingham presented his work on COBUILT Corpusbased dictionaries. COBUILT uses large corpora to extract concordances of words or
phenomena. Sinclair distinguishes five ’levels of meaning’: the core which is a single word or
phrase; the collocation which is physical coocurrence; the colligation which is grammatical
co-ocurrence; semantic preference which are regularities of word choice and the prosody
which are pragmatic regularities.
Nicoletta Calzolari from the University of Pisa presented some aspects of the management
of multilingual computational lexicons; Especially building multilingual lexicons using Machine
Readable Dictionaries (MRD) and parallel corpora. Within the European project SPARKLE
15
(Shallow Parsing and Knowledge extraction for Language Engineering) SPARKLE will use
Shallow Parsing for (semi-) automatic lexicon acquisition and word sense disambiguation for
English, French, German and Italian. Companies like Xerox and Sharp will use technology
developed in SPARKLE to build pilot systems for multilingual information retrieval systems
(http://www.ilc.pi.cnr.it/sparkle/sparkle.html).
4 Discourse Linguistics
Massimo Poessio from the University of Edingborough presented the collection and
annotation of a dialogue corpus in the Maptask project. In Maptask dialogues are collected
by giving two people slightly different maps and giving them the instruction to guide each
other to a goal. The linguistic interpretation of the maptask corpus is automated (partially)
for: time stamps, speech segmentation, part-of-speech tagging, syntactic analysis and
speech-acts. Especially annotation of speech-acts is difficult. Speech-acts must be chosen in
a way that humans assign them consistently. This can be evaluated with the kappa statistic.
Laurant Romary from CRIN-CNRS, Nancy also presented work on the annotation of spoken
dialogues.
5 Statistical methods
Martin Rajman from the Swiss Federal Institute of Technology in Lausanne (EPFL)
presented work on Statistical Context Free Grammars, Hidden Markov Models and Data
Oriented Parsing. At EPFL interesting work is done on comparing taggers from different
companies. They will probably be the first to verify Rens Bot’s results on Data Oriented
Parsing.
6 Grammar Engineering
Paola Monachesi from the University of Tübingen and Liviu Ciortuz from DFKI both
presented work on HPSG, respectively for Italian and Romanian.
Aravind Joshi from the University of Pennsylvania presented work on Lexicalised Tree
Adjoining Grammars (LTAG). In a lexicalised grammar all rules are associated with one
lexical item (a word). Parsing with LTAG is difficult because a derived tree may have several
derivations. An alternative way of 'parsing' with LTAG is tagging each word or lexical item
with a partial tree using standard Hidden Markov techniques, so-called supertagging.
Hans Uszkoreit from DFKI and the University of Saarbrücken presented work on grammar
development and evaluation. For grammar development DFKI developed the PAGE system
(http://www.dfki.de/lt/systems/page/). For grammar evaluation DFKI developed the TSNLP
test suites which exist of annotated example sentences which are representative for certain
language phenomena (http://www.dfki.de/lt/projects/tsnlp.html). Test-suites are considered
to be competence data. For grammar engineering also 'performance data' will be used for
evaluation, i.e. linguistically interpreted 'real-life' data.
7 Finite State methods
Jean-Pierre Chanod from Xerox Research Centre in Grenoble presented work on Finite
State methods. At Xerox, Finite State Transducers are used for Tokenisation, Morphological
Analysis, Part of Speech Tagging and Shallow Parsing. More information on Finite State
Tools at Xerox can be found at:
http://www.rxrc.xerox.com/research/mltt/Tools/.
16
RIAO ’97 Conference
"Computer-assisted information searching on internet"
Djoerd Hiemstra
Preface
This report gives acount of my visit to
the RIAO ’97 Conference at McGill
University in Montreal Canada on the
25th, 26th and 27th of June 1997.
During the conference two presentations
were given about the Twenty-One
project. A paper titled "A domain specific
lexicon acquisition tool for crosslanguage information retrieval" was
presented by Wessel Kraaij during the
main conference program. A second
paper
titled
"The
Twenty-One
demonstrator" was presented by myself
during the parallel session about system
demonstrations. A prototype version of
the Twenty-One demonstrator was
demonstrated on the 26th of June
during the breaks between presentations.
Special thanks go out to co-authors Franciska de Jong and Wessel Kraaij. I also wish to thank the Telematics
Programme of the European Union, Sector Language Engineering for sponsoring the trip to Canada.
1 Introduction
The RIAO conference is one of the major conferences on Information Retrieval (IR). Topics
covered by RIAO’97 were for example: Visualisation Tools, Automatic Abstracting, Linguistic
Approach, Multilingual Approach, Relevance Ranking, Query Reformulation, Information
Filtering. The remainder of this report gives an overview of the most interesting presentation
per topic.
2 Invited Speaker
N. Brodie of the National Library of Candada gave a presentation about the GILS project
(Government Information Locator Service). GILS is an WWW-profile on the ANSI Z39.50
search and retrieval protocol. GILS is currently used by the Candadian government for the
dissemination of Environmental Information. Environmental IR-systems with the same
objective as the Twenty-One system are available on the WWW:
http://www2.ec.gc.ca/ and http://enrm.ceo.org/.
More about the GILS system can be found on
http://gils.gc.ca/ or http://www.usgs.gov/public/gils/software.html/
3 Visualisation Tools
A. Wexelblat from MIT started his presentation with the announcement that he was actually
a story-teller. In fact his presentation was quite inspiring. He advocated ’the Footprints’
17
system, a system that brings history to digital information by adding information about which
hyperlinks/buttons/menu’s people use often. Key-words of this presentation "Collective
Intelligence" (together we know everything) and "Passive Collaboration". (the system gets
better just by using it. Users do not have to give ’relevance feedback’).
4 Automatic Abstracting
B. Katz from MIT, USA gave a presentation about the START system. The START system
accepts NL queries and is able to answer them, or to refer the user to a WWW page that
contains the right answer. The system uses simple phrase rewriting rules to rewrite queries
to a standard form. Queries START can answer are e.g. "Show me Boris Katz’ home page"
or "Is it raining in Paris today". START is available via the WWW:
http://www.ai.mit.edu/projects/infolab/globe.html
5 Linguistic Approach
A.T. Arampatzis from Patras, Greece and Nijmegen, the Netherlands gave a presentation
about IRENA (Information Retrieval Engine based on Natural Language Analysis). IRENA
uses noun phrase extraction, query expansion (morphological variants, synonyms from
Wordnet), proper name identification. Results show that morphological expansion is very
usefull for high recall. Noun phrases extraction leads to very high precision, but also very low
recall, which raises the question: "Does NLP help IR?"
R. Pohlmann from Utrecht University, the Netherlands presented experiments done with
Dutch within UPLIFT (Utrecht Project: Linguistic Information for Free Text retrieval). Different
choices for combining terms to form head-modifier pairs were investigated. Techniques used
are compound splitting and generation, noun phrase extraction. Results showed that
retrieval performance of Dutch text can be improved significantely by using NLP.
C. Buckley from Cornell University, USA also used phrases to enhance retrieval
performance. In the study phrases recognised using linguistic methods were compared to
phrases recognised using statistical methods. Buckley reported that both methods yield
comparable results. Furthermore identification of phrases has an insignificant effect on the
retrieval performance. "Does NLP work" remains unanswered.
6 Multilingual Approach
M. Wechsler from the Swiss Federal Institute of Technology presented simple language
processing techniques on multilingual document collections. Some of the presented
techniques were: stop word removal, word normalisation (Porters stemming for French and
Italian, dictionary-based for German), proper names identification. Some issues on
userinterfaces for cross-langauge retrieval systems were also presented.
D. Oard from University of Maryland, USA gave an overview of different approaches to
adaptive multilingual text filtering systems. He gave an overview of techniques that were
used before in cross-language retrieval systems, comparing two corpus-based techniques
(Cross-language Latent Semantic Indexing, Vector translation using Word-alignment) and a
MT-based tecnique (Text Translation using Logos). Interesting was his work on selecting
corpora for training and evaluation. Cross-language LSI seemed to give the best results.
7 Panel: TREC in many languages
D. Harman of the USA National Institute of Standards and Technology (NIST) told something
about TREC-5 English. TREC-5 was held in November 1996. Thirty-eight groups from nine
countries participated.
A. Smeaton of Dublin City University, Ireland, gave a historic overview of six years of TREC
program. Apart from a list of almost al participants and their approach to IR he gave some
funny anecdotes, i.e. someone who participated by just using a 386-PC and almost
managed to index al the material in three months. Smeaton also introduced TREC-6, which
18
will have a cross-language retrieval task involving English, French and German documents.
It seems that there are even participants of TREC-6 that will use Dutch queries...
C. FLuhr from "le Commissariat a l’Energie Atomique" presented Amaryllis: The French
Language TREC. Amaryllis is not part of NIST, but follows the TREC procedure for
evaluation.
8 Relevance Ranking
D. Cutting presented optimum time and space complexity vector space ranking algorithms.
Starting with very simple and time/space consuming algorithm, he introduced a number of
tricks to achieve better performance. Presented algorithms were: Linear Search, Hit List
Search, Inverted Index Search, Parallel
Merge Search and Block Search.
T. Rose gave a presentation about
searching
using
similarities
between
documents.
He
investigated
a
large
number of methods: cosine measure
(vector space), letter ngrams, word frequencies and word ngrams. Also some
other word cooccurence measures like loglikelihood ratio, mutual
information and chi-square. Rose reported
that results of the best
techniques were still rather disappointing.
9 Query Reformulation
P. Bruza presented a
called
’query
by
help users that don’t
they see it; or do know
say it. The method is based
noun phrases, e.g. the query
’internet security of network’ or
’security’. A prototype is available
method for query reformualtion he
navigation’. Query by navigation may
know what they want, but will know when
what they want, but don’t know how to
on refinement and enlargement of
’internet security’ can be refined to
enlarged to either ’internet’ or
via
WWW
on
http://www.dstc.edu.au/cgi-
G. Greffenstette of Xerox
suggested a similar ’query by
structure
of
phrases.
clustered following the fact that
a noun phrase, if it is part of a
adverb, etc. Each syntactic
sentences, e.g. the query
research’, ’things to research’,
bin/RDU/hib/hib
Research
Centre,
France
navigation’ method, using the syntactic
Refinement of the query are
the query is the head or modifier of
verb phrase, if it is accompanied by an
relation is presented to the user by simple
’research’ can be refined by ’types of
etc.
10 Information Filtering
method
called
suppertagging
for
Supertagging is based on Lexicalised Tree
supertag consists of a elemantary tree
of how the word is used in a sentence. With
possible
to
distinguish
between
’appoint*’ (appointment appointed) in
("She was appointed by the Governor")
apartement".
and
R. Chandrasekar presented a
information
filtering.
Adjoining
Grammars.
A
which is a detailed desription
this method it was
occurences of e.g.
the sense of ’meeting’
phrases like "... well appointed
19
CALL CENTRES PAGES
De eerste telefoon in Schiedam
uit: de Schiedamse Courant 27 september
1882.
"Door de welwillendheid van de firma
Houtman & Co. waren wij in de gelegenheid
den Bell Telephoon toestel te bezichtigen,
dat
op
hunne
kantoren
in
de
Frankelandsche
Laan
en
aan
de
Hoofdstraat dezer dagen werd aangebracht. Men staat waarlijk verbaasd over de
eenvoudigheid van een toestel dat twee kantoren op betrekkelijk verren afstand met
elkander kan spreken alsof men zich in hetzelfde gebouw bevond in twee
aangrenzende vertrekken. Wij spraken op het eene kantoor met iemand op het
andere en ter nauwernood hadden wij een vraag gedaan of het antwoord volgde. De
muziek van een speeldoos werd van het eene kantoor duidelijk naar het andere
overgebracht. Het grote gemak en voordeel dat door de telefoon wordt verkregen zal
hare invoering zeker spoedig meer algemeen doen worden".
PTT introduceert spraakherkenning
Door onze redacteur
MICHIEL VAN NIEUWSTADT
ROTTERDAM, 1O MEI. Mobiele bellers bij PTT Telecom kunnen vanaf dit najaar een
telefoonnummer kiezen door een commando in te spreken in de telefoon. Dat zegt P. van
Doorn, directeur van de divisie Mobiele Netwerk Diensten van PTT Telecom.
Het commando van de beller is een woord, bijvoorbeeld de naam van de persoon die gebeld
moet worden. Een computer in het mobiele netwerk van PTT Telecom kiest vervolgens een
abonneenummer dat is voorgeprogrammeerd. Er zijn per abonnee maximaal 50 nummers
beschikbaar. De prijs van de nieuwe dienst wil PTT Telecom nog niet bekend maken. De
dienst voice dialing genoemd, komt dit najaar beschikbaar voor alle mobiele abonnees van
PTT Telecom.
Philips presenteerde eerder dit jaar een mobiel toestel waarmee eveneens door het
uitspreken van een naam een nummer kan worden gekozen. In dit nieuwe toestel kunnen
maximaal tien nummers worden voorgeprogrammeerd. Toch is de dienst van PTT Telecom
nieuw volgens Van Doorn. "Zij stoppen deze mogelijkheid in hun telefoon, wij passen
spraakherkenning toe in het netwerk", zegt hij.
20
Spraakherkenning is een technologie die computers in staat stelt gesproken woord te
herkennen. Het bestaat in primitieve vorm al enkele decennia. Tot op heden bestonden er
nauwelijks commerciële toepassingen omdat de communicatie tussen spreker en computer
gebrekkig verliep. Marktonderzoekers voorzien echter dat spraakherkenning wegens de snel
groeiende mogelijkheden al voor het eind van deze eeuw kan uitgroeien tot een
miljardenmarkt.
De Nederlandse Spoorwegen hebben aangekondigd spraakherkenning binnen enkele
maanden te willen inzetten voor telefonische informatie over treinreizen. Vooralsnog bevindt
het NS-systeem zich in een testfase.
NRC, 20 mei 1997.
NRC HANDELSBLAD 17 mei 1997-06-25
’Neezee venuurvijf tien!
OV-REISINFORMATI E ONTWIKKELT PRATENDE REISPLANNER
Binnenkort staat Openbaar Vervoer Reisinformatie de klant per computer te woord. Het
programma vraagt door tot alle nodige gegevens door de klant bevestigd zijn.
JudithJunger
HEEFT U GEEN ZIN een ingewikkelde treinverbinding in het spoorboekje op te zoeken?
Geen nood, u kunt altijd 0900 9292 bellen. Om zes uur 's ochtends werkt dat vlot, maar in
kantooruren zijn lange wachttijden geen uitzondering, en dat tegen vijftig cent (binnenkort
vijfenzeventig) per minuut.
Om de wachttijd te verkorten schakelt Openbaar Vervoer Reisinformatie binnenkort naast de
gewone medewerkers een computer in. 'Goedemorgen', zegt een vrouwenstem. 'Dit
systeem van Openbaar Vervoer Reisinformatie geeft uitsluitend informatie over vertrek en
aankomsttijden van treinen in Nederland. Van welk station naar welk station wilt u reizen?'
Klant: 'Ik wil van Amsterdam-Amstel naar Heerlen.'
Vrouwenstem: 'Wanneer wilt u van Amsterdam-Amstel naar Heerlen vertrekken?'
Klant: 'Vrijdag, om acht uur.'
Vrouwenstem: 'Dus u wilt vertrekken op achttien april om acht uur 's ochtends.'
Klant: 'Nee, om acht uur 's avonds.'
(...)Vrouwenstem: 'Het systeem heeft de volgende verbinding gevonden: uw trein vertrekt
om twintig uur tien van Amsterdam Amstel (...) Wilt u dat ik de verbinding herhaal?'
(....) Zo ongeveer verloopt een gesprek met het nieuwe systeem. Momenteel verkeert het
nog in een proeffase, tot ongeveer eind juli, aldus Bram Munnik van Openbaar Vervoer
Reisinformatie. "Over ongeveer tweeënhalve maand is deze fase afgerond, en wordt het
systeem, als de klanten er tevreden over zijn, operationeel. Daarnaast blijven er de gewone
medewerkers. Het betreft een samenwerking tussen Openbaar Vervoer Reisinformatie en
Ptt Telecom. Daarmee is Nederland het tweede land in de wereld met een inlichtingen
systeem per computer.”
SPRECHENDER FAHRPLAN
De Zwitserse spoorwegen werken al sinds mei 1996 met een telefonisch informatiesysteem
per computer (Sprechender Fahrplan). Dat handelt met vier krachtige pc's tachtigduizend
gesprekken per maand af. De technologie voor beide systemen komt van Philips, waar men
21
al enkele jaren bezig is met spraaktechnologie. Openbaar Vervoer Reisinformatie en de
Zwitserse spoorwegen gebruiken een van de resultaten hiervan, het pakket SpeechMania.
Het pakket is ontwikkeld voor het verstrekken van specifieke inlichtingen, zoals het
weerbericht, verkeers- of beursinformatie.
Gesprekken voeren met de computer in gewone spreektaal heeft altijd al tot de verbeelding
van onderzoekers gesproken. In de jaren ’60 en ’70 wilde men de computer elk willekeurig
gesprek laten voeren. Hiervoor moest het programma de taal helemaal ’leren’, dat wil
zeggen de betekenis van alle woorden en alle grammaticale regels. Dat viel niet mee. Een
van de betere systemen uit die tijd was LUNAR, in 1972 ontwikkeld door de Amerikaan
Woods voor het beantwoorden van vragen over de chemische analyse van maangruis.
LUNAR kon achtenzeventig procent van de vragen goed begrijpen en goed beantwoorden.
Twaalf procent van de vragen ging verloren door diverse administratieve fouten, tien procent
werd niet begrepen door taalkundige problemen. Zo had LUNAR er moeite mee om vragen
met verwijzingen, ontkenningen en meerdere woorden als ’alle’ en ’sommige’ naar de juiste
logische formule te vertalen.
In de jaren ’80 is het accent komen te liggen op taalverwerving in
beperkte situaties zoals het geven van reisinformatie. Het
struikelblok bij een dergelijk systeem is niet meer het taalkundige
aspect zoals bij de systemen uit de jaren ’60 en ’70 (die met
geschreven in- en uitvoer werkten) maar ’spraakherkenning’, het
verstaan van wat er gezegd wordt. De vraag uit het voorbeeld
zou namelijk als volgt bij de computer kunnen binnenkomen:
’ikwilvanamster damamstel naarheerle’. Denk maar aan een
vakantie in Griekenland - wat u hoort is een stroom klanken en
niet een duidelijke reeks van woorden.
WAT DE
COMPUTER
HOORT IS EEN
STROOM
KLANKEN EN NIET
EEN
DUIDELIJKE REEKS
VAN
De eerste stap is dan ook het herkennen van de woorden. Hiervoor moet de computer het
ingekomen analoge signaal eerst digitaliseren en bewerken. Een van de stappen is een
Fourieranalyse die het geluidsverloop in de tijd vertaalt naar een beschrijving in termen van
geluidsintensiteit (energie) als functie van toonhoogte. Elke vijfentwintig milliseconden van
het signaal wordt voorgesteld door een akoestische vector, dat wil zeggen een rij getallen
die weergeeft hoe gedurende die periode de energie van het signaal over de toonhoogtes
verdeeld is. De aldus verkregen stroom van akoestische vectoren wordt dan vergeleken met
de opgeslagen patronen behorend bij de woorden die het systeem kent. De woorden zijn
weergegeven in fonemen - de kleinste klankeenheid waarin een woord ontleed kan worden.
Zo bestaat het woord ’Amsterdam’ uit de fonemen: ’a’,’m’,’s’, ’t’, ’ur’ en ’d’.
Het herkennen van woorden en woordpatronen gebeurt met statistische methodes. De
stroom van akoestische vectoren wordt hierbij gemodelleerd als een Markov-proces
(gedefinieerd door de Russische wiskundige Markov in 1913). Dat is een toevalsproces
waarbij de toestand op een bepaald tijdstip alleen afhangt van de toestand op het vorige
tijdstip. In een Markov-proces wordt de overgang van de ene toestand naar de volgende
bepaald door overgangswaarschijnlijkheden, bijvoorbeeld de kans dat op een foneem’m’een
foneem ’s’ volgt. Speciaal voor het herkennen van fonemen is het Markov-proces uitgebreid
met een extra component die het langzamer of sneller uitspreken van een woord kan
opvangen. Dit is het zogenoemde Hidden Markov-model.
Het systeem wordt getraind door de belangrijke woorden een heleboel keren door mensen te
laten inspreken. Zo leert het programma de benodigde overgangswaarschijnlijkheden tussen
de fonemen kennen. Zodra het systeem bijvoorbeeld het woord ’Amsterdam’ kent (dat
betekent dat er nu een specifiek diagram voor dit woord in het databestand is), weet het dat
22
na ’amstur’ de kans op ’d’ een stuk groter is dan de kans op ’m’. Als het systeem dan een
woord binnenkrijgt waarvan het het begin herkent als ’amstur’ maar de rest niet kan
thuisbrengen, zal het er ’Amsterdam’ van maken. Als de klant nu toevallig ’Amstelveen’ heeft
gezegd ontstaat er een fout. Dergelijke fouten kan het programma niet herstellen, daarom
vraagt het steeds naar bevestiging. Deze soms irritante eigenschap kan dan ook niet
omzeild worden.
Zodra het programma de belangrijke woorden redelijk goed kent begint men met de tweede
fase van de training (niet alle informatie die binnenkomt is immers even belangrijk, alleen de
aanwijzingen voor de treinverbinding die gezocht moet worden). Het programma kan nu door
iedereen gebeld worden. Het zal nu nog diverse herkenningsfouten maken, maar naar
gelang het meer getraind is zullen die minder vaak voorkomen. Het moet nu ook leren
verschillende manieren van uitspreken te herkennen. Hier ligt uiteraard een grens aan wat
verwacht kan worden, maar in ieder geval moet Groningen zowel met een harde als een
zachte ’g’ herkend worden. Volgens Bram Munnik zijn voor deze fase van de training
ongeveer twaalfduizend gesprekken nodig.
DE HELE VRAAG
Het verstaan van losse woorden is echter nog niet voldoende. De computer moet de hele
vraag van de klant kunnen begrijpen. Het programma moet bijvoorbeeld weten welke
woorden plaatsnamen zijn en welke dag-, datum- of tijdsaanduidingen. Met andere woorden,
elk herkend woord moet een betekenis krijgen. Dit gebeurt aan de hand van een taalmodel,
dat weer bestaat uit statistische regels, bijvoorbeeld over de kans dat ’negen uur’ gevolgd
wordt door ’ ’s ochtends’ of door ’geleden’. In de context van het zoeken naar een
treinverbinding is de kans op negen uur ’ ’s ochtends’ veel groter dan op ’negen uur
geleden’. Het taalmodel bevat ook regels over de Nederlandse taal. Zo is het in het
Nederlands uitgesloten dat het woord ’van’ gevolgd wordt door een werkwoordsvorm. Met
dergelijke regels kan het programma een misverstand herkennen.
Hoe kan het programma een fout herstellen? Dit kan eigenlijk maar op één manier: met
doorvragen. Soms zegt de vriendelijke vrouwenstem dan ook 'Ik heb u niet verstaan. Kunt u
(...) herhalen'?' Elke keer dat de klant iets gezegd heeft begint de reactie van het programma
met een vraag, bijvoorbeeld 'Dus u wilt van Amsterdam Amstel naar Heerlen reizen?'. Hier is
het programma bezig om te bevestigen dat het de beller goed heeft verstaan.
De vraag van de klant wordt stapsgewijs begrepen door er de volgende gegevens uit te
destilleren: plaats van bestemming, plaats van aankomst, dag, en - afhankelijk van uw wens
- vertrek- of aankomsttijd. Het programma blijft doorvragen tot alle nodige gegevens door de
klant bevestigd zijn.
Eenmaal zo ver wordt in het databestand van de gewone Reisplanner het antwoord op de
gestelde vraag opgezocht. (Wanneer het systeem operationeel wordt zullen er ook extra
reisgegevens verstrekt worden zoals werkzaamheden aan de spoorbaan of extra ingezette
treinen.) Het geven van het antwoord kan op twee manieren gebeuren: door zogenoemde
'text-to-speech' technologie, waarbij uit de computer een digitale stem komt, of door
woorden en stukjes zin aan elkaar te plakken die door een mens zijn ingesproken. Zowel OV
Reisinformatie als de Zwitserse spoorwegen hebben voor de tweede oplossing gekozen.
"Het klinkt gewoon mooier", zegt Bram Munnik. "Je krijgt niet zo'n robotstem."
Dat is waar, hoewel de vriendelijke :vrouwenstem een wat raar staccato spreekt. Wilt u het
zelf proberen? Bell dan 070 3040418. Goede reis!
23
NS
voeren
definitief
pratende computer in voor
reizigers
Wanneer wilt u van Harlingen naar
Schinnen reizen?
ANP
AMSTERDAM
Door Rieks op den Akker
De Nederlandse Spoorwegen
gaan definitief een sprekende
computer invoeren. De computer
kan treinteizigers via een
eenvoudige dialoog informeren
over aankomst- en vertrektijden.
Het nieuwe systeem begrijpt
gewone spreektaal en kan
eenvoudige wedervragen stellen.
De NS doen er al een proef mee.
Succesvolle introductie zal op
termijn leiden tot banenverlies bij
tal van bedrijven, die hun
telefonistes
vervangen
door
sprekende computers. Dat stelt
Philips, dat het systeem heeft
ontwikkeld. Sprekende computers
kunnen
een
enorme
kostenbesparing opleveren, meent
het bedrijf, omdat veel werk van
telefonistes overbodig wordt. Het
elektronicaconcern beschouwt de
overeenkomst met de NS als een
doorbraak op de Nederlandse
markt.
Philips
liet
donderdag
in
Amsterdam weten dat
de
Nederlandse Spoorwegen de
eerste Nederlandse onderneming
is die het systeem gaat hanteren.
In het buitenland maken de
Zwitserse spoorwegen en de
Duitse
luchtvaartmaatschappij
Lufthansa al gebruik van het
systeem.
NS en Philips experimenteren
sinds kort met een nieuw
informatienummer
(070-3040418),
waarop
een
vrouwelijke computerstem de
beller te woord staat. De
computer heeft een vocabulaire
van duizenden woorden en kan
wedervragen stellen als ‘Op
welke dag wilt u vertrekken?’
De NS willen het systeem vanaf
oktober landelijk gaan invoeren.
Bij de Zwitserse spoorwegen
handelt een sprekende computer
al 97 procent van de verzoeken
om informatie af.
24
In het kader van het prioriteitsprogramma taal en
spraaktechnologie wordt in samenwerking met openbaar
vervoer
reisinformatie
hard
gewerkt
aan
een
computersysteem dat geheel automatisch reisinformatie per
telefoon kan vertrekken.
Het systeem dat ondere andere ontwikkeld wordt bij het het
instituut voor spraaktechnologie in Eindhoven, en waaraan
uiteraard ook KPN meedoet, is gebaseerd op een duitstalig
systeem dat door Philips Aken is ontwikkeld. In Duitsland is
al enige tijd ervaring opgedaan met het informatie-systeem
dat reizigers treinverbindingen van de Deutsche Bahn kan
verstrekken. Het systeem is verkocht aan de Zwitserse
spoorwegen voor wie het sinds kort ook in Zwitserland
operationeel is.
OVR heeft in Nederland een 9 tal informatie-centrales waar
mensen door middel van een 06 nummer informatie over
openbaarvervoer kunnen vragen. Dit nummer is zwaar
overbezet. Er gelden wachttijden van gemiddeld meer dan 5
minuten. Onlangs werden de gesprekskosten verhoogd naar
75 cent per minuut maar dat heeft geen noemenswaardig
effect gehad op het aantal telefoontjes.
De dienst van OVR voorziet kennelijk in een grote behoefte.
OVR steekt jaarlijks vele miljoenen in deze service, maar ze
kan de vraag om informatie niet aan. Toch is ze niet bereid
veel meer geld in de dienst te stoppen. Telefonistes die de
klanten te woord staan werken onder grote druk. Ze werken
4 uur achtereen telefoontjes af met daartussen 1 kwartiertje
pauze. Wanneer de telefoniste een gesprek beeindigt krijgt
ze onmiddellijk het volgende gesprek binnen. Tijd om even
achterover te leunen of iets na te zoeken is er niet. Vaak
krijgen ze klanten aan de telefoon die beginnen zich te
beklagen over de lange wachttijd.
"He he , dat was precies 5 minuten", zo beginnen ze met
geergerde stem.
Toch moet je als telefoniste natuurlijk vriendelijk blijven. Veel
klanten begrijpen niet wat voor soort informatie ze moeten
geven om geholpen te kunnen worden en soms zijn ze niet
bereid de nodige informatie te verschaffen omdat ze vinden
dat dat te privee is. "Ze denken dan dat ik ze op kom
zoeken", vertelde een telefoniste mij.
Bovendien bevat het informatie-systeem waarmee ze werken
fouten. De ervaren informatrices kennen die fouten. Onlangs
werden studenten na een korte cursus ingezet om de vaste
krachten te helpen bij hun zware taak. Dat deze tijdelijke
krachten regelmatig onjuiste informatie geven of een klant
niet kunnen helpen dat spreekt voor zich. Maar OVR is al tevreden wanneer ze 1 op de 3
klanten goed kunnen helpen.
De grote werkdruk leidt tot stress en een groot ziekteverzuim. Men wacht met smart op
assistentie van een computer die een deel van hun werk kan overnemen. Hoe lang duurt het
nog voor het computersysteem hun komt helpen?
Onlangs werd in diverse kranten een telefoonnummer gepubliceerd dat je kunt bellen om het
huidige systeem eens uit te proberen. Ik heb het een paar keer uitgeprobeerd en het
resultaat is bedroevend. De automatische informatrice kan alleen informatie geven over
aankomst en vertrektijden van treinen in Nederland. Dit terwijl je op het 06 nummer van OVR
informatie kunt krijgen over alle middelen van openbaar vervoer in nederland dus inclusief
bus en boot verbindingen. Bovendien kun je daar ook te weten komen wat de goedkoopste
reis is. Het gaat dus om een zeer beperkte dienst.
Na de vraag " van welke station naar welk station wilt u reizen?" zei ik in het eerste gesprek:
ik wil graag van Enschede naar Arnhem reizen". Daarop antwoordde het systeem met een
goed verstaanbare vrouwenstem (de kwaliteit van de spraak is prima):
"Wanneer wilt u van Enschede naar Arnhem reizen?" (aan de pauzes tussen de
plaatsnamen kun je horen dat deze zin in elkaar gezet is maar dat is niet echt storend)
Waarop ik zei maandag. Hoe laat wilt u overmorgen van E naar A reizen?
Het systeem zei inderdaad "overmorgen" wat goed was omdat ik op zaterdag belde. Ik zei
9.00. Maar toen ging het systeem in de fout Het zei u wilt dus morgen om 9.00 uur van E.
naar A. reizen?
Nee, zei ik "overmorgen".
Maar toen was ze het spoor bijster. Ze had me niet begrepen. Uiteindelijk gaf ze me de
vertrektijden en overstaptijden van mijn reis op zondag. De fout was niet meer te herstellen.
Wanneer ik tensloote op haar vraag of ik nog meer informatie wil antwoord: "Nee dank u
wel" dan begint ze toch weer met de vraag van welke station naar welk station ik wil reizen?"
Gelukkig heb ik geen enkele schroom om de verbinding dan maar te verbreken.
In een tweede test vroeg ik om een verbinding tussen Harlingen en Veendam. Maar in plaats
van Veendam verstond ze Veenendaal en na nog eens Veendam te hebben gezegd kwam
ze met Schinnen aan zetten. Ik wist dat Veendam geen NS-station heeft. In plaats dat ze dat
zegt verstaat ze iets anders. Dat komt omdat ze niet weet dat Veendam geen station heeft.
De naam Veendam komt niet voor in haar lijst met stationsnamen en daarom maakt ze er
iets van dat er op lijkt. Nu lijkt Schinnen helemaal niet op Veendam. Die verwarring komt
denk ik doordat ze slecht om kan gaan met ruis en andere geluiden die ze uit de omgeving
opvangt.
Je moet dus niet ondertussen iets tegen een ander die bij je zit mompelen of lachen als je
met de automaat onderhandeld, want ze denkt steeds dat je het tegen haar hebt. Dus niet
zeggen: "zet het gas even lager, het water kookt" want voor je het weet denkt ze dat je naar
Volendam wilt.
Het spijt me heel erg voor die arme telefonistes van OVR. Ik denk dat ze snel aktie moeten
onernemen tegen hun baas om betere arbeidsomstandigheden af te dwingen, want anders
zal er nog heel wat ziekte-verzuim-geld uitbetaald moeten worden voor ze hulp krijgen van
de sprekende computer.
Rieks op den Akker
25
Daag Majoef
Hans Ree, NRC Handelsblad, 20-5-1997-07-13
Dat is toch om razend te worden! In de trein zien we de tram al aankomen, de laatste van de
dag. We haasten ons naar buiten, met een heel groepje zijn we, we rennen de trap af, de
trambestuurder ziet ons komen, maar hij houdt niet stil bij de halte, integendeel, hij zet flink
vaart. Daar gaat hij, de laatste rit. “Dat doen die klootzakken vaak”, zegt een jongen. “Ze
denken er het recht toe te hebben, omdat hun stop volgens de dienstregeling net een minuut
voor de aankomst van de laatste trein is. Ze hoeven niet op ons te wachten.” Het station ligt
op de kruising van de spoorweg en een snelweg. We moeten lopen, naar de lichtjes van de
bewoonde wereld. En zo zou ik wel door kunnen gaan.
Hou liever op, ziek word ik van jullie! Je kan nergens meer komen of iemand begint wel te
klagen over het openbaar vervoer en dan valt meteen de helft van het gezelschap gretig in,
de een is omgeleid, de ander heeft in een weiland gestaan, ze hebben allemaal wel hun
kleine avontuurtjes meegemaakt waarmee ze ons willen vervelen. Verwende zeurpieten zijn
het, die gebruikers van het openbaar vervoer. Te beroerd om te leren autorijden stappen ze
lui in een collectief vervoermiddel, maar als goede Nederlandse klagers eisen ze wel dat het
in alle omstandigheden voor hen op maat gesneden is. Eigenlijk zijn ze allemaal als die
schaker die op het stationsplein in een willekeurige tram stapte en aan de bestuurder zei:
“Breng me naar mijn vriend Oskam.” Gelukkig kunnen die schakers in de WW nu de
computer heeft laten zien dat hun prachtspel maar een soort groot boter, kaas en eieren is,
dat ruimt weer op.
Ho, ho! Het gaat er maar om hoe groot. Alles wat de mens kan zeggen of denken kan
uitgedrukt worden in een rij die bestaat uit nullen en enen. Dat is ook waar, net als die
vergelijking met boter, kaas en eieren. Geen reden om het menselijke gedachtenleven te
kleineren. Waar het om gaat is dat de rij onafzienbaar lang is. Op een gegeven moment
slaat hier de kwantiteit om in de kwaliteit, als de liberale heren automobilisten mij nog
kunnen verstaan. Zijn die er trots op dat ze niet klagen over hun files? Ze leven in een
liberaal dromenland, waarin hun wegennet een soort van God gegeven natuur is, die ze als
knoestige individualist te lijf gaan. Onze trein- en tramreiziger daarentegen wordt iedere dag
met menselijke machtsverhoudingen geconfronteerd. Klaag niet en zie de tram die voor uw
neus wegrijdt als een leerschool voor het politiek bewustzijn.
Mag een taalkundige nu eindelijk ook iets zeggen? Voor mij is het openbaar vervoer een
bron van interessante wetenschappelijke experimenten. Ik belde de nieuwe computer van de
Spoorwegen die zaterdag in de wetenschapsbijlage werd ebschreven. Het pratende
spoorboekje dat menselijke stemmen kan verstaan. Iedere dag kom ik met de trein langs het
station Den Haag-Mariahoeve en het viel mij op dat de naam van dat station door de
boordmicrofoon onveranderlijk werd uitgesproken als Daag Majoef. Denk niet dat ik klaag.
Als wetenschapper observeer ik, als reiziger sluit ik verdroomd de ogen, hoor dat wij Daag
Majoef naderen en waan mij even in de Oriënt Express. Zou de computer van de
Spoorwegen ook het taalgebruik van het eigen personeel herkennen? Ik kwam op het idee
omdat ik een slager had gezien die zijn eigen patés lustte. Ik vroeg de reistijden tussen Daag
Majoef en Amsan Raj. De computer herkende de heerlijke exotische klanken nog niet, maar
dat kan komen. Als het hele Nederlandse volk meehelpt kunnen we te weten komen hoeveel
er precies van onze taal ingeslikt kan worden zonder de communicatie te verstoren. Joef-Raj
zal straks genoeg zijn vor de computer en voor onszelf ook. Het is puur snobisme en koude
kak, al die overbodige extra klanken.
26
Kleindenker, die nog in het verleden leeft? Lang voor het zover is zal de computer aan een
enkel uitgesproken woord niet alleen de reiziger herkennen, maar ook weten waar die is en
waar hij heen wil, op grond van zijn vroegere verplaatsingen, die alle in het geheugen zijn
opgeslagen. Denk niet dat het toch voor kan komen dat de reiziger eigenlijk ergens naar toe
wil dan de computer denkt. Gebeurt het niet vaak dat wij onze eigen geheime wensen niet
kennen? Dan leggen wij ons maar al te graag neer bij de mening van een expert die het
beter weet. Het gaat zo al toe in het huis van Bill Gates, de Amerikaanse computerkoning.
Als een gast bij hem aanbelt klinkt er muziek. Het is het liedje dat die gast bij zijn vorige
bezoek in de badkamer heeft gefloten, nu georkestreerd door de computer. In zijn
logeerkamer is de televisie geprogrammeerd met videofilms van de regisseur die vorige keer
in een talkshow was waarvoor de gast laat was opgebleven. Op het kussen ligt een boek
van zijn lievelingsschrijver. Het behang van de kamer kleurt bij zijn pyjama. Alles uitgezocht
door de computer. Zoals het daar bij Gates gaat, zal het straks overal gaan. Bel de computer
van de Spoorwegen, zeg goedemorgen en de treintaxi wordt al naar uw huis gestuurd.
Openbaar vervoer, maar nu inderdaad op maat gesneden. Dialectische verzoening van de
verouderde politieke tegenstelling tussen de liberale automobilist en de collectivistische
treinreiziger, dankzij de computer.
Boerenklompenfilosoof, ik heb medelijden! Gevangene van uw technologisch wereldbeeld!
Uw toekomstfantasieën gaan er altijd mank aan dat één ding in uw gedachten drastisch
veranderd wordt, terwijl alle andere dingen hetzelfde blijven. Denkt u werkelijk dat er in die
wetenschappelijke toekomst nog verschil zal zijn tussen de computer van de Spoorwegen en
u? Tussen de treintaxi en u? De Zenmeester lijdt niet aan de illusie van de individuele
persoonlijkheid, hij is de computer, de treintaxi en de trein en hij danst tussen Daag Majoef
en Amsan Raj en overal waar hij wil.
Hans Ree, NRC Handelsblad, 20-05-1997.
Reisinformatie en het luisterend oor van de computer
Marc van Oostendorp
Onze Taal 1997 * 6
Elke dag bellen bijna veertigduizend reizigers het nummer van Openbaar Vervoer
Reisinformatie. Tot nu toe kregen ze altijd een mens aan de lijn, al moesten ze daar soms
even op wachten. Maar na de komende zomer wordt een deel van de gesprekken door een
computer afgehandeld. Voor het zover is, moeten er nog wel een paar problemen worden
opgelost.
Telefoneren is niet gemakkelijk, zeker niet als je een computer bent. Ik draai het
telefoonnummer van een computersysteem dat vragen beantwoordt over vertrektijden van
treinen. Vervolgens raak ik verwikkeld in een verwarrend gesprek.
"Ik wil van Oisterwijk naar Heerenveen."
"U wilt van Alphen aan den Rijn naar Ede-Wageningen."
"Nee, ik wil vertrekken uit Oisterwijk."
"Hoe laat wilt u vertrekken uit Koog-Zaandijk?"
27
De organisatie OV Reisinformatie beantwoordt jaarlijks miljoenen telefonische vragen over
de snelste manier om in Nederland met het openbaar vervoer te reizen. Vorig jaar gaf zij tien
miljoen reisadviezen. Er werd veertien miljoen keer gebeld, maar een groot deel van de
bellers kreeg kennelijk een ingesprektoon of vond de rij wachtenden te lang, en hing op. Die
mensen had OV Reisinformatie ook graag te woord willen staan, maar daarvoor zou een
aanzienlijke uitbreiding van het personeel nodig zijn. Daar is geen geld voor, en dus gaat
men na de zomer proberen een deel van de gesprekken te automatiseren.
Legio Problemen
Voorlopig gaat het alleen om de vragen over treintijden. Wie met de bus, de tram of de
veerpont wil reizen moet wachten op een informatrice van vlees en bloed. Volgens Bram
Munnik van OV Reisinformatie gaat bijna veertig procent van alle gesprekken alleen over
reizen van station tot station. In ongeveer de helft van die gesprekken wordt alleen om
aankomst- of vertrektijden gevraagd. De beperking tot treintijden is volgens Munnik nodig
omdat het systeem nu al meer dan genoeg problemen op te lossen heeft. Het heeft een
woordenschat van slechts tweeduizend woorden: de namen van de stations in alle mogelijke
varianten (’Den Bosch’, ’’s-Hertogenbosch’, ’Den Bosch Centraal’, ’Den Bosch CS’), de
namen van dagen (’vandaag’, ’aanstaande zondag’, ’veertien juni’) en de tijden (’vijf over half
twaalf’, ’elf uur vijfendertig’, ’een uur of half twaalf’). In werkelijkheid heeft het systeem
trouwens een groter geheugen, want het moet allerlei tongvallen kunnen onderscheiden.
Een limburger moet evengoed worden verstaan als een Groninger, een Hagenaar of een
Surinamer. En ook mensen die verkouden zijn of met een dubbele tong spreken, moeten te
volgen zijn.
Marietje van Groningen
Zelfs in een eenvoudig gesprek worden overigens al meer dan tweeduizend woorden
gebruikt. Gelukkig hoeven niet al die woorden begrepen te worden. Als mensen tegen elkaar
praten, zeggen ze allerlei dingen die niet strikt noodzakelijk zijn voor de informatieuitwisseling. ’Goedemiddag, ik wil graag weten hoe ik vanuit Amsterdam in Zwolle kom.’ In
zo’n zin staan maar ver woorden die echt van belang zijn: ’vanuit Amsterdam in Zwolle’. De
rest is ruis.
"Zelfs in die ruis kan echter verwarrende informatie voorkomen", legt Munnik uit. "Veel
mensen zijn gewend zich aan het begin van een gesprekje voor te stellen. Normaal
gesproken is dat geen probleem, maar het wordt verwarrend als iemand bijvoorbeeld
Marietje van Groningen heet. De computer moet dan wel begrijpen dat die laatste twee
woorden een naam zijn en niet de vertrekplaats van Marietje. Of sel dat iemand zegt dat zij
’om een uur of twaalf’ wil vertrekken en zij spreekt dat woord een uit als ’een’. Dan moet de
vertrektijd nog steeds wel rond twaalf uur gezocht worden, en niet rond een uur."
Keuze blijft
Er zijn dus nog wel wat problemen. OV Reisinformatie neemt dan ook uitgebreid de tijd om
het systeem te ontwikkelen en te testen. Ruim twee jaar geleden is men begonnen met de
ontwikkeling ervan, samen met de bedrijven Philips en KPN, en geholpen door onder andere
de organisatie voor Nederlands Wetenschappelijk Onderzoek (NWO) en de Technische
Universiteit Delft.
Het gesprekje dat ik voerde, was een van de twaalfduizend conversaties die honderden
proefpersonen deze maanden met de computer hebben. Na de zomer, als het systeem
voldoende verschillende stemmen en accenten gehoord heeft, wordt het waarschijnlijk op
28
beperkte schaal ingevoerd in een van de ngen regio’s waarin OV Reisinformatie Nederland
heeft verdeeld. Mensen die in die regio 0900-9292 bellen, kunnen ervoor kiezen zich door de
computer te laten helpen in plaats van in de rij te gaan staan. Als dat experiment
bevredigend verlopen is, wordt de dienst waarschijnlijk in de loop van 1998 in heel
Nederland ingevoerd. Voorlopig zal de klant er altijd voor kunnen kiezen een mens aan de
lijn te krijgen.
Uiteindelijk gaf de computer me de route van Oisterwijk naar Heerenveen. Nu de terugreis
nog. Omdat ik dacht dat het sneller zou gaan met een menselijke gesprekspartner, draaide
ik het reguliere nummer en legde de informatrice mijn vraag voor. Even was het stil.
"Pardon," zei zij, "wij geven geen informatie over internationale treinen." Voor reizen naar
Oostenrijk moest ik een ander nummer draaien.
WIE MET een computer wil praten,
kan sinds een paar maanden
terecht bij telefoonnummer 0703040418.
Een prettige vrouwenstem neemt
de telefoon op: "Goedemorgen,
van welk station naar welk station
wilt u reizen?"
"Nou, doe mij maar een retourtje
Leiden-Amsterdam"
zeg
je,
kouwend op een broodje kaas. "U
wilt dus - van Veenendaal-De
Klomp – naar Amsterdam?"
antwoordt de vrouwenstem na
korte aarzeling. Als je het niet kunt
laten iets meligs in te spreken als:
"Heeft
Willem
Alexander
al
gebeld?", komt de stem ijzersterk
terug met: "U wilt dus - om 14 uur
30 - van Leiden - naar
Leeuwarden?"
De beller is hiermee een van de
duizenden proefkonijnen geworden
in het project Taal- en Spraaktechnologie,
waarin
diverse
universiteiten, KPN en Philips
De machine leert luisteren
Algemeen Dagblad zaterdag 20 september 1997
Uiteindelijk, is de bedoeling, moeten computers
allerlei routinevragen naar concrete informatie af
kunnen handelen. Omdat natuurlijke spraak veel
variatie vertoont, is het nodig zulke systemen
bloot te stellen aan veel sprekers die spontaan
op het programma reageren.
Tot nu toe hebben zo’n 10.000 mensen het
experimentele Openbaar Vervoer Informatie
Systeem (OVIS) gebeld. Alle gesprekken worden
op band opgenomen en achteraf door een mens
beluisterd. Aperte ongein wordt weggegooid, de
rest vormt ’lesmateriaal’ voor het systeem.
In het laboratorium, als een paar proefpersonen
standaardzinnetjes
voorlezen,
is
spraakherkenning een koud kunstje. Ook blijkt
persoonsherkenning relatief eenvoudig, omdat
het stemgeluid een karakteristiek patroon heeft
dat niemand kan imiteren. Onlangs opende de
Nijmeegse vakgroep Taal en Spraak een
internet-pagina waar de gebruiker zich de eerste
keer mondeling aanmeldt, waarna de eigen stem
het wachtwoord vormt. Ook bestaan al
dicteerapparaten, die een door de eigenaar
ingesproken tekst op papier zetten.
Als ook de betekenis herkend moet worden, lijkt ’taal’ veel ongrijpbaarder. Vier jaar geleden
zette de ANWB al heel overmoedig een computer in om telefonische vragen over de
marktwaarde van tweedehands-auto’s te beantwoorden. Wegens te veel fouten is men toen
al gauw overgestapt op een meerkeuzesysteem via de telefoontoetesen, net als bij de
girofoon.
29
Prof. L. Boves, coordinator van het Taal- en Spraakproject: “We hebben geleerd dat het
vreselijk moeilijk is om van schijnbaar eenvoudige dingen die mensen zeggen, precies vast
te leggen wat ze betekenen. Er bellen mensen die Amsterdam ‘Mokum’ noemen, of
Groningen ‘Groningen-stad’. Al die varianten moet de computer herkennen.”
Bovendien gebruiken mensen dubbelzinnige termen waar de computer zich in verslikt.
Oorspronkelijk zou het NS-informatienummer 24 uur per dag in bedrijf zijn, maar dat bleek te
hoog gegrepen. De reden: het programma kan niet overweg met ‘morgen’ en ‘vandaag’.
Treinkaartjes van ‘vandaag’ zijn geldig tot de laatste trein vertrekt, maar soms is dat ver na
middernacht. Mensen spelen daar flexibel op in, maar op een moeilijk in regels te vangen
manier.
Boves denkt dat zulke obstakels nog wel te omzeilen zijn. “Als iemand over een paar jaar het
NS informatie-nummer belt, beseft hij of zij nauwelijks meer dat hij met een machine praat.”
Waarschijnlijk zullen veel service-nummers tegen die tijd geautomatiseerd zijn. Toch
betekent dat nog lang niet dat een computer een echt gesprek kan voeren. Bij zulke
telefoontjes nemen mensen instinctief de moeite om netjes te spreken en ondubbelzinnige
mededelingen te doen. De computer kan dan op een heel beperkt kennisgebied een
standaard-reportoire van antwoorden afwerken.
Maar van veel dagelijks spraakgebruik is de betekenis context-afhankelijk: uit louter de
gesproken informatie valt niet af te leiden wat er bedoeld wordt. Wie gezellig wil napraten
over de laatste aflevering van GTST zal dat toch echt met iemand die die soap gezien heeft,
of op z’n minst weet wat televisie is.
Razendsnel door woordenboek
De
eerste
serieuze
pogingen om machines
gesproken woord te laten
verstaan dateren uit de
jaren zestig. Sindsdien is
dankzij steeds krachtiger
computers en verfijningen
in
de
programma’s
geleidelijk
vooruitgang
geboekt.
Elk
geluid
bestaat uit trillingen in de
luchtdruk
die
een
computer net zo goed kan
registreren
als
het
menselijk
oor.
Het
probleem is om in dat zeer
complexe trillingspatroon
klanken en woorden te
onderscheiden.
Het
spraakherkenningsprogramma
hakt
het
stemgeluid in intervalletjes
van 0,01 seconde, en
bepaalt voor elk van die
stukjes het spectrum. De
mix van hoge en lage
tonen die er in voorkomt.
30
Gesproken
Nederlands
kent een kleine vijftig
klanken, elk met een eigen
spectrum. De computer
vergelijkt
het
waargenomen spectrum met de
beginstukken van die vijftig
klanken, en bepaalt de
kans
dat
ze
overeenkomen. Hij zal dus
denken: ‘45% kans dat
hier een ‘A’ begint, 18%
dat hier een ‘U’ begint,
enzovoort.
Tussen
verschillende
sprekers komt te veel
variatie voor om losse
klanken met zekerheid te
identificeren. Het programma onthoudt echter die
kansverdeling, en vergelijkt
opeenvolgende
intervalletjes met elkaar.
Op zeker moment weet
het systeem dan vrij zeker
dat de spreker ‘A’ zegt en
niet ‘U’, dus als het een
plaatsnaam
is
die
genoemd wordt, is dit
misschien
‘Amsterdam’
maar zeker niet ‘Utrecht’.
In het woordenboek dat de
computer 100 keer per
seconde doorloopt op
overeenkomsten, kunnen
plaatnamen met een U
dus
verder
buiten
beschouwing blijven. Dit
proces van schrappen en
voorlopige
kansen
toekennen gaat dor totdat
de spreker uitgesproken
is:
bepaalde
woordcombinaties
zijn
waarschijnlijker
dan
andere, maar zelfs het
laatste woord kan daar
nog invloed op hebben.
Deze aanpak vergt veel
geheugen en rekenkracht.
Pas de laatste jaren zijn
computers snel genoeg
om die klus aan te kunnen.
Het vinden van de grens
tussen woorden blijft nog
een probleem.
Als het programma meent
de boodschap verstaan te
hebben
(‘ik
wil
van
Amsterdam
naar
Leeuwarden’) vraagt hij
aanvullende gegevens en
verifieert
meteen
de
vorige: ‘Wanneer wilt u
van
Amsterdam
naar
Leeuwarden?’
Als
‘Leeuwarden’ nu verkeerd
verstaan is, is verwaaring
het gevolg. De hoorn
neerleggen en opnieuw
beginnen is de snelste
oplossing,
maar
doorgaans duurt het vrij
lang voordat de beller dat
doorheeft.
Hetzelfde
systeem zou, met een
andere woordenschat, ook
voor het opnemen van
bestellingen
of
reserveringen
geschikt
zijn.
LACHEN
Spraakherkenning is volop in ontwikkeling, er wordt nu ook al volop mee
geexpirimenteerd. Zo ook bij de NS, als je 070-3040418 belt dan kom je in
een expiriment terecht: de vrouwelijke robot die je stem herkent ! Jij
zegt hoe je wilt reizen en zij (de robot) geeft een advies op maat ! Dat
wilde ik weleens proberen, ik belde dus het nummer en zette de taperecorder aan... Een werkelijk zeer charmant klinkende ’dame’ kwam aan de
lijn. Ik noem haar voor het gemak maar Anne...
Anne: Van welk station naar welk station wilt u reizen?
Ik:
Van Amsterdam naar Maasstricht
Anne: Op welke dag wilt u vanuit Amsterdam Centraal Station naar
Maasstricht reizen ?
Ik:
Dinsdag
Anne: Hoe laat wilt u overmorgen reizen ?
Ik:
7 minuten over 10
Anne: U wilt dus om 10 uur 7 ’s-ochtends vertrekken ?
Ik:
Ja
Anne: De sprekende computer heeft de volgende verbinding gevonden:
Ik was verbluft. Wat volgde was een gedetailleerde route-beschrijving
inclusief overstappen, etc. En wat een lieve stem ! Weet je, ik voelde
vlinders in m’n buik. Zou het ook mogelijk zijn een afspraakje met Anne te
regelen ?
Tja, we leven in de moderne tijd, dat moet toch kunnen? Vastbesloten belde
ik opnieuw, hier een letterlijke weergave van het romantische gesprek wat
ik toen mocht beleven:
Anne: Van welk station naar welk station wilt u reizen ?
Ik:
Ik vind u zo’n leuke vrouwelijke computer, kan ik ook een
afspraakje met u maken ?
<Een verdraaid menselijk trekje trad nu op: er viel even
een ijzige stilte !)
Anne:
Zei u dat u vanuit ’t Harde wilt vertrekken ?
Nu was het mijn beurt om even stil te vallen.
Ik:
Nee, ik vraag of ik een afspraakje kan maken met u heeft zo’n
lieve, romantische stem
Anne: Zei u dat u vanuit Maastricht wilt vertrekken ?
Ik begon me af te vragen of het nog wat zou worden met dat afspraakje, maar
ik besloot stoicijns te vervolgen:
Ik:
Nee, ik wil graag een afspraakje met u maken, kan dat ? Een
keertje gezellig naar de film of zo ?
31
Anne: Zei u dat u vanuit ’t Harde wilt vertrekken ?
Ik:
(geirriteerd nu) NEE MENS, ik wil een afspraak maken, wat moet
ik in ’t Harde !!
Anne:
Zei u dat u vanuit Maastricht wilt vertrekken ?
Ik:
(diepe zucht) Nou ja, tenzij je in Maastricht woont, dan moet ik
daar wel een keer vertrekken.
Anne:
Zei u dat u vanuit Breda-Prinsenbeek wilt vertrekken ?
Eindelijk begreep ik hoe slim domme blondjes eigenlijk wel niet zijn.
Vergeleken met zo’n computer-vrouw hebben deze een IQ van 200. Ik ging
verder om te kijken of zo’n afspraakje me toch zou lukken, alhoewel de kans
op
succes me vrij klein leek inmiddels:
Ik:
Anne:
Ik:
Anne:
Als je in Breda-Prinsenbeek woont wel
Op welke dag wilt u vanuit Deventer naar Maastricht reizen ?
Nou, wanneer wil jij ? Woensdag of zo ?
Op welke dag wilt u vanuit Blerick naar Hilversum rijden ?
Misschien was ’t wel mijn nieuwe after shave of anders m’n warme stem, maar
Anne was duidelijk in de war. Iedere keer dreunde ze andere bestemingen
op. Bestaat er eigenlijk Prozac voor computer-vrouwen ?
Ik:
(luid) Woensdag !!
Anne:
Hoe laat wilt u op Woensdag 24 september reizen ?
Ik:
Tja, komt half 12 jou uit ?
Anne:
Hoe laat wilt u op Donderdag 12 maart reizen ?
Ik:
12 maart ??? Nou, dat duurt wel een beetje erg lang !! Kan het
niet wat eerder ?
Anne:
Hoe laat wilt u op Donderdag 12 maart reizen ?
Verdraaid, computer of niet, typisch een vrouw, en maardoordrammen en
doordrammen !
Ik:
(met diepe zucht): Half 2
Anne:
U wilt dus in de nacht van Donderdag 12 op vrijdag 13 maart om 1
uur 30 vertrekken ?
Aha, dat
gehad !
gebruikt
spannend
ging de goede kant op. Ik had het helemaal niet over ’s-nachts
Zie je wel, als je maar flink aanhoudt en de juiste tactiek
dan krijg je een computer-vrouw best warm voor een leuk en
afspraakje!
Ik:
Je loopt hard van stapel, maar als jij een afspraakje’s-nachts
wilt.
Anne:
Ik versta u niet (en opnieuw de vraag).
Ik:
JAHAAA !!
Anne:
Op het traject Blerick-Hilversum rijden op Donderdag 12 maart geen
treinen.
Dit werd me teveel. Ik verbrak de verbinding en besefte dat ik kennis had
gemaakt met de 21e eeuw. Kille domme computer-vrouwen met een namaak lieve
stem. Een afspraakje maken zit er niet in, in feite is Anne een monster
zonder gevoel :=(
Geachte mijnheer/mevrouw,
Fijn dat u wilt meewerken aan de verfijning van onze hotel reserveringlijn. Om u een indruk
te geven van wat de bedoeling is, vindt u op de volgende pagina’s een uitleg over spraakherkenning en over de reserveringlijn.
32
Sinds kort is het mogelijk om gewoon tegen een computer praten, die vervolgens gewoon
antwoord geeft! Dit is mogelijk geworden door natuurlijke spraakherkenning.
TeleCats is één van de pioniers in Nederland voor natuurlijke spraakherkenning.
Er is een demonstratie van spraakherkenning gemaakt voor een hotelreserveringlijn. Mensen kunnen naar deze lijn bellen en vertellen wat ze ongeveer zoeken. Vervolgens zoekt de
computer een geschikt hotel uit. In de praktijk zou het systeem de beller kunnen doorverbinden met het hotel om de details door te nemen. De demonstratie houdt het echter bij een
eenvoudige melding.
Om spraak goed te kunnen herkennen, moet het systeem getraind worden. Dit wordt
gedaan door veel verschillende mensen naar het systeem te laten bellen. De stemmen van
de beliers worden opgenomen en naderhand afgeluisterd en vergeleken met wat het systeem verstaan heeft. Op deze manier zal het systeem 'leren' woorden en woordcombinaties
beter te herkennen. Om ervoor te zorgen dat het systeem alle mensen kan verstaan, dient
het systeem te worden getraind door zoveel mogelijk verschillende mensen. Mannen en
vrouwen, jong en oud, en uit verschillende streken in Nederland.
Training van de’hotel reserveringlijn
U bent bereid gevonden om mee te werken aan de training van het systeem. Hiertoe verzoeken we u enkele malen het systeem te bellen en de dialoog te doorlopen.
Stelt u zich voor dat u op zoek bent naar een hotel ergens in Nederland, maar dat u nog niet
weet welk hotel. U heeft bepaalde voorkeuren voor een kamer en prijs en u heeft bepaalde
eisen aan de accommodatie. Het systeem zal u leiden door de dialoog, maar u kunt zelf ook
initiatief nemen. Het systeem reageert op Ü. Net als een 'echte' telefoniste.
Probeert u de dialoog te doorlopen en het systeem voor u een hotel te laten selecteren. Als
het systeem u herhaaldelijk verkeerd verstaat (dit kan in de trainingsfase zeker wel gebeuren), kunt u het systeem soms het beste maar gewoon gelijk geven om toch door te kunnen naar de rest van de dialoog.
U traint het systeem sowieso. Ook al verstaat het systeem niets van wat u zegt, toch is de
spraak van u zeer waardevol om de herkenning te verbeteren. U telefoontje heeft dus altijd
zin.
U kunt het systeem bereiken op nummer: (053) 488 99 55
Een dialoog met het systeem zou als volgt kunnen verlopen: (S=Spraakherkenner,K=klant)
S:
K:
S:
K:
S:
K:
Goedemiddag. U bent verbonden met... Waar wilt u een hotel reserveren?
Hallo, ik wil graag een hotel in de buurt van Eindhoven.
Wat voor type kamer wilt u in Eindhoven reserveren?
Doe maar een tweepersoons kamer.
In wat voor prijsklasse zoekt u een tweepersoons kamer
Ach, iets van rond de 85 gulden lijkt me wel redelijk.
Het is ook mogelijk om een aantal dingen in een keer tegen het systeem te zeggen.
33
S:
Goedemiddag. U bent verbonden met..... Waar wilt u een hotel reservëreri?
K:
Ik wil een éénpersoons kamer in Limburg voor drie nachten van rond de 70 gulden.
S:
Wanneer wilt u voor drie nachten een eenpersoons kamer in Limburg van rond de 70
gulden?
U ziet dat het systeem de dingen die het verstaan heeft, herhaalt. Dit, om u de mogelijkheid
te geven om het systeem te verbeteren als deze u verkeerd verstaan heeft. Dit werkt bijvoorbeeld als volgt,
K:
S:
K:
S:
Ik wil een hotel in Emmen.
Wat voor type kamer wilt u in Venlo huren?
Nee niet in Venlo, in Emmen!
Wat voor type kamer wilt u in Emmen huren?
Op de volgende pagina is een overzicht te vinden van welke termen het systeem kent. Gebruikt u dit alleen als u er niet uitkomt zonder dit overzicht. Het is beter als u het systeem
gewoon belt en datgene zegt, wat voor u normaal is. Wel heeft het zin om de lijst met plaatsnamen erbij te nemen. Het systeem kent namelijk slechts hotels in 25 plaatsen in Nederland.
Belt u het systeem zo vaak als u wilt, en vraag eventueel uw kennissen het ook eens te proberen. Hoe meer hoe beter. We verzoeken u wel vriendelijk op zijn minst drie keer te bellen,
zodat we behoorlijk wat van uw spraak kunnen gebruiken.
Alvast hartelijk bedankt voor uw medewerking.
Met vriendelijke groet,
Wim Luimes
Directeur van TeleCats
Spiekbriefje
Hieronder staan opsommingen van de mogelijkheden die in het systeem zijn ingebouwd. U kunt dit
gebruiken om het systeem wat gerichter te testen.
Plaatsbepaling
Het systeem accepteert verschillende plaatsbepalingen voor het hotel U kunt een plaatsnaam een
streek of provincie of een bekend gebouw noemen.
25 grote plaatsen in Nederland
Amersfoort
Breda
Dordrecht
Haarlem
Tilburg
Amsterdam
Den Bosch
Eindhoven
Leeuwarden
Utrecht
Apeldoorn
Den Haag
Emmen
Maastricht
Venlo
ArnhemDen Helder
Enschede
Nijmegen
Vlissingen
Assen
Deventer
Groningen
Rotterdam
Zwolle’
gebieden in Nederland
Drente
Flevoland
Friesland
Gelderland
34
Noord Brabant
Noord Holland
Overijssel
Utrecht
Achterhoek
Gooi
IJsselmeer
de Randstad
West Fdesland
Zeeuws
Vlaanderen
Zuid Limburg
Groningen
Limburg
Zeeland
Zuid Holland
Twente
Waddenzee
Belangrijke gebouwen in Nederland
V\ITC
1 Jaarbeurs Utrecht
RAI Amsterdam
Bijzonderheden (einde van de dialoog)
Als u bijzonderheden aan het
zaken
lift
terras
parkeergelegenheid
vergaderzaal
honden
bar
hotel of aan de kamer wilt aangeven, kunt u denken aan onderstaande
sauna
zwembad
zonnebank
fitness
speeltuin
squash
bowling
paardrijden
golf
tennis
CVN onderzoekt call-centers (Computable, 26/9/97)
Hoofddorp De dienstenbond CNV gaat onderzoek doen naar het functioneren van call-centers. De vakbond
vindt dat de arbeidsomstandigheden in deze jonge en snel groeiende bedrijfstak te wensen overlaten. Steeds meer
grote ondernemingen besteden hun belwerk uit aan call-centers die 24 uur lang in bedrijf zijn. Het gaat om het te
woord staan van klanten, telefonische enquetes, reserrveringen of helpdesk-functies. De ‘belfabrieken’ bieden
werk aan enkele duizenden mensen. Binnen enkele jaren zou de bedrijfstak naar schatting 120.000 tot 160.000
arbeidsplaatsen kunnen opleveren. Over beloning en arbeidstijden komen veel klachten binnen, beweert de dienstenbond CNV. Telefonisten moeten soms op de meest onmogelijke tijdstippen werken en hebben geen zekerheid over hun baan. De werknemers vallen niet onder een cao. In de bankensector is hierover onrust ontstaan
toen ABN Amro zijn telefoonmedewerkers in een aparte call-center onderbracht en de Banken-CAO op hen niet
van toepassing verklaarde. De CNV vindt het hoog tijd dat ook dit segment een nette bedrijfstak wordt.
STAGE-& D-OPDRACHTEN
Call Centre Technologie
Dialogue Design with Reliability Measures
Gies Bouwman, D-opdracht, Philips GmbH
Forschungslaboratorien, Aachen
Periode: april 1997 - november 1997
Beg.: Nils Lenke, Bernd Rüber, Anton Nijholt, Joris
Hulstijn
Omschrijving. Philips Aachen is, among others,
concerned with research & development in the
area of user interfaces for (spoken language)
dialogue
systems.
Having
a
systematic
investigation on useful dialogue design strategies
with a special emphasis on using confidence
measures for, e.g., shortening or smoothing the
dialogue is quite useful for Philips. The aim is to
develop dialogue strategies which make full use of
existing confidence measures for the reliability of
the recognition of the items supposed to have been
stated by a user. These strategies will be used in
35
the user interface design for an Automatic Exchange Board System.
Remarks: Dialogue examples of the existing PADIS system are provided. Full software
support will be given, including the provision of the confidence measures for the semantic
items supposed to be spoken.
• New dialogue strategies using confidence measures will have to be implemented in
HDDL, a high level dialogue description language.
• User Interface Design support will be given by Twente and the Dialogue Systems division
of Philips Aachen.
Een Spraakgestuurd Bioscoop-Reserveringssysteem
Mathieu van den Berk, Stage-opdracht, TeleCats, Enschede
Periode: augustus - november 1997
Beg.: Wim Luimes en Anton Nijholt
Omschrijving: SpeechMania is de commerciële versie van het Philips Aken dialoogsysteem
(zie proceedings TWLT9). Dit systeem is aangekocht door TeleCats, een bedrijf in Enschede
gespecialiseerd in voice-response systemen en alert op ontwikkelingen op het gebied van
spraaktechnologie. De bedoeling is met het aangekochte systeem tal van spraakapplicaties
te ontwikkelen. Zo zal gekeken worden naar het ontwerpen van een generiek
dialoogsysteem voor het reserveren van kaartjes voor evenementen van ontspannende
aard, zoals bioscoop/concert/theater/voetbal, met behulp van SpeechMania. Om de omvang
van de stage-opdracht enigszins in te perken zal gekeken kunnen worden naar een specifiek
domein, om op grond van die ervaringen te komen tot het gewenste generieke systeem.
Daarom zal in de opdracht de aandacht gaan naar het ontwerpen en implementeren van een
systeem voor het reserveren van bioscoopkaartjes, het belbios-systeem. In de opdracht zal
uitgebreid gebruik gemaakt kunnen worden van de expertise die opgedaan is tijdens het
werken aan het SCHISMA (Schouwburg Informatie en Reservering) systeem van de
Parlevink Onderzoeksgroep van de Universiteit Twente.
Conversation Flow Manager
Karianne Braat en Harold Jurgen Oortwijn. Stage-opdracht, Coopers & Lybrand,
Amsterdam/Fontainebleau.
Periode: 15 aug -15 oktober 1997
Begeleiding: Martin Kolkman en Anton Nijholt
Omschrijving: VoiceTec is een internationale technologie-ontwikkeling die plaatsvindt in
Amsterdam en Fontainebleau, begeleid door medewerkers van Coopers & Lybrand. Het doel
is het ontwikkelen van een nieuwe generatie voice response systemen voor de luchtvaarten
reserveringsindustrie.
Hierbij
worden
een
aantal
(redelijk)
mature
informatietechnologieen, zoals voice recognition, rule-based systems en speech generation
geintegreerd tot een produkt voor het automatisch beantwoorden van telefoongesprekken.
'VoiceRes' is het eerste IT-product dat volledig geautomatiseerd reservering services verricht
voor luchtvaartmaatschappijen. 'VoiceRes' verricht alle call center handelingen van verkoop
van een reservering: van initiatie van een gesprek (querying) tot het boeken van een
reservering (sales completion). Ontwikkeling van een nieuw produkt is op dit moment in
gang gezet. Kern van dit produkt is een conversation flow manager welke de dialoog met
klanten tijdens de telefoongesprekken stroomlijnt. Tijdens de stage zal de conversation flow
manager ontworpen en gebouwd moeten worden. Ook zullen de diverse basiscomponenten
van 'VoiceRes' tot een werkend produkt geintegreerd moeten worden. De
ontwikkelomgeving is Visual C++.
36
Einde Call Centre Pages
Virtuele informatrice?
De faculteit Informatica heeft het Enschedese
Muziekcentrum op het World Wide Web gezet. Dinsdag 1
juli vindt de opening van het virtuele muziekcentrum
plaats. Bezoekers kunnen het Enschedese Muziekcentrum
bekijken, kletsen met medebezoekers, en aan de virtuele
informatrice - Karin - vragen stellen. In de nabije toekomst
wordt zij uitgerust met spraak, lipbewegingen en ’lichaamstaal’
Prof. dr. ir. Anton Nijholt van de vakgroep Software
Enigineering en Theoretische Informatica (Seti): ’We willen
allerlei informatie zo toegankelijk mogelijk maken voor een
groot publiek. De bezoeker kan vragen wanneer Youp van
’t Hek in Enschede optreedt, of hoe hij bij de Schouwburg komt. Ook kan hij kritisch vragen
hoe het zicht is vanaf rij 23. Karin kan dan de weg wijzen en voorstellen om met eigen ogen
een kijkje te nemen.’
Welke technische grenzen wilt u met dit project attaqueren?
’In de eerste plaats de koppeling tussen taal en spraak. Het mooiste is wanneer de computer
beide beheerst maar dat is vrijwel onmogelijk. Toch willen we weten hoever we kunnen
komen. Het is de kunst om het vraaggedrag van de gebruiker zó te sturen dat de virtuele
informatrice daadwerkelijk korte informatieve antwoorden kan geven. Op zo'n meta-niveau
kun je weldegelijk tot natuurlijke communicatie komen.
'Verder willen we alles zo realistisch mogelijk voorstellen. Nieuw bij dit project is dat we alles
via WWW-technologie aanbieden.'
Zullen Twentenaren anders reageren op Karin dan Japanners op het virtuele model-sterretje
Kyoko Date?
'Kyoko Date heeft een eigen TV-show en hits! Onze Karin is met haar vergeleken nogal
onbeholpen. Het duurt heel lang voor we daar iets moois van hebben gemaakt.
'Karin zou het gezicht van de Schouwburg moeten worden. Mensen communiceren
gemakkelijker met een gezicht dan met een kaal scherm. In de VS zijn animatie-laboratoria
die gezichten beschikbaar stellen. Misschien kunnen we met één daarvan aan de slag.
'In Zweden zijn bij veerbootdiensten virtuele poppen die synchroon spreken. Op een
gegeven moment laten zij een tabel met vertrektijden zien. Dat is hele complexe informatie.
Je ziet de ogen van de pop dan naar linksonder bewegen. Als virtuele bezoeker ga je
automatisch mee.'
Is de Twentse Schouwburg commercieel geïnteresseerd? Een leuke dame verkoopt vast
meer kaartjes.
’De vorige directeur was redelijk positief maar marketing-strategisch was hij er zeker nog niet
mee bezig. In Purmerend wordt spraaktechnologie binnenkort waarschijnlijk gekoppeld aan
een reserveringsdienst. Je ziet tegenwoordig toch iets gevoeligheid ontstaan voor dit soort
toepassingen.’
Egbert van Hattem
37
Virtual reality bij Informatica
Een kijkje achter de schermen van een virtueel theater
door Wiebe van der Veen
CAMPUS
Voordat je een kaartje koopt voor een concert van De Dijk, een opera van Verdi of een
voorstelling van Herman Finkers, wil je eerst wel eens een geschikte plek uitzoeken.
Even vooraf rondkijken in het theater kan nu via Internet. Achter de balie van dit
‘virtuele theater’ geeft Karin antwoord op al je vragen.
Levensecht verschijnt het Muziekcentrum in Enschede op het beeldscherm van je pc. Door
te bewegen met de muis kun je op je gemak ronddwalen in het theater. Even in de zaal
kijken: waar wil ik graag zitten? Misschien is het balkon toch leuker. Dan maar even de trap
op. Na ook nog een kijkje te hebben genomen in de muziekshop, wil je weten welk concert
er vanavond is. Achter de informatiebalie staat Karin klaar om antwoord te geven op al je
vragen. Kom je dicht genoeg in de buurt van de balie, dan vraagt deze ‘virtuele informatrice’
uiterst beleefd waarmee ze je van dienst kan zijn. “Nu moet je je vraag nog intypen,” legt Jan
Sipke van der Veen uit. “Binnenkort gaan we ook werken met spraak. Karin geeft dan
sprekend antwoord en beweegt haar lippen daarbij. Ook kun je in het theater een praatje
maken met andere bezoekers.” Samen met twee studenten van de Hogeschool Enschede
heeft Jan Sipke het virtuele theater ‘gebouwd’ en op Internet gezet, zodat zoveel mogelijk
mensen een kijkje achter de schermen kunnen nemen.
Toegankelijk
Doel van het project, geleid door prof. Anton Nijholt, is om informatie zo toegankelijk mogelijk
te maken, zonder dat je als gebruiker heel veel van computers hoeft te weten. En zonder dat
je een hele reeks instructies hoeft aan te horen in de trant van “Wilt u meer weten over
popconcerten, toets dan twee.” Nee, jíj stelt de vraag en het systeem vertaalt die vraag voor
de computer. Daarvoor moet het herkennen wat wel en niet belangrijk is. Zo kan de vraag ‘Ik
wil weten, als het niet teveel moeite is, welke popconcerten er deze week plaatsvinden in het
muziekcentrum?’ Makkelijker korter worden gesteld. Het is de kunst om dat vraag-antwoordspel een beetje te sturen. Optimale mens-machine interactie heet dat. Karin gaat met jouw
vraag zoeken in het Schouwburg Informatie systeem, vindt de gewenste gegevens en
formuleert vervolgens een nette zin als antwoord. De volgende stap is dat ze ook voor je kan
reserveren. Maar voor het concert zelf moet je gelukkig nog wel de deur uit. Je kunt tenslotte
niet altijd achter je pc zitten.
21 is een Europees project waarin de Parlevink
onderzoeksgroep participeert. Studenten kunnen een
rol vervullen binnen dit project door middel van
afstudeerprojecten (en in de toekomst wellicht ook
stages). D-opdrachten kunnen bijvoorbeeld betrekking
hebben op onderwerpen die met information retrieval te
maken hebben. Ontleden, herkenning van bepaalde
concepten,
vertalen
van
termen,
OCR,
beeldherkenning, etc. zijn deelonderwerpen die aan
bod kunnen komen. Ook kan gewerkt worden aan
onderwerpen die nauw gerelateerd zijn aan 21 maar
38
die in het project zelf niet prominent aanwezig zijn.
Plaatjes kijken
WebSeer is an image search engine for the World Wide Web developed at the University of
Chicago. Using WebSeer, you can search for images using words describing the contents of
the image and, optionally, by specifying characteristics of the image, such as whether or not
it is a photograph, or how many faces it contains.
Status
The current database contains over three million images and is growing continuously. Some
searches you might try:
"aurora"--photograph--color
"eagle"--photograph
"rose"--photograph--0 faces
"Beavis and Butthead"--graphic
"space shuttle"--photograph--color
"OJ Simpson"--photograph--1
face
"OJ Simpson"--photograph
"Star Wars"--photograph
Further Information
WebSeer: An Image Search Engine for
the World Wide Web, University of
Chicago Technical Report TR-96-14,
July
1996.
[Postscript
4,408k]
[Compressed Postscript 848k] [PDF
1936k]. A shortened, updated version:
[Postscript
352k]
[Compressed
Postscript
152k]
[PDF
1312k]
Distinguishing
Photographs
and
Graphics on the World Wide Web,
Submitted to the IEEE Workshop on
Content-Based Access of Image and
Video Libraries, March 1997. [Postcript
249k] [Compressed Postcript 86k].
39
PROJECT PARLEVINK
Language Engineering
Universiteit Twente
Parlevink
Het Parlevink project is een taaltheorie en -technologie project van de van de
Universiteit Twente. Uitgangspunt is een (software) engineering benadering van
natuurlijke taal en natuurlijke taal verwerkende systemen.
Onderwerpen
In deelprojecten wordt aandacht geschonken aan syntaxis, semantiek en pragmatiek. Dialoogmodellering is ook onderdeel van het project, evenals connectionistische
taalverwerving en -verwerking. Ondersteunend onderzoek wordt verricht op het
gebied van formele talen en van neurale netwerken. Integratie van het onderzoek
vindt plaats binnen een project met KPN Research. Dit is het SCHISMA deelproject:
ontwerp en realisatie van een via natuurlijke taal toegankelijk schouwburginformatie& reserveringssysteem. Andere onderwerpen die bij dit integratieproject een rol
spelen zijn de inbedding van een dergelijk systeem binnen een Digitale Stad, ‘virtual
reality’ en taalnavigatie binnen een schouwburg, ‘technology assessment’, bestuurlijke en maatschappelijke aspecten en spraak.
AIO-Onderzoek
In 1996 verrichten een viertal AIOs onderzoek binnen het project (robuuste
taalanalyse, pragmatiek, dialoogmodellering en dialooganalyse). In 1995 verscheen
het proefschrift ‘Little Linguistic Creatures’ van Marc Drossaers dat uitvoerig in de
Volkskrant werd besproken. In het najaar van 1997 zal het proefschrift van Jan
Schaake over taal en pragmatiek verschijnen. Ander AIO onderzoek heeft betrekking
op robuuste taalanalyse en op het gebied van formele modellen voor
dialoogmodellering. Nieuw AIO onderzoek in samenwerking met de TRESE
onderzoeksgroep op het gebied van object-georienteerd natuurlijke taalverwerking
zal ook in 1997 gestart worden. Onderzoek naar het interactiegedrag van
verschillende gebruikersgroepen bij mens-machine communicatie en onderzoek op
het terrein van logistiek en neurale netwerken zal eveneens in de loop van 1997
door nieuwe AiOs binnen het project gestart worden.
40
Projecten
Naast het hierboven genoemde samenwerkingsproject SCHISMA met KPN
Research (het realiseren van een via natuurlijke taal toegankelijk theater-informatie
en -reserveringssysteem) zijn er een aantal andere deelprojecten van Parlevink met
een meer internationaal karakter. Het Twenty-One project (samen met o.a.
Getronics, Rank Xerox en TNO Delft) heeft betrekking op onderzoek naar het vergroten van de toegankelijkheid van documenten op het gebied van het milieu. Taaltechnologie wordt in dit project te hulp geroepen om het zoeken naar documenten te
vergemakkelijken en om het de makers van documenten te mogelijk te maken om
informatie beschikbaar te stellen aan de ‘buitenwereld’. Multi-media information
retrieval (taal, spraak, beeld, video, tekst) in verschillende talen is een uitgangspunt
van dit project. NFC (Neuro-Fuzzy Centre) is een samenwerkingsproject met o.a. het
Centrum voor Micro-Electronica (CME) en de FachHochSchule Münster op het
terrein van de toepassing van neuro-fuzzy technologie in het Midden- en KleinBedrijf (MKB) in de regio Twente-Münster. MEWO (Maatschappelijke Effecten van
Wetenschappelijk Onderzoek) is een door de Universiteit Twente geïnitieerd project
dat kijkt naar de rol van taal en spraak bij telematica- en informatietechnologiesystemen (MMC, HCI, Internet, etc.) en hoe onderzoekers vorm kunnen geven in
hun onderzoek aan maatschappelijke aspecten en effecten van hun onderzoek.
Pop-Eye, is een onderzoeksproject (met TROS, SWF, etc.) waar de vraag wordt
gesteld of het mogelijk is information retrieval te plegen op onderteksten van
film/video beelden. Ook hier geldt dat het niet alleen om retrieval gaat, maar ook
over de manier waarop documenten beschikbaat gesteld worden aan de WWW
gemeenschap. Teleloket tenslotte, is een groot samenwerkingsproject (met TW,
BSK, WMW, Gemeente Enschede) dat gefinancierd wordt door Binnenlandse Zaken
en dat tot doel heeft allerlei overheidsinformatie toegankelijker te maken voor de
burger. Daarbij wordt vanuit Parlevink vooral gekeken naar de spraak-, taal- en
dialoogaspecten.
Workshops
Vanuit het Parlevinkproject worden de halfjaarlijkse Twente Workshops on Language
Technology (TWLT) georganiseerd. Van een in eerste instantie lokale gebeurtenis
zijn deze workshops uitgegroeid tot internationale bijeenkomsten met een ‘mixture’
van beginnende en prominente onderzoekers. TWLT 12, in september 1996 en
gewijd aan (verbale) computationele humor, had o.a. Douglas Hofstadter, John Allen
Paulos en Marvin Minsky als sprekers.
Studenten
Naar verwachting zullen in de komende jaren zo’n 20 tot 30 studenten afstudeerwerk
verrichten binnen het Parlevinkproject. Daarnaast zijn er veel studenten die stages
uitvoeren op het terrein van natuurlijke taal in het bedrijfsleven. Afstuderen is
mogelijk binnen de verschillende deelprojecten van Parlevink. Daarnaast wordt
iedere student uitgenodigd zelf een onderwerp te bedenken dat op een of andere
wijze past binnen de Parlevink-filosofie.
Nadere Inlichtingen: [email protected]
41
Overzicht Parlevink Afstudeerders
Overzicht Afstudeerders Parlevink
1990
1991
1. E. Leerkes
2. B. Pluimers
3. M. Lankhorst
1992
1993
4. J. Braam
5. H.R. Ophoff
6. J. Schaake
7. B. v Heuveln
8. H.E. v Elburg
9. H. Harkema
10. E. Schol
11. A. Hoekstra
12. H. Waterlander
13. Th. de Haan
14. M. Verlinden
15. H.-J. Hesselink
16. W.O. Huijssen
1994
1995
1996
1997-1998
17. H. ter Doest
18. G.J. Kruizenga
19. L. Thierry
20. F. Hemels
21. D. Bijwaard
22. D. Kersten
23. M. Opdam
24. R. Ekkelenkamp
25. M. Moll
26. F. Wiersma
27. S. Spruit
28. R. Bos
29. W.J. vd Veer
30. R. Steetskamp
31. C. Willems (1)
32. W.A. Veling
33. Dj. Hiemstra
34. E. v Kalkeren
35. M. Grim
36. Th. vd Geest
37. K. Schrijvers
38. D. van Leeuwen
39. E.L. Salomons
40. E. Rommes (2)
41. J. Hage
42. R. van Loo (1)
43. R. Buter
44. H. Kuijpers
45. S. vd Berg
46. Th. Westerveld
47. M. vd Bijl
48. M. Dashorst
49. B. v Schooten
50. P.J. Hoekstra
51. G. Bouwman
52. J. Feenstra
M. Acket
J.R. Brouwer
E. Barten
D.H. Lie
A. van Slooten
S.M. vd Oord
M. van den Berk
S.P. Ennema
O. ter Meer
J. Tanaka
A.J. van Kesteren
M. Visser
H. Jurriens
E. Selles (3)
R. Selles (3)
M. Donders
J. Hendriks
M. van Otterlo
I. Doornekamp
W. Solleveld
K. Braat
J. ter Stroet
M. de Louwere
(1): WWTS student
(2) BSK student
(3) HIO student
42
RECENTE RAPPORTEN
VAN STUDENTEN
Anne Veling. An Incremental Machine-learning Approach to
Natural Language Understanding. Doctoraalverslag, Medialab,
Schellinkhout, August 1996, 61 pgs.
Theo van der Geest Een Neurale
Doctoraalverslag, August 1996, 52 + 20 pgs.
Woordvertaler.
Edwin van Kalkeren. Het uitgeven van juridische informatie via
de Elektronische Snelweg. Doctoraalverslag, August 1996, 108
pgs.
Djoerd Hiemstra. Automatic creation of a multilingual dictionary
in Twenty-One, Doctoraalverslag, August 1996, 52 + 12 pgs.
Martin Grim Speaker-independent speech recognition with
Linguistic Creatures, Doctoraalverslag, August 1996, 96 pgs.
Eljakim Schrijvers A Fully Automatic Funny Remark Generator, Doctoraalverslag,
September 1996, 50 pgs.
Etto L. Salomons. The Use of Kohonen Networks in Finding Classes of Dialogue
Utterances, Doctoraalverslag, September 1996, 112 pgs.
Marc Evers. SoftImage SDK Training Material Development., Stageverslag, Manchester
University, September 1996, 85 pgs.
Joost Hage. Neural Networks and Time Series, Doctoraalverslag, KPN Research,
Groningen, October 1996, 59+21 pgs.
P.J. Hoekstra. Expansion and improvement of the association analysis program,
Stageverslag, Silicon Biomedical Systems, Heemskerk, November 1996, 180 pp.
Jan Sipke van der Veen. Beweging in de Derde Dimensie op het Internet, Stageverslag,
KPN Research, Groningen, Januari 1997, 52 pp.
Martijn Dashorst. Designing a finetuning algorithm for RAW: A psycholinguistic speech
recognition model, Doctoraalverslag, Max Planck Instituut, Nijmegen, Maart 1997, 63 pp.
A.G.G. Bouwman. Skennen, bij wijze van spreken, Stageverslag, Océ Research, Venlo,
April 1997, 22 pp.
Herre Kuijpers. Beeldherkenning met behulp van
Doctoraalverslag, SMR, Amsterdam, Mei 1997, 31 + xi pp.
‘Sparse’
representaties,.
Renald Buter. Een Ordening in Zoekelementen. Doctoraalverslag, Belastingdienst, Utrecht,
Mei 1997, 60 pp.
Machiel H.M. van der Bijl. Neural Network Modeling of Early Word Acquisition. Juni 1997,
59 pp.
43
S.E. van der Berg. Supervised classification algoritmen en hun gebruik voor het
classificeren van uitingen en een natuurlijke taal dialoogsysteem, Doctoraalverslag, Juni
1997, 95 pp.
E. Selles & R. Selles. VRML97: De modellering van een virtueel muziekcentrum!, HIO
Afstudeerverslag, Juli 1997, 94 pp.
Thijs Westerveld. Contextgevoelige Spellingscorrectie in SCHISMA. Doctoraalverslag, juni
1997, 65+29 pp.
D. Lie & J. ter Stroet. Natural Language Processing. Stageverslag, Océ Research, Venlo,
Juni 1997, 54 pp.
Stages en D-Opdrachten in Uitvoering
Neurale Netwerken voor het Oplossen van Optimalisatieproblemen
B.W. van Schooten, D-opdracht, 1997
Periode: augustus ‘96 - oktober ‘97
Beg.: J. van den Berg/A. Nijholt
Optimalisatienetwerken zijn dynamische (Hopfield-achtige) neurale netwerken die ingezet
kunnen worden om combinatorische optimalisatieproblemen op te lossen. Zij werken echter
in het algemeen minder goed voor problemen met relatief veel constraints, en zijn in het
algemeen maar in beperkte mate schaalbaar. Ook zijn er alternatieve manieren om een
probleem op een neuraal netwerk af te beelden die van invloed zijn op de werking van zo'n
systeem. Er wordt in deze opdracht naar alternatieven gezocht om optimalisatieproblemen
af te kunnen beelden op dynamische netwerken om deze problemen het hoofd te bieden.
De opdracht wordt ingedeeld in de volgende fasen:
1.Literatuuronderzoek.
Ontwikkelingen omtrent zowel de wiskundige beschrijving van de dynamiek van neurale
netwerken als simulatieresultaten van optimalisatienetwerken worden nader bekeken en
vergeleken.
2.Praktisch onderzoek.
Een alternatief model moet zowel wiskundig goed beschreven en onderbouwd worden, als
met behulp van simulatie getest worden op een aantal representatieve probleeminstanties.
Comfort-Optimalisatie bij de Aanmeting van Electrische Rolstoelen
Petra Hoekstra, D-opdracht, 1997
Periode: november ‘96 tot juni ‘97
Beg.: M. Poel / M. Drossaers
3T is een bedrijf dat zich voornamelijk bezighoudt met technische software systemen, en op
het moment is betrokken bij het ontwerp van een nieuwe motorbesturing voor een
electrische rolstoel.
Electrische rolstoelen moeten worden aangemeten. Dit houdt in dat de motorbesturings- en
de bedieningsparameters, zo'n 30 stuks, worden geoptimaliseerd met betrekking tot de
44
mogelijkheden en de subjectieve comfortervaring van de bestuurder. Momenteel is het niet
mogelijk om in alle gevallen een bevredigende instelling te vinden.
Het Neuro-Fuzzy Centrum is ingeschakeld om een prototype van een aanmeetsysteem te
bouwen. SETI doet hierbij onderzoek naar een adaptief optimalisatiealgoritme (een neuraal
netwerk) voor dit systeem. De belangrijkste uitdagingen van dit onderzoek zijn hoe
linguistische uitingen van comfortbeschrijving moeten worden geinterpreteerd in het
overigens numerieke model, en hoe het adaptieve karakter van het optimalisatiealgoritme
gebuikt kan worden om een subjectieve waarde, het comfort, te maximaliseren.
Wittgenstein en de Problematiek van Dialoogsystemen
Maurits Acket, D-opdracht, 1997
Periode: januari - september 1997
Beg.: Jan Kuper
De filosofische invalshoek van Wittgensteins Philosophische Untersuchungen kan
geïnterpreteerd worden als een poging de in de Tractatus Logico Philosophicus naar voren
gebrachte funderingsverhouding tussen taal en logica om te keren. Was in de Tractatus de
universele logische vorm het uiteindelijke fundament van elk zinvol gebruik van de taal, in de
Untersuchungen is juist dit zinvolle taalgebruik de fundering van elke mogelijke logische of
filosofische theorie. Deze theorieën hebben slechts de status van een reconstructie van iets
dat altijd al aan ze vooraf gegaan moet zijn in de orde van fundamentaliteit.
Ook in de taaltechnologie begint men door ervaring deze wijsheid te onderschrijven. Het
blijkt ondoenlijk te streven naar omvattende theorieën die alle technische problemen bij
voorbaat in beginsel al opgelost hebben, of naar systemen die een al te ruim gebied van
taalgebruik omvatten. Het zoeken naar pragmatische oplossingen voor een beperkt gebruik
van taal, waarbij geleefd moet worden met de onvolkomenheden die worden veroorzaakt
doordat men ergens moet ophouden met reconstrueren, wordt beschouwd als een
principiële noodzaak en minder als een technische tekortkoming.
Voor technici is deze wijsheid verbonden met praktijkervaring waarin herhaaldelijk blijkt dat
een oplossing van een probleem weer nieuwe problemen in het leven roept. Voor
Wittgenstein is het een fundamenteel inzicht, dat echter niet weer in een omvattende theorie
uitdrukbaar is. Op dit punt kunnen filosofie en taaltechnologie iets aan elkaar hebben. De
moeilijkheden waarvoor de ontwikkelaars van dialoogsystemen komen te staan hebben vaak
grote verwantschap met de voorbeelden die Wittgenstein in de Untersuchungen aanvoert.
De eye-openers die Wittgenstein met behulp van deze voorbeelden aan zijn lezers wil
voorhouden zijn daarom waarschijnlijk ook voor taaltechnologen verhelderend. Anderzijds
zijn de problemen met dialoogsystemen die bedoeld zijn om maatschappelijk te functioneren
levensechter dan Wittgensteins vrij primitieve voorbeelden. Dit kan nu weer vanuit een
filosofisch gezichtspunt verhelderend zijn. In hoeverre chargeert Wittgenstein de situatie?
Wat wil hij ons eigenlijk precies laten zien en is dat eigenlijk wel te zien?
Het is de bedoeling dat in dit project enkele typerende problemen bij de ontwikkeling van
dialoogsystemen onder de Wittgensteiniaanse loupe worden genomen aan de hand van
cases uit de literatuur. De Philosophische Untersuchungen dienen hierbij als primair
wijsgerig referentiekader, hoewel het soms nodig zal zijn ook commentaren en later werk
van Wittgenstein bij het onderzoek te betrekken.
45
Programmeren met Ongedefineerdheid
Jan Feenstra, D-opdracht, 1997
Periode: februari - september 1997
Beg.: Jan Kuper
Het begrip ongedefinieerdheid treedt vaak op in specificeren en programmeren. De
betekenis van het begrip is echter zeer onduidelijk, en in de praktijk wordt het op diverse
verschillende manieren geïnterpreteerd. Zo leiden niet alleen non-terminerende
berekeningen (soms) tot ongedefinieerdheid, maar onvolledige specificaties, syntaxfouten,
type-fouten, run-time errors en exceptions eveneens. Vanuit het perspectief van informatieinhoud zijn dit totaal verschillende interpretaties. Enkele van deze vormen bevatten volledige
informatie, en kunnen dus gebruikt worden tijdens rekenprocessen. De opdracht behelst ten
eerste het isoleren van deze vormen. Hiertoe moet een literatuurstudie worden verricht naar
onder andere de diverse vormen van exception handling die in programmeertalen bestaan.
Ten tweede moet een programmeertaal worden ontwikkeld waarin deze vormen expliciet
worden gebruikt. Deelvragen hierbij zijn de typering van ongedefinieerdheidswaarden
(polymorfisme?), striktheid van operaties, gelijkheid. Ten derde: in de praktijk is de
gewenning aan het begrip niet groot. Daarom moet de te ontwikkelen programmeertaal
tevens op een praktische en hanteerbare wijze bijhouden waar in de berekening het begrip
is opgetreden. Als de tijd het toelaat, kunnen ook de verschillende theoretische
representaties van het begrip met elkaar worden vergeleken, zoals driewaardige logica en
logica met existentiepredicaat.
Management tools for Document Databases
Michiel Scheepmaker, Stage-opdracht, Destin inc., Nivelles, Belgium.
Periode: Aug-Nov 1997
Beg. Chr. Dupriez & F. de Jong
Development of index management tools for document databases This stage will
emcompass many steps of the creation of a commercial product targeted to management of
information databases. This includes participation to design (functions, user interfaces),
implementation of main modules, testing, evaluation of market feedback. The modules that
will be worked on are
-
tools to manage multilingual termiology of an organization (translation in English and
Dutch of an existing Thesaurus management software)
-
tools to receive data from existing systems (keywords, relations between keywords,
documents description and location, indexation of documents by keywords)
-
tools to calculate indices and produce control lists to validate document databases (or
structured databases viewed as a document database indexed by keywords)
-
tools to generate easy to use indexes for Internet users.
High Level Besturingssoftware voor een Kunstaap
E. Barten, Stage-opdracht, Demcon.
Periode: 1 sept – 1 dec, 1997.
Beg. P.T. Rutgers, M.F.J. Drossaers/A. Nijholt
46
Voor de ontvangsthal van een vleugel van de St. Maartenskliniek in ‘s Heerenberg is
kunstenaar Aernout Mik gevraagd een kunstobject te ontwerpen. Mik is met het idee van
een aap gekomen als kijk- en speelobject voor patiënten en bezoekers van de kliniek. De
Oerang Oetang moet in staat zijn met geïnteresseerden een spelletje boter-kaas-en-eieren
(BKE) te spelen. De aap moet patiënten helpen het vertrouwen in eigen lichaam te herwinnen. Hij moet patiënten helpen hun eigen wereldje te ontvluchten; hij moet een vriendje zijn,
een ‘goede slome lobbes’ zijn. Aspecten als aaibaarheid en een vriendelijk gedrag zijn van
belang.
Het bedrijf Demcon heeft opdracht gekregen het mechatronische deel van de aap te verzorgen. Het doel van de stage-opdracht is een substantiële bijdrage te leveren aan de op
neuro-fuzzy technologie gebaseerde besturingssoftware van de kunstaap. De software moet
zodanig zijn dat de kunstaap zoveel mogelijk een levensecht gedrag vertoont. De belangrijkste eisen die gelden zijn:
•
•
•
•
•
•
Alle bewegingen moeten vloeiend verlopen.
Het speelgedrag (BKE) moet onvoorspelbaar en gevarieerd zijn
De aap moet altijd een respons geven op impulsen uit de omgeving zoals aanrakingen,
geluiden of zetten in het spelletje BKE.
Een van buitenaf opgelegde beweging moet worden gevolgd.
De bewegingen moeten met grote variëteit worden uitgevoerd.
De kunstaap mag af en toe rare bewegingen maken, in het kader van het onvoorspelbaar blijven.
Een Neuro-Fuzzy Onderhoudsmonitor voor Microfilters
Miklós Donders, D-opdracht, LHS.
Periode: 1 sept '97 - 1 mei '97.
Beg. S. van Hoof, M.F.J. Drossaers / A. Nijholt.
LHS Microfiltrations past onder andere microfilters toe in waterzuiveringsinstallaties. Een
microfilter bestaat uit een koker die gevuld is met poreuze buisjes. De te filteren vloeistof
wordt aan weerszijden van de koker onder druk gezet. De gefilterde vloeistof komt aan de
buitenkant van de koker naar buiten. Na verloop van tijd raakt het filter verstopt met het
uitgefilterde materiaal. De huidige procedure is dat het filter na een vaste periode wordt
gereinigd gedurende een vaste tijdsduur. De reiniging bestaat uit het terugspoelen van
vloeistof door het filter, eventueel met toevoeging van een bepaalde hoeveelheid
reinigingsvloeistof. Als terugspoelen niet meer afdoende helpt, moet het filter worden vervangen. Bij optimalisatie van dit systeem dient men de produktie (hoeveelheid gefilterde
vloeistof per tijdseenheid) af te wegen tegen de kosten (reiniging en vervanging filter).
Het doel van de opdracht is een prototype van een neuro-fuzzy onderhoudsmonitor te
maken. Eventueel kan de onderhoudsmonitor vervolgens toegepast worden op een
testopstelling. Verder dient de kennis die wordt opgedaan betreffende neuro-fuzzy
regelingen te worden overgedragen aan het bedrijf, zodat deze kan worden aangewend ter
verbetering van haar produkten en concurrentiepositie. De opdracht bestaat uit:
1. Het doen van onderzoek naar een prototype van een computermodel voor waterfiltratie op
basis van bestaande modellen van bierfiltratie en met gebruik van validatietechnieken.
2. Het doen van onderzoek naar prototypen van een PID-gebaseerde, en verschillende
neuro-fuzzy onderhoudsmonitoren.
3. Het iteratief testen en verbeteren van de prototypen en het vergelijken van de resultaten
met de momenteel gehanteerde methode.
47
Hoogniveau Besturingstalen voor Robots
S.P. Ennema, D-opdracht, SIGN
Periode: 1 febr – 1 nov., 1997
Beg.: J. Zwiers
Het globale doel van de opdracht is om te komen tot een raamwerk op redelijk hoog niveau
voor het besturen van robots, waarbij het aansturen van die robots niet gebeurt door
rechtstreekse aansturing van de hardware. Dit raamwerk wordt gebaseerd op een
beschrijving door middel van parallelle en communicerende processen. Het doel hiervan is
het modulariseren van de functionaliteit van dergelijke besturingssystemen.
Gedacht moet worden aan het scheiden van modulen die zich bezig houden met low-level
besturing op het niveau van individuele sensoren en actuatoren, modulen die de
communicatie en coördinatie van dergelijke low-level modulen verzorgen, en modulen die
strategische "lange termijn" doelen proberen te bereiken, gebruik makend van de overige
modulen, met eventueel modulen die de “lange termijn" opdrachten omzetten in low-level
opdrachten. Er zal gewerkt worden met de aanwezige "Lego Robots", om verschillende
technieken uit te proberen. De opdracht valt uiteen in de volgende onderdelen:
(1) Het maken van een formele specificatie van (de interface van) de Lego robots.
(2) Onderzoeken welk niveau aansturing gebruikt moet worden.
(3) Het maken van een interface in Java om hoog niveau besturing om te zetten in laag
niveau besturing.
(4) Bestuderen van de mogelijkheden van hoog niveau besturingstalen voor robots.
Te beginnen Stages en D-opdrachten
Danny Lie:
Stefan vd Oord:
Jurgen ter Stroet:
Mathieu vd Berk
Michiel Visser:
Oscar ter Meer
Michiel de Louwere
Jasper Hendriks
Martijn van Otterlo
D-Opdracht, Medialab/Intern, Schellinkhout, genereren van abstracts
D-Opdracht, Intern, theorie: natuurlijke taal en fuzzy logics
D-opdracht, IPA, neurale netwerken, kratvraagvoorspeller
D-opdracht, Virtual SCHISMA
??
Stage, Oce Research, Venlo
D-opdracht, Spraaktechnologie
??
??
en anderen.
Stage-/Externe D-Opdrachten
Beschikbaar
Spraak- en Dialoogtechnologie bij Lernout & Hauspie (België)
De volgende vier stage-opdrachten (4-6 maanden) zijn beschikbaar:
1. Studie van een applicatie voor database query met dialogen
48
• query in meerdere stappen ipv in 1 uiting
• query met natuurlijke taal
Nadruk ligt eerder op studie en prototypen dan op volledige ontwikkeling van een applicatie.
Aandachtspunten zijn hoe de link leggen tussen database fields en frames en concepten.
Ergonomisch aspect is query tightening en relaxation om tot cooperatieve dialoog te komen
2. Evaluatie van dialoogmodellen voor een e-mail reader
Iteratie van
• uitproberen verschillende uiteenlopende strategieën voor dialogen, gebaseerd op
principes uit ergonomie
• field experiments met Wizard of Oz
• op basis hiervan dialogen aanpassen
Na enkele iteraties een afweging maken van de verschillende strategieën plus pogen de
effecten te duiden (welke principes zijn belangrijkst, wat gaat best samen, ...)
3. Assessment van concept-to-speech technieken
L&H heeft verschillende technologieën om spraak te genereren: coded speech playback,
vocoding, text-to-speech, transplanted prosody, en combinaties. Elk van deze technologieën
heeft zijn eigenschappen, voor- en nadelen.
De vraagstelling in deze stage is: welke techniek vinden luisteraars best geschikt voor welk
type van informatie (vaste mededelingen, mededelingen met licht variërende informatie,
database resultaten, ...) en hoe aanvaardbaar is het door elkaar gebruiken van verschillende
technieken?
4. Datum (of tijds-)generatie in dialogen
In het L&H dialoogsysteem worden datumaanduidingen in een vast semantisch formaat
voorgesteld. Dat formaat laat vaagheid, ambiguiteit, redundantie en contradicties toe.
• Een gedeelte van de stage is het genereren van gepaste uitdrukkingen in natuurlijke taal
voor deze semantische representatie.
• In een tweede deel willen we onderzoeken hoe we datum aanduidingen in context
moeten genereren. Wanneer zeggen we best "yesterday" of "last Thursday" of "October
25th"? Hoe kunnen we verschillende semantische representaties voor eenzelfde datum
uit elkaar afleiden (bv. door introduceren of weghalen van ambiguiteit of redundantie) en
op welke basis kiezen we de beste uitdrukking in een gegeven context? Dit kan eventueel
uitgeprobeerd worden binnen de e-mail dialoog applicatie.
Contactpersoon: A. Nijholt, [email protected], INF2055
Data Mining voor Marketing bij KPN Research in Groningen
KPN Research in Groningen is op zoek naar een drietal afstudeerders op het gebied van
data mining. Globale omschrijving onderzoek:
Bij KPN Research wordt onderzoek uitgevoerd naar de inzet van data mining technieken
voor marketing doeleinden. Data mining is het achterhalen van interessante verbanden in
grote hoeveelheden gegevens. Bij data mining worden technieken uit de databases,
statistiek en de artificial intelligence gebruikt (neurale netwerken, regelinductie). Bij KPN
Research wordt onderzoek verricht hoe data mining technieken kunnen helpen bij het
beantwoorden van marketing vragen.
Een korte omschrijving van de opdrachten:
1).Data voorbewerking: opzetten van een goed model om de eerste data mining stap, het
voorbewerken van de gegevens, te verbeteren. We denken aan het toepassen van
49
statistische technieken. De student moet een behoorlijk goede cijferlijst hebben, en hetzij
een informaticastudent zijn die goed is in wiskunde, of vice-versa.
2).Onderzoeken van de mogelijkheden van wavelets als data mining techniek. Allereerst
inventariseren wat er aan literatuur en informatie bestaat, dit verwoorden in een duidelijk
rapport, en vervolgens aan de hand van een case de mogelijkheden ook praktisch aantonen.
Voor de afstudeerder gelden dezelfde eisen als bij 1.
3).Maken van een data mining model voor het beantwoorden van marketing vragen. Hierbij
kan gebruik worden gemaakt van de cases die in het afgelopen jaar bij het Marketing
Intelligence Center van PTT Telecom zijn binnengekomen. Bedoeling is dat het model
marketing vragen in groepen indeelt, waarbij per groep wordt bepaald wat de meest
geschikte technieken en databronnen zijn.
Contactpersoon: Mannes Poel, [email protected]
Vraagvoorspelling met Neurale Netwerken
Bij het hoofdkantoor van Schuitema (C1000, Spar, Casper) in Amersfoort wordt gewerkt aan
logistieke problemen. De opdracht betreft het ontwerpen en implementeren in een
simulatieomgeving van een aantal neuraal-netwerkarchitecturen waarmee de vraag naar 50100 AGF (aardappelen, groente en fruit) producten kan worden voorspeld op basis van
gegevens van verkopen in het verleden. Mogelijk wordt bij de selectie van architecturen ook
een genetisch algoritme betrokken.
De opdracht bouwt voort op resultaten die in een reeds eerder bij Schuitema uitgevoerde
stage zijn verkregen. Bij de opdracht wordt gebruik gemaakt van kennis op het gebied van
signaalbewerking, data mining, time series prediction en genetische algoritmen.
Contactpersoon: Marc Drossaers, [email protected]
Faillissementsvoorspelling
jaarcijfers
van
bedrijven
aan
de
hand
van
De Universiteit Twente heeft een traditie in het onderzoek naar faillissementsvoorspellingen
voor bedrijven, met name de groep rond prof. Bilderbeek van Technische Bedrijfskunde, is
actief op dit gebied. Via samenwerking met deze groep zijn wij in het bezit van de jaarcijfers
van een aantal Belgische bedrijven over een aantal jaren.
Het doel van de opdracht is met behulp van deze data een neuraal netwerk te ontwerpen en
te implementeren dat een voorspelling doet of het bedrijf binnen 5 jaar failliet is of niet.
Indien dit ontwerp zeer goed functioneert kan
het uitgebreid worden naar het ontwerp en
implementatie van een neuraal netwerk dat aan
de hand van de jaarcijfers over een aantal jaren,
voorspelt over hoeveel jaar het bedrijf failliet
gaat.
De onderzoeksvragen die aan bod komen zijn:
• welke neurale architectuur is het meest
geschikt,
• welke bedrijfstak afhankelijke kenmerken
zijn
belangrijk
bij
de
faillissementsvoorspelling,
50
• in hoeverre spelen tijdsafhankelijke kenmerken een rol.
Voor beide opdrachten geldt dat de implementatie waarschijnlijk met behulp van het
softwarepakket MATLAB moet gebeuren. Bovendien moeten er werkende demo-versies
opgeleverd worden die gebruikt kunnen worden voor WWW-pagina’s.
Teleloket: de Overheid op Internet
De vakgroep Software Engineering en Theoretische Informatica van de Faculteit der
Informatica van de Universiteit Twente is betrokken bij de ontwikkeling van een virtueel
overheidsloket bij de gemeente Enschede. Dit Teleloket bestaat uit drie geïntegreerde en
grotendeels geautomatiseerde modules:
1. De Poortwachter die mensen opvangt en aangeeft wat ze van de gemeente kunnen
verwachten.
2. De Omroeper die ongevraagd mensen vertelt wat er allemaal in de gemeente gaat
gebeuren: van bestemmingsplan tot kapvergunning.
3. De Griffier die mensen helpt om subsidies of vergunning aan te vragen of het doorlopen
van een beroepsprocedure ondersteunt.
Onderliggend aan het hele project is Internettechnologie. Het is de bedoeling dat het
systeem aangeboden wordt middels PC’s in overheidsgebouwen, via buitenzuilen op straat
en (uiteindelijk) middels tweewegkabel en set top boxes via de televisie.
De hierbeschreven opzet van het systeem maakt duidelijk dat zowel qua presentatie in de
gebruikersinterface als qua gegevensmanagement in de daaronderliggende lagen een
continue interactie tussen geografische en textuele gegevens plaats moet vinden. Burgers
moeten in bij hen bekende termen ruimtelijke objecten kunnen selecteren en daar vragen
over stellen die in de beantwoording vervolgens grafisch weergegeven worden. Maar ook
zou de overheid over buurten of panden informatie kunnen verstrekken waarvan de burger
het bestaan niet vermoedde maar die hij of zij toch prettig vindt om te weten.
Voor deze klus zoeken we mensen die,
• willen programmeren in Java,
• willen werken aan een zinvolle multimedia-toepassing (geografische informatie en tekst),
• zich aangetrokken voelen tot een belangrijke toepassing als communicatie tussen
overheid en burger.
Contactpersoon: Jan Schaake, [email protected]
Afstudeeropdracht op het gebied van Voice Mail
Al geruime tijd is er de mogelijkheid om geluidsfiles in email-berichten op te nemen. Een
bijzonder vorm hiervan is de gesproken email, de voice mail. Hierbij wordt een boodschap
ingesproken en per email naar een ontvanger verstuurd.
De grootte van de bestanden die voice mail bevatten zijn vaak enorm, 50 Mb.wordt al bij een
relatief kort bericht bereikt. Om deze bestanden te verkleinen zijn compressiealgoritmen
beschikbaar. Een nadeel van deze algoritmen is dat ze dom zijn, dwz werken zonder acht te
slaan op eigenschappen van spraak. Aan de andere kant zijn er uit de spraakherkenning
een aantal voorbewerkings-methoden bekend, met name cepstrum parameter extractie,
Linear predictive coding en filterbanken, die in staat zijn de in een spraaksegment
karakteriserende frequenties te extraheren. Vaak zijn dit de spraakformanten. Een
spraaksegment bestaat al gauw uit zo'n 5000 getallen, waarvan er zo'n 10 karateriserend
zijn. De methoden voor extractie zijn beschreven in een UT-Inf afstudeerverslag, in de vorm
51
van Matlab code. Deze extractie methoden kunnen gezien worden als vormen van
intelligente spraakdata compressie.
De opdracht is de beste, d.w.z. snelste gegeven het feit dat niet al te
beste microfoons gebruikt worden, intelligente compressiemethode
te selecteren op basis van enkele tests, en een zeer snelle software
tool te maken die op een voice mail eerst de intelligente en daarna,
naar keuze, een of meer domme compressies uitvoert. De uitvoer
van de intelligente compressie moet direct via een geluidskaart weer
te geven zijn. Er moet ook gekeken worden naar de mogelijkheden
de intelligente compresie methode te integreren in de spraakregistratie tool.
Contactpersoon: Marc Drossaers, [email protected]
Stage-opdracht: Een Neurale Netwerk Onderhoudsstatus-monitor
Neurale Netwerken worden vaak gebruikt voor het oplossen van optimalisatieproblemen. In
het algemeen hangt de optimale oplossing daarbij af van een veelheid van factoren. Een van
de toepassingen van neurale netwerken voor optimalisatie is in onderhoudsstatusmonitoren. Dit zijn computerprogramma’s die op basis van de performance-gegevens van
een machine een advies genereren omtrent de wenselijkheid van een onderhoudsbeurt of
vervanging van de machine.
Factoren die hierbij een rol spelen zijn naast de kosten van onderhoud van de machine ook
vaak dat onderhoud geen volledig herstel van de machine oplevert, dus dat met iedere onderhoudsbeurt de maximale performance van de machine terugloopt en dat steeds meer en
steeds vaker onderhoud nodig is. Met betrekking tot het vervangingspunt moet rekening
worden gehouden met de gewenste minimale performance van de machine, de onderhoudskosten en de vervangingskosten.
Voor studenten die geinteresseerd zijn in neurale netwerken is er de mogelijkheid in de vorm
van een bedrijfsstage in Hengelo (Ov.) te werken aan een onderhoudsstatus-monitor. De
stage is onderdeel van activiteiten die verricht worden in het kader van het Neuro-Fuzzy
Centrum. Daardoor wordt een heel redelijke stagevergoeding geboden.
Geintereseerden kunnen voor inlichtingen terecht bij M. Drossaers (INF 2031, tel. 4893745,
[email protected]) of M. Poel (INF 2102, tel. 3920, [email protected]).
Stage- D-Opdracht: Machine-assisted riddle generation
Suggested Supervisors: Graeme Ritchie/Anton Nijholt
Principal goal of the project: At present, the JAPE-2 computer program produces punning
riddles from a large, fixed lexicon with a narrow range of types of information. The project
would involve constructing a variant of the program which interacted with the user to obtain
information about words and phrases, and then used JAPE’s rules to construct riddles about
those items. This allows customised joke-creation and also permits a wider range of information types to be used, thus widening the possible joke types.
52
Description: JAPE-2 is a large Prolog program, which contains a general purpose publicly
available online dictionary (WordNet), and various other sources of information about words.
The unique aspect of the program is that it also contains symbolic rules which allow it to
construct punning riddles.
At present, it is invoked via Prolog, supplying suitable parameters. It will then produce punning riddles according to its rules and the lexical information that it has. There are certain
drawbacks to this.
Firstly, the WordNet dictionary has only certain types of information about words and the
relations between them, which restricts the sorts of jokes that can be built. Although the semantic patterns of various joke-types can be coded up in JAPE rules, the lexical resources
do not supply sufficient data for the rules to work. Secondly, there is no way to guide JAPE,
for example to produce jokes on a certain topic or using certain words. It simply produces
hundreds of jokes in an arbitrary manner.
Both of these deficiencies could be remedied by adding a user-guidance module to the system, with the following facilities:
- the user can specify a word or compound nominal which is to appear in the final joke, and if
the lexicon contains that item, the system will attempt to produce such a joke.
- the user can suggest a semantic topic, and the system will attempt to produce a joke on
that topic.
- the user can define new lexical information to augment the basic WordNet, thereby allowing
a wider range of joke types, or allowing jokes which use very idiosyncratic lexical data. The
aim of the project is to design, implement and test such a module.
Resources Required: The JAPE-2 program and Prolog.
Degree of Difficulty: The student has to understand the workings of JAPE-2, carry out
original design work, and do some awkward implementation. Medium to hard.
Suitability for students with specific backgrounds: A high level of competence in Prolog
programming is ESSENTIAL. Some natural language/linguistics knowledge is desirable.
References
Binsted, K. (1996). Machine humour: an implemented model of puns . PhD thesis. Department of Artificial Intelligence, University of Edinburgh.
K. Binsted and G. Ritchie (1994). An Implemented Model of Punning Riddles. Pp. 633-638 in
Proceedings of the Twelfth National Conference on Artificial Intelligence/Sixth Conference on
Innovative Applications of Artificial Intelligence (AAAI-94). Edited by B. Hayes-Roth and R.
Korf; published by MIT Press, Cambridge, Mass; ISBN 0-262-61102-3.
K. Binsted and G. Ritchie (1997). Computational rules for generating punning riddles.
HUMOR 10, 1.
SETI-Stage of Externe Afstudeeropdracht op het gebied van
Automatische Zoutstrooiers
Nido B.V. produceert zoutstrooiinstallaties, die door Rijkswaterstaat worden ingezet om
gladheid op de wegen te bestrijden. Met behulp van moderne informatica-ontwikkelingen
probeert men een overmaat aan gestrooid zout te voorkomen. Dit ter bescherming van het
milieu en om kosten te minimaliseren. Enerzijds wil men zich door een neuraal netwerk op
53
basis van een veelheid van soorten informatie laten adviseren over de hoeveelheid te
strooien zout, anderzijds wil men visuele sensoren gebruiken om het strooien af te stemmen
op de vorm van de weg en de aanwezigheid van obstakels op de weg.
Voor studenten die geinteresseerd zijn in neurale netwerken en met name de integratie van
multimodale informatiestromen of beeldbewerking is er de mogelijkheid in de vorm van een
bedrijfsstage of externe afstudeeropdracht te werken aan verschillende onderdelen van
nieuwe strooiinstallaties. De stage of afstudeeropdracht is onderdeel van activiteiten die
verricht worden in het kader van het Neuro-Fuzzy Centrum. Daardoor wordt een heel
redelijke stagevergoeding geboden.
Geintereseerden kunnen voor inlichtingen terecht bij Drossaers (INF 2031, tel. 4893745,
[email protected]), Nijholt (INF 2055, tel. 4893686, [email protected]) of Mannes
Poel (INF 2102, tel. 4893920, [email protected]).
SETI-Stage of Externe Afstudeeropdracht op het gebied van
Neurale Netwerken
Remeha B.V. (Apeldoorn) is een producent van centrale verwarmingsinstallaties voor grote
gebouwen. Via een telefoonverbinding kan op deze installaties worden ingelogd om het
functioneren van de installatie te meten en te besturen. Op basis van (het verloop van) deze
gegevens en te modelleren ervaringskennis wil men zich door een neuraal netwerk laten
adviseren over het al dan niet laten uitvoeren van een onderhoudsbeurt. Hierbij moet het
functionaliteitsverlies tegen de kosten en de overlast van onderhoud worden afgewogen.
Voor studenten die geinteresseerd zijn in neurale netwerken en met name optimalisatie is er
de mogelijkheid in de vorm van een bedrijfsstage of externe afstudeeropdracht te werken
aan een onderhoudsstatus-monitor. De stage of afstudeeropdracht is onderdeel van
activiteiten die verricht worden in het kader van het Neuro-Fuzzy Centrum. Daardoor wordt
een heel redelijke stagevergoeding geboden.
Geintereseerden kunnen voor inlichtingen terecht bij Marc Drossaers (INF 2031, tel.
4893745,
[email protected]),
Anton
Nijholt
(INF
2055,
tel.
4893686,
[email protected]) of Mannes Poel (INF 2102, tel. 4893920, [email protected]).
SETI-Stage of Externe Afstudeeropdracht op het gebied van
Neurale Netwerken
IPA B.V. (Oldenzaal) bouwt voor het distributiecentrum van Schuitema in Woerden een
systeem voor het automatisch verzamelen van vrachten waarmee supermarkten bevoorraad
worden. Ten behoeve van dit systeem moet een prognose tool ontwikkeld worden waarmee
door leveranciers een minimale voorraad dagverse zuivelprodukten kan worden
aangehouden.
Voor studenten die geinteresseerd zijn in neurale netwerken, en met name time series
prediction (prognose) is er de mogelijkheid in de vorm van een bedrijfsstage of een externe
afstudeeropdracht te werken aan deze prognose tool. De stage of afstudeeropdracht is
onderdeel van activiteiten die verricht worden in het kader van het Neuro-Fuzzy Centrum.
Daardoor wordt een heel redelijke stagevergoeding geboden.
54
Geintereseerden kunnen voor
inlichtingen terecht bij Marc
Drossaers
(INF
2031,
tel.
4893745, [email protected]),
Anton Nijholt (INF 2055, tel.
4893686, [email protected])
of Mannes Poel (INF 2102, tel.
4893920, [email protected]).
Allerhande
WieWatWaar
Er studeren veel studenten af
binnen ParleVink. Jan Schaake
en Hugo ter Doest zijn AiO bij
Parlevink
geworden,
Marc
Lankhorst
in
Groningen,
Willem-Olaf Huijsen in Utrecht,
Aarnoud Hoekstra in Delft,
Henk Harkema in Los Angeles,
Mark Moll bij Carnegie Mellon,
Pittsburgh
en
Margriet
Verlinden in Tilburg. Dennis
Bijwaard werkt bij het NLR in
Amsterdam. Femke Heemels is
de SDU gaan versterken en
Leonard Thierry is bij BSO,
Utrecht gaan werken. Gerald
Kruizenga is een eigen bedrijfje
begonnen. H.-E. van Elburg
werkt inmiddels bij Ericson
R&D, Rijen. Danny Kersten is in
dienst
getreden
bij
IPO,
prioriteitsprogramma Taal en
Spraak en Rudie Ekkelenkamp
werkt bij TNO in Delft
(Documentaire Informatietechnologie). Frank Wiersma heeft een aanstelling bij KPN
Research in Groningen gekregen. Sandor Spruit vervolmaakt bij OTS (Universiteit Utrecht)
zijn afstudeerwerk. Anne Veling gaat door bij MediaLab, Schellinkhout (onderdeel van
Origin). Rene Steetskamp is na een kort verblijf in Nijmegen ingelijfd door HSA in Hengelo.
Ook Theo van der Geest werkt daar. Rene Bos is bij CMG in dienst getreden. Martijn
Dashorst en Machiel van der Bijl zijn naar Utopics gegaan en Renald Buter naar CWTS in
Leiden.
55
Parlevink Stages en D-Opdrachten
Wat betreft stages zijn er de volgende mogelijkheden:
Alfa-informatica (Groningen)
CAP Gemini/Lingware (Utrecht)
Digital Equipment (Nieuwegein)
Getronics (Amsterdam)
Human Inference (Arnhem)
KPN Research (Leidschendam)
Max Planck Instituut (Nijm.)
NICI (Nijmegen)
Philips (Aken)
SMR (Amsterdam)
TNO/Technische Informatica (Delft)
Bolesian (Helmond)
Carnegie Mellon University
NeuroFuzzy Centre, Twente
Coopers & Lybrand
KPN Research (Groningen)
Lernout&Hauspie (België)
MediaLab, Schellinkhout
Océ (Venlo)
Rank Xerox, Grenoble
VDA, Hilversum
University of Texas (Austin)
Dit is geen volledige lijst. Taal- en beeldverwerking en neurale netwerken
(soms in combinatie) zijn vaak voorkomende onderwerpen. Er zijn (vrijwel)
immer stages en D-opdrachten mogelijk bij het Nijmeegse Max Planck
Instituut, bij Océ-Venlo en bij Sentient Machine Research (Amsterdam). Bij
TNO (Delft) liggen taken op het terrein van documentaire informatietechnologie en information retrieval. Bij CAP Gemini Lingware krijg je meestal
te maken met vertaalsoftware. Philips Aken vraagt informaticastudenten met
belangstelling voor spraak. Er zijn ook stageplaatsen op het gebied van taal
en spraak bij KPN Research te Leidschendam en op het gebied van neurale
netwerken te Groningen. Voor interne D-opdrachten wordt vaak gekeken naar
Parlevinkwerk op het gebied van een via natuurlijke taal toegankelijk theater
informatie- & reserveringssysteem (SCHISMA), naar toegankelijkheid van
Internet en binnen het 21-project naar multimedia information retrieval.
Op dit moment wordt door de volgende studenten afstudeerwerk verricht:
Boris van Schooten
Petra Hoekstra
Gies Bouwman
Sjoerd Ennema
Maurits Acket
J. Feenstra
Combinatorische problemen en neurale netwerken
Optimalisatie met neurale netwerken
Spraak en dialogen
Robotspecificatie
Dialogen & Wittgenstein
Ongedefinieerheid
Informatie over stages en D-opdrachten: Anton Nijholt, kamer 2055, INF
Gebouw of Mannes Poel. Je kunt ook bij
anderen binnenstappen: Franciska de Jong,
Gerrit van der Hoeven, Rieks op den Akker,
Peter Asveld, Jan Schaake, Marc Drossaers,
Betsy van Dijk, Jan Kuper, Job Zwiers.
56
RECENTE PUBLICATIES (1997)
N. Sikkel. Parsing Schemata. A Framework
for Specification and Analysis of Parsing
Algorithms. XVI, 398 pp. (Texts in
Theoretical Computer Science. An EATCS Series) Hardcover; ISBN 3-540-61650-0,
Springer-Verlag, Berlin, 1997.
A. Nijholt. Foreword. In: N. Sikkel. Parsing Schemata. EATCS Monograph Series, SpringerVerlag, Berlin, v-ix, 1997.
N. Sikkel & A. Nijholt. Parsing of context-free languages. Chapter 17 in Handbook of Formal
Languages., Part II. A. Salomaa & G.
Rozenberg (eds.), Springer-Verlag, 61-100,
1997.
A. Nijholt and T. Andernach. The Robust
Analysis of User Utterances in a Mixedinitiative Dialogue System. Fifth International
Symposium on Social Communication,
Santiago de Cuba, 1997, p.31.
Dj. Hiemstra. Deriving a bilingual lexicon for
cross
language
information
retrieval.
GRONICS ’97: Proceedings of the fourth
Groningen
International
Information
Technology Conference for Students, M.
Heemskerk & M. Diepenhorst (eds.), 21-26.
A. Nijholt. Dichter bij oneindig. In: Oneindig.
Jaarboek 1997, Wiskundige Studievereniging
“Christiaan Huijgens”, Technische Universiteit
Delft, 94-96.
T. Andernach, M. Poel and E. Salomons.
Finding Classes of Dialogue Utterances with
Kohonen Networks. In: Proceedings NLP
workshop of the European Conference on
Machine Learning (ECML), Prague, April
1997.
D. Hiemstra, F. de Jong & W. Kraaij. A
domain specific lexicon acquisition tool for
cross-language
information
retrieval.
Proceedings RIAO’97 Conference: ComputerAssisted Searching on the Internet, June
1997, Montreal, Canada.
P.R.J. Asveld: Controlled fuzzy parallel
rewriting. In: Gh. Paun & A. Salomaa (eds.):
New Trends in Formal Languages -- Control,
Cooperation, and Combinatorics''. Lecture
Notes in Computer Science 1218 (1997),
Springer, Berlin, etc. [invited paper], 49-70.
R. Leenes & J. Schaake. OLE2000: A study
57
in questions and demand. Presented at the IFIP WG 8.5 (“Information Systems in Public
Administration”) workshop “Empowering Citizens through IT – Innovation in Governmental
and Municipal Information Systems”, Stockholm, May 5-6, 1997. Also, Information
Infrastructure and Policy. An international journal on the development, adoption, use and
effects of information technology, 1997, to appear.
J. Hulstijn. Structured information states - raising and resolving issues-. CTIT Technical
Report series, No. 97-18, ISSN 1381 - 3625, 20 pp.
J. Hulstijn. Structured information states - raising and resolving issues. In: Proceedings of
Mundial’97, Formal Semantics and Pragmatics of Dialogue. G. Jäger and A. Benz (eds.),
University of Munich, 1997, to appear.
A. Nijholt. De Delftse methode: Een kritische terugblik. “25 over 25: Reflecties van leden van
de Hogeschoolraad/Universiteitsraad aan de TH/TU Delft, 1972-1997”, H. van Iperen & A.
Mijnett (eds.), Delft University Press, ISBN 90-407-1410-x, 1997, 63-69.
A. Nijholt. Toegankelijkheid
en zichtbaarheid. I/O Vivat 13, Juli 1997, 15-17.
J. Hulstijn, R. Steetskamp, H.
in a theatre information
Internacional
de
de
Lingüística
ter Doest, S.P. van de Burgt & A. Nijholt. Dialogues
and booking system. In: Memorias. V Symposio
Comunicación Social. Santiago de Cuba, Centro
Aplicada, 1997, 87-99.
D.H. Lie, J. Hulstijn
Schisma.
In:
1997 (IWPT ’97), MIT,
A. Nijholt.
integration.
Electrica,
HumanIn:
H. ter Doest & A. Nijholt. Language analysis in
International Workshop on Parsing Technologies
Boston, USA, 1997, 243-244.
computer
interaction
and
computer-telephony
FIE’97, Universidad de Oriente, Facultad de Ingenieria
Santiago de Cuba, 1997. To appear.
M. Moll and R. Miikkulainen (1997).
Convergence-Zone
Episodic Memory:
Analysis and Simulations,
pp. 1017--1036.
P. Wittenburg & M. Dashorst.
Modeling in Psycholinguistics,
Neural Networks 10 (6),
RAW. In: Computational
Berkeley. To appear.
G.-J.M. Kruijff & J. Schaake.
Discerning relevant information
in discourses using TFA. Chapter ?? in
Current Issues in Linguistic
Theory. Benjamins Publishing Company, New York, 1997. To appear.
P.R.J. Asveld & A. Nijholt. The inclusion problem for some subclasses of context-free
languages. To appear.
H. Bunt & A. Nijholt (eds.). Dialogue Management in Natural Language Systems. Benjamins
Publishing Company, New York, in preparation.
A. Nijholt & G. Scollo (eds.). Algebraic Methods in Language Processing. Special Issue of
Theoretical Computer Science, in preparation.
H. ter Doest. Robustness and Efficiency in Unification-based Parsing Methods. Ph.D. thesis,
University of Twente, Enschede, The Netherlands. To appear.
58
Language Engineering
A Greater Use of Language in Every Sense
Talk in a world without language barriers
Think how much more easily you could use your computer, by simply telling it
what to do. Suppose also that many of the features of your car were voice
operated, such as using the telephone, selecting a CD, opening the windows, and learning about traffic
conditions ahead. Consider how much time you would save if a computer could find exactly the information you
are looking for, from multilingual sources, and do it much more efficiently than you. Imagine picking up the
telephone to speak to someone in another country. You have no common language but you are still able to
communicate, each of you speaking and hearing your own language. Access to systems and services through
natural language will make them available to everyone. The barriers will be gone. Machines will understand what
we tell them and we shall understand each other better.
Hear how language engineering works
Through language engineering we can find ways of living comfortably with technology. Our knowledge of
language can be used to develop systems that recognise speech and writing, understand text well enough to
select information, translate between different languages, and generate speech as well as the printed word. By
applying such technologies we have the ability to extend the current limits of our use of language. Language
enabled products will become an essential part of everyday life. This is the power of language engineering; using
the power of language.
Remain in touch with our heritage
Europe is rich in the diversity of language and culture which it enjoys. This is an asset which we need to preserve
for our education, our pleasure, and for its economic benefit. New technology combined with our knowledge of
language will enable us to retain our national and cultural identities and appreciate the differences of others. At
the same time we shall communicate more effectively and with greater sensitivity. By helping to create greater
cohesion within Europe, our natural interdependence will be turned into an easier, more rewarding, working
relationship. Our cultural treasures, in libraries and museums across the European Union, will be made
accessible to everybody, irrespective of boundaries
Focus on the benefits
The impact of language products on almost every aspect of our lives will be immense. To have the right
information at the right time is surely vital to every industrialist, administrator and politician. Being able to handle
your export business as well as you do your domestic customers, is crucial to developing new markets abroad.
Being able to use new technology more easily will improve productivity and performance in all walks of life.
Helping the disabled to integrate into all aspects of society will improve the quality of life for them and their
families, as well as making more skills available to the community. Transacting business at our convenience: at
any time; from home; through our mobile telephones; will enable us to make better use of our time. Easier
operation of machines will reduce stress and improve safety.
A more responsive service from our public administration and public service agencies will help to improve the
quality of life for all of us. More efficient translation services will lead to better international understanding, at all
levels. Greater availability of information about other countries’ goods and services, employment prospects,
weather, and traffic conditions will expand our horizons. The success of our enterprise in achieving these benefits
will make European companies world leaders in the exploitation of language technology.
Touch the future
The new millennium is approaching. With it will come the fruits of language engineering: a better world; a
competitive Europe. This technology is now moving rapidly towards its successful application to the things that
matter. It is a key: to the multi-lingual society; the information age; our future.
Recognise the value
For many years developments in language engineering have been going on, quietly. The technology has been
developed and vital language resources, such as electronic dictionaries and grammars, have been compiled. The
work is not yet complete. It is of real value to business and to many other aspects of our lives. Give it your
support and realise the benefits for yourself.
59
21 Media Information Transaction and Dissemination is
een Europees project waarbinnen Parlevink participeert. Het
project wordt vanuit Parlevink gecoordineerd door Franciska
de Jong. Bij haar zijn ook nadere inlichtingen te krijgen over
D-opdrachten binnen dit project.
Parlevink participeert in een MEWO-project van de
Universiteit Twente. MEWO staat voor Maatschappelijke
Effecten van Wetenschappelijk Onderzoek. Het thema van het
project is ‘De Digitale Stad’. Gekeken wordt naar
maatschappelijke aspecten en effecten van zoiets als een DS
en hoe onderzoekers op het gebied van telematica- en
informatietechnologie op een systematische wijze weet
kunnen krijgen van die aspecten en effecten en die vervolgens
mee kunnen nemen in hun onderzoek. Voor D-opdrachten: Jan
Schaake.
Het Neuro-Fuzzy Centre is een regionaal project waarin
Parlevink participeert. Binnen dit project worden kleine
opdrachten uitgevoerd op het gebied van neuro-fuzzy
technologie voor het MKB in de regio Twente-Münster. Voor
D-opdrachten/stages: M. Poel of M. Drossaers.
Pop-Eye is ook een Europees Parlevinkproject.
Het houdt zich bezig met onderwerpen als het
indexen van ondertitels van film- en videomateriaal om retrieval te plegen. D-opdracht of
stage bij TROS?
Met financiering van Binnenlandse Zaken wordt vanuit
Parlevink gekeken naar het via taal en spraak meer
toegankelijk maken van overheidsinformatie: TeleLoket. Een
typisch Parlevinkproject met tal van invalshoeken zo mag
blijken uit de deelnemers: INF (Parlevink), BSK, Gemeente
Enschede, Binnenlandse Zaken en een aantal bedrijven. Dopdrachten?: Jan Schaake of Anton Nijholt.
SCHISMA is een regulier Parlevinkproject dat zich toespitst
op het gebruik van spraak- en taaltechnologie (en natuurlijk
software engineering, etc.) voor een schouwburg-informatie &
-reserveringssysteem. Invalshoeken: taal, spraak, specificatie,
evaluatie, ergonomie, virtual reality, animatie, etc. zijn onderwerpen die bijvoorbeeld in afstudeeropdrachten aan bod
kunnen komen. D-opdrachten?: Nijholt, e.a.
BIT/Multiple User Groups is een project met WMW en
T&M. Parlevink gaat kijken naar de wijze waarop rekening
gehouden kan worden met verschillende gebruikersgroepen bij
mens-machine communicatie. In het bijzonder zullen genderverschillen bij dit onderzoek een rol spelen. Bij WMW wordt
gekeken naar vooronderstellingen van ontwerpers. Bij T&M
naar gender en organisatie.
60

Vergelijkbare documenten

Kerst(Parle)Bode - Human Media Interaction

Kerst(Parle)Bode - Human Media Interaction dus ook stage en D-opdrachten) vindt plaats op Uitgeverij voor Lezers en Schrijvers het terrein van taaltheorie, taaltechnologie en van Talige Boeken. neurale netwerken. Mens-machine interactie en ...

Nadere informatie

Inhoudsopgave - Human Media Interaction

Inhoudsopgave - Human Media Interaction dus ook stage en D-opdrachten) vindt plaats op Uitgeverij voor Lezers en Schrijvers het terrein van taaltheorie, taaltechnologie en van Talige Boeken. neurale netwerken. Mens-machine interactie en ...

Nadere informatie