Forum Barcelona 2004 | Español | English | herramientas Inici Mapa de continguts Buscador Mida textMida text text petita 11px text mitjana 14px text gran 17px
Continguts > 42a Reunió Anual de l'Associació de Lingüística Computacional. Comunicació i llenguatge en l´era digital > Els sistemes dialogats (Dialogue Systems)
Documents Envia a un amicEnvia a un amic ImprimeixImprimeix
Resum sessió Resum sessió
Els sistemes dialogats (Dialogue Systems)
Diàleg de referencia: 42a Reunió Anual de l'Associació de Lingüística Computacional. Comunicació i llenguatge en l´era digital

Els sistemes automàtics de diàleg telefònics cada vegada són més utilitzats, sobretot en àmbit local, per a informació sobre oci i serveis urbans, trànsit, moviments bancaris, etc. En paraules d’una de les ponents, Grace Chung, de la Corporation for National Research Initiatives (Reston, EUA), «aquests sistemes permeten a l’usuari moure’s dins d’un espai de coneixement a través de la parla».

En un sistema automàtic de diàleg hi intervenen diversos factors, com el reconeixement de veu, amb tots els problemes que implica; la síntesi de veu, amb un desenvolupament ja molt avançat; i la generació de frases coherents (les respostes a l’interlocutor humà) basades en dades.

Per al reconeixement de veu és necessari «entrenar» el sistema, i sobre aquesta qüestió Chung va comentar que normalment és una persona la que s’encarrega de dur a terme aquest entrenament. Per això, l’equip de Chung ha proposat que es redueixi el factor humà en aquest procés d’aprenentatge, per a la qual cosa ha construït un simulador, que es comporta com un potencial usuari que utilitzés el sistema. A aquest simulador se li proporciona una base de coneixement, gràcies a la qual és capaç de fer preguntes al sistema de diàleg automàtic. Es fan tres tipus de simulacions: sobre text, sobre preguntes amb restriccions i sobre veu. L’avantatge de substituir la persona en l’entrenament és que es poden fer centenars de diàlegs artificials en molt menys temps, fet que ha accelerat considerablement el desenvolupament del sistema.

L’equip de Hilda Hardy i el d’Amanda Stent, tots dos de Nova York, han desenvolupat dos sistemes de conversa automàtica telefònica. Hardy va remarcar la problemàtica dels matisos de la parla natural, que provoquen nombrosos errors de comprensió per part del sistema, sobretot a l’hora d’interpretar noms propis o adreces. En aquesta segona plataforma, l’entrenament estava basat en converses reals d’un servei d’atenció al client, en qüestions com recerca de restaurants en una determinada zona de la ciutat. Una de les particularitats d’aquest sistema, denominat SPaRKy, és que és capaç d’oferir respostes alternatives si no troba resposta a la informació demanada. Per exemple, en el cas de la recerca d’un restaurant, si la informació requerida és trobar un local en un lloc concret, i en aquest lloc no n’hi ha cap, el sistema pot oferir un restaurant en una zona propera, i a més enumerar-ne les característiques (preu, qualitat, etc.).

Les ponents es van trobar d’acord a remarcar que encara queda un llarg camí per recórrer en els sistemes de diàleg automàtic, però els avenços són molt significatius i els resultats enregistren cada vegada menys errors. Continuant el fil de la sessió del dia abans, es presenten dos nous sistemes: el de l’equip de Malte Gabsdil, del departament de Lingüística Computacional de la Universitat de Saarland (Alemanya) i Oliver Lemon, de la School of Informatics de la Universitat d’Edimburg (Escòcia), i el de l’equip de Diane J. Litman i Kate Forbes-Riley, del departament de Computer Science, Learning Research and Development Center de la Universitat de Pittsburgh (EUA).

El primer d’aquests projectes, presentat per Lemon, consisteix en el maneig d’un helicòpter des de terra amb la veu. Les funcions principals d’aquest helicòpter són anar al punt que se li indiqui, seguir vehicles i transportar objectes. L’interlocutor humà disposa d’una interfície gràfica d’usuari (GUI), que consisteix en un mapa d’una zona determinada, i pot donar ordres a l’helicòpter combinant comandaments de veu i ordres a través del ratolí. En un cas com aquest, és especialment important assegurar-se que el sistema de reconeixement de veu (s’ha fet servir el denominat Nuance 8.0) ho ha entès correctament, ja que una ordre incorrecta podria dur l’helicòpter a tenir comportaments inesperats difícils de corregir, que podrien derivar en situacions de risc. D’altra banda, no pot invertir massa temps verificant si el sistema ho ha entès tot correctament, perquè és necessari que reaccioni ràpidament. Per tant, la clau es troba en assolir un equilibri entre la necessitat d’evitar errades en el reconeixement i la de permetre un diàleg fluid. Per arribar a aquest equilibri, es classifiquen els comandaments en «acceptat» (ja entès), «aclarir» (pendent de confirmació, tot i que gairebé segurs), «refusat» (no ho ha entès) i «ignorar» (no ho considera), i per transcriure el que es reconeix fa servir el sistema WITAS.

En la segona part de la sessió, Litman va presentar un sistema de tutoria anomenat ITSPOKE, que permet reconèixer les emocions dels estudiants en diàlegs parlats entre l’ordinador i l’ésser humà, i adaptar-s’hi. Classifica les respostes de l’estudiant en emocions negatives (confós, avorrit, irritat…), positives (content, entusiasmat…) i neutres (una càrrega emocional moderada). També reconeix reaccions mixtes, és a dir, en una mateixa resposta emocions negatives i positives alhora. Per exemple, si ITSPOKE fa una pregunta i l’estudiant la considera molt complicada i reacciona negativament, és capaç d’assimilar aquesta reacció i fer preguntes en aquest mateix camp però d’un nivell inferior, de manera que les mateixes preguntes serveixin d’explicació. Per reconèixer aquestes emocions es basa en elements lèxics (respostes del tipus «no ho sé») i característiques acústiques prosòdiques (pauses, volum de la veu, to, etc.). Malgrat que encara és un sistema molt limitat, s’han fet grans avenços i els percentatges d’error en la comprensió i en la resposta són cada vegada més baixos.

Pujar
Per paraula clau
Doc. més relacionats
RS Tallers, seminaris i una conferència associada (Workshops)
 
RS El processament de la parla conversacional (Conversational Spoken Language Processing)
 
RS Generació
 
RS La traducció automàtica (Machine Translation)
 
RS La semàntica lèxica (Lexical Semantics)
 

Els més de 800 Resums de Sessió que s’han generat durant els 141 dies de diàlegs al Fòrum BCN 2004 han estat realitzats gràcies a la participació de més de 70 estudiants i llicenciats universitaris, als quals agraïm el seu esforç desinteressat.