Este documento(1) examina algunos problemas de versiones anteriores del desambiguador morfológico EngCG y describe soluciones a ellos. Se informa una nueva versión del etiquetador EngCG.
1. Introducción
El desambiguador morfológico EngCG (English Constraint Grammar) es un etiquetador reduccionista basado en reglas basado en el marco de la gramática de restricciones (Karlsson 1990; Karlsson et al (eds.) 1995). Contiene tres módulos principales (las siguientes cifras se refieren a las versiones 'tempranas' publicadas anteriormente
de EngCG):
- un tokenizador (identificación de palabras, signos de puntuación y unos 8.000 expresiones de varias palabras {modismos y modi cadores {expresiones principales)
- un analizador morfológico (introducción de ambigüedad morfológica)
{un léxico y una morfología de dos niveles (más de 90.000 entradas)
{un analizador heurístico basado en reglas de palabras desconocidas ('adivinador')
- un eliminador de ambigüedades basado en reglas: los análisis alternativos se eliminan en la base de las condiciones de contexto expresadas en unas 1.150 reglas de restricción.
(1)Este artículo fue publicado en Tom Brondsted e Inger Lytje (eds.), Sprog og Multimedier. Aalborg Universitetsforlag, Aalborg. Tenga en cuenta que en el libro el nombre del documento fue incorrecto.
debido a un error editorial.
La frase "Check the cylinder bores for score marks and remove glaze and carbon deposits" tienen el siguiente aspecto después de la tokenización y la morfología.
análisis:
"<*check>"
"check" <*>
V SUBJUNCTIVE VFIN
"check" <*>
V IMP VFIN
"check" <*>
V INF
"check" <*>
V PRES -SG3 VFIN
"check" <*> N NOM SG
""
"the" DET CENTRAL ART SG/PL
""
"cylinder_bore" <2+W> N NOM PL
""
"for" PREP
"for" <**CLB> CS
""
"score" N NOM SG/PL
"score" V SUBJUNCTIVE VFIN
"score" V IMP VFIN
"score" V INF
"score" V PRES -SG3 VFIN
""
"mark" V PRES SG3 VFIN
"mark" N NOM PL
""
"and" CC
""
"remove" N NOM SG
"remove" V SUBJUNCTIVE VFIN
"remove" V IMP VFIN
"remove" V INF
"remove" V PRES -SG3 VFIN
""
"glaze" N NOM SG
"glaze" V SUBJUNCTIVE VFIN
"glaze" V IMP VFIN
"glaze" V INF
"glaze" V PRES -SG3 VFIN
""
"and" CC
""
"carbon" N NOM SG
""
"deposit" V PRES SG3 VFIN
"deposit" N NOM PL
"<$.>