Lr0809

From EnWiki

Jump to: navigation, search

Language Resources (course 2008/09)

The term language resources refers to a set of speech or language data and descriptions in machine readable form, used e.g. for building, improving or evaluating natural language and speech algorithms or systems, or, as core resources for the software localisation and language services industries, for language studies, electronic publishing, international transactions, subject-area specialists and end users. Examples of language resources are written and spoken corpora, computational lexicons, terminology databases, speech collection and processing, etc. Basic software tools are also important for the acquisition, preparation, collection, management, customisation and use of these language resources and other resources. ELRA


Contents

Calendar

This is the planning for the course:

Feb. 10

Presentation (syllabus). See also LR0708 [1] [2].

Posgradute programes:

What are Language Resources?


European Language Resources Association. (2009, February 13). In Wikipedia, The Free Encyclopedia. Retrieved 10:09, February 17, 2009, from http://en.wikipedia.org/w/index.php?title=European_Language_Resources_Association&oldid=270423854

Feb. 17

  • Types of language resources
  • Review four del.icio.us tags:
    • language, translation, dictionary, corpus
    • shared tag for the course: lr0809

How to make good references for blog posts and technical reports? Van E. Hillard. (2004, August 27). Assembling a List of Works Cited in Your Paper. Duke University Libraries. Retrieved 10:00, February 13, from http://www.lib.duke.edu/libguide/cite/works_cited.htm

Feb 24

March 3

See LR0708 reports.

  • Selection of a Language Resource for testing and evaluation:
    • Lr0809/A Juntagailu hautakariak: edo / edota / ala /nahi(z) / zein.
    • Lr0809/B British National Corpus
    • Lr0809/D The International Corpus of English
    • Lr0809/E Euskal eratorbidean -GARRI eta -GO atzizkiak.
    • Lr0809/G Des- eta ez- aurrizkiak. Gabe erdi-atzizkia.
    • Lr0809/H Estudio del corpus del español en España e Hispanoamérica.
    • Lr0809/I American National Corpus
  • Tutorial setup

May 12, 19, 26

Presentation of reports:

  • May 12: A, B
  • May 19: D, E, G
  • May 26: H, I

Any proposal for changing this schedule should be discussed before May 12th.

Official sylabus

Esta asignatura contribuye a la formación del filólogo capacitándole para participar en la elaboración de materiales documentales y lingüísticos en entornos profesionales. El alumno adquirirá los rudimentos necesarios para poder colaborar en el desarrollo de materiales lingüísticos informatizados. Está vinculada con las asignaturas de nuevas tecnologías y de lingüística.

Prerrequisitos

Se recomienda hábito de trabajo con el ordenador, especialmente habilidad para recuperar, seleccionar y elaborar información. Estrategias comunicativas adaptadas al medio informático. Capacidad para la expresión escrita en español y/o euskera. Comprensión oral y escrita en inglés.

Resultados de aprendizaje

  • Comprender y cuestionar los modelos teóricos de la disciplina y profundizar al mismo tiempo en la búsqueda de nuevas áreas de información y estudio (Orientación al aprendizaje).
  • Generar fichas documentales describiendo los recursos linguísticos accedidos desde la red.
  • Analizar y evaluar la funcionalidad de los recursos y herramientas lingüísticos seleccionados.
  • Generar un informe técnico describiendo la práctica realizada y aportando datos documentales relevantes.

Contenidos

  1. Lexicografía computacional (diccionarios electrónicos, bases de datos léxicas).
  2. Métodos de análisis morfosintáctico (flexión y derivación, lematización, categorización) y sintáctico.
  3. Gramáticas informatizadas.
  4. Redes semánticas, tesauros, web semántica, ontologías, taxonomías, modelos de representación.
  5. Tipología textual. Lingüística de corpus. Tipos de corpus. Corpus textuales etiquetados lingüísticamente. La iniciativa TEI.
  6. Herramientas lingüísticas aplicadas: traducción, enseñanza de lenguas, etc.

Metodología

La asignatura se desarrollará en grupo y tendrá como objetivo la utilización y el análisis en profundidad de al menos tres recursos o herramientas lingüísticas.

El profesor realizará una exposición genérica de los principales recursos y herramientas disponibles en la red y los grupos elegirán aquellos sobre los que deseen realizar el trabajo práctico.

Las estrategias de aprendizaje utilizadas serán:

  1. Introducción por parte del profesor.
  2. Consulta de reseñas y páginas de referencia sobre principales recursos.
  3. Debate y selección de recursos en grupo para realización de trabajo práctico.
  4. Realización de pruebas de funcionamiento.
  5. Obtención de resultados, análisis, comparación entre herramientas.
  6. Elaboración de informe de evaluación.

De acuerdo con los 3,5 ECTS asignados, la dedicación requerida al alumnado para el seguimiento de la asignatura y el cumplimiento de los objetivos es de 85h, que se distribuirán de acuerdo a los siguientes tiempos estimados de trabajo:

  • Dentro del aula: 39 horas
    • Introducción del profesor : 25% (10 h)
    • Trabajo en grupo: 75% (29 h)
  • Fuera del aula: 46 horas
    • Documentación : 25% (12 h)
    • Utilización de herramientas: 25% (12 h)
    • Elaboración de informe: 50% (22 h)

Se evaluará el desarrollo y logro de las competencias genéricas y específicas a través de los siguientes procedimientos:

  • Identificación y catalogación de un mínimo de quince recursos o herramientas lingüísticas accedidos desde la red (3

puntos).

  • Elaboración de un mínimo de seis artículos de análisis de los recursos o herramientas seleccionados (3 puntos).
  • Desarrollo en cooperación de un informe técnico completo, con el análisis y evaluación de al menos tres recursos o

herramientas (3 puntos).

  • Asistencia y participación (1 punto).

El proceso de evaluación puede sintetizarse de la siguiente manera:

  • COMPETENCIAS GENÉRICAS 10%
  • COMPETENCIAS ESPECÍFICAS 90%

Evaluación

  • CONTINUA 30% (los artículos serán evaluados durante el curso)
  • FINAL 70% (las reseñas documentales y el informe tecnicó se evaluarán una vez finalizado el curso)

Grading will take into account:

  • Language resouces identified and classified (on the range of 30) by students (del.icio.us accounts) 20%
  • Short language resource reviews (3 blog articles 20%), (6 blog articles 40%, in case of group reports)
  • Slide presentation (individual 20 %, group 10 %)
  • Reports: individual report 40% (draft 15%, final version 25%); group reports 30% (draft 10%, final version 20%)

Evaluation will take into account the following criteria:

  • Documentation (quotations and references of source material), avoiding plagiarism.
  • Quality of contents (style, grammar, originality, relevance), innovation of personal contribution
  • Adequacy (format, structure, contents)

Bibliography

Tony McEnery? and Andrew Wilson. (1996) Corpus Linguistics. Edinburgh University Press. Retrieved 11:15, April 30, 2008, from http://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/contents.htm

Computational linguistics. (2008, February 13). In Wikipedia, The Free Encyclopedia. Retrieved 09:25, February 19, 2008, from http://en.wikipedia.org/w/index.php?title=Computational_linguistics&oldid=191260363

Natural language processing. (2008, February 15). In Wikipedia, The Free Encyclopedia. Retrieved 09:26, February 19, 2008, from http://en.wikipedia.org/w/index.php?title=Natural_language_processing&oldid=191702989

Some examples of use

More bookmarks: http://del.icio.us/tag/language+resource

( in print )

Mona Baker. 1999. The role of corpora in investigating the linguistic behaviour of professional translators. International Journal of Corpus Linguistics 4-2: 1-18.

Douglas Biber y Edward Finegan. 1986. An initial typology of English text types. Jan Aarts y Willen Meijs (comp.) Corpus Linguistics II: New Studies in the Analysis and Exploitation of Computer Corpora. Rodopi: 19-46.

Geofrey Leech. 1993. Corpus annotation schemes. Literary and Linguistic Computing 8-4: 257-281.

McEnery?, Tony. 1992. Computational Linguistics: A handbook and toolbox for natural language processing. Sigma Press.

M T Pazienza. 1998. Information Extraction: A multi-disciplinary approach to an emerging information technology. Springer-Verlag.

Sperberg-McQueen? y Lou Burnard (comp.) 1994. Guidelines for Electronic Text Encoding and Interchange.

Personal tools