Lr1011

From EnWiki

Jump to: navigation, search

Contents

Language Resources (course 2010/11)

Lr1011/StudentList | Twitter#lr1011 | Delicious/lr1011



The term language resources refers to a set of speech or language data and descriptions in machine readable form, used e.g. for building, improving or evaluating natural language and speech algorithms or systems, or, as core resources for the software localisation and language services industries, for language studies, electronic publishing, international transactions, subject-area specialists and end users. Examples of language resources are written and spoken corpora, computational lexicons, terminology databases, speech collection and processing, etc. Basic software tools are also important for the acquisition, preparation, collection, management, customisation and use of these language resources and other resources. ELRA


Calendar

This is the planning for the course:

Feb. 1

Presentation (syllabus). See also Lr0910

Tools for linguistic resource discovery and bookmarking:

Web communication and networking tools

Our Delicious tag: http://delicious.com/tag/lr1011


Feb. 8

Registration

Posgradute programes

What are language resources?


Types of language resources

  • We are going to compare three taxonomies
    • German Language Technology Competence Center (2009, December 23). Language Technology World. Retrieved, 2010, February 12, from http://www.lt-world.org/
    • European Language Resources Association (2008). Catalogue of Language Resources. Retrieved, 2010, February 12, from http://catalog.elra.info/
    • LINGUIST List (2010, February 16). Language Resources Area. Retrieved, 2010, February 12, from http://linguistlist.org/langres/

Review also these Delicious tags

  • language, corpus, Basque/Spanish/English
  • dictionary, translation

European Language Resources Association. (2010, February 13). In Wikipedia, The Free Encyclopedia. Retrieved 10:09, February 17, 2009, from http://en.wikipedia.org/w/index.php?title=European_Language_Resources_Association&oldid=270423854

7th Language Resources and Evaluation Conference (2009, September 16). Call for papers. Retrieved February 16, 2010 from http://www.lrec-conf.org/lrec2010/?-Call-for-Papers-

Feb 15

Exercise:

Students (individually or in groups of maximun 3) will select one dictionary and prepare a thorough analysis of it, including information about:

  • Languages involved
  • Background, type of resource, affiliation (who is supporting it)
  • Services provided: monolingual, bilingual, thesaurus
  • Structure and composition of entries
  • Examples
  • Comparison with other similar dictionaries
  • Bibliography of scholarly works on that dictionary
  • Summary of information published on the blogosphere

Dictionaries

See also

Background

Dictionary. (2011, February 5). In Wikipedia, The Free Encyclopedia. Retrieved 09:49, February 12, 2011, from http://en.wikipedia.org/w/index.php?title=Dictionary&oldid=412185798

Singh, Ram A. (1982) An Introduction to Lexicography (CIIL Occasional Monograph Series 26). Mysore: Central Institute of Indian Languages. Retrieved February 12, 2011, from http://www.ciil-ebooks.net/html/lexico/link5.htm

Sinclair, J. M. (1987). Looking Up: An account of the COBUILD Project in lexical computing and the development of the Collins COBUILD English Language Dictionary. Collins ELT.

COBUILD. (2009, December 16). In Wikipedia, The Free Encyclopedia. Retrieved 09:23, February 23, 2010, from http://en.wikipedia.org/w/index.php?title=COBUILD&oldid=332036956

Christopher Manning (2010, February 17 )Statistical natural language processing and corpus-based computational linguistics: An annotated list of resources, retrieved 23rd Februrary 2010 from http://nlp.stanford.edu/links/statnlp.html

Feb. 22

  • Review of latest tweets.
  • Drafts (of dictionary reviews) as posts or pages?
    • Posts: News, briefs, short reviews. Once published should not be changed!
    • Pages: Monographic information that may need updating. Similar to Wikipedia articles, these are never finished.
  • Categories and tags
    • Categories: hierarchical (in our case, with 2 or 3 levels), agreed
    • Tags: flat, spontaneous
  • Which category system for Deusto Review on Language Resources?

March 1

March 8

March 15

March 22

  • Presentation and check-up of corpus reviews

March 29

  • Draft of corpus reviews

April 5

  • Introduction to Machine Translation: Deusto's inventory of MT evaluations

April 12 (deadline dictionaries and corpus)

  • Drafts of MT
  • Deadline of dictionaries and corpus reviews

April 19

  • Selection of one of the three reviews for slide presentation
  • Slide preparation

May 3

May 10

Exam day (deadline MT)

  • Deadline of MT review
  • Deadline for final slide publication

Official sylabus

Esta asignatura contribuye a la formación del filólogo capacitándole para participar en la elaboración de materiales documentales y lingüísticos en entornos profesionales. El alumno adquirirá los rudimentos necesarios para poder colaborar en el desarrollo de materiales lingüísticos informatizados. Está vinculada con las asignaturas de nuevas tecnologías y de lingüística.

Prerrequisitos

Se recomienda hábito de trabajo con el ordenador, especialmente habilidad para recuperar, seleccionar y elaborar información. Estrategias comunicativas adaptadas al medio informático. Capacidad para la expresión escrita en español y/o euskera. Comprensión oral y escrita en inglés.

Resultados de aprendizaje

  • Comprender y cuestionar los modelos teóricos de la disciplina y profundizar al mismo tiempo en la búsqueda de nuevas áreas de información y estudio (Orientación al aprendizaje).
  • Generar fichas documentales describiendo los recursos linguísticos accedidos desde la red.
  • Analizar y evaluar la funcionalidad de los recursos y herramientas lingüísticos seleccionados.
  • Generar un informe técnico describiendo la práctica realizada y aportando datos documentales relevantes.

Contenidos

  1. Lexicografía computacional (diccionarios electrónicos, bases de datos léxicas).
  2. Métodos de análisis morfosintáctico (flexión y derivación, lematización, categorización) y sintáctico.
  3. Gramáticas informatizadas.
  4. Redes semánticas, tesauros, web semántica, ontologías, taxonomías, modelos de representación.
  5. Tipología textual. Lingüística de corpus. Tipos de corpus. Corpus textuales etiquetados lingüísticamente. La iniciativa TEI.
  6. Herramientas lingüísticas aplicadas: traducción, enseñanza de lenguas, etc.

Metodología

La asignatura se desarrollará en grupo y tendrá como objetivo la utilización y el análisis en profundidad de al menos tres recursos o herramientas lingüísticas.

El profesor realizará una exposición genérica de los principales recursos y herramientas disponibles en la red y los grupos elegirán aquellos sobre los que deseen realizar el trabajo práctico.

Las estrategias de aprendizaje utilizadas serán:

  1. Introducción por parte del profesor.
  2. Consulta de reseñas y páginas de referencia sobre principales recursos.
  3. Debate y selección de recursos en grupo para realización de trabajo práctico.
  4. Realización de pruebas de funcionamiento.
  5. Obtención de resultados, análisis, comparación entre herramientas.
  6. Elaboración de informe de evaluación.

De acuerdo con los 3,5 ECTS asignados, la dedicación requerida al alumnado para el seguimiento de la asignatura y el cumplimiento de los objetivos es de 85h, que se distribuirán de acuerdo a los siguientes tiempos estimados de trabajo:

  • Dentro del aula: 39 horas
    • Introducción del profesor : 25% (10 h)
    • Trabajo en grupo: 75% (29 h)
  • Fuera del aula: 46 horas
    • Documentación : 25% (12 h)
    • Utilización de herramientas: 25% (12 h)
    • Elaboración de informe: 50% (22 h)

Se evaluará el desarrollo y logro de las competencias genéricas y específicas a través de los siguientes procedimientos:

  • Identificación y catalogación de un mínimo de quince recursos o herramientas lingüísticas accedidos desde la red (3

puntos).

  • Elaboración de un mínimo de seis artículos de análisis de los recursos o herramientas seleccionados (3 puntos).
  • Desarrollo en cooperación de un informe técnico completo, con el análisis y evaluación de al menos tres recursos o

herramientas (3 puntos).

  • Asistencia y participación (1 punto).

El proceso de evaluación puede sintetizarse de la siguiente manera:

  • COMPETENCIAS GENÉRICAS 10%
  • COMPETENCIAS ESPECÍFICAS 90%

Evaluation

  • CONTINUA 30% (los artículos serán evaluados parcialmente durante el curso)
  • FINAL 70% (las reseñas documentales y el informe tecnicó se evaluarán una vez finalizado el curso)

Grading will take into account:

  • Language resouces identified and classified (on the range of 100) by students (delicious.com accounts) 30% (of which 10% will be partially evaluated during the course)
  • Reviews of language resources (3 blog articles 40%, of which 15% will be partially evaluated during the course)
  • Slide presentation (15%)
  • Twitter (15%, of which 5% will be partially evaluated during the course)

Evaluation will take into account the following criteria:

  • Documentation (quotations and references of source material), avoiding plagiarism.
  • Quality of contents (style, grammar, originality, relevance), innovation of personal contribution
  • Adequacy (format, structure, contents)

Bibliography

Tony McEnery? and Andrew Wilson. (1996) Corpus Linguistics. Edinburgh University Press. Retrieved 11:15, April 30, 2008, from http://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/contents.htm

Computational linguistics. (2008, February 13). In Wikipedia, The Free Encyclopedia. Retrieved 09:25, February 19, 2008, from http://en.wikipedia.org/w/index.php?title=Computational_linguistics&oldid=191260363

Natural language processing. (2008, February 15). In Wikipedia, The Free Encyclopedia. Retrieved 09:26, February 19, 2008, from http://en.wikipedia.org/w/index.php?title=Natural_language_processing&oldid=191702989

Some examples of use

More bookmarks: http://del.icio.us/tag/language+resource

( in print )

Mona Baker. 1999. The role of corpora in investigating the linguistic behaviour of professional translators. International Journal of Corpus Linguistics 4-2: 1-18.

Douglas Biber y Edward Finegan. 1986. An initial typology of English text types. Jan Aarts y Willen Meijs (comp.) Corpus Linguistics II: New Studies in the Analysis and Exploitation of Computer Corpora. Rodopi: 19-46.

Geofrey Leech. 1993. Corpus annotation schemes. Literary and Linguistic Computing 8-4: 257-281.

McEnery?, Tony. 1992. Computational Linguistics: A handbook and toolbox for natural language processing. Sigma Press.

M T Pazienza. 1998. Information Extraction: A multi-disciplinary approach to an emerging information technology. Springer-Verlag.

Sperberg-McQueen? y Lou Burnard (comp.) 1994. Guidelines for Electronic Text Encoding and Interchange.

Personal tools