Lr1011
From EnWiki
|
Language Resources (course 2010/11)
Lr1011/StudentList | Twitter#lr1011 | Delicious/lr1011
The term language resources refers to a set of speech or language data and descriptions in machine readable form, used e.g. for building, improving or evaluating natural language and speech algorithms or systems, or, as core resources for the software localisation and language services industries, for language studies, electronic publishing, international transactions, subject-area specialists and end users. Examples of language resources are written and spoken corpora, computational lexicons, terminology databases, speech collection and processing, etc. Basic software tools are also important for the acquisition, preparation, collection, management, customisation and use of these language resources and other resources. ELRA
Calendar
This is the planning for the course:
Feb. 1
Presentation (syllabus). See also Lr0910
Tools for linguistic resource discovery and bookmarking:
- Delicious: http://delicious.com/tag/language
- Citeulike: http://www.citeulike.org/tag/language
Web communication and networking tools
- Twitter: #lr0910 #lr1011 hashtags
- Blog: http://lingvoresurso.wordpress.com/
- Linkedin: NLP, Corpora
Our Delicious tag: http://delicious.com/tag/lr1011
Feb. 8
Registration
Posgradute programes
What are language resources?
- European Language Resources Association http://www.elra.info/
- Language Resource Management: Delicious bookmarks
Types of language resources
- We are going to compare three taxonomies
- German Language Technology Competence Center (2009, December 23). Language Technology World. Retrieved, 2010, February 12, from http://www.lt-world.org/
- European Language Resources Association (2008). Catalogue of Language Resources. Retrieved, 2010, February 12, from http://catalog.elra.info/
- LINGUIST List (2010, February 16). Language Resources Area. Retrieved, 2010, February 12, from http://linguistlist.org/langres/
Review also these Delicious tags
- language, corpus, Basque/Spanish/English
- dictionary, translation
European Language Resources Association. (2010, February 13). In Wikipedia, The Free Encyclopedia. Retrieved 10:09, February 17, 2009, from http://en.wikipedia.org/w/index.php?title=European_Language_Resources_Association&oldid=270423854
7th Language Resources and Evaluation Conference (2009, September 16). Call for papers. Retrieved February 16, 2010 from http://www.lrec-conf.org/lrec2010/?-Call-for-Papers-
Feb 15
Exercise:
Students (individually or in groups of maximun 3) will select one dictionary and prepare a thorough analysis of it, including information about:
- Languages involved
- Background, type of resource, affiliation (who is supporting it)
- Services provided: monolingual, bilingual, thesaurus
- Structure and composition of entries
- Examples
- Comparison with other similar dictionaries
- Bibliography of scholarly works on that dictionary
- Summary of information published on the blogosphere
Dictionaries
- http://www.answers.com/
- http://www.wordreference.com/
- http://dictionary.reference.com/
- http://www.collinslanguage.com/
See also
- http://delicious.com/tag/dictionaries
- http://delicious.com/tag/dictionary
- http://delicious.com/tag/dictionaries+dictionary
- http://delicious.com/tag/diccionarios
- http://www.citeulike.org/tag/lexicon
- http://en.wikipedia.org/wiki/Category:English_dictionaries
Background
Dictionary. (2011, February 5). In Wikipedia, The Free Encyclopedia. Retrieved 09:49, February 12, 2011, from http://en.wikipedia.org/w/index.php?title=Dictionary&oldid=412185798
Singh, Ram A. (1982) An Introduction to Lexicography (CIIL Occasional Monograph Series 26). Mysore: Central Institute of Indian Languages. Retrieved February 12, 2011, from http://www.ciil-ebooks.net/html/lexico/link5.htm
Sinclair, J. M. (1987). Looking Up: An account of the COBUILD Project in lexical computing and the development of the Collins COBUILD English Language Dictionary. Collins ELT.
COBUILD. (2009, December 16). In Wikipedia, The Free Encyclopedia. Retrieved 09:23, February 23, 2010, from http://en.wikipedia.org/w/index.php?title=COBUILD&oldid=332036956
Christopher Manning (2010, February 17 )Statistical natural language processing and corpus-based computational linguistics: An annotated list of resources, retrieved 23rd Februrary 2010 from http://nlp.stanford.edu/links/statnlp.html
Feb. 22
- Review of latest tweets.
- Drafts (of dictionary reviews) as posts or pages?
- Posts: News, briefs, short reviews. Once published should not be changed!
- Pages: Monographic information that may need updating. Similar to Wikipedia articles, these are never finished.
- Categories and tags
- Categories: hierarchical (in our case, with 2 or 3 levels), agreed
- Tags: flat, spontaneous
- Which category system for Deusto Review on Language Resources?
March 1
- Due for today: A draft of a dictionary review
- An introduction to Corpus Linguistics
- Resources with 'corpus' tag: http://www.delicious.com/joseba_abaitua/corpus
- An example: Linguee, the Web as a dictionary http://www.linguee.com/
- SlideShare: A brief introduction of corpus http://www.slideshare.net/yaoyao112358/a-brief-introduction-of-corpus
- Course: Mark Davis, LING 485: CORPUS LINGUISTICS http://davies-linguistics.byu.edu/ling485/
- Project: W3-Corpora Project at the University of Essex http://www.essex.ac.uk/linguistics/external/clmt/w3c/corpus_ling/content/
March 8
- Corpus Linguistics
- First approach to Mark Davis Corpus of Contemporary American English http://corpus.byu.edu/coca
- Preparing a set of query samples
- Semana de las Lenguas
- 11.00h. Bonaparte Ondareko Eskuizkribuak Rosa Miren Pagola (Hitzaldi Aretoa)
March 15
- Corpus Linguistics: Searching in
- Bonaparte Ondarea (Rosa Miren Pagola, Deustuko Unibertsitatea)
- Zientzia eta Teknologiaren Corpusa (Elhuyar Fundazioa)
- Ereduzko prosa gaur (EHUko Euskara Zerbitzua)
- Corpus of Contemporary American English (Mark Davis, Brigham Young University)
March 22
- Presentation and check-up of corpus reviews
March 29
- Draft of corpus reviews
April 5
- Introduction to Machine Translation: Deusto's inventory of MT evaluations
April 12 (deadline dictionaries and corpus)
- Drafts of MT
- Deadline of dictionaries and corpus reviews
April 19
- Selection of one of the three reviews for slide presentation
- Slide preparation
- Before you start your own slides, please view these:
- Pablo Garaizar (16.04.2008) Como se presenta una idea. Web2.0 y redes sociales virtuales. Retrieved 27.04.2010 from http://websocial.eside.deusto.es/como-se-presenta-una-idea/.
May 3
- Deadline for slide drafts
- Slide presentations
May 10
- Slide presentations
- --Naroa Pérez
- --Leire Zamalloa
- --Arkaitz Arrizabalaga
- --Ibanberri
- --Ana Cristina Guerra
- --Irati Garaioa
- --Ayanta García
- --Ainhoa Causo
- --Yera Espinosa
- --Laura Menendez, eg. WordPress [slideshare id=7588240&doc=britishnationalcorpus-110411091608-phpapp02]
Exam day (deadline MT)
- Deadline of MT review
- Deadline for final slide publication
Official sylabus
Esta asignatura contribuye a la formación del filólogo capacitándole para participar en la elaboración de materiales documentales y lingüísticos en entornos profesionales. El alumno adquirirá los rudimentos necesarios para poder colaborar en el desarrollo de materiales lingüísticos informatizados. Está vinculada con las asignaturas de nuevas tecnologías y de lingüística.
Prerrequisitos
Se recomienda hábito de trabajo con el ordenador, especialmente habilidad para recuperar, seleccionar y elaborar información. Estrategias comunicativas adaptadas al medio informático. Capacidad para la expresión escrita en español y/o euskera. Comprensión oral y escrita en inglés.
Resultados de aprendizaje
- Comprender y cuestionar los modelos teóricos de la disciplina y profundizar al mismo tiempo en la búsqueda de nuevas áreas de información y estudio (Orientación al aprendizaje).
- Generar fichas documentales describiendo los recursos linguísticos accedidos desde la red.
- Analizar y evaluar la funcionalidad de los recursos y herramientas lingüísticos seleccionados.
- Generar un informe técnico describiendo la práctica realizada y aportando datos documentales relevantes.
Contenidos
- Lexicografía computacional (diccionarios electrónicos, bases de datos léxicas).
- Métodos de análisis morfosintáctico (flexión y derivación, lematización, categorización) y sintáctico.
- Gramáticas informatizadas.
- Redes semánticas, tesauros, web semántica, ontologías, taxonomías, modelos de representación.
- Tipología textual. Lingüística de corpus. Tipos de corpus. Corpus textuales etiquetados lingüísticamente. La iniciativa TEI.
- Herramientas lingüísticas aplicadas: traducción, enseñanza de lenguas, etc.
Metodología
La asignatura se desarrollará en grupo y tendrá como objetivo la utilización y el análisis en profundidad de al menos tres recursos o herramientas lingüísticas.
El profesor realizará una exposición genérica de los principales recursos y herramientas disponibles en la red y los grupos elegirán aquellos sobre los que deseen realizar el trabajo práctico.
Las estrategias de aprendizaje utilizadas serán:
- Introducción por parte del profesor.
- Consulta de reseñas y páginas de referencia sobre principales recursos.
- Debate y selección de recursos en grupo para realización de trabajo práctico.
- Realización de pruebas de funcionamiento.
- Obtención de resultados, análisis, comparación entre herramientas.
- Elaboración de informe de evaluación.
De acuerdo con los 3,5 ECTS asignados, la dedicación requerida al alumnado para el seguimiento de la asignatura y el cumplimiento de los objetivos es de 85h, que se distribuirán de acuerdo a los siguientes tiempos estimados de trabajo:
- Dentro del aula: 39 horas
- Introducción del profesor : 25% (10 h)
- Trabajo en grupo: 75% (29 h)
- Fuera del aula: 46 horas
- Documentación : 25% (12 h)
- Utilización de herramientas: 25% (12 h)
- Elaboración de informe: 50% (22 h)
Se evaluará el desarrollo y logro de las competencias genéricas y específicas a través de los siguientes procedimientos:
- Identificación y catalogación de un mínimo de quince recursos o herramientas lingüísticas accedidos desde la red (3
puntos).
- Elaboración de un mínimo de seis artículos de análisis de los recursos o herramientas seleccionados (3 puntos).
- Desarrollo en cooperación de un informe técnico completo, con el análisis y evaluación de al menos tres recursos o
herramientas (3 puntos).
- Asistencia y participación (1 punto).
El proceso de evaluación puede sintetizarse de la siguiente manera:
- COMPETENCIAS GENÉRICAS 10%
- COMPETENCIAS ESPECÍFICAS 90%
Evaluation
- CONTINUA 30% (los artículos serán evaluados parcialmente durante el curso)
- FINAL 70% (las reseñas documentales y el informe tecnicó se evaluarán una vez finalizado el curso)
Grading will take into account:
- Language resouces identified and classified (on the range of 100) by students (delicious.com accounts) 30% (of which 10% will be partially evaluated during the course)
- Reviews of language resources (3 blog articles 40%, of which 15% will be partially evaluated during the course)
- Slide presentation (15%)
- Twitter (15%, of which 5% will be partially evaluated during the course)
Evaluation will take into account the following criteria:
- Documentation (quotations and references of source material), avoiding plagiarism.
- Quality of contents (style, grammar, originality, relevance), innovation of personal contribution
- Adequacy (format, structure, contents)
Bibliography
Tony McEnery? and Andrew Wilson. (1996) Corpus Linguistics. Edinburgh University Press. Retrieved 11:15, April 30, 2008, from http://bowland-files.lancs.ac.uk/monkey/ihe/linguistics/contents.htm
Computational linguistics. (2008, February 13). In Wikipedia, The Free Encyclopedia. Retrieved 09:25, February 19, 2008, from http://en.wikipedia.org/w/index.php?title=Computational_linguistics&oldid=191260363
Natural language processing. (2008, February 15). In Wikipedia, The Free Encyclopedia. Retrieved 09:26, February 19, 2008, from http://en.wikipedia.org/w/index.php?title=Natural_language_processing&oldid=191702989
Some examples of use
More bookmarks: http://del.icio.us/tag/language+resource
( in print )
Mona Baker. 1999. The role of corpora in investigating the linguistic behaviour of professional translators. International Journal of Corpus Linguistics 4-2: 1-18.
Douglas Biber y Edward Finegan. 1986. An initial typology of English text types. Jan Aarts y Willen Meijs (comp.) Corpus Linguistics II: New Studies in the Analysis and Exploitation of Computer Corpora. Rodopi: 19-46.
Geofrey Leech. 1993. Corpus annotation schemes. Literary and Linguistic Computing 8-4: 257-281.
McEnery?, Tony. 1992. Computational Linguistics: A handbook and toolbox for natural language processing. Sigma Press.
M T Pazienza. 1998. Information Extraction: A multi-disciplinary approach to an emerging information technology. Springer-Verlag.
Sperberg-McQueen? y Lou Burnard (comp.) 1994. Guidelines for Electronic Text Encoding and Interchange.

