Herramientas

Própios

Generación y Evaluación de Corpus

  • Ancora-Pipe, herramienta para la anotación de corpus (Universitat de Barcelona)
  • WaCOS (The Watermarking Corpora Online System): Herramienta para la evaluación de corpus. http://nlp.dsic.upv.es:8080/watermarker (Universidad Politécnica de Valencia)

Clustering/clasificación documental

Metodologías: basado en NER, basado en léxico

Experimentación: combinación óptima de técnicas de ML

Adquisición de patrones

Aplicación: IE Información temporal

Experimentación: contenido semántico

Reconocimiento y clasificación de Entidades Nombradas (NERC)

Experimentación: combinación óptima de métodos de ML

Lenguas: Español/Inglés y extensión con recursos pobres: Italiano/Portugués/Árabe

  • SVM Model for Arabic NER, this is a Named Entity Recognition model which is trained using an SVM-based approach over a 125,000 Arabic tokens training file http://www.dsic.upv.es/grupos/nle/ (Universidad Politécnica de Valencia)
  • NERUA es un sistema de reconocimiento de entidades para el español. Realiza el etiquetado de las entidades en cuatro categorías: PERSONA, LOCALIZACION, ORGANIZACION y MISCELÁNEA (aquellas que no corresponden a ninguna de las categorías anteriores). Para el reconocimiento y la clasificación, NERUA emplea tres algoritmos de aprendizaje automático: Hidden Markov Model, Máxima Entropía y Memory-based learner. Para su aprendizaje y evaluación se utilizaron los recursos proporcionados por la conferencia CoNLL-2002. Además, NERUA tiene la opción de utilizar una combinación de los clasificadores mediante una estrategia de votación simple. Publicación 1 Publicación 2 (Universidad de Alicante)

Descubrimiento de conocimiento e implicación textual

Experimentación: aproximaciones léxica (similitud semántica) y sintáctica

Aplicaciones: validación de respuestas, razonamiento temporal, atribución de autorías

Lenguas: Español/Inglés y extensión con recursos pobres: Catalán/Italiano

  • DLSITE es un sistema de implicación textual, que reconoce relaciones unidireccionales entre los significados de dos textos siguiendo la definición del concepto de Textual Entailment. Afronta las implicaciónes desde tres perspectivas: Léxica, Sintáctica y Semántica, además el hecho de hacer frente a esta tarea desde diferentes puntos de vista permite: (i) identificar los diferentes niveles de implicación que pueden darse; (ii) mejorar el rango de reconocimiento; y (iii) combinara adecuadamente las inferencias lexico-sintáctico-semánticas procesadas individualmente. Publicación 1 Publicación 2 (Universidad de Alicante)

Adaptación a dominios específicos

Experimentación: conexión automática entre ontologías para NERC

  • Sistema de Búsqueda de Respuestas para dominio Médico (Basado en la explotación de UMLS+WordNet) Publicación (Unversidad de Alicante)

Análisis del Lenguaje

  • Freeling is a library providing language analysis services. FreeLing is designed to be used as an external library from any application requiring this kind of services. This language analysis tool suite is released under the GNU General Public License of the Free Software Foundation http://garraf.epsevg.upc.es/freeling/ (Universidad Politécnica de Cataluña)
  • Jointparser is a data-driven parser that jointly performs both syntactic dependency parsing and shallow semantic parsing http://www.lsi.upc.edu/~xlluis/jointparser (Universidad Politécnica de Cataluña)
  • SVMTool, A simple, flexible, and effective generator of sequential taggers based on Support Vector Machines http://www.lsi.upc.edu/~nlp/SVMTool/ (Universidad Politécnica de Cataluña)
  • SUPAR. (Slot Unification Parser for Anaphora Resolution) Es un Sistema de Procesamiento de Lenguaje Natural orientado al análisis sintáctico (completo parcial) y a la resolución de la anáfora. Éste sistema puede incorporar cualquier etiquetador léxico (POS tagger). Publicación 1 Publicación 2 (Universidad de Alicante)
  • HMM PoS ACOPOST, PoS Tagger que está basado en el algoritmo de HMM implementado an la herramienta ACOPOST. Está entrenado para el español con el corpus CLIP-TALP http://gplsi.dlsi.ua.es/mwgplsi/index.php/Portada (Universidad de Alicante)
  • SemRol, herramienta basada en corpus para la anotación con roles semánticos de los constituyentes de una oración respecto al verbo. Conjunto de roles y corpus de entrenamiento: PropBank Publicación 1 Publicación 2 (Universidad de Alicante)

Recuperación de Información

  • JIRS is a information retrieval system specially suited for question answering based-on n-gram search http://sourceforge.net/projects/jirs/ (Universidad Politécnica de Valencia).
  • Arabic JIRS, arabic JIRS is an adaptation of the JIRS system to the Arabic language. It is a passage retrieval system for Arabic texts which return a set of relevant passages to the user's query (which is written in Arabic) http://www.dsic.upv.es/grupos/nle/ (Universidad Politécnica de Valencia y Universidad de Alicante)
  • IR-n, El sistema IR-n es un sistema de recuperación de información basada en pasajes que utiliza un modelo probabilístico como motor de búsqueda y además utiliza un módulo de expansión de la pregunta que mejora los resultados obtenidos Publicación (Universidad de Alicante)

Desambiguación de Sentidos

Resúmenes

  • LCsum, a summarizer for different tasks involving aspects related with the language, the media and the domain of the document to be summarized http://nidhoggr.lsi.upc.edu/~demo/summary.html (Universidad Politécnica de Cataluña)
  • AutoPan, this is a tool that helps in the evaluation of Automatic Summaries. In DUC 2001 to 2004, the manual evaluation was based on comparison with a single human-written model and a lot of the information of evaluated summaries (both human and automatic) was marked as “related to the topic, but not directly expressed in the model summary”. The pyramid method (proposed by [Nenkova and Passoneau, 04]) addresses the problem by using multiple human summaries to create a gold-standard and by exploiting the frequency of information in the human summaries in order to assign importance to different facts. However, the method of pyramids for evaluation requires a human annotator to match fragments of text in the system summaries to the SCUs in the pyramids. We have tried to automate this part of the process http://www.lsi.upc.edu/~egonzalez/autopan.html (Universidad Politécnica de Cataluña)

Librerías y software de propósito general

  • JDBIR library, librería JAVA para crear bases de datos especialmente adaptadas para el tratamiento de ficheros invertidos http://sourceforge.net/projects/jirs/ (Universidad Politécnica de Valencia)
  • IQmt is a common workbench on which automatic MT evaluation metrics can be robustly used and combined for the purpose of MT system development. Current version includes a rich set of metrics operating at different linguistic levels (lexical, shallow syntactic, syntactic, and shallow semantic) http://www.lsi.upc.edu/~nlp/IQMT (Universidad Politécnica de Cataluña)
  • OMLET & FRIES, Omlet is an open source library providing services oriented to easily develop machine-learning based applications and experiments. Fries is an open source library useful to convert natural language sentences to feature vectors suitable to be input to Machine Learning algorithms http://www.lsi.upc.edu/~nlp/omlet+fries (Universidad Politécnica de Cataluña)
  • JPM Framework, es un framework para el desarrollo de aplicaciones de PLN que permite generar aplicaciones a partir de módulos (procesos y métodos) definidos en un archivo de configuración http://sourceforge.net/projects/jirs/ (Universidad de Alicante)
  • QARLA, a framework on which automatic evaluation metrics over reference outputs can be robustly combined for the purpose of machine translation, summarization or language generation system development. This tool allows to combine metrics operating at different linguistic levels (lexical, shallow syntactic, syntactic, and shallow semantic). The framework provides measures to quantify the power of metric combinations and the appropriateness of the testbed. http://www.lsi.upc.edu/~nlp/IQMT (Universidad Politécnica de Cataluña)
  • InTime: La plataforma InTime permite conocer, acceder utilizar y compartir datos y herramientas de PLN. Consta de una arquitectura distribuida similar a las redes P2P basada en servicios Web. Los usuarios de InTime tienen la posibilidad de publicar sus propios recursos de PLN y compartirlos con el resto del mundo usando tecnologías de la Web 2.0. http://intime.dlsi.ua.es (Universidad de Alicante)

Recopilación De Terceros

Generación y Evaluación de Corpus

Recuperación de Información

Análisis de Lenguaje

Aprendizaje Automático

herramientas.txt · Última modificación: 2009/07/28 12:08 por admin
CC Attribution-Noncommercial-Share Alike 3.0 Unported www.chimeric.de Valid CSS Driven by DokuWiki do yourself a favour and use a real browser - get firefox!! Recent changes RSS feed Valid XHTML 1.0