Recursos, herramientas y sistemas generados

En esta sección podrás ver todos los resultados obtenidos durante el desarrollo del Text-Mess 2.0. Aquí encontrarás tanto recursos para el Procesamiento del Lenguaje Natural, como herramientas y sistemas completos. Algunos de ellos te los podrás descargar y probar.

EVOCA (English Version of OCA) es un corpus en inglés generado a partir de la traducción del corpus OCA en árabe. Este corpus contiene comentarios de películas y está dividido en 250 comentarios considerados "positivos" y 250 negativos.

This corpus has been prepared by SINAI group in December,2008. SINAI SA (Sentiment Analysis) was created by crawling the Amazon website. Almost 2,000 reviews were extracted about different cameras.

OCA es un corpus en árabe sobre comentarios de películas.

Este recurso son 6305 preguntas en español etiquetadas para clasificación de Búsqueda de Respuestas, siguiendo la taxonomía definida en el artículo "X. Li and D. Roth. Learning Question Classifiers", y que tiene las siguientes categorías generales y detalladas:

TIPSem is a complete temporal information processing system which annotates timexes, events and temporal relations from raw text. It is developed for English and Spanish and follows the TimeML standard. TIPSem is based on semantics (semantic roles and lexical semantics) but there is also a baseline version (TIPSemB) which is only based on morphosyntax. TIPSem offers better efficacy but TIPSemB offers a good efficacy and a higher efficiency.

This is a corpus composed of a set of 5 original text fragments (written in English) which have been plagiarised by multiple persons and machine translators (including versions in Spanish and Italian). The corpus has been designed for the development (and test) of Cross-Lingual Plagiarism Analysis applications.

This corpus contains documents in which artificial plagiarism has been inserted automatically. The corpus can be used to evaluate two kinds of plagiarism detection tasks: (i) External plagiarism detection; and (ii) Intrinsic plagiarism detection.

This corpus has been generated for the analysis of co-derivatives, text reuse and plagiarism (of course, simulated). It is composed of more than 20,000 documents from Wikipedia in German, English, Hindi and Spanish (around 5,000 documents per language). For each language, some of the most frequently consulted articles in Wikipedia have been considered as pivot and ten of its revisions were downloaded, which compose the set of co-derivatives.

The corpus includes texts in Dutch, English, French,
German, Polish, and Spanish. It is divided into two sections: (i) comparable, including texts on the same topic extracted from Wikipedia; and (ii) parallel, including texts extracted from the JRC-Acquis corpus. In both cases, documents on the six languages are included (be parallel or just on the same topic). The objective is considering two of the most common cross-language plagiarism detection tasks: detection of exact translations and detection of related documents.

It consists of positive and negative drug target abstracts from DrugBank and PubMed. It was created with abstracts published from 1995 to 2003.

It contains an exhaustive list of forms weighted according to the distributions of corresponding grammar classes in reference corpora.

It contains 3,000 opinions on the domain of tourism. These opinions have been obtained from the TripAdvisor blog.

This file contains the elements to represent all the dimensions regarding Signatures feature.

This file contains about 1000 ironic quotes manually retrieved from the Web.

This file contains different comments regarding four products. These comments contain ironic, funny, satiric and sarcastic content.

This corpus contains documents in which artificial and simulated plagiarism has been inserted. The corpus can be used to evaluate two kinds of plagiarism detection tasks: (i) External plagiarism detection; and (ii) Intrinsic plagiarism detection.

This toy corpus is composed of a set of source codes written in Python and source codes manually tranlated source codes into C and Java. Those translations represent a partial re-use from the Python sources. The corpus has been designed for the development (and test) of Cross-Lingual Source Code Re-use/Plagiarism Analysis applications.

A tool to measure the changes in the style of text

A tool for detecting source code reuse across programming languages

Metabuscador de oportunidades de negocio y exportación inteligente. Es un buscador que hace uso de otros buscadores y, además, reastrea distintas fuentes especializadas en oportuniades de negocio y mercados internacionales. Es capaz de clasificar y categorizar los resultados así como permitir valorar los resultados por los usuarios con el objetivo de mejorar sus resultados.

COMPENDIUM is a Text Summarization system capable of generating generic informative summaries for English of a specific length provided by the user. As it can be seen in the user interface, COMPENDIUM relies on three different stages and techniques for generating a summary: - Redundancy Detection (RedD) is performed by employing textual entailment, - Topic Identification (TI) is achieved by word frequency, and - Relevance Detection (RelD) is obtained by the code quantity principle.

Buscador multimodal de imágenes y texto que hace uso del estilo de la imagen y de las palabras claves para afinar los resultados.

Plataforma de integración de herramientas y recursos.

Sistema que analiza los tweets de Twitter y valora la opinión que en ellos se expresa sobre distintos temas.

Léxico de nombres deverbales derivado de forma automática a partir de la anotación de la estructura argumental y el tipo denotativo del corpus AnCora 2.0. Contenido: 1.655 entradas léxicas, con 3.094 sentidos distintos asociadas a su correspondiente entrada verbal de AnCora-Verb.

Léxico multilingüe catalán, español, euskera e inglés que combina información sintáctico-semántica y conceptual procedente de las fuentes integradas: los léxicos AnCora-Verb-ES, AnCora-Verb-CA y EPEC-ADI del español, catalán y euskera respectivamente. Está conectado al Unified Verb Index (UVI)1. Este índice aúna diferentes fuentes léxicas del inglés: VerbNet, PropBank, FrameNet, WordNet 3.0 y OntoNotes.

Incluye un corpus del español (AnCora-ES) y un corpus del catalán (AnCora-CA) de 500.000 palabras cada uno formado principalmente por textos escritos de tipo periodístico. Se trata de un corpus anotado a diferentes niveles lingüísticos –morfología, sintaxis, semántica léxica y oracional, NE, correferencia.

Corpus oral multilingüe (catalán, español) formado por 40 entrevistas clínicas grabadas en el servicio de neumología del Hospital Municipal de Badalona (Barcelona). Se ha codificado y transcrito ortográfica y fonéticamente y anotado morfológicamente con validación manual.

Se trata de un corpus del catalán de 2.400 encuestas (210.372 palabras) realizadas a escolares de 6 a 16 años. Cada encuesta incluye 5 áreas de vocabulario, tres definiciones, una narración y un chiste. El corpus se recogió en textos escritos a mano. Estos textos han sido digitalizados y almacenados en una base de datos. Se ha realizado la anotación morfológica y validado manualmente.

Este corpus incluye un sub-corpus en castellano -Spencer-ES (80.000 palabras)- y otro en catalán -Spencer-Ca (80.000 palabras)-, formados cada uno por 320 textos producidos por 80 castellanohablantes monolingües y por 80 hablantes bilingües catalán/castellano respectivamente. Los textos incluyen tanto narraciones escritas como transcripciones ortográficas de narraciones orales. Se ha realizado la anotación morfológica y se ha validado manualmente.

Corpus escrito del español extraído de la web que contiene opiniones sobre hoteles (800.000 palabras). Se ha realizado la anotación morfológica y se ha validado manualmente.

Ident-EN y NIdent-CA son dos corpus, del inglés y catalán respectivamente, anotados con etiquetas de casi-identidad. NIdent-EN consta de 49.279 palabras y tiene su origen en el corpus NP4E (Hasler et al., 2006) de la agencia de noticias Reuters. NIdent-CA se ha obtenido a partir del corpus AnCora-CA (Recasens y Martí, 2010) y consta de 51.622 palabras

Corpus del inglés consistente en 847 pares parafrásticos extraídos del corpus PAN-PC-10. El corpus se ha anotado con los tipos de paráfrasis que en ellos tienen lugar. Cada anotación consiste en una etiqueta que define el tipo (por ejemplo, cambio de orden) y un ámbito de aplicación de dicha etiqueta (fragmento de texto correspondiente a este cambio de orden).

Consiste en 3.800 pares parafrásticos del corpus MSRP anotados con tipos de paráfrasis con los mismos criterios que el corpus P4P.

Corpus de paráfrasis extraído automáticamente de la Wikipedia con el sistema WRPA. Contiene paráfrasis de relaciones, en las que se expresa algún tipo de relación entre dos entidades, en concreto, paráfrasis que expresan la relación de autoría en castellano (de la Wikipedia en castellano), y casos que expresan las relaciones de persona-fecha de nacimiento, -fecha de defunción, -lugar de nacimiento en inglés (de la Wikipedia en inglés).

Subconjuntos de 1000 pares del corpus WRPA que expresan la relación de autoría anotados con tipos de paráfrasis con los mismos criterios arriba mencionados.

Corpus bilingüe paralelo Ruso-Español formado por textos literarios rusos traducidos al español y traducciones juradas. Los textos rusos contienen un total de 301.077 palabras y las traducciones españolas 393.468 palabras.

Sistema que permite extraer automáticamente paráfrasis de relaciones de la Wikipedia. Las paráfrasis de relaciones expresan algún tipo de relación entre dos entidades, por ejemplo, autoría entre un autor y su obra.

Interfaz creada para la compilación y anotación de corpus de todo tipo. Ha sido utilizada en los procesos de anotación arriba mencionados y también en la compilación de paráfrasis de autoría creadas manualmente (España-Bonet, Cristina, Marta Vila, Horacio Rodríguez, M. Antònia Martí (2009)).

Sistema de resolución de la correferencia (Recasens, Marta, Hovy, Eduard 2010).

Nueva medida para la evaluación de la correferencia. Se ha utilizado en la tarea 1 (Coreference Resolution in Multiple Languages) de la competición internacional SemEval-2010 (http://stel.ub.edu/semeval2010-coref/).

Herramienta de clasificación de las nominalizaciones deverbales según su denotación (evento, resultado, subespecificado o lexicalización). Esta herramienta está diseñada para funcionar en distintos tipos de escenarios, es decir, con diferentes recursos lingüísticos y pre-procesos de procesamiento de lenguaje natural.

Es un entorno que integra herramientas para la creación, desarrollo y gestión de corpus y léxicos. Permite la anotación de corpus con: Morfología (POS+lema); Sintaxis (constituyentes+funciones); Semántica léxica (WordNet); Semántica oracional (Estructura Argumental+ clase semántica); NE; Correferencia. Esta última versión permite también la anotación de argumentos implícitos de las nominalizaciones deverbales, así como los siguientes editores:

  • Editor para la anotación de opiniones

Interfaz CesCa para el tratamiento de los corpus y léxicos del proyecto CesCa. La interfaz (http://clic.ub.edu/cesca) permite la consulta de los vocabularios por área temática, por edad, lengua materna y por conceptos. Los textos se pueden consultar por género, por edad, y por lengua materna.

El EmotiReview es un buscador de opiniones sobre móviles basado en inteligencia artificial y aprendizaje automático. Al buscar un móvil, el sistema te da la valoración del mismo únicamente obsrevando las opiniones vertidas sobre él, si son positivas o negativas y calcula un rango entre 1 y 5.

MICINN  Plan Nacional  PlanE