Linguistic support for protest event data collection

  1. Danilova, Vera
Dirigida por:
  1. Mikhail Aleksandrov Director/a
  2. Xavier Blanco Escoda Director

Universidad de defensa: Universitat Autònoma de Barcelona

Fecha de defensa: 27 de noviembre de 2015

Tribunal:
  1. Paolo Rosso Presidente/a
  2. Àngels Catena Rodulfo Secretaria
  3. Jan Žižka Vocal

Tipo: Tesis

Teseo: 396563 DIALNET lock_openTDX editor

Resumen

sta tesis aborda el problema de la cualidad de recopilación automática de datos sobre protestas y propone herramientas de extracción multilíngüe de atributos del evento de protesta para mejorar la calidad de la unidad de análisis. El trabajo incluye la exploración del estado de arte en los dominios de la recopilación automática de datos sobre protestas y la extracción multilíngüe de eventos. En la ausencia de una colección de datos multilíngües sobre protestas anotados por expertos para el aprendizaje supervisado nos enfocamos en el tratamiento de noticias multilíngües basado en patrones lingüísticos conectados a una jerarquía de conceptos relacionados con el evento de protesta. Las gramáticas y lexicones han sido elaborados según los estándares de GATE 8.0, y la jerarquía de conceptos ha sido formalizada en Protégé - 4.3. El presenta trabajo contribuye al tratamiento automático de bases de datos sobre protestas con lo siguiente: colección automática de un corpus de noticias relacionadas con el evento de protesta; descripción formalizada del evento de protesta basada en un estudio detallado de un corpus de noticias multilíngües (en búlgaro, francés, polaco, ruso, español y sueco); elaboración de patrones genéricos y lexicones multilíngües conectados a la jerarquía de conceptos que resuelve el problema de la ausencia de una colección de datos preanotados por expertos; Los datos obtenidos pueden aplicarse, entre otros, en el monitoreo y análisis de protestas y la relacionada comunicación de usuarios en las redes sociales.