CREA: Colección de Recursos Educativos Abiertos

 

Implementación de modelos de Data Stream sobre plataformas Big Data

Resumen

En la actualidad existen cada vez más dispositivos conectados a la red que están generando datos continuamente en tiempo real. Tradicionalmente, se han utilizado técnicas que analizan esta información obteniendo los datos de ficheros estáticos almacenados localmente. Esta información también se puede analizar utilizando técnicas en modo streaming, que procesan los datos tan pronto como llegan al sistema. Este trabajo se centra en el entorno en streaming. Se incluye una revisión sobre diferentes plataformas de software libre para el procesamiento distribuido, muy utilizadas por la comunidad y en el ámbito de la empresa, junto con dos comparativas de rendimiento. Además, se implementan algunos algoritmos de redes neuronales para streaming basados en ELM (Extreme Learning Machine) sobre la plataforma Spark y se han realizado diferentes comparativas de rendimiento utilizando diferentes datasets reales y sintéticos (generados con MOA).
Nowadays, exist more and more devices connected to the network that are continuously generating data on-line. Traditionally, techniques that analyse this information by obtaining data from static files stored locally have been used. This information can also be analysed using streaming techniques, which process data as soon as it reaches the system. This work focuses on the streaming environment. It includes a review of different open source platforms for distributed processing, widely used by the community and within the company, along with two performance comparisons. In addition, some neural network streaming algorithms based on ELM (Extreme Learning Machine) are implemented on the Spark platform and different performance comparisons have been carried out using different real and synthetic datasets (generated with MOA).

Descripción

Palabras clave

Citación