Descripción
|
|
---|---|
Esta tesis trata el problema de la gestión de los fallos en sistemas distribuidos, especialmente en redes de ordenadores y clusters de computación de alto rendimiento. En ella, expongo y analizo la importancia de éste problema y cómo las investigaciones actuales son extensas pero fragmentadas y aisladas, con un enfoque demasiado estrecho. Especialmente, hay un vacío de conocimiento entre los problemas académicos y los problemas industriales. Además, la necesidad de un experto humano y todas las tareas que esto conlleva es algo que no se ha tratado en profundidad. Partiendo de esta situación, tomo dos conjuntos de datos reales: uno público, que contiene los errores ocurridos en un supercomputador en Los Álamos, EE. UU., y el otro obtenido de una red de ordenadores de un banco español, que detalla eventos extraídos de un gestor comercial de red. Con ellos, propongo cuatro contribuciones diferentes: un estudio detallado de un conjunto de algoritmos de Aprendizaje Automático, un método novedoso de optimización que permite decidir qué periódo temporal observar para realizar predicción de fallos, una manera de extraer causas de errores potenciales de los mismos modelos de predicción y una implementación práctica de estos conceptos utilizando software Big Data. Los resultados muestran que mis propuestas son capaces de conseguir soluciones exitosas con una interacción humana mínima, además de satisfacer los requerimientos y limitaciones técnicas. | |
Internacional
|
Si |
ISBN
|
|
Tipo de Tesis
|
Doctoral |
Calificación
|
Sobresaliente cum laude |
Fecha
|
22/06/2018 |