Resumen
La presente tesis está enfocada en la fusión de la ciencia de datos y la ciberseguridad, con el objetivo de proponer soluciones innovadoras que fortalezcan la protección de organizaciones en México frente a amenazas cibernéticas, en este caso, enfocado en los ataques Denegación de Servicios Distribuidos (DDoS por sus siglas en ingles). En el marco de esta investigación, se realizaron diversos estudios y comparaciones sobre la metodología más adecuada para procesar bases de datos relacionadas con ciberataques, explorando diferentes enfoques de modelos de aprendizaje automático, tanto supervisados como semi-supervisados.
El trabajo comenzó con un análisis exhaustivo de las estadísticas de ciberseguridad en México, evidenciando la creciente necesidad de profesionales especializados en estas áreas para enfrentar los desafíos actuales y futuros. La metodología empleada incluyó varios intentos y ajustes a lo largo del proceso de experimentación, lo que permitió profundizar en el conocimiento de métodos efectivos de preprocesamiento de datos, normalización y estructuración de los conjuntos de datos.
Se evaluaron distintas técnicas de aprendizaje automático empleando algoritmos avanzados que fueron entrenados, evaluados y configurados cuidadosamente para evitar problemas como el sobreajuste (overfitting) y el ruido de datos corruptos. Finalmente, el modelo resultante fue capaz de clasificar eficientemente registros de ataques DDoS y logs normales con una alta precisión, demostrando su potencial para implementarse en infraestructuras tecnológicas con el fin de fortalecer la ciberseguridad de organizaciones evitando la fuga de datos e inhabilitación de servidores.
Abstract
This thesis is focused on the merge of data science and cybersecurity, this with the aim of proposing innovative solutions that strengthen the protection of organizations in Mexico against cyber threats, for this case focused on DDoS (Distributed Denial of Service) attacks. Within the framework of this research, various studies and comparisons were carried out by means of the most appropriate methodologies to process datasets related to cyberattacks, exploring different approaches to machine learning models, both supervised and semi-supervised.
The work began with an exhaustive analysis of cybersecurity statistics in Mexico, evidencing the growing need for specialized professionals in these areas to face current and future challenges. The methodologies used included several attempts and adjustments throughout the experimentation process that allow deepening knowledge of effective methods of data preprocessing, normalization and structuring of databases.
Different machine learning techniques were tried using advanced algorithms that were carefully trained, evaluated, and tuned to avoid problems such as overfitting and corrupted data. Finally, the resulting models were able to efficiently classify DDoS attack logs and normal logs with high accuracy, demonstrating their potential to be implemented into technological infrastructures to strengthen the cybersecurity of organizations, preventing data leakage and server crashes.