Introducción a la Gestión y Monitoreo de Redes

Introducción a Gestión y Monitoreo de Redes Network Startup Resource Center www.nsrc.org Estos materiales están bajo la Licencia Creative Commons Atribución-No comercial 4.0 Licencia internacional (https://creativecommons.org/licenses/by-nc/4.0/deed.es_ES) Last updated 18th October 2016 Objetivos Presentar Conceptos Fundamentales y Terminología • • • • • • • Gestión y Monitoreo de Redes Qué y por qué monitoreamos Expectativas de tiempo disponible y cálculos Rendimiento típico & detección de ataques Qué y por qué gestionamos Herramientas para gestionar y monitorear redes El “NOC”: consolidando sistemas NOC: Consolidando Sistemas NOC = Centro de Operaciones de Red • Coordinación de tareas, manejo de incidentes (sistema de tickets) • Estado de la red y servicios (herramientas de monitoreo) • Donde se acceden las herramientas de gestión y monitoreo • Almacén de documentación (wiki, base de datos, repositorios ➔Herramientas de documentación) NOC: Consolidando Sistemas Ubicación del NOC • NOC es un concepto lógico organizacional • No tiene que ser un lugar, o un servidor específico • Un NOC remoto/distribuido es posible cuando usamos conexiones fuera de banda (OOB) Ejemplos de NOCs Gestión y Monitoreo de Redes Monitoreo • Comprobar el estado de una red Gestión • Los procesos para operar con éxito una red Monitoreo de Sistemas y Servicios Sistemas Enrutadores ⚫ Switches ⚫ Servidores ⚫ Servicios DNS ⚫ HTTP ⚫ SMTP ⚫ SNMP, etc. ⚫ Por qué monitoreamos? • • • • Podemos llegar a los sistemas y servicios? Están disponibles? Cuántos recursos utilizan? Cuál es su rendimiento? - Tiempos de ida y vuelta, rendimiento de la red? - Fallas y cortes • Que ha sido configurado o cambiado? • Están siendo atacados? Por qué monitoreamos? • Para saber cuando hay problemas – antes que nuestros clientes! • Supervisar la utilización de recursos y facturar a clientes • Proveer el nivel de servicio acordado (SLAs) - Expectativas de nuestra gerencia? - Expectativas de los clientes? - Expectativas del resto de Internet? Por qué monitoreamos? • Para demostrar que se provee el nivel de servicio prometido - ¿Hemos logrado “cinco nueves”? 99.999%? • Asegurar que cumplimos con las expectativas (SLAs) en el futuro - Está a punto de fallar nuestra red? - Estará congestionada la red? Expectativas de Disponibilidad • ¿Qué se necesita para dar el 99.9% de tiempo de disponibilidad del servicio? - Sólo 44 minutos al mes! • ¿Necesita apagar una hora a la semana? - Eso es sólo 99.4% de tiempo de disponibilidad ((732-4) / 732 = .9945355 ...) • El mantenimiento podría negociarse en las SLAs • ¿Qué significa que la red está disponible? - ¿Funciona en todos los lugares? ¿En todas las estaciones? - ¿Está la red disponible, si funciona en el escritorio del jefe? - ¿Es posible acceder a la red desde Internet? Estableciendo Punto de Referencia • Se puede usar el monitoreo para establecer un punto de referencia o línea base (baseline) • Punto de referencia = Qué es normal en la red? - Demora de red típica a través de rutas - Nivel de variabilidad (jitter) a través de rutas - La carga en los enlaces - El porcentaje de uso de recursos - Nivel de “ruido” típico: • Escaneos de la red y ataques aleatorios desde el Internet • Paquetes perdidos • Errores y fallas reportadas Detectando Ataques • • • • Desviación respecto al punto de referencia (baseline) puede significar un ataque Hay mas flujos en la red que lo usual? Es la carga mas alta en algunos servidores o servicios? Ha tenido fallas de varios servicios? Estas situaciones pueden ser signo de un ataque Que Gestionamos? • Gestión de recursos: Qué equipos hemos instalado? - Que versión de software están corriendo Cual es su configuración (hardware y software) Donde está instalado? Tenemos equipos de repuestos, en caso de fallo? • Gestión de incidentes: seguimiento y resolución de fallas • Gestión de cambio: Estamos satisfaciendo las solicitudes de los usuarios? - Instalar, mover, añadir o cambiar elementos • Administración de personal Por qué gestionamos? • Garantizar que cumpliremos con los requisitos de negocio para el nivel de servicio, los tiempos de respuesta a incidentes, etc. • Hacer uso eficiente de nuestros recursos (incluyendo el personal) • Aprender de los problemas e introducir mejoras para reducir problemas en el futuro • Planificar actualizaciones y tomar decisiones de compra en un plazo de tiempo suficiente Herramientas de Monitoreo y Gestión • Disponibilidad: Nagios, Prometheus - Para servicios, servidores, enrutadores (routers), switches, entorno. • Confiabilidad: Smokeping - Estado de conexión, rrt, tiempo de respuesta del servicio, jitter • Rendimiento: LibreNMS - Tráfico, utilización de puertos, CPU, memoria, disco, procesos. Estas aplicaciones comparten algunos elementos y se complementan! Herramientas de Gestión • Sistema de Pedidos (Tickets): RT (Request Tracker) Manejar la instalación de equipos y soporte a usuarios - • Gestión de configuración: RANCID o Oxidized Darle seguimiento a las configuraciones de los enrutadores y switches - • Gestion de Registros: Tenshi, Swatch, Loki - Alertar con eventos y hacer investigación forense por fallas y eventos de seguridad • Documentación de la Red: Netbox - Inventario, localización del inventario y a quien le pertenece. Estas aplicaciones comparten algunos elementos y se complementan! Algunas Herramientas de Fuente Abierta REDIMIENTO GESTION DE CAMBIOS GESTION DE RED PEDIDOS Cricket Mercurial Big Brother OTRS Elastiflow RANCID Cacti RT flowc Oxidized Hyperic Trac IPFix CVS LibreNMS Redmine mrtg Subversion Nagios DOCUMENTACION NetFlow git OpenNMS IPplan NfSen Security/NIDS Prometheus Netdisco ntop Nessus Sysmon Netdot perfSONAR OSSEC Zabbix NetBox pmacct Prelude REGISTROS UTILIDADES RRDTool Samhan Loki SNMP, Perl Sflow SNORT Swatch Ping, Regex SmokePIng Untangle Tenshi Shell scripting Que tal “NMM 2.0?” El modelo que presentamos es: • El modelo clásico de sondeo (“polling”) • Colección de datos imprecisos (típicamente intervalos de 5 minutos) En uso actual incluye: • Telemetría • Metodología de extracción y basada en agentes • Base de datos de series de tiempo (grandes) a menudo basado en NoSQL • Recopiladores y analizadores Terminología común que puede haber escuchado: • Pilas de software ELK, TICK, Kafka, Prometheus, etc. • Grafana, InfluxDB, MongoDB • Beats, Elasticsearch, fluentd, Kabana, etc… Un ejemplo en uso Netdata • https://www.netdata.cloud/ Netdata Local • https://vtp-us.nsrc.org/netdata/ • ¡No vayan todos a la vez!☺ NMM 2.0: ElastiFlow Toma los siguientes protocolos de flujo • • • Netflow – IPFix – Sflow En lugar de NfSen https://github.com/robcowart/elastiflow Repaso de Gestión y Monitoreo • • • • • • • • Gestión y Monitoreo de Redes Qué y por qué monitoreamos? Expectativas de tiempo de disponibilidad y como calcularlas Establecimiento de puntos de referencia y detección de ataques Detección de ataques de red Qué y por qué gestionamos? Herramientas de gestión y monitoreo El NOC: Consolidando sistemas Preguntas?

Introducción a la Gestión y Monitoreo de Redes

Documentos relacionados

Productos

Apoyo

Introducción a la Gestión y Monitoreo de Redes

Documentos relacionados

Añadir este documento a la recogida (s)

Añadir a este documento guardado

Sugiéranos cómo mejorar StudyLib