Traducido del inglés al español - www.onlinedoctranslator.com Disponible en línea en www.sciencedirect.com ScienceDirect Procedia Informática 60 (2015) 708 - 713 XIX Conferencia Internacional sobre Sistemas de Ingeniería e Información Inteligentes y Basados en el Conocimiento Encuesta sobre detección de anomalías mediante técnicas de minería de datos Shikha Agrawal, Jitendra Agrawal Departamento de Ciencias de la Computación e Ingeniería, Rajiv Gandhi Proudyogiki Vishwavidyalaya, Bhopal, India Abstracto En el mundo actual, se almacenan y transfieren grandes cantidades de datos de un lugar a otro. Los datos, cuando se transfieren o almacenan, están expuestos a ataques. Aunque se encuentran disponibles varias técnicas o aplicaciones para proteger los datos, existen lagunas. Por lo tanto, para analizar datos y determinar varios tipos de ataques, han surgido técnicas de minería de datos para hacerlos menos vulnerables. La detección de anomalías utiliza estas técnicas de minería de datos para detectar el comportamiento sorprendente oculto dentro de los datos, lo que aumenta las posibilidades de intrusión o ataque. También se han realizado varios enfoques híbridos para detectar ataques conocidos y desconocidos con mayor precisión. Este artículo revisa varias técnicas de minería de datos para la detección de anomalías a fin de proporcionar una mejor comprensión entre las técnicas existentes que pueden ayudar a los investigadores interesados a trabajar en el futuro en esta dirección. © 2015 Los Autores. Publicado por Elsevier BV Este es un artículo de acceso abierto bajo la licencia CC BY-NC-ND © woanortel sY.oJgramoI/tlmiInorteCDmirnorteaseAsgramo/Breal - naCl-,nortePAG academia Dtu/ 4de B.bellas l0es/)artesyw h.editado por Elsevier BV (h2tt0pag1: /5/CSrehaiktihvaCEAogramometro real academia de bellas artesmetro Revisión por pares bajo la responsabilidad de KES International Palabras clave: Detección de anomalías, agrupamiento, clasificación, minería de datos, sistema de detección de intrusiones. 1. Introducción Los sistemas de detección de intrusiones (IDS) son herramientas de seguridad que se proporcionan para fortalecer la seguridad de los sistemas de comunicación e información. Este enfoque es similar a otras medidas como software antivirus, cortafuegos y esquemas de control de acceso. Convencionalmente, estos sistemas se han clasificado como un sistema de detección de firmas, un sistema de detección de anomalías o un sistema de detección híbrido [29]. En la detección basada en firmas, el sistema identifica patrones de tráfico o se presume que los datos de la aplicación son maliciosos, mientras que los sistemas de detección de anomalías comparan las actividades con un comportamiento normal definido. Los sistemas híbridos de detección de intrusos combinan las técnicas de ambos enfoques. Cada técnica tiene sus propias ventajas y desventajas. A continuación se describen algunos beneficios de las técnicas de detección de anomalías sobre otras. Primeramente, son capaces de detectar ataques internos. Por ejemplo, si algún usuario está usando una cuenta robada y realiza acciones que van más allá del perfil normal del usuario, el sistema de detección de anomalías generará una alarma. En segundo lugar, el sistema de detección se basa en perfiles personalizados. Se vuelve muy difícil para un atacante realizar cualquier actividad sin activar una alarma. Finalmente, puede detectar los ataques que antes no se conocían. Los sistemas de detección de anomalías buscan eventos anómalos en lugar de ataques. En este artículo nos centramos en las diversas técnicas de detección de anomalías. el sistema de detección se basa en perfiles hechos a medida. Se vuelve muy difícil para un atacante realizar cualquier actividad sin activar una alarma. Finalmente, puede detectar los ataques que antes no se conocían. Los sistemas de detección de anomalías buscan eventos anómalos en lugar de ataques. En este artículo nos centramos en las diversas técnicas de detección de anomalías. el sistema de detección se basa en perfiles hechos a medida. Se vuelve muy difícil para un atacante realizar cualquier actividad sin activar una alarma. Finalmente, puede detectar los ataques que antes no se conocían. Los sistemas de detección de anomalías buscan eventos anómalos en lugar de ataques. En este artículo nos centramos en las diversas técnicas de detección de anomalías. 1.1. Detección de anomalías La detección de anomalías es el proceso de encontrar patrones en un conjunto de datos cuyo comportamiento no es normal de lo esperado. Estos comportamientos inesperados también se denominan anomalías o valores atípicos. Las anomalías no siempre pueden clasificarse como un ataque, pero pueden 1877-0509 © 2015 Los Autores. Publicado por Elsevier BV Este es un artículo de acceso abierto bajo la licencia CC BY-NC-ND (http:// creativecommons.org/licenses/by-nc-nd/4.0/). Revisión por pares bajo la responsabilidad de KES International doi: 10.1016 / j.procs.2015.08.220 Shikha Agrawal y Jitendra Agrawal / Procedia Computer Science 60 (2015) 708 - 713 ser un comportamiento sorprendente que antes no se conocía. Puede ser dañino o no. La detección de anomalías proporciona información muy significativa y crítica en diversas aplicaciones, por ejemplo, robos de tarjetas de crédito o robos de identidad [1]. Cuando los datos deben analizarse para encontrar una relación o para predecir, se utilizan técnicas de minería de datos conocidas o desconocidas. Estos incluyen técnicas de agrupamiento, clasificación y aprendizaje automático. También se están creando enfoques híbridos para lograr un mayor nivel de precisión en la detección de anomalías. En este enfoque, los autores intentan combinar los algoritmos de minería de datos existentes para obtener mejores resultados. De esta manera, detectar el comportamiento o anomalías anormales o inesperadas dará lugar a estudiarlo y categorizarlo en un nuevo tipo de ataques o cualquier tipo de intrusiones en particular. 1.2. Metodología básica de la técnica de detección de anomalías Aunque existen diferentes enfoques de anomalías, como se muestra en la figura 1, entrene un modelo con parámetros antes de la detección. Parametrización: Procesar previamente los datos en formatos preestablecidos de manera que sean aceptables o de acuerdo con el comportamiento del sistema objetivo. Figura 1: Metodología de detección de anomalías Etapa de entrenamiento: Un modelo se construye sobre la base del comportamiento normal (o anormal) del sistema. Existen diferentes formas de optar en función del tipo de detección de anomalías que se considere. Puede ser tanto manual como automático. Etapa de detección: Cuando el modelo del sistema está disponible, se compara con el tráfico observado (parametrizado o predefinido). Si la desviación encontrada excede (o es menor que en el caso de los modelos de anomalías) de un umbral predefinido, se activará una alarma. 2. Detección de anomalías mediante técnicas de minería de datos Las anomalías son patrones en los datos que no se ajustan a un comportamiento normal bien definido. La causa de la anomalía puede ser una actividad maliciosa o algún tipo de intrusión. Este comportamiento anormal encontrado en el conjunto de datos es interesante para el analista y esta es la característica más importante para la detección de anomalías [14]. La detección de anomalías es un tema que se ha tratado en varias encuestas, artículos de revisión y libros [4, 5]. Phua et al (2010) han realizado una encuesta detallada sobre diversas técnicas de detección de fraude que se ha llevado a cabo en los últimos años. Han definido al defraudador profesional, los principales tipos y subtipos de fraude conocido, y también han presentado la naturaleza de las pruebas de datos recopiladas dentro de las industrias afectadas [6]. Padhy et al (2012) proporcionaron un estudio detallado de las aplicaciones de minería de datos y su alcance de características. Afirmaron que la detección de anomalías es una aplicación de minería de datos donde se pueden aplicar varias técnicas de minería de datos [3]. Amanpreet, Mishra y Kumar (2012) describieron técnicas de minería de datos listas para usar que se pueden aplicar directamente para detectar la intrusión [7]. [15]. Proporcionaron una amplia perspectiva de las técnicas de que se pueden implementar en la práctica al observar las posibles causas de la falta de aceptación de los enfoques novedosos propuestos. En este artículo, la revisión de diferentes enfoques de detección de anomalías se centra en la amplia clasificación de las técnicas de minería de datos existentes. La minería de datos consta de cuatro clases de tareas; son aprendizaje de reglas de asociación, agrupamiento, clasificación y regresión. La siguiente subsección presenta las técnicas de detección de anomalías en estas cuatro clases de tareas: 709 710 Shikha Agrawal y Jitendra Agrawal / Procedia Computer Science 60 (2015) 708 - 713 2.1. Técnicas de detección de anomalías basadas en clústeres La agrupación en clústeres se puede definir como una división de datos en un grupo de objetos similares. Cada grupo, o agrupación, consta de objetos que son similares entre sí y diferentes a los objetos de otros grupos [13]. Los algoritmos de agrupación en clústeres pueden detectar intrusiones sin conocimiento previo. Existen varios métodos para realizar la agrupación en clústeres que se pueden aplicar para la detección de anomalías. A continuación se muestra la descripción de algunos de los enfoques propuestos. k-medias: La agrupación de k-medias es un método de análisis de agrupaciones en el que definimos k agrupaciones disjuntas en función del valor de la característica de los objetos que se van a agrupar. Aquí, k es el parámetro definido por el usuario [9]. Ha habido un enfoque de Minería de datos en red (NDM) que implementa el algoritmo de agrupación en clústeres K-mean para separar los intervalos de tiempo con tráfico normal y anómalo en el conjunto de datos de entrenamiento. Los centroides de clúster resultantes se utilizan para la detección rápida de anomalías en el seguimiento de nuevos datos [10]. k-Medoides: Este algoritmo es muy similar al algoritmo k-Means. Se diferencia principalmente en su representación de los diferentes grupos. Aquí, cada clúster está representado por el objeto más céntrico del clúster, en lugar de la media implícita que puede no pertenecer al clúster. El método de k-medoides es más robusto que el algoritmo de k-medias en presencia de ruido y valores atípicos porque un medoide está menos influenciado por valores atípicos u otros valores extremos que una media. Este método detecta anomalías en la red que contienen intrusiones desconocidas. Se ha comparado con varios otros algoritmos de agrupamiento y se ha descubierto que cuando se trata de precisión, produce resultados mucho mejores que k-Means [11]. Agrupación EM: Este algoritmo puede verse como una extensión de k Means que asigna un objeto al grupo al que es similar, basándose en la media del grupo. En este enfoque, en lugar de asignar un objeto en el grupo dedicado, asigne el objeto a un grupo de acuerdo con un peso que represente la probabilidad de pertenencia. En otras palabras, no existen límites estrictos entre los grupos. Aquí la nueva media se calcula sobre la base de medidas de peso [12]. En comparación con k medias y k medoides, la ME los superó y dio como resultado una mayor precisión [11]. Algoritmos de detección de valores atípicos: La detección de valores atípicos es una técnica para encontrar patrones en los datos que no se ajustan al comportamiento esperado. Dado que un valor atípico se puede definir como un punto de datos que es muy diferente del resto de los datos, en función de determinadas medidas. Hay varios esquemas de detección de valores atípicos. El usuario puede seleccionar cualquiera de ellos en función de su eficiencia y cómo puede resolver el problema de detección de anomalías. Uno de los enfoques es el enfoque basado en la distancia [11]. Se basa en el algoritmo del vecino más cercano e implementa una métrica de distancia bien definida para detectar valores atípicos. Cuanto mayor sea la distancia del objeto a su vecino, es más probable que sea un valor atípico. Es un enfoque eficaz para detectar ataques de sondeo y ataques de denegación de servicio (DoS). Otro es el enfoque de valores atípicos locales basado en la densidad. La detección de valores atípicos basada en la distancia depende de la distribución general o global del conjunto dado de puntos de datos. Los datos no se distribuyen uniformemente, por lo que el enfoque basado en la distancia encuentra varias dificultades durante el análisis de los datos. La idea principal de este método basado en la densidad es asignar a cada ejemplo de datos un grado de valor atípico, que se denomina Factor de valor atípico local (LOF). El factor atípico es local en el sentido de que solo se considera una vecindad restringida de cada objeto [14]. Se proponen varios otros algoritmos para la detección de anomalías en las redes de sensores inalámbricos (WSN). Se ha propuesto un marco jerárquico para superar los desafíos en las WSN donde se aprende un modelo preciso y el modelo aproximado en el servidor remoto y los nodos sumideros [8]. También se propone un algoritmo de factor de valor atípico local aproximado que se puede aprender en los nodos sumideros para el modelo de detección en WSN. Estos proporcionan resultados más eficientes y precisos. También se propone un algoritmo de factor de valor atípico local aproximado que se puede aprender en los nodos sumideros para el modelo de detección en WSN. Estos proporcionan resultados más eficientes y precisos. También se propone un algoritmo de factor de valor atípico local aproximado que se puede aprender en los nodos sumideros para el modelo de detección en WSN. Estos proporcionan resultados más eficientes y precisos. 2.2. Detección de anomalías basada en clasificación La clasificación se puede definir como un problema de identificación de la categoría de nuevas instancias sobre la base de un conjunto de entrenamiento de datos que contiene observaciones (o instancias o tuplas) cuya pertenencia a la categoría es conocida. La categoría se puede denominar etiqueta de clase. Varias instancias pueden pertenecer a una o varias de las etiquetas de clase. En el aprendizaje automático, la clasificación se considera una instancia de aprendizaje supervisado, por ejemplo, el aprendizaje en el que está disponible un conjunto de entrenamiento de observaciones correctamente identificadas. Un algoritmo que implementa la clasificación se conoce como clasificador. Está construido para predecir etiquetas categóricas o atributos de etiqueta de clase. En caso de detección de anomalías, clasificará los datos generalmente en dos categorías, a saber, normal o anormal. Las siguientes son tecnologías comunes de aprendizaje automático en la detección de anomalías. Árbol de clasificación: En el aprendizaje automático, el árbol de clasificación también se denomina modelo de predicción o árbol de decisión. Es un gráfico de patrón de árbol que es similar a la estructura del diagrama de flujo; los nodos internos son una propiedad de prueba, cada rama representa el resultado de la prueba y los nodos u hojas finales representan la clase a la que pertenece cualquier objeto. El algoritmo más fundamental y común utilizado para el árbol de clasificación es ID3 y C4.5 Hay dos métodos para la construcción de árboles, la construcción de árboles de arriba hacia abajo y la poda de abajo hacia arriba. ID3 y C4.5 pertenecen a la construcción de árboles de arriba hacia abajo [16]. Más enfoques de árbol de clasificación en comparación con la clasificación de bayes ingenua, se encontró que el resultado obtenido de los árboles de decisión era más preciso [19]. Lógica difusa: Se deriva de la teoría de conjuntos difusos que se ocupa del razonamiento aproximado en lugar de deducirse con precisión de la lógica de predicados clásica. El lado de la aplicación de la teoría de conjuntos difusos se ocupa de valores expertos del mundo real bien pensados para un problema complejo. En este enfoque, los datos se clasifican sobre la base de varias métricas estadísticas. Shikha Agrawal y Jitendra Agrawal / Procedia Computer Science 60 (2015) 708 - 713 Estas porciones de datos se aplican con reglas de lógica difusa para clasificarlas como normales o maliciosas. Hay varias otras técnicas de minería de datos difusos para extraer patrones que representan el comportamiento normal para la detección de intrusiones que describen una variedad de modificaciones en los algoritmos de minería de datos existentes para aumentar la eficiencia y precisión [17]. Red ingenua de bayes: Hay muchos casos en los que existen las dependencias estadísticas o las relaciones causales entre las variables del sistema. Puede resultar difícil expresar con precisión las relaciones probabilísticas entre estas variables. En otras palabras, el conocimiento previo sobre el sistema es simplemente que alguna variable puede estar influenciada por otras. Para aprovechar esta relación estructural entre las variables aleatorias de un problema, se puede utilizar un modelo de gráfico probabilístico llamado Naïve Baysian Networks (NB). Este modelo proporciona respuesta a preguntas como si se dan pocos eventos observados, ¿cuál es la probabilidad de un tipo particular de ataque? Se puede hacer usando la fórmula de probabilidad condicional. La estructura de un NB está típicamente representada por un Gráfico Acíclico Dirigido (DAG) donde cada nodo representa una de las variables del sistema y cada enlace codifica la influencia de un nodo sobre otro [21]. Cuando se comparan las técnicas de árbol de decisión y baysiano, aunque la precisión del árbol de decisión es mucho mejor, el tiempo de cálculo de la red baysiana es bajo [19]. Por lo tanto, cuando el conjunto de datos es muy grande, será eficiente utilizar modelos NB. Algoritmo genético: Fue introducido en el campo de la biología computacional. Estos algoritmos pertenecen a la clase más amplia de algoritmos evolutivos (EA). Generan soluciones a problemas de optimización utilizando técnicas inspiradas en la evolución natural, como herencia, selección, mutación y cruce. Desde entonces, se han aplicado en diversos campos con resultados muy prometedores. En la detección de intrusiones, se aplica el algoritmo genético (GA) para derivar un conjunto de reglas de clasificación a partir de los datos de auditoría de la red. El marco de apoyo y confianza se utiliza como una función de adecuación para juzgar la calidad de cada regla. Las propiedades significativas de GA son su robustez contra el ruido y las capacidades de autoaprendizaje. Las ventajas de las técnicas de GA comunicadas en caso de detección de anomalías son una alta tasa de detección de ataques y una menor tasa de falsos positivos [17]. Redes neuronales:Es un conjunto de nodos interconectados diseñados para imitar el funcionamiento del cerebro humano. Cada nodo tiene una conexión ponderada con varios otros nodos en capas vecinas. Los nodos individuales toman la entrada recibida de los nodos conectados y usan los pesos junto con una función simple para calcular los valores de salida. Se pueden construir redes neuronales para el aprendizaje supervisado o no supervisado [20]. El usuario especifica el número de capas ocultas, así como el número de nodos dentro de una capa oculta específica. Dependiendo de la aplicación, la capa de salida de la red neuronal puede contener uno o varios nodos. Las redes neuronales Multilayer Perceptions (MLP) han tenido mucho éxito en una variedad de aplicaciones y han producido resultados más precisos que otros modelos de aprendizaje computacional existentes. Son capaces de aproximarse a una precisión aleatoria, cualquier función continua siempre que contenga suficientes unidades ocultas. Esto significa que tales modelos pueden formar cualquier límite de decisión de clasificación en el espacio de características y, por lo tanto, actuar como una función discriminadora no lineal. Máquinas de vectores soporte: Se trata de un conjunto de métodos de aprendizaje supervisado relacionados que se utilizan para la clasificación y la regresión. Support Vector Machine (SVM) se aplica ampliamente al campo del reconocimiento de patrones. También se utiliza para un sistema de detección de intrusos. La SVM de una clase se basa en un conjunto de ejemplos que pertenecen a una clase particular y no hay ejemplos negativos en lugar de utilizar ejemplos positivos y negativos [18]. En comparación con las redes neuronales en el conjunto de datos de copa KDD, se descubrió que SVM realizaba mejor que NN en términos de tasa de falsas alarmas y precisión en la mayoría de los tipos de ataques [18]. 2.3. Enfoques híbridos El uso de un algoritmo en particular por sí solo no produce resultados adecuados. De vez en cuando se registran nuevos ataques, por lo que utilizar un solo algoritmo no será suficiente. En los últimos años, se han realizado enfoques combinando o fusionando diferentes algoritmos. Técnicas supervisadas en cascada: Aquí se fusionan varios algoritmos de clasificación para obtener una mayor precisión. Se propuso una combinación de bayes ingenuos y un algoritmo de árbol de decisión. Este algoritmo híbrido se probó en el conjunto de datos de vasos de Knowledge Data Discovery (KDD) y la precisión lograda fue del 99 por ciento. Se concentró en el desarrollo del rendimiento del clasificador Naïve Bayesiano (NB) y del algoritmo ID3 [22]. También se propuso un enfoque híbrido de fusionar Decision Tree (DT) y Support Vector Machine (SVM). Describió sobre el enfoque de conjunto que utilizó el árbol de decisión (DT), la máquina de vectores de soporte (SVM) y el clasificador híbrido DT-SVM con esperas. El enfoque de conjunto dio como resultado una precisión del 100 por ciento en el conjunto de datos probado [28]. Combinando técnicas supervisadas y no supervisadas: Hay varios algoritmos de aprendizaje supervisados y no supervisados cuyas combinaciones se pueden realizar. En los últimos años se han abordado muchos de estos métodos híbridos. De este modo, la eficiencia del algoritmo supervisado aumenta considerablemente, ya que la precisión de la tasa de detección de anomalías puede mejorarse en gran medida mediante el uso de algoritmos no supervisados. Se propuso una combinación de k medias e ID3 para la clasificación de actividades normales y anómalas en el tráfico del Protocolo de resolución de direcciones (ARP) de la computadora y una precisión del 98 por ciento 711 712 Shikha Agrawal y Jitendra Agrawal / Procedia Computer Science 60 (2015) 708 - 713 se logró [24]. Se propuso un nuevo enfoque para la detección de ataques a la red, que tiene como objetivo estudiar la efectividad del método basado en el aprendizaje automático en la detección de intrusiones, incluidas las redes neuronales artificiales y la máquina de vectores de soporte. Los resultados experimentales obtenidos al aplicar este enfoque al conjunto de datos KDD CUP'99 demuestran que el enfoque propuesto tiene un alto rendimiento, especialmente en ataques de tipo U2R y U2L [25]. Se ha propuesto un enfoque híbrido para combinar la entropía de las características de la red y SVM que superó la entropía individual y las técnicas de SVM [2]. Por lo tanto, los enfoques híbridos producen mejores resultados al combinar diferentes técnicas al superar los inconvenientes entre sí y dar como resultado una mayor precisión en la detección de anomalías. La Tabla 1 presenta algunos enfoques híbridos propuestos para la detección de anomalías: Tabla 1: Compilación de enfoques híbridos para la detección de anomalías Nombre del autor Chitrakar, Roshan, y Chuanhe (2012) Métodos utilizados Metodología Pros y contras Clasificación de SVM y Las instancias de datos similares se Mayor precisión. agrupación de kmedoides agrupan mediante la técnica k- La complejidad del tiempo es mayor cuando el medoides y los grupos resultantes se conjunto de datos es muy grande. clasifican en clasificadores SVM Chitrakar, Roshan, y Chuanhe (2012) Agrupación de k-medoides y Las instancias de datos similares se agrupan Aumento de la tasa de detección y clasificación de Naïve Bayes mediante la técnica de agrupación de k- reducción del tiempo medio de la tasa Medoides. de falsas alarmas. Los clústeres resultantes se clasifican Difícil de predecir cuando el clasificador utilizando clasificadores Naïve Bayes. bayes ingenuo en diferentes entornos. Fu, Liu y Máquinas vectoriales de soporte La SVM de primera clase se utiliza para detectar No requiere un historial de fallas Pannu (2012) de una clase y dos clases (en la puntuación de anomalías. En segundo lugar, el previo y es autoadaptable al aprender computación en la nube) detector se vuelve a entrenar cuando se incluyen de los eventos de fallas observados. ciertos registros de datos nuevos en el conjunto de datos existente. La precisión de la detección de fallas no puede alcanzar el 100%. Farid, Harbi y Rahman (2010) Bayes ingenuos y árbol de decisiones Realiza detecciones de equilibrio y Falsos positivos minimizados y tasas de para la detección de intrusiones mantiene falsos positivos a un nivel detección de saldo maximizadas. adaptativa aceptable para diferentes tipos de Requiere la mejora de la tasa de falsos ataques a la red. positivos para ataques remotos a usuarios. Yasami y Mozaffari (2009) k-Significa agrupamiento y La agrupación de k-medias se aplica primero a las Métodos de aprendizaje del árbol de instancias de entrenamiento normales para Supera a los k-Means individuales y al ID3. decisiones ID3 formar k agrupaciones. Este enfoque se limita a un conjunto de datos Se construye un árbol de específico. decisiones ID3 en cada grupo. Peddabachigari, Abraham, Grosan y Thomas (2007) Árbol de decisión (DT) y El conjunto de datos se pasa primero a Ofrece un buen rendimiento en el conjunto máquinas vectoriales de través del DT y la información del nodo de datos de copa KDD. soporte (SVM) se genera y se pasa junto con el Este enfoque, en comparación con conjunto original de atributos. SVM, ofrece resultados equivalentes. a través de SVM para obtener el resultado final. Peddabachigari, Abraham, Grosan y Enfoque de conjunto Thomas (2007) La información de diferentes Ofreció el mejor rendimiento para las clasificadores individuales se combina clases Probe y R2L. para tomar la decisión final. 100% de precisión podría ser posible para otras clases si la base adecuada se seleccionan los clasificadores. La selección de clasificadores base no se puede realizar automáticamente. 3. Análisis y recomendaciones En este trabajo se describen diversas técnicas de minería de datos para la detección de anomalías que se habían propuesto en los últimos años. Esta revisión será útil para los investigadores para obtener una visión básica de varios enfoques para la detección de anomalías. Aunque se ha trabajado mucho utilizando algoritmos independientes, los enfoques híbridos se están utilizando ampliamente, ya que proporcionan mejores resultados y superan el inconveniente de un enfoque sobre el otro. Todos los días se observan nuevos ataques desconocidos y, por lo tanto, existe la necesidad de aquellos enfoques que puedan detectar el comportamiento desconocido en el conjunto de datos almacenados, transferidos o modificados. En este trabajo de investigación se mencionan la fusión o combinación de algoritmos ya existentes que se han propuesto. Los investigadores interesados pueden combinar la versión modificada de algoritmos ya existentes. Por ejemplo, existen varios enfoques nuevos en la modificación de árboles de decisión (como ID3, C4.5), GA, SVM (incluidos enfoques optimizados y basados en múltiples núcleos). Esto puede producir resultados más precisos. Shikha Agrawal y Jitendra Agrawal / Procedia Computer Science 60 (2015) 708 - 713 Referencias 1. Chandola V., Banerjee A., Kumar V., Detección de anomalías: una encuesta, ACM Computing Surveys (CSUR); 41 (3); 2009; pág. 15 . 2. Agarwal B., Mittal N., Enfoque híbrido para la detección de tráfico de red de anomalías utilizando técnicas de minería de datos, Tecnología de procedimientos; 6; 2012; pag. 996- 1003. 3. Padhy N., Mishra P., Panigrahi R., The Survey of Data Mining Applications and Feature Scope; Revista Internacional de Ciencias de la Computación, Ingeniería y Tecnología de la Información (IJCSEIT), 2 (3); 2012; pag. 43-58. 4. Lee W., Stolfo J. Salvatore, enfoques de minería de datos para la detección de intrusiones; Actas del 7th Simposio de seguridad de USENIX, San Antonio, Texas; 1998; pág. 79-94. 5. Lee W., Stolfo SJ, Mok KW, Detección adaptativa de intrusiones: un enfoque de minería de datos; Revisión de inteligencia artificial; 14 (6); 2000; pag. 533-567. 6. Phua C., Lee V., Smith K., Gayler R., Una encuesta completa de detección de fraude basada en minería de datos; investigar; 2010; pag. 1-14. 7. Chauhan A., Mishra G., Kumar G., Encuesta sobre técnicas de minería de datos en la detección de intrusiones; Revista Internacional de Investigación Científica e Ingeniería; 2 (7), 2011; p.1-4. 8. Xu L., Yeh YR, Lee YJ, Li J., Un marco jerárquico que utiliza un factor de valor atípico local aproximado para una detección eficiente de anomalías; Procedia Ciencias de la Computación; 19; 2013; pag. 1174-1181. 9. T. Pang-Ning, M. Steinbach, V. Kumar, Introducción a la minería de datos, Biblioteca del Congreso, 2006. 10. Munz, G., Li S., Carle G., Detección de anomalías de tráfico mediante agrupación de K-Means; Taller de GI / ITG MMBnet; 2007; p.1-8. 11. Syarif I., Prugel-Bennett A., Wills G., Enfoques de minería de datos para la detección de intrusiones en la red, desde la reducción de la dimensionalidad hasta el uso indebido y la detección de anomalías; Revista de revisión de tecnología de la información; 3 (2); 2012; pag. 70-83. 12. Han J., Kamber M., Minería de datos: conceptos y técnicas, 2Dakota del Norte edición, Morgan Kaufmann, 2006. 13. Berkhin P., Un estudio de las técnicas de minería de datos agrupados, Agrupación de datos multidimensionales; Springer Berlín Heidelberg; 2006; pag. 25-71. 14. Dokas P.,. Ertoz L., Kumar V., Lazarevic A., Srivastava J., Tan PN, Minería de datos para la detección de intrusiones en la red, In Proceedings of NSF Workshop on Next Generation Data Mining; 2002; pag. 21-30 15. García-Teodoro P., Díaz-Verdejo J., Maciá-Fernández G., Vázquez E., Detección de intrusiones en redes basada en anomalías: técnicas, sistemas y desafíos; Computadoras y seguridad; 28 (1); 2009; pag. 18-28. 16. Wu SY, Yen E., detectores de intrusión basados en minería de datos; Sistemas Expertos con Aplicaciones; 36 (3); 2009; pag. 5605-5612. 17. Kaur N., documento de estudio sobre técnicas de minería de datos para la detección de intrusiones, Revista Internacional de Investigación en Ciencia, Ingeniería y Tecnología; 2 (4); 2013; pag. 799-804. 18. Tang DH, Cao Z., algoritmo de detección de intrusiones basado en aprendizaje automático; Revista de sistemas de información computacional; 5 (6); 2009; pag. 1825-1831. 19. Amor NB, Benferhat S., Elouedi Z., Naive Bayes vs árboles de decisión en sistemas de detección de intrusos, en las actas del simposio ACM sobre informática aplicada; 2004; pag. 420-424 20. Kou Y., Lu CT, Sirwongwattana S., Huang YP, Estudio de técnicas de detección de fraude; En Actas de la conferencia internacional IEEE Redes, detección y control; 2; 2004; pag. 749-754. 21. TsaiC. F., Hsu YF, Lin CY, Lin WY, Detección de intrusiones mediante aprendizaje automático: una revisión; Sistemas Expertos con Aplicaciones; 36 (10); 2009; pag. 1199412000. 22. Farid DM, Harbi N., Rahman MZ, Combinando bayes ingenuos y árbol de decisión para la detección de intrusiones adaptativa; Revista internacional de seguridad de redes y sus aplicaciones (IJNSA); 2 (2); 2010; p. 12-25. 23. Fu S., Liu J., Pannu H., Un marco híbrido de detección de anomalías en la computación en la nube mediante el uso de máquinas vectoriales de soporte de una y dos clases; En aplicaciones y minería de datos avanzada; Springer Berlín Heidelberg; 2012; pag. 726-738. 24. Yasami Y., Mozaffari SP, Un nuevo enfoque de clasificación no supervisado para la detección de anomalías en la red mediante la agrupación de k-medias y los métodos de aprendizaje del árbol de decisiones ID3; The Journal of Supercomputing; 53 (1); 2010; pag. 231-245. 25. Tang DH, Cao Z., algoritmos de detección de intrusiones basados en aprendizaje automático; Revista de Sistemas de Información Computacional; 5 (6); 2009; pag. 1825-1831. 26. Chitrakar R., Chuanhe H., Detección de intrusiones basada en anomalías mediante el enfoque de aprendizaje híbrido de combinación de agrupación de k-Medoides y clasificación de Bayes ingenua, en las actas de 8th Conferencia Internacional IEEE sobre Comunicaciones Inalámbricas, Redes y Computación Móvil (WiCOM); 2012; p 1-5. 27. Chitrakar R.,. Chuanhe, H., Detección de anomalías mediante la clasificación de máquinas de vectores de soporte con agrupación de k-Medoides; En Actas de la Tercera Conferencia Internacional sobre Internet del Himalaya Asiático de IEEE (AH-ICI); 2012; pag. 1-5. 28. Peddabachigari S., Abraham A., Grosan C., Thomas J., Modelado del sistema de detección de intrusiones utilizando sistemas inteligentes híbridos; Revista de aplicaciones informáticas y de red; 30 (1); 2007; pag. 114-132. 29. Patcha A., Park JM, Una descripción general de las técnicas de detección de anomalías: soluciones existentes y últimas tendencias tecnológicas; Red de computadoras; 51 (12); 2007; pag. 3448-3470. 713