REPÚBLICA BOLIVARIANA DE VENEZUELA MINISTERIO DEL PODER POPULAR PARA LA DEFENSA UNIVERSIDAD NACIONAL EXPERIMENTAL POLITÉCNICA DE LA FUERZA ARMADA UNEFA NÚCLEO LARA
AGENTES
Definición
Un agente es una entidad capaz de percibir su entorno, procesar tales percepciones y responder o actuar en su entorno de manera racional, es decir, de manera correcta y tendiendo a maximizar un resultado esperado. En este contexto la racionalidad es la característica que posee una elección de ser correcta, más específicamente, de tender a maximizar un resultado esperado. Un agente inteligente se considera así, dado que es un programa de ordenador capaz de hacer lo que haríamos nosotros si tuviéramos tiempo, es decir; es un tipo de programa programa informático que, por encargo de un usuario u otro programa, realiza de forma autónoma tareas que requieren cierto grado de inteligencia y aprendizaje.
Arquitecturas de agentes
Una arquitectura de agentes es una metodología particular para construir agentes. La cuál especifica cómo el agente puede ser descompuesto en un conjunto de módulos componentes y cómo estos módulos pueden interactuar. El conjunto total de módulos y sus interacciones deben proveer una respuesta a la pregunta de cómo el dato monitoreado y el estado interno del agente determinan las acciones y estados internos futuros. Observa tres categorías principales:
Arquitecturas de Agentes Deliberativos: Contiene un mundo representado explícitamente y un modelo lógico del mismo, en la cual las decisiones (por ejemplo acerca de las acciones a realizar) son hechas por medio de un razonamiento lógico, basado en concordancia de patrones y manipulación simbólica.
Ejemplos:
Planning Agents: Desde inicios de los setenta, la comunidad de la Inteligencia Artificial dedicada al Planning ha estado fuertemente relacionado con el diseño de agentes. Parece razonable entonces, que muchas de las innovaciones en el diseño de agentes provengan de esa comunidad. IRMA: Intellince Resource-bounded Machine Architecture (IRMA).Esta arquitectura tiene cuatro estructuras claves, de datos simbólicos: una librería de planes, una representación explícita de creencias, deseos e intenciones. HOMER: En el se argumenta que el establecimiento de tecnologías para agentes inteligentes está lo suficientemente desarrollada, como para construir un agente prototipo autónomo con habilidades lingüísticas, capacidades de planeación y acción, etc. GRATE: GRATE es una arquitectura en capas en la que el comportamiento de un agente es guiado por actitudes mentales tales como creencias, deseos, intenciones e intenciones colectivas. Los agentes se dividen en dos partes distintas: un sistema de nivel de dominio y una capa de cooperación y control.
BDI: BDI significa creencias (Beliefs), deseos (Desires) e intenciones (Intention), que son componentes mentales presentes en muchas arquitecturas de agentes. Las creencias representan el conocimiento del agente, los deseos representan los objetivos y las intenciones otorgan deliberación al agente.
Arquitecturas de Agentes Reactivos
Una arquitectura para agente reactivo es aquella que no incluye ningún tipo de modelo simbólico central del mundo, y no utiliza razonamiento simbólico complejo. Ejemplos:
Sumbsumption Architecture: Consiste en una jerarquía de comportamientos de logro de tareas. Cada comportamiento “compite” con otros para ejercer control sobre el agente. Capas menores representan comportamientos de tipo más primitivo, (tal como evitar obstáculos, por ejemplo), y tienen precedencia sobre las capas superiores de la jerarquía. PENGI: Chapman y Agre observaron en, que la mayoría de las actividades cotidianas son “rutinas”, en el sentido que se requiere poco (o ningún)
nuevo razonamiento. La mayoría de las tareas, una vez aprendidas, pueden ser desarrolladas de una manera rutinaria, con poca variación. Situated Automata: En el paradigma situated automata un agente se especifica en términos declarativos. Esta especificación se compila luego a una máquina digital, que satisface la especificación declarativa. Esta máquina digital puede operar de una manera “time -bounded”; no realiza ningún tipo de manipulación simbólica, y de hecho ninguna expresión simbólica se representa en la máquina.
Arquitectura de Red de agentes.
Pattie Maes ha desarrollado una arquitectura de agentes en la cual un agente se define como un conjunto de módulos de competencia. Estos módulos asemejan ligeramente el comportamiento de la arquitectura subsumption.
Arquitecturas para Agentes Híbridos
Un enfoque completamente deliberativo ó uno completamente reactivo no es adecuado para construir agentes, según investigadores. Por lo cuál se dan los sistemas híbridos, que intentan unir los enfoques deliberativos y reactivos. Un enfoque obvio es construir un agente compuesto por dos subsistemas:
Deliberativo, Deliberativo, que contiene un módulo simbólico del mundo, que desarrolla planes y efectúa decisiones de la manera propuesta por la inteligencia artificial simbólica.
Reactivo, Reactivo, que es capaz de reaccionar a eventos que ocurren en el ambiente sin necesitar un razonamiento complejo.
PRS: De la misma manera que IRMA, el PRS es una arquitectura basada en creencias, deseos e intenciones, que incluye una librería de planes, así como una explícita representación simbólica de las creencias, deseos e intenciones. TouringMachines: La arquitectura consiste de subsistemas de percepción y acción, que realizan la interfaz directamente con el ambiente del agente, y de tres capas de control, contenidas en un framework de control, que media entre las capas. Cada capa es un proceso independiente, productor de actividad, que se ejecuta continuamente. COSY: La arquitectura COSY es un BDI (creencias, deseos e intenciones) híbrido que incluye elementos tanto de PRS como de IRMA. La arquitectura tiene cinco componentes principales: sensores, actuadores, comunicaciones, cognición, intención.
Ejemplos
Los primeros tres componentes son directos: los sensores reciben entradas perceptibles no comunicativas, los actuadores permiten al agente realizar acciones no comunicativas, y el componente comunicaciones permite al agente enviar mensajes
BDI Composicional: En esta arquitectura, el modelo genérico de un agente con arquitectura composicional es refinado en un modelo BDI genérico racional, en el cual el agente es capaz de razonamiento explícito acerca de sus creencias, deseos e intenciones. El modelo BDI Composicional está basado en un análisis de las tareas desarrolladas por un agente BDI. Tal análisis de tareas, resulta, en una composición (jerárquica) de tareas, que es la base para un modelo composicional.
Tipos de agentes Agente Estándar: Un agente modelado por una función que hace corresponder acciones a secuencias de estados del entorno.
Sean E = {e1, e2,...} estados del entorno. A = {a1, a2,...} repertorio de acciones del agente. E --> A
Agentes Puramente Reactivo: Deciden la acción a realizar teniendo en cuenta el estado actual del entorno, sin tener en cuenta su historia. Ante los cambios de estado (E) del entorno se forma un conjunto de percepciones (P) que conducen a las acciones (A) E --> P. P --> A Agentes que mantienen su estado interno: Deciden la acción a realizar teniendo en cuenta su historia de interacciones con el entorno, la secuencia de estados con el entorno o de percepciones. Ante un estado además de percibirlo va guardando la información (I) sobre su historia. O sea antes de ejecutar la acción se combina la percepción con la información (estructura de datos sobre la historia)
E --> P, IxP --> A
Las propiedades indispensables de un agente son:
Autonomía: es la capacidad de operar sin la intervención directa de los humanos, y de tener algún tipo de control sobre las propias acciones y el estado interno.
Sociabilidad/Cooperación: los agentes han de ser capaces de interactuar con otros agentes a través de algún tipo de lenguaje de comunicación.
Reactividad: los agentes perciben su entorno y responden en un tiempo razonable a los cambios detectados.
Pro-actividad o iniciativa: deben ser capaces de mostrar que pueden tomar la iniciativa en ciertos momentos.
Otras propiedades destacables serían:
Continuidad temporal: temporal: los agentes están continuamente ejecutando procesos. Veracidad: un agente premeditadamente.
no
comunicará
información
falsa
Benevolencia: es la propiedad que indica que un agente no tendrá objetivos conflictivos, y que cada agente intentará hacer lo que se le pide.
Racionalidad: el agente ha de actuar para conseguir su objetivo.
Aprendizaje: mejoran su comportamiento con el tiempo.
Movilidad: posibilidad de moverse a otros entornos a través de una red electrónica.
Inteligencia: usan técnicas de IA para resolver los problemas y conseguir sus objetivos.
Categoría de agentes Agentes colaborativos: colaborativos: Este tipo de agentes se enfatiza en la autonomía y las habilidades sociales con otros agentes para ejecutar las tareas de sus usuarios. La coordinación de los agentes se logra mediante la negociación para alcanzar acuerdos que sean aceptables para los agentes negociantes.
Los agentes colaborativos son capaces de actuar racionalmente y autónomamente en ambientes multiagente y con restricciones de recursos
Los agentes colaborativos se pueden utilizar es la solución de algunos de los siguientes problemas:
Para resolver problemas que son muy grandes para un agente centralizado. Para permitir la interconexión e interoperabilidad de sistemas de IA existentes como sistemas expertos, sistemas de soporte de decisión etc. Solucionar problemas que son inherentemente distribuidos. Agentes de Interface: Interface: Los agentes de interfaz se enfatizan en la autonomía y la adaptabilidad para realizar tareas a sus usuarios. Este tipo de agentes básicamente presta soporte y asistencia a un usuario que esta aprendiendo una nueva aplicación o nuevos conceptos.
El agente puede aprender mediante alguna de las siguientes cuatro técnicas, observando y monitoreando la interfaz:
Por observación e imitación del usuario. A través de una retroalimentación positiva o negativa del usuario. Recibiendo instrucciones explicitas del usuario. Asesorándose de otros agentes. Agentes móviles: móviles: Estos agentes se enfatizan en las habilidades sociales y la autonomía, a diferencia de los agentes cooperativos, estos son móviles.
Los agentes móviles son procesos de software que son capaces de transitar por una red, generalmente una WAN, interactuando con computadores alejados, reuniendo información para el usuario y volviendo a su origen cuando las tareas fijadas por el usuario se hayan completado.
Agentes de información: información: Los agentes de información nacieron debido a la gran cantidad de herramientas que surgieron para el manejo y recuperación de información. Los agentes de información tienen los roles de manejar, manipular, e integrar información de muchas fuentes de datos distribuidas. Agentes de información o internet: Los agentes de información surgen de la necesidad de manejar el crecimiento de información que se encuentra en la Internet y poder sacar de ella los mayores beneficios. Los agentes de
información se encargan de manejar, manipular y coleccionar información de muchas fuentes distribuidas. Los agentes de información son similares a los agentes de interfaz o a los agentes móviles. Si son estáticos, entonces se les aplica los cambios de los agentes de interfaz. Sin embargo, si son móviles se les aplican los cambios de los agentes móviles.
Agentes Reactivos: Reactivos: reaccionan a cambios de su medio ambiente o a mensajes provenientes de otros agentes. No son capaces de razonar acerca de sus intenciones. Sus acciones se realizan como resultado de reglas que se disparan o de la ejecución de planes. Agentes híbridos: Los agentes híbridos se refieren a aquellos cuya constitución es una combinación de dos o más filosofías de agentes para formar un agente único. Agentes inteligentes: Un agente inteligente, es una entidad capaz de percibir su entorno, procesar tales percepciones y responder o actuar en su entorno de manera racional, es decir, de manera correcta y tendiendo a maximizar un resultado esperado. Es capaz de percibir su medioambiente con la ayuda de sensores y actuar en ese medio utilizando actuadores (elementos que reaccionan a un estímulo realizando una acción). Programas de Agente:
Es una función que, a partir de las percepciones del agente, le permite realizar las acciones. El trabajo de la IA es diseñar el programa del agente. Tipos Programas de Agente Agentes Reactivos Simples: Este tipo de agente no contiene internamente estados y sus procesos o acciones que realiza son respuestas a la entrada de percepciones. Ignoran las percepciones históricas. históricas.
Agentes reactivos basados en modelos (con estado interno): Este tipo de agente guarda estados internos sobre la historia percibida lo cual le sirve para ejecutar una acción. Los sensores no nos pueden informar a la vez de todos los estados que maneja nuestro ambiente, es por este caso que el agente necesita actualizar algo de información en el estado interno.
Agentes basados en metas: Además de los estados, los agentes necesitan cierto tipo de información sobre sus metas Estas metas van a detallar las situaciones a las que se desea llegar de este modo, el programa de agente puede combinar las metas con la información de los resultados (acciones) que emprenda y de esta manera poder elegir aquellas acciones que permitan alcanzar la meta.
Agentes Basados en Utilidad: Utiliza un modelo del mundo, junto con una función de utilidad que calcula sus preferencias entre los estados del mundo. Después selecciona la acción que le lleve a alcanzar la mayor utilidad esperada, entre todos los resultados posibles.
Agentes y la sociedad de la información
agentes informativos
Se define el concepto “agentes informativos”, se analiza su intervención en
el desarrollo de la Sociedad de la Información, se caracterizan sus rasgos definitorios y se tipifican sus ámbitos de participación en el desarrollo de la sociedad “Las sociedades se construyen en base a la interacción conflictiva entre
humanos organizados en y alrededor de una estructura social dada. La estructura social está formada por la conjunción de relaciones de producción y consumo, relaciones de experiencia y relaciones de poder Objetivos
Identificar a los principales actores que participan en los procesos de creación, uso y difusión de la información, requeridos en el contexto de la Sociedad de la Información. Describir y analizar de las funciones características que desarrollan los principales agentes informativos identificados. Conocer y comprender los principales procesos y actividades sociales que resultan afectados por la participación de nuevos agentes informativos en los procesos de creación, uso y difusión de la información necesaria para la generación del conocimiento. Comprender el concepto “industrias de la información” y conocer el alcance de los diferentes sectores o campos afectados por ellas. Sistema MultiAgente
Es un sistema compuesto por múltiples agentes inteligentes que interactúan entre ellos. Los sistemas multiagente pueden ser utilizados para resolver problemas que son difíciles o imposibles de resolver para un agente individual o un sistema monolítico. Las principales ventajas de la utilización de un sistema multiagente son:
Modularidad: se reduce la complejidad de la programación al trabajar con unidades más pequeñas, que permiten una programación más estructurada. Eficiencia: la programación distribuida permite repartir las tareas entre los agentes, consiguiendo paralelismo (agentes trabajando en diferentes máquinas). Fiabilidad: el hecho de que un elemento del sistema deje de funcionar no tiene que significar que el resto también lo hagan; además, se puede conseguir más seguridad replicando servicios críticos y así conseguir redundancia.
Un sistema multiagente está constituido por un conjunto de entidades inteligentes llamadas agentes que coordinan sus habilidades para la resolución de
problemas individuales o globales. Estos sistemas considerados como un todo, exhiben características particulares, que se presentan a continuación:
Organización Social Es la manera como el grupo de agentes está constituido en un instante dado. La organización social está relacionada con la estructura de los componentes funcionales del sistema, sus características, sus responsabilidades, sus necesidades y la manera como realizan sus comunicaciones.
Esta organización puede ser estática o dinámica, dependiendo de las unciones o tareas de cada agente. Se puede considerar que una sociedad de agentes está constituida por tres elementos:
Un grupo de agentes. Un conjunto de tareas a realizar. Un conjunto de recursos.
La organización en los SMA depende del tipo de comunicación y el modo de cooperación entre agentes, así como del tipo de agentes que conforman el grupo. En general se pueden distinguir tres tipos de configuraciones organizacionales:
Estructura Centralizada: En este tipo de configuración existe un agente que controla la interacción de los demás agentes del sistema, porque tiene la información o la funcionalidad para hacerlo.
Estructura Horizontal: Este tipo de configuración existe cuando todos los agentes que integran un sistema están al mismo nivel, es decir, no hay ningún agente que haga las veces de maestro o supervisor, ni tampoco agentes esclavos.
Estructura Jerárquica: Esta configuración existe cuando los agentes trabajan diferentes niveles de abstracción de un problema, es decir, la configuración es de niveles.
Esta configuración puede ser una mezcla de las tres anteriores, se caracteriza porque la dinamicidad de la estructura está regida por el ajuste mutuo entre los pequeños grupos de agentes en el sistema.
Estructura "ad hoc”:
Cooperación: Cooperación: En un SMA existen dos tipos de tareas que deben ser realizadas: las tareas locales y las tareas globales. Las tareas locales son las tareas relacionadas con los intereses individuales de cada agente y las tareas globales son las tareas relacionadas con los intereses globales del sistema. Para que los agentes puedan cooperar de manera eficiente, cada uno de ellos debe tener ciertas características:
Tener un modelo bien definido del mundo, que le permite localizar a los demás agentes, saber cómo comunicarse con ellos, qué tareas pueden realizar, etc.
Poder integrar información de otros agentes con la suya, para formar conceptos globales o conocimiento conformado por varios agentes.
Coordinación: Coordinación: La coordinación entre un grupo de agentes les permite considerar todas las tareas a realizar y coordinarlas para no ejecutar acciones no deseables, por ejemplo:
Los agentes no generen y comuniquen subsoluciones que lleven al progreso en la solución de un problema.
Coordinación Global: Cuando el SMA determina y planifica globalmente las acciones de los diferentes agentes.
Coordinación Individual: Cuando el SMA le da completa autonomía a los agentes, es decir, cada agente decide qué hacer y resuelve localmente los conflictos que detecte con otros agentes.
Comunicación e interacción de los agentes
Caracterización
Las interacciones; ocurren cuando los agentes existen y actúan en las proximidades el medio ambiente compartido los recursos compartidos La comunicación se produce cuando los agentes enviar mensajes el uno al otro con el fin de influir en las creencias e intenciones. Los detalles de implementación son irrelevantes; A través de enlaces de comunicación A través de la memoria compartida Debido a las convenciones compartidas Señalización frente a "hablar" "Lenguaje corporal"
Agentes software (softbots):
actúan en entornos virtuales (p.e. Internet)
todo software: no necesitan manipular físicamente el entorno
sensores y efectores: dependientes del entorno
Aplicaciones
En estos momentos el desarrollo se está llevando a cabo en distintos tipos de agentes. A continuación enumeramos algunas de las áreas identificadas como las más prometedoras para la aplicación de esta tecnología.
Gestión de Redes y Sistemas. La gestión de sistemas y redes es una de las primeras áreas que están recibiendo el impacto de la tecnología de los agentes inteligentes. El creciente uso de la arquitectura cliente/servidor ha intensificado la complejidad de los sistemas utilizados. Movilidad. De la misma manera que la informática ha evolucionado de la máquina centralizada hacia las redes, los usuarios lo han hecho hacia una mayor movilidad. Ahora no sólo se precisa un acceso a los recursos de la red desde cualquier ubicación, sino que además este acceso debe ser satisfactorio a pesar de las limitaciones del ancho de banda que presenta la tecnología móvil tales como la comunicación sin cables.
Correo y Mensajería. El software de mensajería (como por ejemplo, las aplicaciones de correo electrónico) ha ido evolucionando para mejorar el servicio de los usuarios y es un área donde la introducción de la tecnología de los agentes inteligentes parece muy propicia ya que el futuro de estas aplicaciones pasa por la delegación de la toma de decisiones del usuario en el agente de correo. Gestión y Acceso a la Información. El acceso y gestión de la información es un área con gran actividad, dado el gran crecimiento que se esta produciendo en Internet y la consiguiente explosión de datos disponibles para los usuarios. Aquí los agentes inteligentes no solo ayudan en las tareas de búsqueda y filtrado, sino que también lo hacen en la clasificación, establecimiento de prioridad, descarte selectivo, anotación y compartición y colaboración de información y documentos. Workflow y Gestión Administrativa. Estos sistemas ayudan a automatizar los procesos de negocio, asegurando que diferentes tareas son ejecutadas por las personas idóneas en el momento adecuado, además de asegurar que el flujo de documentos se gestiona correctamente dentro de la organización.
El sistema ADEPT es un ejemplo de sistema gestor de procesos de negocio basado en agentes. En este sistema cada departamento y cada persona perteneciente a un departamento se convierten en agentes. Para conseguir sus objetivos individuales necesitan interaccionar entre ellos.
Comercio Electrónico. El comercio electrónico es un área de gran crecimiento debido a la creciente popularidad de Internet. Los compradores necesitan encontrar vendedores de productos y servicios, necesitan información de los productos que solucionen sus problemas, y también precisarán de consejo experto tanto antes de la compra como después, durante el soporte. Interfaces de Usuario Adaptativos. Al tiempo que avanzan las capacidades y aplicaciones de los ordenadores, el interfaz de usuario
necesita incorporar tal aumento de complejidad. Y además, los usuarios de ordenadores son un grupo cada vez más numeroso y disperso, de forma que los interfaces del ordenador deben aprender los hábitos y preferencias del usuario y adaptarse a las individualidades de cada persona. Los agentes inteligentes (llamados agentes de interfaz) pueden ayudar con estos problemas, ya que permite al sistema monitorizar las acciones de los usuarios, desarrollar modelos sobre ellos, y automatizar la ayuda cuando surgen los problemas.
Agentes para Gestión de Sistemas Industriales. Probablemente el mayor sistema multiagente, y también el mas conocido en Europa, en este campo sea ARCHON. Desarrollado por un consorcio de empresas y centros de investigación europeos y que se encuentra en funcionamiento para controlar la red de distribución de energía del País Vasco.
ARCHON tiene dos partes principales: Un domain component que realiza la función especifica del dominio del agente; y un wrapper component que proporciona al agente funcionalidad, permitiendo al sistema que planifique sus acciones y que sea capaz de comunicarse con otros agentes.
Simulación Social
Una de las visiones detrás de los sistemas multiagente es la de utilizarlos como herramientas experimentales en las ciencias sociales. Es decir, se pueden utilizar agentes para simular el comportamiento de las sociedades humanas. El proyecto EOS, llevado a cabo por la Universidad de Essex en el Reino Unido, es un buen ejemplo de simulador de la sociedad. El objetivo del proyecto era investigar las causas de la aparición de una compleja sociedad en Francia durante el Paleolítico Superior.
Conclusiones
Hoy en día en la sociedad que vivimos es una sociedad dominada por la información, que se ha convertido en la materia prima más valiosa. Es el Internet
quien está posibilitando cambios destacados en nuestros modos de vida. Sin embargo, no todo es positivo: la búsqueda de información en la web todavía es muy caótica y dista mucho de ser una verdadera infraestructura de información para los usuarios. La búsqueda mediante buscadores conlleva mucho tiempo y esfuerzo si se desean agotar todas las posibilidades. La aparición de agentes inteligentes ha conllevado un avance significativo en este ámbito ya que permiten realizar la búsqueda simultáneamente en varios motores de búsqueda, comparar los resultados y ofrecer un listado preciso al usuario. El desarrollo de agentes está ligado a lo que se conoce como web semántica en la que todo lo que circule por la web será entendible no solo por el usuario sino también por la máquina. Las posibilidades ofrecidas por los agentes generan una serie de problemas que cabe tener en cuenta. En primer lugar, los agentes existentes en la actualidad necesitan de una gran cantidad de recursos para funcionar, tanto a nivel de máquina del usuario como a nivel de red. En segundo lugar, las habilidades que puedan tener estos agentes pueden resultar una amenaza para la privacidad e intimidad de los usuarios desde el momento que registran sus gustos, preferencias, maneras de actuar, etc.
MINERÍA DE DATOS
Definición
La minería de datos (DM, Data Mining) consiste en la extracción no trivial de información que reside de manera implícita en los datos. En otras palabras, la minería de datos prepara, sondea y explora los datos para sacar la información oculta en ellos. Bajo el nombre de minería de datos se engloba todo un conjunto de técnicas encaminadas a la extracción de conocimiento procesable, implícito en las bases de datos. Está fuertemente ligado con la supervisión de procesos industriales ya que resulta muy útil para aprovechar los datos almacenados en las bases de datos. Las bases de la minería de datos se encuentran en la inteligencia artificial y en el análisis estadístico. Mediante los modelos extraídos utilizando técnicas de minería de datos se aborda la solución a problemas de predicción, clasificación y segmentación. Básicamente, el datamining surge para intentar ayudar a comprender el contenido de un repositorio de datos. Con este fin, hace uso de prácticas estadísticas y, en algunos casos, de algoritmos de búsqueda próximos a la Inteligencia Artificial y a las redes neuronales. De forma general, los datos son la materia prima bruta. En el momento que el usuario les atribuye algún significado especial pasan a convertirse en información. Cuando los especialistas elaboran o encuentran un modelo, haciendo que la interpretación que surge entre la información y ese modelo represente un valor agregado, entonces nos referimos al conocimiento.
Historia de data mining (minería de datos)
La idea de data mining no es nueva. Ya desde los años sesenta los estadísticos manejaban términos como data fishing, data mining o data archaeology con la idea de encontrar correlaciones sin una hipótesis previa en bases de datos con ruido. A principios de los años ochenta, Rakesh Agrawal, Gio Wiederhold, Robert Blum y Gregory Piatetsky-Shapiro, entre otros, empezaron a consolidar los términos de data mining y KDD.[3] A finales de los años ochenta sólo existían un par de empresas dedicadas a esta tecnología; en 2002 existen más de 100 empresas en el mundo que ofrecen alrededor de 300 soluciones. Las listas de discusión sobre este tema las forman investigadores de más de ochenta países. Esta tecnología ha sido un buen punto de encuentro entre personas pertenecientes al ámbito académico y al de los negocios. El data mining es una tecnología compuesta por etapas que integra varias áreas y que no se debe confundir con un gran software. Durante el desarrollo de un proyecto de este tipo se usan diferentes aplicaciones software en cada etapa que pueden ser estadísticas, de visualización de datos o de inteligencia artificial, principalmente. Actualmente existen aplicaciones o herramientas comerciales de data mining muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta. La minería de datos, entendida como la búsqueda de patrones dentro de grandes bases de datos utilizando utilizando para ello métodos estadísticos y de aprendizaje basado en computadora, está empezando a extenderse en nuestro país. Empresas en el sector de telecomunicaciones, financiero y de autoservicio están en el proceso de adquirir alguna solución tecnológica en este campo, por lo que surge una demanda por recursos humanos con conocimientos en minería de datos.
Los Fundamentos del Data Mining
Las técnicas de Data Mining son el resultado de un largo proceso de investigación y desarrollo de productos. Esta evolución comenzó cuando los datos
de negocios fueron almacenados por primera vez en computadoras, y continuó con mejoras en el acceso a los datos, y más recientemente con tecnologías generadas para permitir a los usuarios navegar a través de los datos en tiempo real. Data Mining toma este proceso de evolución más allá del acceso y navegación retrospectiva de los datos, hacia la entrega de información prospectiva y proactiva. Data Mining está lista para su aplicación en la comunidad de negocios porque está soportado por tres tecnologías que ya están suficientemente maduras:
Recolección masiva de datos. Potentes computadoras con multiprocesadores. Algoritmos de Data Mining.
Principales características y objetivos de la minería de datos Explora los datos que se encuentran en las profundidades de las bases de datos, como los almacenes de datos, que algunas veces contienen información almacenada durante varios años. En algunos casos, los datos se consolidan en un almacén de datos y en mercados de datos; en otros, se mantienen en servidores de Internet e Intranet. El entorno de la minería de datos suele tener una arquitectura cliente servidor. Las herramientas de la minería de datos ayudan a extraer el mineral de la información enterrado en archivos corporativos o en registros públicos, archivados. El minero es, muchas veces un usuario final con poca o ninguna habilidad de programación, facultado por barrenadoras de datos y otras poderosas herramientas indagatorias para efectuar preguntas adhoc y obtener rápidamente respuestas.
Las herramientas de la minería de datos se combinan fácilmente y pueden analizarse y procesarse rápidamente. Debido a la gran cantidad de datos, algunas veces resulta necesario usar procesamiento en paralelo para la minería de datos. La minería de datos produce cinco tipos de información: Asociaciones. Secuencias. Clasificaciones. Agrupamientos. Pronósticos. Los mineros de datos usan varias herramientas y técnicas.
La minería de datos es un proceso que invierte la dinámica del método científico en el siguiente sentido: En el método científico, primero se formula la hipótesis y luego se diseña el experimento para coleccionar los datos que confirmen o refuten la hipótesis. En la minería de datos, se coleccionan los datos y se espera que de ellos emerjan hipótesis. Se busca que los datos describan o indiquen por qué son. Luego entonces, se valida esa hipótesis inspirada por los datos en los datos mismos, será numéricamente significativa, pero experimentalmente inválida. Usar la minería de datos para confirmar las hipótesis formuladas puede ser peligroso, pues se está haciendo una inferencia poco válida. Actualmente existen aplicaciones o herramientas comerciales de minería de datos muy poderosas que contienen un sinfín de utilerías que facilitan el desarrollo de un proyecto. Sin embargo, casi siempre acaban complementándose con otra herramienta.
El Alcance de Data Mining
El nombre de Data Mining deriva de las similitudes entre buscar valiosa información de negocios en grandes bases de datos. Por ej: encontrar información de la venta de un producto entre grandes montos de Gigabytes almacenados y
minar una montaña para encontrar una veta de metales valiosos. Ambos procesos requieren examinar una inmensa cantidad de material, o investigar inteligentemente hasta encontrar exactamente donde residen los valores. Dadas bases de datos de suficiente tamaño y calidad, la tecnología de Data Mining puede generar nuevas oportunidades de negocios al proveer estas capacidades:
Predicción automatizada de tendencias y comportamientos. Data Mining automatiza el proceso de encontrar información predecible en grandes bases de datos. Preguntas que tradicionalmente requerían un intenso análisis manual, ahora pueden ser contestadas directa y rápidamente desde los datos. Un típico ejemplo de problema predecible es el marketing apuntado a objetivos (targeted marketing). Descubrimiento automatizado de modelos previamente desconocidos. Las herramientas de Data Mining barren las bases de datos e identifican modelos previamente escondidos en un sólo paso. Otros problemas de descubrimiento de modelos incluye detectar transacciones fraudulentas de tarjetas de créditos e identificar datos anormales que pueden representar errores de tipiado en la carga de datos. Las técnicas de Data Mining pueden redituar los beneficios de automatización en las plataformas de hardware y software existentes y puede ser implementada en sistemas nuevos a medida que las plataformas existentes se actualicen y nuevos productos sean desarrollados. Cuando las herramientas de Data Mining son implementadas en sistemas de procesamiento paralelo de alta performance, pueden analizar bases de datos masivas en minutos. Procesamiento más rápido significa que los usuarios pueden automáticamente experimentar con más modelos para entender datos complejos. Alta velocidad hace que sea práctico para los usuarios analizar inmensas cantidades de datos. Una arquitectura para Data Mining
Para aplicar mejor estas técnicas avanzadas, éstas deben estar totalmente integradas con el data warehouse así como con herramientas flexibles e interactivas para el análisis de negocios. Varias herramientas de Data Mining actualmente operan fuera del warehouse, requiriendo pasos extra para extraer, importar y analizar los datos.. El Data warehouse analítico resultante puede ser aplicado para mejorar procesos de negocios en toda la organización, en áreas tales como manejo de campañas promocionales, detección de fraudes, lanzamiento de nuevos productos, etc. El punto de inicio ideal es un data warehouse que contenga una combinación de datos de seguimiento interno de todos los clientes junto con datos externos de mercado acerca de la actividad de los competidores. Información histórica sobre potenciales clientes también provee una excelente base para prospecting.
Fases de un Proyecto de Minería de Datos
Los pasos a seguir para la realización de un proyecto de minería de datos son siempre los mismos, independientemente de la técnica específica de extracción de conocimiento usada tenemos los siguientes:.
Filtrado de datos: El formato de los datos contenidos en la fuente de datos (base de datos, Data Warehouse...) nunca es el idóneo, y la mayoría de las veces no es posible ni siquiera utilizar ningún algoritmo de minería sobre los datos en bruto.
Mediante el preprocesador, se filtran los datos (de forma que se eliminan valores incorrectos, no válidos, desconocidos... según las necesidades y el algoritmo a usar), se obtienen muestras de los mismos (en busca de una mayor velocidad de respuesta del proceso), o se reducen el número de valores posibles (mediante redondeo, clustering,...).
Selección de variables: Aún después de haber sido preprocesados, en la mayoría de los casos se tiene una cantidad ingente de datos. La selección de características reduce el tamaño de los datos eligiendo las variables más influyentes en el problema, sin apenas sacrificar la calidad del modelo de conocimiento obtenido del proceso de minería.
Los métodos para la selección de características son básicamente dos:
Aquellos basados en la elección de los mejores atributos del problema, Y aquellos que buscan variables independientes mediante tests de sensibilidad, algoritmos de distancia o heurísticos. Algoritmos de Extracción de Conocimiento: Mediante una técnica de minería de datos, se obtiene un modelo de conocimiento, que representa patrones de comportamiento observados en los valores. Interpretación y evaluación: Una vez obtenido el modelo, se debe proceder a su validación, comprobando que las conclusiones que arroja son válidas y suficientemente satisfactorias.
En el caso de haber obtenido varios modelos mediante el uso de distintas técnicas, se deben comparar los modelos en busca de aquel que se ajuste mejor al problema. Si ninguno de los modelos alcanza los resultados esperados, debe alterarse alguno de los pasos anteriores para generar nuevos modelos.
Aplicaciones de Uso En el Gobierno: El FBI analizará las bases de datos comerciales para detectar terroristas. A principios del mes de julio de 2002, el director, anunció que el Departamento de Justicia comenzará a introducirse en la cantidad de datos comerciales referentes a los hábitos y preferencias de compra de los consumidores, con el fin de descubrir potenciales terroristas. Algunos expertos aseguran que, con esta información, el FBI unirá todas las bases de datos probablemente mediante el número de la Seguridad Social y permitirá saber si una persona fuma, qué talla y tipo de ropa usa, su registro de arrestos, En la Empresa: Detección de fraudes en las tarjetas de crédito.
En 2001, las instituciones financieras a escala mundial perdieron más de 2.000 millones de dólares estadounidenses en fraudes con tarjetas de crédito y débito. El Falcon Fraud Manager es un sistema inteligente que examina transacciones, propietarios de tarjetas y datos financieros para detectar y mitigar fraudes.
Hábitos de compra en supermercados: Un estudio muy citado detectó que los viernes había una cantidad inusualmente elevada de clientes que adquirían a la vez pañales y cerveza.
Se detectó que se debía a que dicho día solían acudir al supermercado padres jóvenes cuya perspectiva para el fin de semana consistía en quedarse en casa cuidando de su hijo y viendo la televisión con una cerveza en la mano. • Prediciendo el tamaño de las audiencias televisivas.
En la Universidad: Conociendo si los recién titulados de una universidad llevan acabo actividades profesionales relacionadas con sus estudios.