domingo, 19 de octubre de 2014

Tema 7: Almacenes de datos y Minería de datos

Definición de Almacén de Datos


Un Almacén de Datos (o Data Warehouse) es una gran colección de datos que recoge información de múltiples sistemas fuentes u operacionales dispersos, y cuya actividad se centra en la Toma de Decisiones -es decir, en el análisis de la información- en vez de en su captura. Una vez reunidos los datos de los sistemas fuentes se guardan durante mucho tiempo, lo que permite el acceso a datos históricos; así los almacenes de datos proporcionan al usuario una interfaz consolidada única para los datos, lo que hace más fácil escribir las consultas para la toma de decisiones.

Diferencias entre Base de Datos y Almacén de Datos

Base de Datos Operacional
Almacén de Datos
Datos operacionales
Datos del negocio para Información
Orientado a aplicación
Orientado al sujeto
Actual
Actual + Histórico
Detallada
Detallada + Resumida
Cambia continuamente
Estable

Data Warehousing

Data Warehousing es el proceso que facilita la creación y explotación de un Almacén de Datos.
Los Sistemas de Data Warehousing incluyen funcionalidades como:
  • Integración de bases de datos heterogéneas (relacionales, documentales, geográficas, archivos, etc.)
  • Ejecución de consultas complejas no predefinidas visualizando el resultado en forma gráfica y en diferentes niveles de agrupamiento y totalización de datos.
  • Agrupamiento y desagrupamiento de datos en forma interactiva.
  • Análisis del problema en términos de dimensiones.
  • Control de calidad de datos.

Características del Almacén de Datos

  • Organizado en torno a temas. La información se clasifica en base a los aspectos que son de interés para la empresa.
  • Integrado. Es el aspecto más importante. La integración de datos consiste en convenciones de nombres, codificaciones consistentes, medida uniforme de variables, etc.
  • Dependiente del tiempo. Esta dependencia aparece de tres formas:
    • La información representa los datos sobre un horizonte largo de tiempo.
    • Cada estructura clave contiene (implícita o explícitamente) un elemento de tiempo (día, semana, mes, etc.).
    • La información, una vez registrada correctamente, no puede ser actualizada.
  • No volátil. El Almacén de Datos sólo permite cargar nuevos datos y acceder a los ya almacenados, pero no permite ni borrar ni modificar los datos.

Arquitectura Data Warehouse

La estructura básica de la arquitectura Data Warehouse incluye:
  1. Datos operacionales. Origen de datos para el componente de almacenamiento físico del Almacén de Datos.
  2. Extracción de datos. Selección sistemática de datos operacionales usados para formar parte del Almacén de Datos.
  3. Transformación de datos. Procesos para sumarizar y realizar cambios en los datos operacionales.
  4. Carga de datos. Inserción de datos en el Almacén.
  5. Almacén. Almacenamiento físico de datos de al arquitectura Data Warehouse.
  6. Herramienta de acceso. Herramientas que proveen acceso a los datos.


Estructura lógica del Almacén de Datos

La estructura lógica de un Almacén de Datos está compuesta por los siguientes niveles:
  • Metadatos. Describen la estructura de los datos contenidos en el almacén.
    • Están en una dimensión distinta al resto de niveles.
  • Datos detallados actuales. Obtenidos directamente del procesado de los datos.
    • Forman el nivel más bajo de detalle.
    • Ocupan mucho espacio.
    • Se almacenan en disco, para facilitar el acceso.
  • Datos detallados históricos. Igual que los anteriores, pero con datos correspondientes al pasado.
    • Se suelen almacenar en un medio externo, ya que su acceso es poco frecuente.
  • Datos ligeramente resumidos. Primer nivel de agregación de los datos detallados actuales.
    • Corresponden a consultas habituales.
    • Se almacenan en disco.
  • Datos muy resumidos. Son el nivel más alto de agregación.
    • Corresponden a consultas que se realizan muy a menudo y que se deben obtener muy rápidamente.
    • Suelen estar separados del Almacén de datos, formando Supermercados de Datos (Data Marts).



Estructura física del Almacén de Datos

La estructura física puede presentar cualquiera de las siguientes configuraciones:
  • Arquitectura centralizada. Todo el Almacén de datos se encuentra en un único servidor.
  • Arquitectura distribuida. Los datos del Almacén se reparten entre varios servidores. Asignando cada servidor a uno o varios temas lógicos.
  • Arquitectura distribuida por niveles. Refleja la estructura lógica del Almacén, asignando los servidores en función del nivel de agregación de los datos que contienen. Un servidor está dedicado para los datos de detalle, otro para los resumidos y otro para los muy resumidos.
  • Cuando los datos muy resumidos se duplican en varios servidores para agilizar el acceso se habla de Supermercados de datos (Data Marts).

Software Data Warehouse

  • Red Brick Warehouse
  • Essbase
  • Pilot Decission Support Suite
  • Microsoft SQL Server



http://www2.rhernando.net/modules/tutorials/viewexttutorial.php?tid=41

Minería de Datos (Data Mining)

Definición de Minería de Datos

La Minería de Datos (Data Mining) es un conjunto de técnicas y procesos de análisis de datos que permite extraer información de bases de datos y Almacenes de Datos mediante la búsqueda automatizada de patrones y relaciones.

Modelos de Minería de Datos

  • De verificación. El usuario solicita que se verifique cierta hipótesis, cuando se le responde puede refinar su pregunta, y así sucesivamente.
  • De descubrimiento. Con este método se descubre nueva información que no estaba previamente en el Almacén de Datos (o, en su caso, en las bases de datos). No necesita intervención por parte del usuario. Se buscan patrones en los datos, o bien elementos fuera de la norma.
  • Predictivo. Se realizan predicciones sobre el comportamiento futuro de variables a partir de los patrones existentes en los datos. El usuario indica sobre qué variable quiere obtener la predicción.

Fases de la Minería de Datos

  1. Selección y preprocesamiento de los datos. En esta fase se decide sobre qué datos se va a trabajar, tanto desde el punto de vista físico como lógico. También se depuran los datos. (Este paso no es necesario si se trabaja sobre un Almacén de Datos, porque los datos ya están preparados).
  2. Búsqueda de patrones. Se analizan los datos para extraer significado e información. El resultado será un informe.
  3. Interpretación y evaluación. Se interpretan los resultados de la fase anterior.

Técnicas de Minería de Datos

Las técnicas más utilizadas para la extracción de la información son las siguientes:
  • De consulta e informe. Es la forma tradicional de obtener información a partir de bases de datos relacionales. Consiste en la utilización de herramientas que facilitan las consultas SQL y presentan los resultados en forma de tablas, diagramas o gráficos. Además pueden utilizar técnicas estadísticas para analizar los datos obtenidos.
  • Son apropiadas para el modelo de minería de verificación.
  • De inteligencia artificial. Utilizan estructuras de datos y algoritmos basados en árboles de decisiones, redes neuronales, técnicas de clustering y lógica difusa. Forman parte de los agentes inteligentes.
  • Son apropiadas para los modelos predictivo y de descubrimiento.
  • De análisis multidimensional. Se basan en la utilización de bases de datos multidimensionales. Se utilizan para cruzar los datos de múltiples formas y con distintos niveles de agregación.
Además, se utilizan técnicas de detección de desviación y de programación genéticas, entre otras.


http://www2.rhernando.net/modules/tutorials/viewexttutorial.php?tid=38

No hay comentarios:

Publicar un comentario