El Sitio de Oscar Chevez Ulloa

Mi foto
San Salvador, El Salvador, El Salvador
Lic. Administración de Empresas Preespecialización en Tecnologìa de Información Analista Programador de Sistemas Servicios que Ofrece: * Capacitación Office * Lenguajes de Programación * Base de Datos * Consultorías de Sistemas (Análisis, Diseño e Implementación) * Asesoría de Tésis Otros Servicios: * Panadería y Pastelería por **Encargo** * Bisuteria y Artesanias

lunes, 22 de agosto de 2011

Mineria de Datos y DataWareHouse


Introducción:

La motivación principal de la Minería de Datos "MD" y el DataWareHouse "DW" es la necesidad de organizar grandes volúmenes de datos y descubrir patrones significativos que sirvan a investigadores y administradores para lograr un mayor entendimiento de los fenómenos y procesos de su interés

1. Minería de datos
2. Data warehousing
El data warehousing es el conjunto de técnicas para diseñar, construir y mantener datotecas. Una datoteca es una colección de datos organizados de modo que se optimice el desempeño de las consultas de grandes volúmenes de información. Las datotecas se diferencian de las bases de datos localizadas en los sistemas OLTP porque el propósito principal de las datotecas es facilitar y eficientar las operaciones de consulta de grandes volúmenes de datos para hacer Procesamiento Analítico en Línea (On Line Analytical Processing, OLAP). En cambio, las bases de datos de los sistemas OLTP intentan favorecer el desempeño de operaciones de actualización con volúmenes pequeños de datos. Generalmente las datotecas se ubican en servidores separados de los sistemas OLTP para evitar que el procesamiento de consultas voluminosas disminuya el desempeño del OLTP. Otra diferencia importante es tipo de usuarios típicos de cada uno: los de las datotecas son mayoritariamente de nivel gerencial o directivo, realizando tareas nivel táctico o estratégico; los de OLTP realizan actividades a nivel operativo.

Los  métodos comúnmente aplicados para su construcción son:
Repositorio
Un repositorio es una copia (réplica) de una base de datos proveniente de un sistema OLTP. Es la forma más sencilla de datoteca porque los datos generalmente se mantienen organizados en estructuras de tablas que son iguales a las de la base original. Los datos preservan sus valores originales y en caso de que algunos campos contengan valores erróneos o faltantes se les aplican procesos de corrección o eliminación (eliminando campos y/o tuplas), que se establecen a conveniencia de los usuarios.

Data martData warehouse

Un data mart (mercado de datos) es una base de datos multidimensional (Multidimensional Database, MDD) que contiene información de un área, departamento o proceso determinado de la empresa o institución. Por ejemplo, información de ventas, de compras, de producción, etc. Una MDD es aquella que se organiza en tablas de hechos (facts), llamados también métricas (measures), y tablas de dimensiones (dimensions).

Un data warehouse (bodega de datos) es una MDD similar al data mart y se caracteriza por contener datos sumarizados de todas las áreas, departamentos y procesos de una empresa o institución. Su diferencia principal con el data mart es el tamaño y el alcance

La necesidad del data warehousing y la minería de datos en los ámbitos científico, gubernamental y de negocios ha venido creciendo durante los últimos años y es evidente que esta tendencia prevalecerá.
La minería de datos (data mining), conocida también como descubrimiento de conocimiento en bases de datos (knowledge discovery in databases), es una disciplina de las ciencias e ingenierías de la computación que intenta hallar patrones significativos en conjuntos de datos para producir modelos descriptivos, predictivos y clasificadores apoyándose en técnicas de manejo y programación de bases de datos, en estadística y aprendizaje automático (ML, por machine learning).

No hay comentarios: