ESPECIALIZACION TECNOLOGICA EN GESTION Y SEGURIDAD EN BASE DE DATOS
PLAN DE MIGRACIÓN DE DATOS PARA SAN ANTONIO DEL SENA
ANA DILIA SEPULVEDA ARENAS JOSE FABIO ROZO ROZO
MODULO EJECUCION
SENA
2016
INTRODUCCION Para escoger la estrategia de migración, se realizó un análisis detallado, teniendo en cuenta las directrices del sistema, especialmente en lo referente a mantener la integración de la funcionalidad y de los datos, así como las expectativas de los usuarios respecto a la información activa e histórica, la facilidad de operación y de consulta, la viabilidad técnica y las restricciones del Proyecto. La estrategia tecnológica escogida para el desarrollo de la migración es la implementación de ambientes separados de diseo y e!ecución. "on esta opción existe un repositorio #ue almacena definiciones de metadatos para ob!etos como fuentes, destinos, y procesos de extracción, transformación y carga a los cuales tienen acceso los usuarios a través del "entro de $iseo .
TECNICA Y ESTRATEGIA A UTILIZAR
La herramienta escogida para el proceso de migración de datos determina la ar#uitectura tecnológica a implementar. % continuación se describen los principales componentes de la ar#uitectura y la opción de implementación escogida.
Penta! Data Inte"#at$!n Pentaho $ata &ntegration proporciona un enfo#ue declarativo de '(L donde se especifica #ué hacer en lugar de como hacerlo. &ncluye una biblioteca de transformación con más de )* ob!etos de mapeo. 'n incluye la capacidad de almacenamiento de datos para cambiar lentamente y basura $imensiones. &ncluye soporte para m+ltiples fuentes de datos, incluyendo más de - plataformas de código abierto y de base de datos , archivos planos, documentos de Excel, y mucho más. La arquitectura es extensible con un mehcanism plug-in.
Inte"#a%$&n 'e 'at!( La plataforma ofrece, análisis listos datos precisos a los usuarios finales de cual#uier fuente. "on las herramientas visuales para eliminar la codificación y comple!idad, Pentaho pone de datos grandes y todas las fuentes de datos en las yemas de los dedos de las empresas y los usuarios de (&. 'l "entro de $iseo es la interfaz de usuario #ue se utiliza en el diseo, administración, programación y despliegue de procesos para mover y transformar los datos. (odos los metadatos asociados con el traba!o hecho en el "entro de $iseo se almacenan en el repositorio.
"%/%"('//&0(&"%0 $' L% 1'//%2&'3(%
&3('4/%"&53 $' $%(60 4/%3$' "63 "'/6 "6$&7&"%"&53 68L&4%(6/&6
1erramientas intuitivas de Pentaho aceleran el tiempo #ue se necesita para disear, desarrollar y desplegar análisis de datos grandes en hasta 9-x. •
4randes herramientas de integración de datos visuales completas eliminan la codificación en 0:L o escribir funciones 2ap/educe ;ava.
•
%mplia conectividad a cual#uier tipo o fuente de datos con soporte nativo para 1adoop, 3o0:L y bases de datos analíticos.
•
2otor de procesamiento paralelo para garantizar un alto rendimiento y escalabilidad empresarial.
•
'xtraer y combinar los datos existentes y diversos para producir uniformes y de alta calidad listos para analizar los datos.
SIMPLE DISE)ADOR VISUAL DE ARRASTRAR Y DESARROLLO GOTA
'mpoderar a los desarrolladores con herramientas visuales para minimizar la codificación y lograr una mayor productividad. •
'xtracción, transformación y carga gráfica <'(L= herramienta para cargar y fuentes de datos grandes de proceso en formas familiares.
•
/ich librería de componentes pre>construidos para acceder y transformar datos de un amplio espectro de fuentes.
•
&nterfaz visual para llamar a código personalizado, analizar las imágenes y archivos de vídeo para crear metadatos significativa.
•
(ransformaciones dinámicas, utilizando las variables para determinar asignaciones de campo, validación y reglas de enri#uecimiento.
•
$epurador integrado para pruebas y puesta a punto la e!ecución del traba!o .
6P6/(' 3%(&?6 @ 7L'A&8L' P%/% (6$%0 L%0 7B'3('0 $' 8&4 $%(%
Bna combinación de conexiones nativas de profundidad y una capa de datos de datos de gran adaptativo aseguran el acceso acelerado a las distribuciones principales de 1adoop, bases de datos 3o0:L, y otras tiendas de grandes datos. •
'l apoyo a las distribuciones de 1adoop de "loudera, 1ortonCorDs y 2ap/.
•
Plugins a bases de datos 3o0:L como "assandra y 2ongo$8, así como las conexiones a almacenes de datos especializados como %mazon /edshift y 0plunD.
•
"apa de datos grande adaptable ahorra empresas considerable el tiempo de desarrollo, ya #ue aprovechan las nuevas versiones y capacidades.
•
2ayor flexibilidad, reducción del riesgo, y el aislamiento de los cambios en el gran ecosistema de datos.
•
Presentación de informes y análisis sobre las cantidades crecientes de usuario y los datos de má#uina generado, incluyendo contenido de la Ceb, documentos, medios de comunicación social y los archivos de registro.
•
&ntegración de las tareas de datos 1adoop en general de (& E '(L E soluciones de 8& con distribución escalable en el cl+ster.
•
'l apoyo a los servicios p+blicos para carga de datos a granel paralelos para la carga de datos con el máximo rendimiento.
$'0"/&P"&63 $' L%0 7%0'0 %nálisis y $iseo 6b!etivoF /ealizar un examen completo y establecer una lista de che#ueo de los elementos de datos del sistema #ue serán migrados. $el mismo modo se realiza el mapeo de los elementos de datos de la fuente al destino.
%ctividades 'n el es#uema iterativo, las actividades de análisis están dirigidas a suplir los re#uerimientos del sistema. 0e deben hacer tres consideraciones. >
$escubrimiento inicial. Proceso #ue permite entender el valor de todos los elementos de datos, rangos, etc. y poner en evidencia las relaciones entre ellos.
>
2apeo. Permite entender cuáles bases de datos, entidades y atributos satisfacen los re#uerimientos de información del sistema destino. 0e debe evaluar #ué relación origen>destino satisface el re#uerimiento de manera óptima y determinar los cambios re#ueridos
'l resultado de la fase de análisis y diseo es la especificación del mapeo entre los sistemas fuente y el sistema destino. 'ntre me!or sea la especificación inicial menos iteraciones se tendrán #ue realizar. /ealizar el análisis de la topología y obtener estimados de desempeo. 's necesario precisar la duración de la migración una vez se e!ecuten las iteraciones previas a la migración final. 'xtracción y (ransformación 6b!etivoF $esarrollar los procedimientos transformación y validación %ctividadesF Bn análisis preciso permitirá un traba!o eficiente en las siguientes fases. $espués de #ue se conoce #ue datos migrar, donde conseguirlos y como se mapean en el
destino, el siguiente paso es construir los procedimientos necesarios para extraer los datos y transformarlos hacia el formato adecuado. $urante la fase de desarrollo además de construir los scripts y el código específico de la migración utilizando la herramienta de migración seleccionada se deben enfrentar dos situacionesF ?alidación 6b!etivoF ?alidación de datos en de preparación. %ctividadesF Bna vez se tiene listo el mapeo el siguiente paso es che#uear si los datos cumplen las validaciones del sistema destino, incluyendo reglas de negocio, restricciones de semántica o sintácticas. 'stas actividades se pueden realizar con la misma herramienta de desarrollo de tal manera #ue el resultado de esta fase es un con!unto de procedimientos o scripts a través de los cuales se realizarán las validaciones mencionadas. Pruebas y cargue 6b!etivoF '!ecutar los scripts o el código generados en la fase de desarrollo de la migración, enmarcándolos en un contexto de semántica del negocio #ue permita resolver los problemas lógicos así como los errores físicos. %ctividades 'n la fase de pruebas del usuario se identifican y resuelven los errores lógicos. 'l primer paso es e!ecutar los mapas. %sí los mapas se e!ecuten correctamente hay #ue identificarF >
'l n+mero de registros #ue se espera #ue el script cree.
>
0i efectivamente ese n+mero de registros se crearon, si no explicar el por #ué no fue así.
>
0i los datos fueron cargados en los campos correctos.
>
0i el formato de los datos fue el adecuado.
>
0i el sistema destino permite limpiar los datos cargados si la carga no fue satisfactoria y existe el procedimiento para hacerlo, mediante el uso de la capa intermedia de transformación. 'l ob!eto es asegurar #ue la migración está correcta antes de poblar el sistema destino.