Saltar al contenido

Las 25 preguntas y respuestas principales de la entrevista de la prueba ETL

Preguntas frecuentes en entrevistas para principiantes, así como para desarrolladores y probadores de ETL con experiencia.

1) ¿Qué es ETL?

En la arquitectura de almacenamiento de datos, ETL es una parte importante que gestiona los datos de cualquier proceso empresarial. ETL significa Extraer, transformar y Carga. Extraer realiza el proceso de lectura de datos de una base de datos. Transformar convierte los datos a un formato que puede ser adecuado para informes y análisis. Mientras que la carga realiza el proceso de escribir los datos en la base de datos de destino.

2) Explique qué operaciones de prueba ETL están incluidas.

Las pruebas ETL incluyen

  • Verifique si los datos están cambiando correctamente de acuerdo con las necesidades comerciales
  • Asegúrese de que los datos proyectados se carguen en el almacén de datos sin pérdida ni pérdida de datos
  • Asegúrese de que la aplicación ETL notifique datos no válidos y reemplace los valores predeterminados
  • Asegúrese de que los datos estén ponderados en el período de tiempo esperado para mejorar la escalabilidad y el rendimiento.

3) Indique cuáles son los tipos de aplicaciones de almacenamiento de datos y cuál es la diferencia entre la minería de datos y el almacenamiento de datos.

Los tipos de aplicaciones son almacenamiento de datos.

  • Procesamiento de información
  • Procesamiento analítico
  • Procesamiento de datos

La minería de datos se puede definir como el proceso de extraer información predictiva oculta de grandes bases de datos e interpretar los datos y el almacenamiento de minería de datos se puede utilizar para procesar los datos analíticamente de una manera más rápida. El almacenamiento de datos es el proceso de agregar datos de múltiples fuentes en un único repositorio colectivo.

4) ¿Cuáles son las diferentes herramientas que se utilizan en ETL?

  • Flujo de decisiones de Cognos
  • Generador de almacenes de Oracle
  • Objetivos comerciales XI
  • Almacén comercial SAS
  • Servidor ETL empresarial SAS

5) ¿Qué es la verdad? ¿Qué tipo de hechos?

Es parte integral de un modelo multidimensional de las medidas a analizar. Los hechos están relacionados con las dimensiones.

Hay tipos de hechos

  • Hechos del complemento
  • Hechos de semi-complementos
  • Hechos no aditivos

6) Explica qué son los cubos y cubos OLAP.

Los cubos son unidades de procesamiento de datos compuestas por tablas de hechos y dimensiones del almacén de datos. Proporciona análisis multidimensional.

OLAP significa Procesamiento de análisis en línea y un cubo OLAP almacena grandes datos en forma multidimensional para fines de informes. Consiste en hechos llamados medidas clasificadas por dimensiones.

7) Explique cuál es el nivel de seguimiento y cuáles son los tipos.

El nivel de seguimiento es la cantidad de datos almacenados en los archivos de registro. El nivel de seguimiento se puede clasificar en dos comunes y verbos. El nivel ordinario explica el nivel de seguimiento de forma detallada y el verbo explica los niveles de seguimiento en cada fila.

8) Explique qué es un grano de realidad.

El hecho fundamental se puede definir como el nivel en el que se almacena la información fáctica. También se llama hecho de granularidad

9) Explique qué es un esquema de hechos fácticos y qué son las Medidas.

Una tabla de hechos sin medidas se llama tabla de hechos sin medidas. Puede ver la cantidad de eventos que ocurren. Por ejemplo, se utiliza para registrar un evento como el recuento de empleados en una empresa.

Los datos numéricos basados ​​en columnas en una tabla de hechos se denominan Medidas.

10) Explica qué es la transformación.

Una transformación es un repositorio que genera, modifica o transfiere datos. Hay dos tipos de transformación Activa y Pasiva.

11) ¿Explica el uso de Transformup Lookup?

La transformación de búsqueda es útil para

  • Encuentre un valor relacionado de una tabla usando el valor de una columna
  • Actualizar la tabla de dimensiones que cambia lentamente
  • Comprueba si ya hay registros en la tabla.

12) Explique qué es la segmentación, la segmentación hash y la división robin exacta.

Para mejorar el rendimiento, las transacciones se subdividen, esto se denomina segmentación. Habilita la partición Informatica Servidor para crear múltiples conexiones a múltiples fuentes

Los tipos de particiones son

Partición Round-Robin:

  • Según la información, los datos se distribuyen uniformemente entre todas las particiones.
  • Esta partición es aplicable en todas las particiones donde el número de capas a procesar es casi el mismo

Partición hash:

  • Para particionar claves para agrupar datos entre particiones El servidor de Informatica realiza una función hash
  • Se utiliza para garantizar que los grupos de procesos secuenciales deben tener la misma clave de partición en la misma partición.

13) Indique cuál es la ventaja de utilizar un adaptador de destino de DataReader.

La ventaja de utilizar el adaptador de destino de DataReader es que rellena Recordet ADO (que consta de registros y columnas) en la memoria y revela los datos de la tarea DataFlow aplicando la interfaz DataReader, de modo que otra aplicación pueda agotar los datos.

14) Usando SSIS (Servicio de integración de SQL Server), ¿cuáles son las posibles formas de actualizar la tabla?

Las siguientes son posibles formas de actualizar la tabla mediante SSIS:

  • Usar una SQL pedido
  • Usa una mesa de escenario
  • Uso de depósito
  • Utilice el script de tareas
  • Use el nombre completo de la base de datos para actualizar si se usa MSSQL

15) Si tiene una fuente no OLEDB (base de datos de vinculación e incrustación de objetos) para la búsqueda, ¿qué haría?

Si tiene una fuente que no es OLEBD para la búsqueda, debe usar Cache para cargar datos y usarla como fuente

16) ¿En qué caso utiliza caché dinámico y caché estático en transformaciones conectadas y desvinculadas?

  • La caché dinámica se usa cuando tiene que actualizar una tabla maestra y cambiar lentamente las dimensiones de tipo 1 (SCD)
  • Para archivos planos se usa caché estática

17) Explique cuáles son las diferencias entre la visión desconectada y conectada.

Vista vinculada

Vista sin adjuntar

  • La búsqueda vinculada participa en el mapeo

– Se usa cuando se usa una función de búsqueda en lugar de una transformación de expresión al mapear

  • Se pueden devolver varios valores

– Solo devuelve un puerto de salida

  • Se puede vincular a otras transformaciones y valor de retorno.
  • No se pueden vincular otras transformaciones
  • La caché estática o dinámica se puede utilizar para la vista conectada
  • Sin vincular solo como caché estática
  • La búsqueda vinculada admite valores predeterminados definidos por el usuario
  • La visualización no conectada no admite valores predeterminados definidos por el usuario
  • En Connected Lookup es posible devolver una columna múltiple de la misma fila o insertarla en una búsqueda de caché dinámica
  • Una vista independiente nombra un enlace hacia atrás y devuelve una columna de cada fila

18) Explique cuál es la vista de una fuente de datos.

La vista de la fuente de datos permite definir el esquema relativo que se utilizará en las bases de datos de los servicios de análisis. En lugar de hacerlo directamente a partir de objetos de fuentes de datos, las dimensiones y los cubos se crean a partir de la vista de las fuentes de datos.

19) Explique cuál es la diferencia entre las herramientas OLAP y las herramientas ETL.

La diferencia entre una herramienta ETL y una OLAP es

Una herramienta ETL está destinada a extraer datos de los sistemas heredados y cargarlos en una base de datos específica con algún proceso de limpieza de datos.

Ejemplo: etapa de datos, Informatica, etc.

Mientras que OLAP está diseñado para fines de informes en OLAP, los datos están disponibles en un modelo multivariado.

Ejemplo: Business Objects, Cognos, etc.

20) ¿Cómo se pueden extraer datos de SAP de Informatica?

  • Con la opción de conexión eléctrica, los datos de SAP se extraen de la información utilizada
  • Instalar y configurar la herramienta PowerConnect
  • Importe la fuente al analizador de fuentes. Entre Informatica y SAP Powerconnect actúa como puerta de enlace. El siguiente paso es generar el código ABAP para el mapeo, luego solo la información de datos se puede extraer de SAP
  • Para conectar e importar fuentes de sistemas externos se utiliza Power Connect

21) Indique cuál es la diferencia entre un Power Mart y un Power Center.

Central eléctrica

Power Mart

  • Supongamos que se procesa una gran cantidad de datos
  • Suponga que se procesa un volumen bajo de datos
  • Es compatible con fuentes ERP como SAP, soft people, etc.
  • No es compatible con fuentes ERP
  • Es compatible con repositorios locales y globales.
  • Es compatible con el repositorio local.
  • Transforma un tesoro local en un tesoro global.
  • No tiene ninguna especificación para convertir un repositorio local en un repositorio global

22) Explique cuál es el área del escenario y cuál es el propósito de un área del escenario.

Una plataforma de datos es un área donde los datos se almacenan temporalmente en un servidor de almacenamiento de datos. La etapa de datos incluye los siguientes pasos

  • Extracción de datos de origen y transformación de datos (reestructuración)
  • Transformación de datos (limpieza de datos, transformación de valor)
  • Asignación de tareas clave

23) ¿Qué es el esquema de autobuses?

El esquema de BUS se utiliza para identificar los diferentes procesos comerciales. Viene con dimensiones de sintaxis, así como una definición estandarizada de información.

24) Explique qué es la limpieza de datos.

La limpieza de datos es un proceso de eliminación de datos de un almacén de datos. Elimina filas como datos de correo no deseado con valores cero o espacios adicionales.

25) Explique qué son los objetos de esquema.

Los objetos de esquema son la estructura lógica que se refiere directamente a los datos de las bases de datos. Los objetos de esquema incluyen tablas, vistas, sinónimos de secuencia, índices, clústeres, paquetes de funciones y enlaces de bases de datos

26) Explique estos términos ¿Sesión, Hoja de trabajo, Mapplet y Flujo de trabajo?

  • Mapplet: establece o crea conjuntos de transformación
  • Hoja: representa un conjunto específico de tareas determinadas.
  • Flujo de trabajo: es un conjunto de instrucciones que le dice al servidor cómo realizar las tareas.
  • Sesión: es un conjunto de parámetros que le dice al servidor cómo transferir datos de fuentes a un objetivo

Descarga gratuita del PDF: Preguntas y respuestas de la entrevista de prueba ETL

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *