Saltar al contenido

Crear flujo de trabajo (parte 1), enriquecimiento de datos con transformación de datos en información de datos de SAP, edición de prueba

Tenga en cuenta que aquí, en este tutorial, GCP se refiere a la plataforma Google Cloud y AWS se refiere a Amazon Web Services, Azure se refiere a Microsoft Azure.


Paso 1: agregue transformación y estimulación de datos

Has iniciado sesión como system usuario a default inquilino y están en el Dirección de la aplicación Dirección página.

Abra el entorno de modelado para construir pipelines a través de SAP Data Intelligence Modeler.

  1. Hacer clic Modelador para abrir la interfaz de usuario de Modeler.

  2. Crea una nueva gráfica.

    • Vaya al panel de navegación.
    • Seleccione la barra de herramientas del panel de navegación de la pestaña Gráficos.
    • Seleccione + (Crear gráfico). La herramienta abre un editor de gráficos vacío en la misma ventana, donde puede definir su gráfico.
    • Agregar Workflow Trigger operador al gráfico arrastrando y soltando.
    • Agregar Transformación de datos de Spark operador al gráfico arrastrando y soltando.
    • Conecta el producción cangrejo Activador de flujo de trabajo hacia aporte cangrejo Transformación de datos de Spark operador.

    Crear un gráfico

Hecho

Inicie sesión para responder la pregunta

Paso 2: crear fuentes de datos

  1. Haga doble clic en el Transformación de datos de Spark operador y abrirá el Editor. Aquí necesita modelar su flujo de trabajo de datos creando fuentes de datos y objetivos junto con operadores de transformación.

  2. Desde el Nodos menú de la izquierda, arrastrar y soltar Fuente de datos para el editor.

    Nodos

    Consejo Como este un Transformación de datos de Spark tarea, uno Nodos se puede agregar a la tarea.

    Agregar fuente de datos

  3. Haga doble clic en el Fuente de datos para abrir el Editor de fuente de datos.

  4. Configure los datos para la fuente de datos en particular.

    • Clickea en el Navegar.
    • Escoger CLOUD_STORAGE enlace de la lista.

      Consejo Solo verá el enlace aquí, si tiene el mismo configurado al respecto Gestión de conexiones.

    • mar Fuente, explore AWS S3 o Google Cloud Storage o Windows Azure Blob Storage y seleccione Devices.csv expediente. Una vez que se selecciona el archivo, se sugieren los parámetros de configuración automática del archivo.

    Configurar fuente

  5. Clickea en el atrás en la esquina superior izquierda, vuelva a la Transformación de datos de Spark página del editor.

  6. Agrega otro Fuente de datos.

    • Usando arrastrar y soltar, agregue otro Fuente de datos con la tarea.
    • Haga doble clic en él para Fuente de datos editor.
    • Clickea en el Navegar.
    • Escoger CLOUD_STORAGE enlace de la lista.
    • mar Fuente, Seleccione Customers.csv expediente.

    Agregar otra fuente de datos

  7. Vuelve al Transformación de datos de Spark página del editor.

    De vuelta al editor

Hecho

Inicie sesión para responder la pregunta

Paso 3: conectarse a las fuentes de datos

En este paso, entrará en las dos fuentes de datos que creó y luego configurará el operador de unión.

  1. Agregar Involucrarse a la tarea de Nodos pestaña en el menú de la izquierda arrastrando y soltando.

  2. Conecta el DataSource1_Output1 Puerto de salida DataSource1 a Join1_Input1 puerto de entrada Join1 operador.

  3. Del mismo modo, conecte el DataSource2_Output1 Puerto de salida DataSource2 a Join1_Input2 puerto de entrada Join1 operador.

    Detalles de registro

  4. Haga doble clic en el Involucrarse Operador abierto y su configuración. Los dos Fuentes de datos conectados como entradas se muestran como entradas de unión.

  5. Configurar pieza.

    • Haga clic en Join1_Input1 mesa.
    • Clickea en el Involucrarse resaltado en Paso 1 de la imagen de abajo.
    • Manteniendo presionado el clic, arrastre hasta el punto de conexión a la mesa Join1_Input2 resaltado en Paso 2 de la imagen de abajo y suelte el clic cuando la segunda tabla se vuelva verde y muestre un enlace exitoso.
      La conexión resultante se verá como Paso 3 de la imagen de arriba.

    Configurar juntos

  6. Una vez que las dos tablas están conectadas, Definición de registro aparecerá un cuadro de diálogo en la parte inferior. Pegue la siguiente condición de unión en el cuadro de diálogo.

    "Join1_Input1"."CUSTOMER" = "Join1_Input2"."CUSTOMER"
    

    imagen_07

  7. Abre el Columnas página. Esta página muestra una representación gráfica de las columnas seleccionadas. Puede seleccionar las columnas de salida de la condición de conexión.

  8. Arrastre y suelte la columna desde el origen hasta el destino. Asegúrese de seleccionar solo las siguientes columnas:

    FuenteColumna de origen
    Join1_Input1 (Devices)DEVICE
    Join1_Input1 (Devices)TYPE
    Join1_Input1 (Devices)CUSTOMER
    Join1_Input1 (Devices)TIME
    Join1_Input2 (Customers)COUNTRY

    picture_09

  9. Asegúrese de que la salida tenga el mismo aspecto que la imagen de arriba. Asegúrate de que el nombre Objetivo las columnas son similares a las de la imagen siguiente. De lo contrario, puede editar los nombres de las columnas de destino en esta página.

  10. Vuelve al Transformación de datos de Spark página del editor.

Hecho

Inicie sesión para responder la pregunta

Paso 4: crear un destino de datos

Ahora debe proporcionar un destino para los resultados. Involucrarse operación. Esto se logra especificando un objetivo.

  1. Desde el Nodos pestaña en el menú de la izquierda, arrastrar y soltar Destino de datos con la tarea.

  2. Conecta el Join1_Output1 Puerto de salida Join1 nodo al DataTarget1_Input1 puerto de entrada DataTarget1 nodo.

    imagen_10

  3. Haga doble clic en la nueva incorporación Destino de datos nodo y abra la página de configuración. Como estás conectado al Involucrarse y el Destino de datos nodos, Modeler detectará las columnas para el Destino de datos.

  4. Clickea en el Navegar botón para el enlace y seleccione CLOUD_STORAGE. Posteriormente, mantenga la siguiente configuración para el objetivo:

    GortValor
    TargetDirectorio sobre novedades .csv se crearía el archivo. Escriba manualmente la ruta si desea crear un nuevo directorio, p. Ej. /CSV/EnrichedDevices
    File FormatCSV
    Column Delimiter;
    Character SetISO-8859-2
    Text Delimiter"
    Escape Character"
    Includes HeaderYes

    imagen_11

  5. Usando el botón trasero en la parte superior izquierda, navegue de regreso a la tubería donde Activador de flujo de trabajo adjunto a Transformación de datos de Spark .

Hecho

Inicie sesión para responder la pregunta

Paso 5: agregue una terminación y realice una tarea de transformación de datos

  1. Desde el Operadores pestaña en el menú de la izquierda, arrastrar y soltar Terminal de flujo de trabajo con el gráfico.

  2. Conecta el output fuera del puerto Transformación de datos de Spark hacia stop en el puerto de la Terminal de flujo de trabajo.

  3. Salvar el gráfico como un nombre mytest.workflow1 y hay una descripción Workflow 1.

  4. Ejecución el gráfico usando los botones en la parte superior de la página. El estado de ejecución se muestra en la parte inferior de la pantalla y cambia de Corriendo a Terminado tan pronto como se complete la ejecución. Tardará unos minutos en completarse.

    imagen_12

Hecho

Inicie sesión para responder la pregunta

Paso 6: verifica el resultado

Ahora verifique el resultado de la tarea de Transformación de datos. Puede comprobar los resultados del propio Modelador.

  1. Abra la canalización que ha creado.

  2. Haga doble clic en el Transformación de datos de Spark operador.

  3. Haga doble clic en el Destino de datos un nodo que abre la página de configuración.

  4. Ve a la DETALLES DE VISTA PREVIA usando el botón en la esquina superior derecha de la página.

  5. Es posible que deba aumentar el recuento total de filas a 300 o más para ver el conjunto de datos completo utilizando el icono de embudo en la esquina superior derecha.

Resultados

Ves que en contraste con el Devices conjunto de datos, el EnrichedDevices un conjunto de datos no contiene ningún valor cero. Se enriqueció el archivo original. Usando la captura de pantalla anterior y su generado EnrichedDevices conjunto de datos, responda la siguiente pregunta.