Saltar al contenido

Crear flujo de trabajo (parte 2), agregar datos con transformación de datos en información de datos de SAP, edición de prueba

Tenga en cuenta que aquí, en este tutorial, GCP se refiere a la plataforma Google Cloud y AWS se refiere a Amazon Web Services y Azure se refiere a Microsoft Azure.


Paso 1: agregue transformación y estimulación de datos

Has iniciado sesión como system usuario a default inquilino y están en el Dirección de la aplicación Dirección página.

  1. Vamos Modelador.

  2. Crea una nueva gráfica.

  3. Agregar Activador de flujo de trabajo operador y Transformación de datos de Spark operador al gráfico arrastrando y soltando.

  4. Ahora conecta el output cangrejo Workflow Trigger hacia input cangrejo Transformación de datos de Spark operador.

    Agregue operadores y conéctelos

  5. Haga doble clic en el Transformación de datos de Spark operador y abrirá el Editor. Aquí debe modelar su tarea de flujo de trabajo creando fuentes de datos y objetivos junto con operadores de transformación.

Hecho

Inicie sesión para responder la pregunta

Paso 2: crear fuentes de datos

  1. Desde el Nodos menú de la izquierda, arrastrar y soltar Fuente de datos para el editor. Como este un Transformación de datos de Spark tarea, uno Nodos se puede agregar a la tarea.

    Fuente de datos 1

  2. Haga doble clic en el Fuente de datos y abre el Editor de fuente de datos. Aquí debe configurar los datos para la fuente de datos en particular.

  3. Utilizando la Navegar botón, seleccionar CLOUD_STORAGE enlace de la lista.

    Consejo Solo verá el enlace aquí, si tiene el mismo configurado al respecto Gestión de conexiones.

  4. mar Fuente Selecciona el Events.parquet expediente. Una vez que se selecciona el archivo, los parámetros de configuración del archivo se sugieren automáticamente.

    Seleccionar archivo de evento

  5. Utilizando la atrás en la esquina superior izquierda, vuelva al Transformación de datos de Spark página del editor.

  6. Usando arrastrar y soltar, agregue otro Fuente de datos con la tarea.

  7. Haga doble clic en él para Fuente de datos editor.

  8. Utilizando la Navegar botón, seleccionar CLOUD_STORAGE enlace de la lista.

  9. Utilizando la Navegar botón para Fuente, seleccione la carpeta /CSV/EnrichedDevices escoge tu balde, escoge el csv archivo (el nombre del archivo será diferente al de la captura de pantalla).

    Creaste esto en el tutorial anterior Crear flujo de trabajo (parte 1), enriquecer datos con Transform Data.

    Usando un archivo csv

  10. Cambiar Fuente a /CSV/EnrichedDevices/part*.csv y manteniendo a los demás sin cambios.

    Usando un archivo csv

    Dado que cada vez que un flujo de trabajo genera 1 archivo nuevo, puede usar un comodín para que coincida con el nombre del archivo.

  11. Vuelve al Transformación de datos de Spark página del editor.

    Volver a Transformar datos

Hecho

Inicie sesión para responder la pregunta

Paso 3: conectar y agregar fuentes de datos

En este paso, combinará y agregará las dos fuentes de datos que ha creado y luego configurará los operadores.

  1. Agregar Involucrarse a la tarea de Nodos pestaña en el menú de la izquierda arrastrando y soltando.

  2. Conecta el DataSource1_Output1 fuera del puerto DataSource1 a Join1_Input1 en el puerto de la Join1 operador.

  3. Del mismo modo, conecte el DataSource2_Output1 fuera del puerto DataSource2 a Join1_Input2 en el puerto de la Join1 operador.

    Agregar unión

  4. Haga doble clic en el Involucrarse operador abierto y su configuración. Los dos Fuentes de datos conectados como entradas se muestran como entradas de unión.

  5. Haga clic en Join1_Input1 mesa.

  6. Clickea en el Involucrarse botón resaltar en Paso 1 de la imagen de abajo. Mientras mantiene presionado el clic, arrastre hasta el punto de conexión a la mesa Join1_Input2 resaltado en Paso 2 de la imagen de arriba y suelte el clic cuando la segunda tabla se vuelva verde y muestre un enlace exitoso.

    Estar conectado

  7. Ahora la conexión resultante será como Paso 3 de la imagen de arriba. Una vez que las dos tablas están conectadas, Definición de registro se desplegará un cuadro de diálogo en la parte inferior. Pegue la siguiente condición de unión en el cuadro de diálogo.

    "Join1_Input1"."DEVICE" = "Join1_Input2"."DEVICE"
    

    Agregar condición de conexión

  8. Ahora selecciona las columnas de salida de la condición de conexión. Esto se puede hacer fácilmente usando el acceso directo del selector de columnas en la misma página. Asegúrese de seleccionar solo las siguientes columnas:

    FuenteColumna de origen
    Join1_Input1 (Events)EVENT
    Join1_Input1 (Events)VALUE
    Join1_Input2 (EnrichedDevices)COUNTRY

    Seleccionar campo

  9. Clickea en el Selector de columnas en lugar de cada nombre de columna para seleccionarlo o deseleccionarlo. Insertar columnas gris excluidos de la producción, pero aquellos en Azul incluido.

  10. Una vez que haya seleccionado las columnas que necesita, usando el botón en la parte superior de la página (resaltado en la imagen de arriba), abra el Columnas página.

  11. Actualice y agregue campos.

    • Utilizando la Editar botón resaltado en la imagen de abajo.
    • Cambiar el nombre del VALOR columna a MIN y haga clic en Okey.
    • Agrega otra columna también MAX que también se derivará de la columna fuente VALOR. Arrastra y suelta el VALOR columna de Fuente a Objetivo. Creará una nueva columna llamada VALOR sa Objetivo lista de columnas.
    • Cambie el nombre de este campo recién creado a MAX.

    Editar campos

    Al editar el nombre de la columna, después de ingresar el nuevo nombre si el Okey el botón está atenuado, use el Tab en el teclado para cambiar el enfoque del cuadro de texto. Esto permitirá Okey botón.

    La salida debe tener el mismo aspecto que la siguiente imagen:

    Verificar salidasAsegúrate de que el nombre Objetivo las columnas son similares a las de la imagen de arriba. De lo contrario, puede editar los nombres de las columnas de destino en esta página.

  12. Agregue agregación.

    • Vuelve al Transformación de datos de Spark página del editor.
    • Desde el Nodos pestaña en el menú de la izquierda, arrastre y suelte el Agregación nodo a la tarea.
    • Conecta el Join1_Output1 fuera del puerto Join1 nodo al Aggregation1_Input1 en el puerto de la Aggregation1 nodo.

    Agregar agregación

  13. Configure la agregación.

    • Haga doble clic en el Agregación nodo y abra su configuración.
    • Sobre el Columnas página, arrastre y suelte todas las columnas en el siguiente orden: PAÍS, EVENTO, MIN, MAX de la lista de columnas de origen a la lista de columnas de destino.

    Columna agregada fija

  14. Clickea en el Editar resaltado en la imagen de arriba para las columnas MÍNIMO MÁXIMO y establecer el Tipo de agregado por las columnas que Min y Max respectivamente según sus nombres.

    Configurar el tipo de agregado

  15. Vuelve al Transformación de datos de Spark página del editor.

Hecho

Inicie sesión para responder la pregunta

Paso 4: crear un objetivo de datos

Ahora debe proporcionar un destino para los resultados. Agregación operación. Esto se logra especificando un objetivo.

  1. Agregue un objetivo de datos.

    • Desde el Nodos pestaña en el menú de la izquierda, arrastrar y soltar Destino de datos con la tarea.
    • Conecta el Aggregation1_Output1 fuera del puerto Aggregation1 nodo al DataTarget1_Input1 en el puerto de la DataTarget1 nodo.

    Agregar un objetivo de datos

  2. Configurar destino de datos.

    • Clickea en el Navegar botón para el enlace y seleccione CLOUD_STORAGE.
    • Mantenga la siguiente configuración para el objetivo:
    GortValor
    Target/CSV/Aggregation
    File FormatCSV
    Column Delimiter;
    Character SetISO-8859-2
    Text Delimiter"
    Escape Character"
    Includes HeaderYes

    Configurar destino de datos

  3. Regrese dos veces y abra la tubería que contiene un Activador de flujo de trabajo adjunto a Transformación de datos de Spark.

Hecho

Inicie sesión para responder la pregunta

Paso 5: agregue una terminación y realice una tarea de transformación de datos

  1. Desde el Operadores pestaña en el menú de la izquierda, arrastrar y soltar Terminal de flujo de trabajo a la tubería.

  2. Conecta el output fuera del puerto Transformación de datos de Spark hacia stop en el puerto de la Terminal de flujo de trabajo.

  3. Cuando esté hecho, Salvar el gráfico como un nombre mytest.workflow2 y descripción Workflow 2.

  4. Ejecución el gráfico usando los botones en la parte superior de la página.

    El estado de ejecución se muestra en la parte inferior de la pantalla y cambia de Corriendo a Terminado tan pronto como se complete la ejecución.

    Ejecución de gráfico

Hecho

Inicie sesión para responder la pregunta

Paso 6: verifica el resultado

Ahora verifique el resultado de la tarea de Transformación de datos.

  1. Haga doble clic en el Transformación de datos de Spark operador.

  2. Haga doble clic en el Destino de datos un nodo que abre la página de configuración.

  3. Ve a la DETALLES DE VISTA PREVIA usando el botón en la esquina superior derecha de la página.

    Vista previa del resultado

Observará que la tabla contiene registros por país de humedad y temperatura de eventos con valores mínimos y valores máximos para ambos eventos.