Tenga en cuenta que aquí, en este tutorial, GCP se refiere a la plataforma Google Cloud y AWS se refiere a Amazon Web Services, Azure se refiere a Microsoft Azure.
Paso 1: agregue transformación y estimulación de datos
Has iniciado sesión como system
usuario a default
inquilino y están en el Dirección de la aplicación Dirección página.
Abra el entorno de modelado para construir pipelines a través de SAP Data Intelligence Modeler.
Hacer clic Modelador para abrir la interfaz de usuario de Modeler.
Crea una nueva gráfica.
- Vaya al panel de navegación.
- Seleccione la barra de herramientas del panel de navegación de la pestaña Gráficos.
- Seleccione + (Crear gráfico). La herramienta abre un editor de gráficos vacío en la misma ventana, donde puede definir su gráfico.
- Agregar
Workflow Trigger
operador al gráfico arrastrando y soltando. - Agregar Transformación de datos de Spark operador al gráfico arrastrando y soltando.
- Conecta el producción cangrejo Activador de flujo de trabajo hacia aporte cangrejo Transformación de datos de Spark operador.
Hecho
Inicie sesión para responder la pregunta
Paso 2: crear fuentes de datos
Haga doble clic en el Transformación de datos de Spark operador y abrirá el Editor. Aquí necesita modelar su flujo de trabajo de datos creando fuentes de datos y objetivos junto con operadores de transformación.
Desde el Nodos menú de la izquierda, arrastrar y soltar Fuente de datos para el editor.
Consejo Como este un Transformación de datos de Spark tarea, uno Nodos se puede agregar a la tarea.
Haga doble clic en el Fuente de datos para abrir el Editor de fuente de datos.
Configure los datos para la fuente de datos en particular.
- Clickea en el Navegar.
Escoger
CLOUD_STORAGE
enlace de la lista.Consejo Solo verá el enlace aquí, si tiene el mismo configurado al respecto Gestión de conexiones.
mar Fuente, explore AWS S3 o Google Cloud Storage o Windows Azure Blob Storage y seleccione
Devices.csv
expediente. Una vez que se selecciona el archivo, se sugieren los parámetros de configuración automática del archivo.
Clickea en el atrás en la esquina superior izquierda, vuelva a la Transformación de datos de Spark página del editor.
Agrega otro Fuente de datos.
- Usando arrastrar y soltar, agregue otro Fuente de datos con la tarea.
- Haga doble clic en él para Fuente de datos editor.
- Clickea en el Navegar.
- Escoger
CLOUD_STORAGE
enlace de la lista. - mar Fuente, Seleccione
Customers.csv
expediente.
Vuelve al Transformación de datos de Spark página del editor.
Hecho
Inicie sesión para responder la pregunta
Paso 3: conectarse a las fuentes de datos
En este paso, entrará en las dos fuentes de datos que creó y luego configurará el operador de unión.
Agregar Involucrarse a la tarea de Nodos pestaña en el menú de la izquierda arrastrando y soltando.
Conecta el
DataSource1_Output1
Puerto de salidaDataSource1
aJoin1_Input1
puerto de entradaJoin1
operador.Del mismo modo, conecte el
DataSource2_Output1
Puerto de salidaDataSource2
aJoin1_Input2
puerto de entradaJoin1
operador.Haga doble clic en el Involucrarse Operador abierto y su configuración. Los dos Fuentes de datos conectados como entradas se muestran como entradas de unión.
Configurar pieza.
- Haga clic en
Join1_Input1
mesa. - Clickea en el Involucrarse resaltado en Paso 1 de la imagen de abajo.
- Manteniendo presionado el clic, arrastre hasta el punto de conexión a la mesa
Join1_Input2
resaltado en Paso 2 de la imagen de abajo y suelte el clic cuando la segunda tabla se vuelva verde y muestre un enlace exitoso.
La conexión resultante se verá como Paso 3 de la imagen de arriba.
- Haga clic en
Una vez que las dos tablas están conectadas, Definición de registro aparecerá un cuadro de diálogo en la parte inferior. Pegue la siguiente condición de unión en el cuadro de diálogo.
"Join1_Input1"."CUSTOMER" = "Join1_Input2"."CUSTOMER"
Abre el Columnas página. Esta página muestra una representación gráfica de las columnas seleccionadas. Puede seleccionar las columnas de salida de la condición de conexión.
Arrastre y suelte la columna desde el origen hasta el destino. Asegúrese de seleccionar solo las siguientes columnas:
Fuente Columna de origen Join1_Input1 (Devices)
DEVICE
Join1_Input1 (Devices)
TYPE
Join1_Input1 (Devices)
CUSTOMER
Join1_Input1 (Devices)
TIME
Join1_Input2 (Customers)
COUNTRY
Asegúrese de que la salida tenga el mismo aspecto que la imagen de arriba. Asegúrate de que el nombre Objetivo las columnas son similares a las de la imagen siguiente. De lo contrario, puede editar los nombres de las columnas de destino en esta página.
Vuelve al Transformación de datos de Spark página del editor.
Hecho
Inicie sesión para responder la pregunta
Paso 4: crear un destino de datos
Ahora debe proporcionar un destino para los resultados. Involucrarse operación. Esto se logra especificando un objetivo.
Desde el Nodos pestaña en el menú de la izquierda, arrastrar y soltar Destino de datos con la tarea.
Conecta el
Join1_Output1
Puerto de salidaJoin1
nodo alDataTarget1_Input1
puerto de entradaDataTarget1
nodo.Haga doble clic en la nueva incorporación Destino de datos nodo y abra la página de configuración. Como estás conectado al Involucrarse y el Destino de datos nodos, Modeler detectará las columnas para el Destino de datos.
Clickea en el Navegar botón para el enlace y seleccione
CLOUD_STORAGE
. Posteriormente, mantenga la siguiente configuración para el objetivo:Gort Valor Target
Directorio sobre novedades .csv
se crearía el archivo. Escriba manualmente la ruta si desea crear un nuevo directorio, p. Ej./CSV/EnrichedDevices
File Format
CSV
Column Delimiter
;
Character Set
ISO-8859-2
Text Delimiter
"
Escape Character
"
Includes Header
Yes
Usando el botón trasero en la parte superior izquierda, navegue de regreso a la tubería donde Activador de flujo de trabajo adjunto a Transformación de datos de Spark .
Hecho
Inicie sesión para responder la pregunta
Paso 5: agregue una terminación y realice una tarea de transformación de datos
Desde el Operadores pestaña en el menú de la izquierda, arrastrar y soltar Terminal de flujo de trabajo con el gráfico.
Conecta el
output
fuera del puerto Transformación de datos de Spark haciastop
en el puerto de la Terminal de flujo de trabajo.Salvar el gráfico como un nombre
mytest.workflow1
y hay una descripciónWorkflow 1
.Ejecución el gráfico usando los botones en la parte superior de la página. El estado de ejecución se muestra en la parte inferior de la pantalla y cambia de Corriendo a Terminado tan pronto como se complete la ejecución. Tardará unos minutos en completarse.
Hecho
Inicie sesión para responder la pregunta
Paso 6: verifica el resultado
Ahora verifique el resultado de la tarea de Transformación de datos. Puede comprobar los resultados del propio Modelador.
Abra la canalización que ha creado.
Haga doble clic en el Transformación de datos de Spark operador.
Haga doble clic en el Destino de datos un nodo que abre la página de configuración.
Ve a la DETALLES DE VISTA PREVIA usando el botón en la esquina superior derecha de la página.
Es posible que deba aumentar el recuento total de filas a 300 o más para ver el conjunto de datos completo utilizando el icono de embudo en la esquina superior derecha.
Ves que en contraste con el Devices
conjunto de datos, el EnrichedDevices
un conjunto de datos no contiene ningún valor cero. Se enriqueció el archivo original. Usando la captura de pantalla anterior y su generado EnrichedDevices
conjunto de datos, responda la siguiente pregunta.