Tenga en cuenta que aquí, en este tutorial, GCP se refiere a la plataforma Google Cloud y AWS se refiere a Amazon Web Services y Azure se refiere a Microsoft Azure.
Paso 1: agregue transformación y estimulación de datos
Has iniciado sesión como system
usuario a default
inquilino y están en el Dirección de la aplicación Dirección página.
Vamos Modelador.
Crea una nueva gráfica.
Agregar Activador de flujo de trabajo operador y Transformación de datos de Spark operador al gráfico arrastrando y soltando.
Ahora conecta el
output
cangrejoWorkflow Trigger
haciainput
cangrejo Transformación de datos de Spark operador.Haga doble clic en el Transformación de datos de Spark operador y abrirá el Editor. Aquí debe modelar su tarea de flujo de trabajo creando fuentes de datos y objetivos junto con operadores de transformación.
Hecho
Inicie sesión para responder la pregunta
Paso 2: crear fuentes de datos
Desde el Nodos menú de la izquierda, arrastrar y soltar Fuente de datos para el editor. Como este un Transformación de datos de Spark tarea, uno Nodos se puede agregar a la tarea.
Haga doble clic en el Fuente de datos y abre el Editor de fuente de datos. Aquí debe configurar los datos para la fuente de datos en particular.
Utilizando la Navegar botón, seleccionar
CLOUD_STORAGE
enlace de la lista.Consejo Solo verá el enlace aquí, si tiene el mismo configurado al respecto Gestión de conexiones.
mar Fuente Selecciona el
Events.parquet
expediente. Una vez que se selecciona el archivo, los parámetros de configuración del archivo se sugieren automáticamente.Utilizando la atrás en la esquina superior izquierda, vuelva al Transformación de datos de Spark página del editor.
Usando arrastrar y soltar, agregue otro Fuente de datos con la tarea.
Haga doble clic en él para Fuente de datos editor.
Utilizando la Navegar botón, seleccionar
CLOUD_STORAGE
enlace de la lista.Utilizando la Navegar botón para Fuente, seleccione la carpeta
/CSV/EnrichedDevices
escoge tu balde, escoge elcsv
archivo (el nombre del archivo será diferente al de la captura de pantalla).Creaste esto en el tutorial anterior Crear flujo de trabajo (parte 1), enriquecer datos con Transform Data.
Cambiar Fuente a
/CSV/EnrichedDevices/part*.csv
y manteniendo a los demás sin cambios.Dado que cada vez que un flujo de trabajo genera 1 archivo nuevo, puede usar un comodín para que coincida con el nombre del archivo.
Vuelve al Transformación de datos de Spark página del editor.
Hecho
Inicie sesión para responder la pregunta
Paso 3: conectar y agregar fuentes de datos
En este paso, combinará y agregará las dos fuentes de datos que ha creado y luego configurará los operadores.
Agregar Involucrarse a la tarea de Nodos pestaña en el menú de la izquierda arrastrando y soltando.
Conecta el
DataSource1_Output1
fuera del puertoDataSource1
aJoin1_Input1
en el puerto de laJoin1
operador.Del mismo modo, conecte el
DataSource2_Output1
fuera del puertoDataSource2
aJoin1_Input2
en el puerto de laJoin1
operador.Haga doble clic en el Involucrarse operador abierto y su configuración. Los dos Fuentes de datos conectados como entradas se muestran como entradas de unión.
Haga clic en
Join1_Input1
mesa.Clickea en el Involucrarse botón resaltar en Paso 1 de la imagen de abajo. Mientras mantiene presionado el clic, arrastre hasta el punto de conexión a la mesa
Join1_Input2
resaltado en Paso 2 de la imagen de arriba y suelte el clic cuando la segunda tabla se vuelva verde y muestre un enlace exitoso.Ahora la conexión resultante será como Paso 3 de la imagen de arriba. Una vez que las dos tablas están conectadas, Definición de registro se desplegará un cuadro de diálogo en la parte inferior. Pegue la siguiente condición de unión en el cuadro de diálogo.
"Join1_Input1"."DEVICE" = "Join1_Input2"."DEVICE"
Ahora selecciona las columnas de salida de la condición de conexión. Esto se puede hacer fácilmente usando el acceso directo del selector de columnas en la misma página. Asegúrese de seleccionar solo las siguientes columnas:
Fuente Columna de origen Join1_Input1 (Events)
EVENT
Join1_Input1 (Events)
VALUE
Join1_Input2 (EnrichedDevices)
COUNTRY
Clickea en el Selector de columnas en lugar de cada nombre de columna para seleccionarlo o deseleccionarlo. Insertar columnas gris excluidos de la producción, pero aquellos en Azul incluido.
Una vez que haya seleccionado las columnas que necesita, usando el botón en la parte superior de la página (resaltado en la imagen de arriba), abra el Columnas página.
Actualice y agregue campos.
- Utilizando la Editar botón resaltado en la imagen de abajo.
- Cambiar el nombre del VALOR columna a MIN y haga clic en Okey.
- Agrega otra columna también MAX que también se derivará de la columna fuente VALOR. Arrastra y suelta el VALOR columna de Fuente a Objetivo. Creará una nueva columna llamada VALOR sa Objetivo lista de columnas.
- Cambie el nombre de este campo recién creado a MAX.
Al editar el nombre de la columna, después de ingresar el nuevo nombre si el Okey el botón está atenuado, use el
Tab
en el teclado para cambiar el enfoque del cuadro de texto. Esto permitirá Okey botón.La salida debe tener el mismo aspecto que la siguiente imagen:
Asegúrate de que el nombre Objetivo las columnas son similares a las de la imagen de arriba. De lo contrario, puede editar los nombres de las columnas de destino en esta página.Agregue agregación.
- Vuelve al Transformación de datos de Spark página del editor.
- Desde el Nodos pestaña en el menú de la izquierda, arrastre y suelte el Agregación nodo a la tarea.
- Conecta el
Join1_Output1
fuera del puertoJoin1
nodo alAggregation1_Input1
en el puerto de laAggregation1
nodo.
Configure la agregación.
- Haga doble clic en el Agregación nodo y abra su configuración.
- Sobre el Columnas página, arrastre y suelte todas las columnas en el siguiente orden: PAÍS, EVENTO, MIN, MAX de la lista de columnas de origen a la lista de columnas de destino.
Clickea en el Editar resaltado en la imagen de arriba para las columnas MÍNIMO MÁXIMO y establecer el Tipo de agregado por las columnas que Min y Max respectivamente según sus nombres.
Vuelve al Transformación de datos de Spark página del editor.
Hecho
Inicie sesión para responder la pregunta
Paso 4: crear un objetivo de datos
Ahora debe proporcionar un destino para los resultados. Agregación operación. Esto se logra especificando un objetivo.
Agregue un objetivo de datos.
- Desde el Nodos pestaña en el menú de la izquierda, arrastrar y soltar Destino de datos con la tarea.
- Conecta el
Aggregation1_Output1
fuera del puertoAggregation1
nodo alDataTarget1_Input1
en el puerto de laDataTarget1
nodo.
Configurar destino de datos.
- Clickea en el Navegar botón para el enlace y seleccione
CLOUD_STORAGE
. - Mantenga la siguiente configuración para el objetivo:
Gort Valor Target
/CSV/Aggregation
File Format
CSV
Column Delimiter
;
Character Set
ISO-8859-2
Text Delimiter
"
Escape Character
"
Includes Header
Yes
- Clickea en el Navegar botón para el enlace y seleccione
Regrese dos veces y abra la tubería que contiene un Activador de flujo de trabajo adjunto a Transformación de datos de Spark.
Hecho
Inicie sesión para responder la pregunta
Paso 5: agregue una terminación y realice una tarea de transformación de datos
Desde el Operadores pestaña en el menú de la izquierda, arrastrar y soltar Terminal de flujo de trabajo a la tubería.
Conecta el
output
fuera del puerto Transformación de datos de Spark haciastop
en el puerto de la Terminal de flujo de trabajo.Cuando esté hecho, Salvar el gráfico como un nombre
mytest.workflow2
y descripciónWorkflow 2
.Ejecución el gráfico usando los botones en la parte superior de la página.
El estado de ejecución se muestra en la parte inferior de la pantalla y cambia de Corriendo a Terminado tan pronto como se complete la ejecución.
Hecho
Inicie sesión para responder la pregunta
Paso 6: verifica el resultado
Ahora verifique el resultado de la tarea de Transformación de datos.
Haga doble clic en el Transformación de datos de Spark operador.
Haga doble clic en el Destino de datos un nodo que abre la página de configuración.
Ve a la DETALLES DE VISTA PREVIA usando el botón en la esquina superior derecha de la página.
Observará que la tabla contiene registros por país de humedad y temperatura de eventos con valores mínimos y valores máximos para ambos eventos.