Saltar al contenido

Aprenda con ejemplos en 3 días

Resumen de entrenamiento


Apache Hive ayuda a consultar y administrar rápidamente grandes conjuntos de datos. Es Herramienta ETL del ecosistema Hadoop. En este tutorial de Apache Hive para principiantes, aprenderá los conceptos básicos de Hive y temas importantes como consultas HQL, extracción de datos, particiones, depósitos, etc. Esta serie de tutoriales de Hive le ayudará a aprender los conceptos y conceptos básicos de Hive.

¿Qué debo saber?


Para aprender este tutorial de preguntas de Hive, necesita conocimientos básicos SQL, Hadoop y el conocimiento de otras bases de datos será una ayuda adicional.

Esto es lo que aprende en este curso.

Introducción

Tutorial¿Qué es una colmena? Arquitectura y métodos
TutorialCómo descargar e instalar HIVE en Ubuntu
TutorialConfiguración de Metastore HIVE con MYSQL
TutorialHive y crear tipos de datos, base de datos de hits

Contenido avanzado

TutorialTabla de creación, modificación y eliminación de colmenas
TutorialParticiones y cubos de colmena, por ejemplo
TutorialHive y índices visuales con ejemplo
TutorialConsultas de Hive: ordenar por, agrupar por, distribución por, agrupar por muestras
TutorialTutorial de unión y subconsulta de Hive con ejemplos
TutorialTutorial de HiveQL (Hive Application Language): operadores integrados
TutorialFunción de colmena: construido y UDF (funciones definidas por el usuario)
TutorialETL Hive: JSON, XML, ejemplos de carga de datos de texto

Introducción a Hive

Hive surgió como una solución de almacenamiento de datos construida sobre el marco Hadoop Map-Reduce.

Cantidad de conjuntos de datos que se recopilan y analizan en la industria para información de negocios está creciendo y, en cierto modo, está encareciendo las soluciones tradicionales de almacenamiento de datos. Hadoop con el marco MapReduce, que se utiliza como una solución alternativa para analizar grandes conjuntos de datos. Si bien Hadoop fue útil para trabajar en grandes conjuntos de datos, su marco MapReduce se encuentra en un nivel muy bajo y requiere que los programadores escriban programas personalizados que son difíciles de mantener y reutilizar. Hive viene aquí para rescatar a los programadores.

Motor de colmena estas consultas compilan los trabajos Map-Shrink que se realizarán en Hadoop. Además, los scripts personalizados de Map-Shrink se pueden conectar a las consultas. Hive opera con datos almacenados en tablas que consisten en tipos de datos primitivos y tipos de datos de recopilación, como matrices y mapas.

Hive viene con una interfaz de shell de línea de comandos que se puede usar para crear tablas y ejecutar consultas.

El lenguaje de consulta de Hive es similar a SQL en que admite subdominios. Con el lenguaje de consulta de Hive, MapReduce puede atravesar tablas de Hive. Soporta simple Funciones como SQL– CONCAT, SUBSTR, ROUND, etc., y funciones agregadas– SUM, COUNT, MAX srl. También es compatible con las cláusulas GROUP BY y SORT BY. Las funciones definidas por el usuario también se pueden escribir en el lenguaje de consulta de Hive.

¿Qué es una colmena?

Apache Hive Es un marco de almacenamiento de datos para consultar y analizar datos almacenados en HDFS. Está desarrollado sobre Hadoop. Hive es un software de código abierto para analizar grandes conjuntos de datos en Hadoop. Proporciona un lenguaje positivo como SQL, llamado HiveQL, para expresar consultas. Usando Hive-QL, los usuarios involucrados SQL capaz de analizar datos fácilmente.

Reducir mapa de colmena vs.

Antes de elegir una de estas dos opciones, debemos observar algunas de sus características.

Al reducir la elección entre Hive y Map, se tienen en cuenta los siguientes factores;

  • Tipo de datos
  • Tamaño de datos
  • La complejidad del código

Reducir mapa Hive Vs?

CaracterísticaColmenaReducir mapa
IdiomaAdmite SQL como lenguaje de consulta para la interacción y para el modelado de datos.
  • Compila un lenguaje con dos tareas principales presentes en él. Una tarea es una tarea y otra un reductor.
  • Podemos definir estas tareas usando Java o Python
Nivel de abstracciónMayor nivel de abstracción además de HDFSNivel de abstracción más bajo
Efectividad en el CódigoMás pequeño en comparación con el mapa reducidoProporciona alta eficiencia
Tamaño del códigoSe requieren menos códigos de línea para la ejecuciónNumere más líneas de código para definir
Tipo de trabajo de desarrollo requeridoRequiere menos trabajo de desarrolloSe requiere más trabajo de desarrollo

Haga clic para Siguiente tutorial

Entradas relacionadas

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *