Resumen de entrenamiento
Apache Hive ayuda a consultar y administrar rápidamente grandes conjuntos de datos. Es Herramienta ETL del ecosistema Hadoop. En este tutorial de Apache Hive para principiantes, aprenderá los conceptos básicos de Hive y temas importantes como consultas HQL, extracción de datos, particiones, depósitos, etc. Esta serie de tutoriales de Hive le ayudará a aprender los conceptos y conceptos básicos de Hive.
¿Qué debo saber?
Para aprender este tutorial de preguntas de Hive, necesita conocimientos básicos SQL, Hadoop y el conocimiento de otras bases de datos será una ayuda adicional.
Esto es lo que aprende en este curso.
Introducción
Tutorial | ¿Qué es una colmena? Arquitectura y métodos |
Tutorial | Cómo descargar e instalar HIVE en Ubuntu |
Tutorial | Configuración de Metastore HIVE con MYSQL |
Tutorial | Hive y crear tipos de datos, base de datos de hits |
Contenido avanzado
Tutorial | Tabla de creación, modificación y eliminación de colmenas |
Tutorial | Particiones y cubos de colmena, por ejemplo |
Tutorial | Hive y índices visuales con ejemplo |
Tutorial | Consultas de Hive: ordenar por, agrupar por, distribución por, agrupar por muestras |
Tutorial | Tutorial de unión y subconsulta de Hive con ejemplos |
Tutorial | Tutorial de HiveQL (Hive Application Language): operadores integrados |
Tutorial | Función de colmena: construido y UDF (funciones definidas por el usuario) |
Tutorial | ETL Hive: JSON, XML, ejemplos de carga de datos de texto |
Introducción a Hive
Hive surgió como una solución de almacenamiento de datos construida sobre el marco Hadoop Map-Reduce.
Cantidad de conjuntos de datos que se recopilan y analizan en la industria para información de negocios está creciendo y, en cierto modo, está encareciendo las soluciones tradicionales de almacenamiento de datos. Hadoop con el marco MapReduce, que se utiliza como una solución alternativa para analizar grandes conjuntos de datos. Si bien Hadoop fue útil para trabajar en grandes conjuntos de datos, su marco MapReduce se encuentra en un nivel muy bajo y requiere que los programadores escriban programas personalizados que son difíciles de mantener y reutilizar. Hive viene aquí para rescatar a los programadores.
Motor de colmena estas consultas compilan los trabajos Map-Shrink que se realizarán en Hadoop. Además, los scripts personalizados de Map-Shrink se pueden conectar a las consultas. Hive opera con datos almacenados en tablas que consisten en tipos de datos primitivos y tipos de datos de recopilación, como matrices y mapas.
Hive viene con una interfaz de shell de línea de comandos que se puede usar para crear tablas y ejecutar consultas.
El lenguaje de consulta de Hive es similar a SQL en que admite subdominios. Con el lenguaje de consulta de Hive, MapReduce puede atravesar tablas de Hive. Soporta simple Funciones como SQL– CONCAT, SUBSTR, ROUND, etc., y funciones agregadas– SUM, COUNT, MAX srl. También es compatible con las cláusulas GROUP BY y SORT BY. Las funciones definidas por el usuario también se pueden escribir en el lenguaje de consulta de Hive.
¿Qué es una colmena?
Apache Hive Es un marco de almacenamiento de datos para consultar y analizar datos almacenados en HDFS. Está desarrollado sobre Hadoop. Hive es un software de código abierto para analizar grandes conjuntos de datos en Hadoop. Proporciona un lenguaje positivo como SQL, llamado HiveQL, para expresar consultas. Usando Hive-QL, los usuarios involucrados SQL capaz de analizar datos fácilmente.
Reducir mapa de colmena vs.
Antes de elegir una de estas dos opciones, debemos observar algunas de sus características.
Al reducir la elección entre Hive y Map, se tienen en cuenta los siguientes factores;
- Tipo de datos
- Tamaño de datos
- La complejidad del código
Reducir mapa Hive Vs?
Característica | Colmena | Reducir mapa |
---|---|---|
Idioma | Admite SQL como lenguaje de consulta para la interacción y para el modelado de datos. |
|
Nivel de abstracción | Mayor nivel de abstracción además de HDFS | Nivel de abstracción más bajo |
Efectividad en el Código | Más pequeño en comparación con el mapa reducido | Proporciona alta eficiencia |
Tamaño del código | Se requieren menos códigos de línea para la ejecución | Numere más líneas de código para definir |
Tipo de trabajo de desarrollo requerido | Requiere menos trabajo de desarrollo | Se requiere más trabajo de desarrollo |
Haga clic para Siguiente tutorial