Saltar al contenido

¿Qué es un lenguaje de programación? Introducción y orígenes de R.

¿Qué es Software R?

R. Es un lenguaje de programación y software gratuito desarrollado por Ross Ihaka y Robert Gentleman en 1993. R tiene un extenso catálogo de métodos estadísticos y gráficos, que incluye algoritmos de aprendizaje automático, regresión lineal, series de tiempo, inferencia estadística, por nombrar algunos. La mayoría de las bibliotecas de R están escritas en R, pero para tareas de cálculo pesadas, se prefieren los códigos C, C ++ y Fortran.

Los académicos no solo cobran R, sino que muchas grandes empresas también utilizan el lenguaje de programación R, incluidos Uber, Google, Airbnb, Facebook, etc.

Los datos se analizan con R en una serie de pasos; registrar, transformar, descubrir, modelar y comunicar los resultados

  • Registrarse: R es una herramienta de registro clara y accesible.
  • Transformar: R consiste en una colección de bibliotecas diseñadas específicamente para la ciencia de datos.
  • Descubrir: Examine los datos, refine su hipótesis y analícelos
  • Miniatura: R proporciona una amplia gama de herramientas para capturar el modelo correcto para sus datos
  • Comunicar: Integre códigos, gráficos y resultados con un informe con R Markdown o cree aplicaciones brillantes para compartir con el mundo

En este tutorial, aprenderá R.

¿Para qué se usa R?

R por industria

Si analizamos el uso de R por industria, vemos que los académicos son lo primero. R es un lenguaje para hacer estadísticas. R es la primera opción en la industria de la salud, seguida del gobierno y la consultoría.

Paquete R.

Los principales usos de R son la estadística, la visualización y el aprendizaje automático. La siguiente imagen muestra qué paquete de R tuvo más problemas en Stack Overflow. En el top 10, la mayoría de ellos están relacionados con el flujo de trabajo de un científico de datos: preparar datos y comunicar los resultados.

Todas las bibliotecas de R, casi 12k, se almacenan en CRAN. CRAN es de código abierto y gratuito. Puede descargar y utilizar las numerosas bibliotecas para el aprendizaje automático o el análisis de series de tiempo.

Comunicarse con R.

R tiene varias formas de presentar y compartir el trabajo, a través de un documento de marcado o una aplicación brillante. Todo se puede alojar en Rpub, GitHub o en el sitio web de la empresa.

A continuación se muestra un ejemplo de una presentación alojada en Rpub

Rstudio asume la reducción de la escritura de un documento. Puede exportar los documentos en una variedad de formatos:

Rstudio es una gran herramienta para crear fácilmente una aplicación. A continuación se muestra un ejemplo de una aplicación con detalles del Banco Mundial.

¿Por qué usar R?

La ciencia de datos está dando forma a la forma en que las empresas gestionan sus negocios. Sin lugar a dudas, si falla en la inteligencia artificial y la máquina, la empresa fracasará. La gran pregunta es ¿qué herramienta / lenguaje debería utilizar?

Hay muchas herramientas disponibles en el mercado para el análisis de datos. Aprender un nuevo idioma requiere cierta inversión de tiempo. La siguiente imagen muestra la curva de aprendizaje en comparación con el potencial comercial que ofrece el idioma. La relación negativa implica que no hay almuerzo gratis. Si desea brindar la mejor información sobre los datos, debe dedicar un tiempo a aprender la herramienta adecuada, a saber, R.

En la parte superior izquierda del gráfico, puede ver Excel y PowerBI. Ambas herramientas son fáciles de aprender, pero no ofrecen una excelente capacidad empresarial, especialmente en términos de modelado. En el medio, puede ver Python y SAS. SAS es una herramienta dedicada para realizar análisis estadísticos de una empresa, pero no es gratuita. SAS es un software de hacer clic y ejecutar. Python, sin embargo, es un lenguaje con una curva de aprendizaje monótona. Python es una gran herramienta para implementar Machine Learning e IA, pero carece de funciones de comunicación. Con una curva de aprendizaje igual, R es una buena alternativa entre la implementación y el análisis de datos.

Para la visualización de datos (DataViz), probablemente haya oído hablar de Tableau. Tableau es, sin duda, una gran herramienta para descubrir patrones a través de gráficos y tablas. Además, aprender a usar Tableau no requiere tiempo. Un gran problema con la visualización de datos es que es posible que nunca obtenga un patrón o cree muchos gráficos sin usar. Tableau es una buena herramienta para visualizar rápidamente los datos o la información empresarial. Para las estadísticas y una herramienta de toma de decisiones, R es más apropiado.

Stack Overflow es una gran comunidad para lenguajes de programación. Si tiene una pregunta de codificación o desea comprender un modelo, Stack Overflow está aquí para ayudarlo. Durante el año, el porcentaje de comentarios de preguntas para R ha aumentado considerablemente en comparación con los otros idiomas. Por supuesto, esta tendencia está correlacionada con la era en auge de la ciencia de datos, pero refleja la demanda de lenguaje R para la ciencia de datos.

En ciencia de datos, dos herramientas compiten entre sí. R y Python son probablemente el lenguaje de programación que define la ciencia de datos.

¿Deberías elegir R?

Un científico de datos puede utilizar dos herramientas excelentes: R y Python. Es posible que no tenga tiempo para aprender ambos, especialmente si comienza a aprender ciencia de datos. Aprenda algoritmos y modelos estadísticos mucho más importante que aprender un lenguaje de programación. Un lenguaje de programación es una herramienta para calcular y comunicar su descubrimiento. La tarea más importante en la ciencia de datos es la forma en que maneja los datos: importación, limpieza, preparación, ingeniería de características, selección de características. Este debería ser tu enfoque principal. Si quieres aprender R y Python al mismo tiempo sin una sólida formación en estadística, es una estupidez. Los científicos de datos no son programadores. Su trabajo es comprender los datos, manipularlos y descubrir el mejor enfoque. Si se está preguntando qué idioma aprender, veremos qué idioma es el más adecuado para usted.

El público principal de la ciencia de datos es un profesional empresarial. Una gran implicación es la comunicación. Hay muchas formas de comunicarse: informes, aplicación web, panel de control. Necesita una herramienta que haga todo esto en conjunto.

¿Es R difícil?

Hace años, R era un idioma difícil de dominar. El lenguaje era confuso y menos estructurado que las otras herramientas de programación. Para superar este problema, Hadley Wickham desarrolló una colección de los llamados paquetes tidy. La regla del juego cambió para mejor. La manipulación de datos se vuelve trivial e intuitiva. Crear un gráfico ya no era tan difícil.

Los mejores algoritmos para el aprendizaje automático se pueden implementar con R. Paquetes como Keras y TensorFlow permiten la creación de una técnica avanzada de aprendizaje automático. R también tiene un paquete para hacer Xgboost, uno de los mejores algoritmos para la competencia de Kaggle.

R puede comunicarse con el otro idioma. Python, Java, C ++ se pueden llamar en R. R. tiene un mundo accesible de big data. Puede conectar R a varias bases de datos como Spark o Hadoop.

Finalmente, R ha evolucionado y ha permitido que la operación en paralelo acelere el cálculo. De hecho, R fue criticado por usar solo una CPU a la vez. El paquete paralelo le permite realizar tareas en diferentes núcleos de la máquina.

Resumen

En resumen, R es una gran herramienta para explorar e investigar los datos. Con R se realizan análisis elaborados como agrupamiento, correlación y reducción de datos. Esta es la parte más crucial, sin la ingeniería de características y un buen modelo, la implementación del aprendizaje automático no producirá resultados significativos.