14.1 El lenguaje y entorno estadístico R

R es un lenguaje de programación desarrollado específicamente para el análisis estadístico y la visualización de datos.

  • El lenguaje R es interpretado (similar a Matlab o Phyton) pero orientado al análisis estadístico (fórmulas modelos, factores,…).

    • derivado del S (Laboratorios Bell).
  • R es un Software Libre bajo las condiciones de licencia GPL de GNU, con código fuente de libre acceso.

    • Además de permitir crear nuevas funciones, se pueden examinar y modificar las ya existentes.
  • Multiplataforma, disponible para los sistemas operativos más populares (Linux, Windows, MacOS X, …).

14.1.1 Principales características

Se pueden destacar las siguientes características del entorno R:

  • Dispone de numerosos complementos (librerías, paquetes) que cubren “literalmente” todos los campos del análisis de datos.

  • Repositorios:

  • Existe una comunidad de usuarios (programadores) muy dinámica (multitud de paquetes adicionales).

  • Muy bien documentado y con numerosos foros de ayuda.

  • Puntos débiles (a priori): velocidad, memoria, …

Aunque inicialmente fue un lenguaje desarrollado por estadísticos para estadísticos:

Rexer Data Miner Survey 2007-2015

Figura 14.2: Rexer Data Miner Survey 2007-2015

Hoy en día es muy popular:

[IEEE Spectrum](https://spectrum.ieee.org) Top Programming Languages, 2019

Figura 14.3: IEEE Spectrum Top Programming Languages, 2019

R destaca especialmente en:

  • Representaciones gráficas.

  • Métodos estadísticos “avanzados”:

    • Data Science: Statistical Learning, Data Mining, Machine Learning, Business Intelligence, …

    • Datos funcionales.

    • Estadística espacial.

  • Análisis de datos “complejos”:

    • Big Data.

    • Lenguaje natural (Text Mining).

    • Análisis de redes.

14.1.2 Interfaces gráficas

El programa R utiliza una interfaz de comandos donde se teclean las instrucciones que se pretenden ejecutar (ver Figura 14.4).

Por ejemplo, para obtener una secuencia de números desde el 1 hasta el 10, se utilizará la sentencia:

1:10

obteniéndose el resultado

##  [1]  1  2  3  4  5  6  7  8  9 10

En el Apéndice B se detallan los pasos para la instalación de R, y en el Apéndice C los de otras interfaces gráficas.