14.1 El lenguaje y entorno estadístico R
R
es un lenguaje de programación desarrollado específicamente para el
análisis estadístico y la visualización de datos.
El lenguaje
R
es interpretado (similar a Matlab o Phyton) pero orientado al análisis estadístico (fórmulas modelos, factores,…).- derivado del S (Laboratorios Bell).
R
es un Software Libre bajo las condiciones de licencia GPL de GNU, con código fuente de libre acceso.- Además de permitir crear nuevas funciones, se pueden examinar y modificar las ya existentes.
Multiplataforma, disponible para los sistemas operativos más populares (Linux, Windows, MacOS X, …).
14.1.1 Principales características
Se pueden destacar las siguientes características del entorno R
:
Dispone de numerosos complementos (librerías, paquetes) que cubren “literalmente” todos los campos del análisis de datos.
Repositorios:
CRAN (9705, 14972, …)
Bioconductor (1289, 1741, …),
GitHub, …
Existe una comunidad de usuarios (programadores) muy dinámica (multitud de paquetes adicionales).
Muy bien documentado y con numerosos foros de ayuda.
Puntos débiles (a priori): velocidad, memoria, …
Aunque inicialmente fue un lenguaje desarrollado por estadísticos para estadísticos:
Hoy en día es muy popular:
R
destaca especialmente en:
Representaciones gráficas.
Métodos estadísticos “avanzados”:
Data Science: Statistical Learning, Data Mining, Machine Learning, Business Intelligence, …
Datos funcionales.
Estadística espacial.
…
Análisis de datos “complejos”:
Big Data.
Lenguaje natural (Text Mining).
Análisis de redes.
…
14.1.2 Interfaces gráficas
El programa R
utiliza una interfaz de comandos donde se teclean las instrucciones
que se pretenden ejecutar (ver Figura 14.4).
Por ejemplo, para obtener una secuencia de números desde el 1 hasta el 10, se utilizará la sentencia:
1:10
obteniéndose el resultado
## [1] 1 2 3 4 5 6 7 8 9 10
En el Apéndice B se detallan los pasos para la instalación de R
,
y en el Apéndice C los de otras interfaces gráficas.