Los gráficos en R pueden ser de flujo, de evolución, partes de un todo, de correlación o de clasificación. Quizás los más conocidos y ampliamente utilizados sean los de distribución y a ellos dedicaremos las próximas líneas.

 

Gráficos en R de distribución

Los gráficos en R de distribución ayudan a comprender los valores atípicos, la tendencia normal y el rango de información en los valores. Algunas de las formas de representarlos son las siguientes:

  • Violín. Este tipo de gráficos permiten visualizar la distribución de una variable numérica para uno o varios grupos. Está realmente cerca de un diagrama de caja, pero permite una comprensión más profunda de la densidad. Los violines se adaptan particularmente bien cuando la cantidad de datos es enorme y es imposible mostrar observaciones individuales. Las gráficas de violín son una forma muy conveniente de mostrar los datos y probablemente merecerían más atención en comparación con la gráfica de caja que a veces puede ocultar algunas de sus características.
  • Una gráfica de densidad muestra la distribución de una variable numérica, tomando solo toma un conjunto de valores numéricos como entrada. El resultado está realmente cerca de un histograma. Hay que tener en cuenta que es muy recomendable jugar con la anchura, para no perder el patrón específico de los datos. Este tipo de gráfico facilita la comparación de distintas variables trazadas en el mismo eje.

Descarga nuestra guía gratuita: Big Data, la explosión de los datos

  • Este tipo de representación es uno de los gráficos en R más conocidos al mostrar una imagen precisa de la distribución de datos numéricos. Toma como entrada una variable numérica solamente, que se divide en varios intervalos, representándose las diferentes observaciones por intervalo según la altura de la barra. La forma del histograma puede ser muy diferente dependiendo del número de barras que se decida representar.
  • Diagrama de caja. Es probablemente uno de los gráficos más comunes y debe su popularidad a que ofrece un buen resumen de una o varias variables numéricas. La línea que divide el cuadro en 2 partes representa la mediana de los datos. El final del recuadro muestra los cuartiles superior e inferior. Las líneas extremas muestran el valor más alto y más bajo excluyendo los valores atípicos. No obstante, no puede olvidarse que este tipo de gráficos en R oculta el número de valores existentes detrás de la variable.
  • Este tipo de gráfico, también conocido como Joyplot, muestra la distribución de un valor numérico para varios grupos. Pueden ser muy útiles para visualizar cambios en las distribuciones a lo largo del tiempo o el espacio. La distribución se puede representar utilizando histogramas o gráficos de densidad, todos alineados a la misma escala horizontal y presentados con una ligera superposición. Los Joyplots son especialmente interesantes cuando el número de grupos a representar es alto, y por lo tanto una separación de ventanas clásica ocuparía demasiado espacio. Sin embargo, hace falta tener presente que oculta una parte de los datos, los que se hallan en la zona donde se produce la superposición.

 

Además, todos estos gráficos en R pueden enriquecerse con nuevas características que la tecnología hace posible. El color, las animaciones, las representaciones en tres dimensiones o la posibilidad de que el usuario interactúe con ellos son algunas de las opciones de diseño que existen hoy día, que pueden facilitar al destinatario de la información una mejor comprensión y un procesamiento de los datos mucho más ágil.

 

Ebook GRATIS: Big Data

Autor

Equipo de Expertos

Universidad Internacional de Valencia