Un diagrama de dispersión es un diagrama donde cada valor en el conjunto de datos está representado por un punto.
El módulo Matplotlib tiene un método para dibujar diagramas de dispersión, necesita dos matrices de la misma longitud, una para los valores del eje x y otra para los valores del eje y:
X = [5, 7, 8, 7, 2, 17, 2, 9, 4, 11, 12, 9, 6] Y = [99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86]
La matriz x representa la edad de cada automóvil.
La matriz y representa la velocidad de cada automóvil.
Ejemplo
import matplotlib.pyplot as plt
X = [5, 7, 8, 7, 2, 17, 2, 9, 4, 11, 12, 9, 6]
Y = [99, 86, 87, 88, 111, 86, 103, 87, 94, 78, 77, 85, 86]
plt.scatter(x, y)
plt.show()
Diagrama de dispersión explicado
El eje x representa edades y el eje y representa velocidades.
Lo que podemos leer del diagrama es que los dos autos más rápidos tenían 2 años y el auto más lento tenía 12 años.
Nota: Parece que cuanto más nuevo es el auto, más rápido conduce, pero eso podría ser una coincidencia, después de todo, solo registramos 13 autos.
Distribuciones aleatorias de datos
En Machine Learning, los conjuntos de datos pueden contener miles o incluso millones de valores.
Es posible que no tenga datos del mundo real cuando esté probando un algoritmo, es posible que deba usar valores generados aleatoriamente.
Como hemos aprendido en el capítulo anterior, ¡el módulo NumPy puede ayudarnos con eso!
Vamos a crear dos matrices que estén llenas con 1000 números aleatorios de una distribución de datos normal.
La primera matriz tendrá la media establecida en 5,0 con una desviación estándar de 1,0.
La segunda matriz tendrá la media establecida en 10,0 con una desviación estándar de 2,0..
Ejemplo
Un diagrama de dispersión con 1000 puntos:
import matplotlib.pyplot as plt
x = numpy.random.normal(5.0, 1.0, 1000)
x = numpy.random.normal(10.0, 2.0, 1000)
plt.scatter(x, y)
plt.show()
Podemos ver que los puntos se concentran alrededor del valor 5 en el eje x y 10 en el eje y.
También podemos ver que la dispersión es más amplia en el eje y que en el eje x.