Distribución de datos en Python

Anteriormente en este tutorial, hemos trabajado con cantidades muy pequeñas de datos en nuestros ejemplos, solo para comprender los diferentes conceptos.

En el mundo real, los conjuntos de datos son mucho más grandes, pero puede ser difícil recopilar datos del mundo real, al menos en una etapa inicial de un proyecto.

¿Cómo podemos obtener grandes conjuntos de datos?
Para crear grandes conjuntos de datos para las pruebas, usamos el módulo NumPy de Python, que viene con una serie de métodos para crear conjuntos de datos aleatorios, de cualquier tamaño.

Ejemplo

Create an array containing 250 random floats between 0 and 5:


import numpy

x = numpy.random.uniform(0.0, 5.0, 250)

print(x)

Histograma

Para visualizar el conjunto de datos podemos dibujar un histograma con los datos que recopilamos.

Usaremos el módulo Matplotlib de Python para dibujar un histograma.


import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 250)

plt.hist(x, 5)
plt.show()

Histograma Explicado

Usamos la matriz del ejemplo anterior para dibujar un histograma con 5 barras.

La primera barra representa cuántos valores en la matriz están entre 0 y 1.

La segunda barra representa cuántos valores hay entre 1 y 2.

Etc.

Lo que nos da este resultado:

52 valores están entre 0 y 1
48 valores están entre 1 y 2
49 valores están entre 2 y 3
51 valores están entre 3 y 4
50 valores están entre 4 y 5

Nota: Los valores de la matriz son números aleatorios y no mostrarán exactamente el mismo resultado en su computadora.

Grandes distribuciones de datos

Una matriz que contiene 250 valores no se considera muy grande, pero ahora sabe cómo crear un conjunto aleatorio de valores y, al cambiar los parámetros, puede crear el conjunto de datos tan grande como desee.


import numpy
import matplotlib.pyplot as plt

x = numpy.random.uniform(0.0, 5.0, 100000)

plt.hist(x, 100)
plt.show()