La desviación estándar es una medida estadística que cuantifica la dispersión o variabilidad de un conjunto de datos. Mide qué tan alejados están los valores individuales del promedio (media) del conjunto de datos.
Cuando la desviación estándar es baja, significa que los valores tienden a estar cerca del promedio. En este caso, la mayoría de los datos se agrupan alrededor del valor medio, lo que indica una menor dispersión.
Por otro lado, cuando la desviación estándar es alta, significa que los valores se extienden a lo largo de un rango más amplio alrededor del promedio. En este caso, los datos están más dispersos, lo que indica una mayor variabilidad.
En Python, puedes calcular la desviación estándar (standard deviation) utilizando la biblioteca NumPy o la biblioteca estándar statistics. Ambas bibliotecas proporcionan funciones para calcular la desviación estándar de un conjunto de datos.
Aquí tienes ejemplos de cómo calcular la desviación estándar utilizando ambas bibliotecas:
Ejemplo de desviación standard en Python con las bibliotecas Numpy y statitstics
Aquí tienes ejemplos de cómo calcular la desviación estándar utilizando ambas bibliotecas:
Utilizando NumPy:
import numpy as np # Datos de ejemplo datos = [4, 5, 8, 7, 6, 9, 5, 7] # Calcular la desviación estándar utilizando NumPy desviacion_estandar = np.std(datos) print("Desviación Estándar:", desviacion_estandar)
Utilizando la biblioteca estándar statistics:
import statistics as stats # Datos de ejemplo datos = [4, 5, 8, 7, 6, 9, 5, 7] # Calcular la desviación estándar utilizando la biblioteca statistics desviacion_estandar = stats.stdev(datos) print("Desviación Estándar:", desviacion_estandar)
Desviación standard en Python paso a paso
Hemos registrado la velocidad de 7 coches:
Velocidad = [99, 86, 87, 88, 86, 87, 85]
La desviación estándar es:
0.9
Lo que significa que la mayoría de los valores están dentro del rango de 0,9 del valor medio, que es 86,4.
Hagamos lo mismo con una selección de números con un rango más amplio:
Velocidad = [32, 111, 138, 28, 59, 77, 97]
La desviación estándar es:
37.85
Lo que significa que la mayoría de los valores están dentro del rango de 37,85 desde el valor medio, que es 77,4.
Como puede ver, una desviación estándar más alta indica que los valores se distribuyen en un rango más amplio.
El módulo NumPy tiene un método para calcular la desviación estándar:
Ejemplo de uso del método Numpy en la desviación standard en Python
Use el método NumPy std() para encontrar la desviación estándar:
import numpy Velocidad = [99, 86, 87, 88, 86, 87, 85, 86] x = numpy.std(velocidad) print(x)
Varianza en la desviación standard con Python
La varianza es otro número que indica qué tan dispersos están los valores.
De hecho, si sacas la raíz cuadrada de la varianza, ¡obtienes la desviación estándar!
O al revés, si multiplica la desviación estándar por sí misma, ¡obtiene la varianza!
Para calcular la varianza tienes que hacer lo siguiente:
- Encuentra los medios:
(32+111+138+28+59+77+97) / 7 = 77.4
- Para cada valor: encuentre la diferencia de la media:
32 - 77.4 = -45.4 111 - 77.4 = 33.6 138 - 77.4 = 60.6 28 - 77.4 = -49.4 59 - 77.4 = -18.4 77 - 77.4 = -0.4 97 - 77.4 = 19.6
- Para cada diferencia: encuentra el valor del cuadrado:
(-45.4)² = 2061.16 ( 33.6)² = 1128.96 ( 60.6)² = 3672.36 (-49.4)² = 2440.36 (-18.4)² = 338.56 (- 0.4)² = 0.16 ( 19.6)² = 384.16
- La varianza es el número promedio de estas diferencias al cuadrado:
(2061.16+1128.96+3672.36+2440.36+338.56+0.16+384.16) / 7 = 1432.2
Afortunadamente, NumPy tiene un método para calcular la varianza. Use el método NumPy var() para encontrar la varianza:
import numpy Velocidad = [32, 111, 138, 28, 59, 77, 97, 86] x = numpy.var(velocidad) print(x)
Como hemos aprendido, la fórmula para encontrar la desviación estándar es la raíz cuadrada de la varianza.
√1432.25 = 37.85
O, como en el ejemplo anterior, use NumPy para calcular la desviación estándar. Use el método NumPy std() para encontrar la desviación estándar:
import numpy Velocidad = [32, 111, 138, 28, 59, 77, 97, 86] x = numpy.std(velocidad) print(x)
Símbolos
La desviación estándar a menudo se representa con el símbolo Sigma: σ.
La varianza a menudo se representa con el símbolo Sigma Square: σ².
La desviación estándar y la varianza son términos que se usan a menudo en el machine learning, por lo que es importante comprender cómo obtenerlos y el concepto detrás de ellos.