lunes

Resumen y descripción de los datos numéricos


Resumen y descripción de los datos numéricos

Propiedades de los datos numéricos.

Las tres mejores propiedades que describe una serie numérica de datos son:
  1. Tendencia central
  2. Variación
  3. Forma

Si estas mediciones se calculan a partir de una muestra, se denominan estadísticas, si se calculan a partir de los datos de una población se denominan parámetros.

Mediciones de tendencia Central

  • La media aritmética, es el promedio. Se calcula sumando todas las observaciones y luego dividiendo el total entre el número de elementos involucrados.

La media actúa como punto de equilibrio de tal forma que las observaciones menores compensan a las observaciones que son mayores.

La media aritmética se ve afectada en gran medida por valores extremos.

  • La mediana. Es el valor medio de una secuencia ordenada de datos. Si no hay empates, la mitad de las observaciones serán menores y la otra mitad serán mayores. La mediana no se ve afectada por valores extremos. Para calcular la mediana, primero se deben poner los datos en orden. Después usamos la fórmula del punto de posicionamiento.

El cálculo del valor de la media se ve afectado por el número de observaciones, no por la magnitud de cualquier extremo.

  • La moda. Es el valor de una serie de datos que aparece con más frecuencia. La moda no se ve afectada por la ocurrencia de cualquier valor extremo.
  • Cuartiles. Los cuartiles sonmediciones descriptivas que dividen los datos ordenados en cuatro cuartos.

Mediciones de la Variación
La variación es la cantidad de dispersión o propagación en los datos.
  • El rango: es la diferencia entre la mayor y la menor observación en una serie de datos. El rango mide la propagación total en la serie de datos. La debilidad del rango es que no logra tomar en cuenta la forma en que los datos se distribuyen realmente entre el mayor y el menor valor. Sería impropio usar el rango como una medición cuando uno de o ambos componentes son observaciones extremas.
  • El rango intercuartil: es la diferencia entre el tercer y primer cuartil. No se ve influida por valores extremos.
  • La varianza y la desviación estándar: a diferencia de las mediciones anteriores la varianza y la desviación estándar toman en cuenta como se distribuyen las observaciones. La Varianza de muestra es el promedio de las diferencias cuadradas entre cada una de las observaciones de una serie de datos y la media. La desviación estándar es simplemente la raíz cuadrada de la varianza. La varianza y la desviación miden la dispersión promedio alrededor de la media, es decir, como las observaciones mayores fluctúan por encima de ésta y como las observaciones menores se distribuyen por debajo de ésta.
  • El Coeficiente de Variación: es una medida relativa de variación. Se expresa como porcentaje antes que en términos de las unidades de los datos particulares. Mide la dispersión en los datos relativa a la media.

El coeficiente de variación es útil al comparar la variabilidad de dos o más series de datos que se expresan en distintas unidades de medición.

Forma

Para describir la forma sólo necesitamos comparar la media y la mediana. Si estas dos mediciones son iguales, por lo general podemos considerar que los datos son simétricos. Si la media excede a la mediana, los datos pueden describirse de sesgo positivo o sesgadas a la derecha. Si la media es excedida por la mediana, estos datos pueden llamarse de sesgo negativo o sesgadas a la izquierda. 

El sesgo positivo surge cuando la media se incrementa en algunos valores inusualmente altos, el sesgo negativo ocurre cuando la media se reduce en algunos valores extremadamente bajos.

Cálculo de mediciones descriptivas de resumen de una población
Las mediciones de tendencia central para una población se calculan igual que en la muestra simplemente reemplazamos n por N.
El rango y el rango intercuartil para una población de tamaño N se obtienen como si fuera una muestra reemplazando n por N. La varianza se calcula reemplazando el ( n - 1 ) del denominador por N.

Uso de la Desviación Estándar: La regla Empírica
En series de datos simétricos, donde la mediana y la media son iguales, las observaciones tienden a distribuirse igualmente alrededor de estas mediciones de tendencia central. Cuando el sesgado extremo no se presenta y tal agrupamiento se observa en una serie de datos, podemos usar la denominada regla empírica para examinar la propiedad de variabilidad de datos y obtener una mejor idea de lo que la desviación estándar está midiendo.

La regla empírica establece que en la mayoría de las series de datos 
encontraremos que aproximadamente dos de cada tres observaciones (es decir, el 67%), están contenidas en una distancia de una desviación estándar alrededor de la media y aproximadamente 90% a 95% de las observaciones están contenidas a una distancia de 2 desviaciones estándar alrededor de la media.

Uso de la desviación estándar: La regla de Bienaymé Chebyshev
No importa como se distribuyen los datos. el porcentaje de las distribuciones están contenidas dentro de las dsitancias de k desviaciones estándar alrededor de la media debe ser al menos
1 - 1 / k2
Al menos 75% de las observaciones deben estar contenidas dentro de distancias de +/-2 desviaciones estándar alrededor de la media. Al menos 88,89% de las observaciones deben estar contenidas dentro de una distancia de +/-3 desviaciones estándar alrededor de la media. Al menos 93.75% de las observaciones deben estar contenidas dentro de distancias de +/-4 desviaciones estándar alrededor de la media.


No hay comentarios:

Publicar un comentario