Florence Nightingale

"Lo importante no es lo que nos hace el destino, sino lo que nosotros hacemos de él"

Tema 5. Estadísticos univariables. Medidas estadísticas.

¡Buenas tardes!

La entrada de hoy va dedicada a las diferentes medidas estadísticas que podemos utilizar, a partir de las cuales podemos resumir las tablas de datos de variables cuantitativas, para poder tener una mejor interpretación de ellas. 
Además de conocer cuales son vamos a trabajar con ellas en diferentes tablas para que podáis entenderlas mejor. Así que allá vamos!

MEDIDAS DE TENDENCIA CENTRAL 
Son aquellas cifras que dan una idea de los valores alrededor de los cuales tienden a agruparse el resto. 

  • Media aritmética (𝑥). Es el centro de los datos dados, es decir, la suma total de los valores de la variable observable entre el total de las observaciones. La fórmula es: x= x/n . 
    • Cuando se nos dan los datos agrupados en una tabla, para el cálculo de la media se utilizará el valor de la marca de clase (Mc). x = mc fi /n
    • Ejemplo, utiliza la siguiente tabla sobre 40 pesos tomados y realiza la media. 

  • Mediana. Es el valor que deja por encima al 50% de los datos de la variable observada y al otro 50% por debajo. En comparación con la media es un valor más robusto porque no se deja influenciar por os extremos, es decir, un valor alto, hará desplazarse a la media a un valor mayor mientras que la mediana no se verá influenciada
    • Si el número de observaciones es impar, el valor central ocupará la posición (n/2)+1
    • Si el número de observaciones es par, el valor de la mediana corresponde a la media entre los dos valores centrales, es decir, entre (n/2) y (n/2)+1
    • Ejemplo: 
Cuando se nos da una tabla, cómo ésta, para calcular la mediana no tenemos los datos exactos, sino los intervalos. Es por ello que no podemos calcular el valor de la mediana, sino el intervalo en el cual pude encontrarse que sería [4,25-4,75) 
  • Moda. Es el valor que más se repite. Si hay más de un valor se dice que es bimodal (2 modas) o multimodal (más de dos). Es la única que puede ser medida en las variables cualitativas también, por ejemplo, en el sexo en la enfermería (femenino)
    • En una tabla la moda se identifiará con el intervalo en el que haya mayor frecuencia absoluta. 
    • Ejemplo: en la tabla anterior correspondería con el intervalo [4,25-4,75)
MEDIDAS DE POSICIÓN
Dividen el conjunto ordenado de datos (de menor a mayor) en grupos con la misma cantidad de individuos.
  • Cuantiles, solo tienen en cuenta la posición de los valores en la muestra. Los más usados son: 
    • Percentiles divide al muestra en 100 partes, de tal forma que el percentil 15 es aquel valor que equivaldrá al 15%, es decir, dejará al 15% de la muestra por debajo y al 75% restante por encima.
      • Ejemplo; en la tabla anterior el P30 estará en el intervalo [4,25-4,75)
    • Deciles dividen la muestra en 10 partes, de tal forma que el decil 3 es el que deja al 30% de la muestra por debajo y al 70 % por encima. 
      • D1=P10, D2=P20... D5=P50=Mediana...
    • Cuartiles dividen la muestra en 4 partes. 
      • Q1=P25, Q2=D5=P50, Q3=P75, Q4=D10=P100
En la tabla: Para buscar la posición en una tabla de datos agrupados, tomaremos el intervalo en el que la frecuencia relativa acumulada sea superior al valor del percentil, decil o cuartil, respectivamente. 
  1. P60= [4,25-4,75)
  2. D2= [3,75-4,25)
  3. Q3=[4,75-5,25)
EJERCICIO 1 
Calcula la media, moda, mediana, Q1, D3, Q3 y P63 de la siguiente tabla: 

MEDIDAS DE DISPERSIÓN 
Dan información acerca de la heterogeneidad u homogeneidad de las observaciones. En el caso de las medidas de tendencia central son limitadas ya que por ejemplo: 
  • Serie 1: 18,19,20,21,22. La media es 20 al igual que la mediana.
  • Serie 2: 9,14,20,27,30. La media es 20 igual que la mediana. 
Ambas series dan los mismos resultados mientras que una es más homogenea (1) que la otra. 
  • Rango, diferencia entre el mayor y el menor valor de la muestra. 
    • Serie 1: 22-18= 4
    • Serie 2: 30-9= 21
  • Desviación media, media aritmética de las distancias de cada observación con respecto a la media de la muestra. Sigue la fórmula: dm = ∑|xi-x| / n
    • Xi es cada valor de la observación 
    • X es la media calculada de la muestra
  • Desviación típica, cuantifica el error que cometemos si representamos una muestra únicamente por su media. No puede ser nunca superior a la media. 
Se puede concluir de estas series que la primera es la que menos se desvía de la media y que por tanto es más homogénea que la serie 2. 
  • Varianza, no aporta información adicional, es la desviación típica elevada al cuadrado
  • Coeficiente de variación, es adimensional ya que en contraste con las demás medidas de dispersión no se expresa en la unidad de medida de la variable (en casos anteriores años). Nos sirve para comparar la heterogeneidad de dos series numéricas con independencia delas unidades en las que se ha medido. 
    • Adopta valores entre 0 y 1.
Se puede comprobar que la primera serie tiene una variabilidad del 7,9% y la segunda del 43,7%



EJERCICIO 2. 
Calcula las medidas de dispersión de la siguiente tabla: 

En algunos casos como en la altura, la media y la moda tienen valores muy similares, cuando sucede esto se le conoce como distribuciones normales. 

DISTRIBUCIONES NORMALES O DE GAUSS
La gráfica de su función de densidad tiene forma acampanada. Es simétrica cuando coinciden media, moda y mediana.
No todas las curvas son simétricas, ni todas las distribuciones son normales. 
  • ASIMETRÍA 
Nos debemos fijar dónde está el lado más bajo de la curva. 
    • Hacia la izquierda, la parte baja está en la izquierda. media<mediana<moda.
    • Hacia la derecha, la parte baja está en la derecha. moda>mediana>media. 
El coeficiente de asimetría de una variable es el grado de asimetría de la distribución de sus datos entorno a su media. Adopta valores entre -1 a 1. 
    • Si g1=0, la distribución es normal, es simétrica
    • Si g1>0, hay asimetría positiva, hacia la izquierda.
    • Si g1<0, hay asimetría negativa, hacia la derecha.

  • CURTOSIS 
Coeficiente de una variable para medir el grado de concentración de los valores que toma entorno a su media. Se elige como referencia una variable de distribución normal, de modo que para ella el coeficiente de curtosis es 0. 
    • Si g2= 0 (distribución mesocúrtica) Presenta un grado de concentración medio alrededor de los calores centrales de la variable. 
    • Si g>2 (distribución leptocúrtica). Presenta un elevado grado de concentración alrededor de los valores centrales de la variable. 
    • Si g<2 (distribución platicúrtica). Presenta un reducido grado de concentración alrededor de los valores centrales de la variable. 

¡Y.. hasta aquí el quinto tema! Espero que os queden claro todos los conceptos y lo que es más importante el saber realizar todos los cálculos de las diferentes medidas, y saber interpretar sus valores. Si tenéis alguna duda no dudéis en dejarme un comentario que intentaré responder lo mejor posible. 
Un saludo y nos vemos pronto! Lorena S.😊

Comentarios