Resumen Estadisticas

Definición de Estadística : la palabra estadística procede del vocablo “estado” pues era función principal de los gobiernos de los estados establecer registros de población , nacimientos , defunciones , etc . Hoy en día la mayoría de las personas entienden por estadística al conjunto de datos , tablas , gráficos ,  que se suelen publicar en los periodicos .
En la actualidad se entiende por estadística como un método para tomar decisiones , de ahí que se emplee en multitud de estudios científicos .

La estadística se puede dividir en dos partes :
– Estadística descriptiva o deductiva , que trata del recuento , ordenación y clasificación de los datos obtenidos por las observaciones . Se construyen tablas y se representan gráficos , se calculan parámetros estadísticos que caracterizan la distribución , etc.
– Estadística inferencial o inductiva , que establece previsiones y conclusiones sobre una población a partir de los resultados obtenidos de una muestra . Se apoya fuertemente en el cálculo de probabilidades .

Población : es el conjunto de todos los elementos que cumplen una determinada característica . Ejemplo : alumnos matriculados en COU en toda España .

Muestra : cualquier subconjunto de la población . Ejemplo : alumnos de COU del Sotomayor .

Carácter estadístico : es la propiedad que permite clasificar a los individuos , puede haber de dos tipos :
– Cuantitativos : son aquellos que se pueden medir . Ejemplo : nº de hijos , altura , temperatura .
– Cualitativos : son aquellos que no se pueden medir . Ejemplo : profesión , color de ojos , estado civil .

Variable estadística : es el conjunto de valores que puede tomar el carácter estadístico cuantitativo ( pues el cualitativo tiene “modalidades” ) . Puede ser de dos tipos :
– Discreta : si puede tomar un número finito de valores . Ejemplo : nº de hijos
– Continua : si puede tomar todos los valores posibles dentro de un intervalo . Ejmplo : temperatura , altura .

Frecuencia absoluta fi : ( de un determinado valor xi ) al número de veces que se repite dicho valor .

Frecuencia absoluta acumulada Fi : ( de un determinado valor xi ) a su frecuencia absoluta más la suma de las frecuencias absolutas de todos los valores anteriores .

Frecuencia relativa hi : es el cociente fi/N , donde N es el número total de datos .

Frecuencia relativa acumulada Hi : es el cociente Fi/N
Si las frecuencias relativas las multiplicamos por 100 obtenemos los % .

Tratamiento de la información : se deben de seguir los siguientes pasos :
– recogida de datos
– ordenación de los datos
– recuento de frecuencias
– agrupación de los datos , en caso de que sea una variable aleatoria continua o bien discreta pero con un número de datos muy grande se agrupan en clases .
                                             Nº de clases =   
Los puntos medios de cada clase se llaman marcas de clase .
Además se debe adoptar el criterio de que los intervalos sean cerrados por la izquierda y abiertos por la derecha .
– construcción de la tabla estadística que incluirá , clases , marca de clase , fi , Fi , hi , Hi .

Ejemplo : Las notas de Matemáticas de una clase han sido las siguientes :
5  3  4  1  2  8  9  8  7  6  6  7  9  8  7  7  1  0  1  5  9  9  8  0  8  8  8  9  5  7
 Construir una tabla :
xi fi Fi hi Hi
0 2 2 2/30 2/30
1 3 5 3/30 5/30
2 1 6 1/30 6/30
3 1 7 1/30 7/30
4 1 8 1/30 8/30
5 3 11 3/30 11/30
6 2 13 2/30 13/30
7 5 18 5/30 18/30
8 7 25 7/30 25/30
9 5 30 5/30 30/30
 30  1 
Representaciones gráficas : para hacer más clara y evidente la información que nos dan las tablas se utilizan los gráficos , que pueden ser :
• Diagramas de barras ( datos cualitativos y cuantitativos de tipo discreto ) . En el eje y se pueden representar frecuencias absolutas o relativas .
• Histogramas ( datos cuantitativos de tipo continuo o discreto con un gran número de datos ) . El histograma consiste en levantar sobre cada intervalo un rectángulo cuyo área sea igual a su frecuencia absoluta 
                      área = base • altura                        fi =  
       luego la altura de cada rectángulo vendrá dada por ni que se llama función de  
densidad . Si por ejemplo un intervalo es doble de ancho que los demás su altura ni debe ser la mitad de la frecuencia absoluta y así no se puede inducir a errores . Normalmente la amplitud de los intervalos es cte por lo que ni será
proporcional a fi y por tanto podemos tomar fi como la altura ni ya que la forma del gráfico será la misma , aunque ahora el área del rectángulo ya no sea exactamente la frecuencia absoluta ( a no ser que la amplitud del intervalo sea igual a 1 ) .

• Polígono de frecuencias

• Diagrama de sectores

• Cartogramas
• Pirámides de población
• Diagramas lineales
• Pictogramas

CÁLCULO DE PARÁMETROS :

Medidas de centralización :
• Media aritmética :
           si son pocos datos
     
         si son muchos valores pero se repiten mucho
      En el caso de que los datos estén agrupados en clases , se tomará la marca de clase 
      como xi .
      No siempre se puede calcular la media aritmética como por ejemplo cuando los 
      datos son cualitativos o los datos están agrupados en clases abiertas .
Ejemplo : hacer los cálculos para el ejercicio de las notas

• Moda : es el valor de la variable que presenta mayor frecuencia absoluta . Puede haber más de una . Cuando los datos están agrupados en clases se puede tomar la marca de clase o utilizar la fórmula :
      M0 = Linf +   donde : Linf = límite inferior de la clase modal ,  =amplitud  
      del intervalo , d1= diferencia entre la fi de la clase modal y la fi de la clase anterior y
      d2 = diferencia entre la fi de la clase modal y la fi de la clase posterior .
      También se puede hacer gráficamente :

       La moda si sirve para datos cualitativos , pero no tiene por qué situarse en la zona
       central del gráfico .
Ejemplo : en el ejercicio de las notas la moda sería x=8

• Mediana : es el valor de la variable tal que el número de observaciones menores que él es igual al número de observaciones mayores que él . Si el número de datos es par , se puede tomar la media aritmética de los dos valores centrales .
Cuando los datos están agrupados la mediana viene dada por el primer valor de la variable cuya Fi excede a la mitad del número de datos . Si la mitad del número de datos coincide con Fi se tomará la semisuma ente este valor y el siguiente .
Cuando los datos estén agrupados en clases se puede utilizar reglas de tres o la fórmula : 
M = Linf + 
Gráficamente se hace a partir del polígono de frecuencias acumuladas .
Ejemplo : En el caso de las notas podrías ordenar de menor a mayor los datos y obtendríamos : 0 0 1 1 1 2 3 4 5 5 5 6 6 7 7  7 7 7 8 8 8 8 8 8 8 9 9 9 9 9

                                              dato número 15-16 (por ser par)
luego la mediana sería 7
También se podría observar las Fi y ver que en el 7 se excede a la mitad del nº de datos , es decir , sobrepasa el 15 .

• Cuantiles : son parámetros que dividen la distribución en partes iguales , así por ejemplo la mediana los divide en dos partes iguales , los cuartiles son tres valores que dividen a la serie de datos en cuatro partes iguales , los quintiles son cuatro valores que lo dividen en 5 partes , los deciles en 10 y los percentiles en 100 . Se calculan de la misma manera que la mediana . 
También se puede utilizar la fórmula : Cn = Linf +   donde n es el valor que deja el n% de valores por debajo de él .

Medidas de dispersión :
• Rango o recorrido : es la diferencia entre el mayor valor y el menor . Depende mucho de los valores extremos por que se suele utilizar el rango intercuartílico =
Q3  – Q1 o el rango entre percentiles = P90 – P10
Ejemplo : Para el caso de las notas sería 9 – 0 = 9

• Varianza s2 : es la media aritmética de los cuadrados de las desviaciones respecto a la media ( desviación respecto a la media d = xi –  ) .
s2 =  = 
 
s2 =  =
Al igual que la media en el caso de que los datos estén agrupados en clases , se tomará la marca de clase como xi .
Otra forma de calcular s2 es :
s2  =   =  = 
Se llama desviación típica s a la raíz cuadrada de la varianza . Es más útil que la varianza ya que tiene las mismas dimensiones que la media
Ejemplo : Hacer los cálculos para el ejercicio de las notas

– Coeficiente de variación : es el cociente entre la desviación típica y la media aritmética . Valores muy bajos indican muestras muy concentradas .
                                                  C.V. = 

DISTRIBUCIONES BIDIMENSIONALES :

Variables estadísticas bidimensionales : es cuando al estudiar un fenómeno obtenemos dos medidas x e y , en vez de una como hemos hecho hasta ahora .
Ejemplo : pulso y tª de los enfermos de un hospital , ingresos y gastos de las familias de los trabajadores de una empresa , edad y nº de días que faltan al trabajo los productores de una fábrica .

Tipos de distribuciones bidimensionales :
– cualitativa – cualitativa          
– cualitativa – cuantitativa ( discreta o continua )
– cuantitativa ( discreta o continua ) – cuantitativa ( discreta o continua )

Tipos de tablas :
– Tabla de dos columnas xi , yi ( pocos datos )
– Tabla de tres columnas xi , yi , fi ( muchos datos y pocos valores posibles )
– Tablas de doble entrada ( muchos datos y muchos valores posibles )
 x1 x2 …… xn f*j
y1 f11 f21 …… fn1 f*1
y2 f12 f22 …… fn2 f*2
….. ….. …… …… …… ……
ym f1m f2m …… fnm f*m
fi* f1* f2* …… fn* f**=N

Diagramas de dispersión :
Si hay pocos datos ( tabla de dos columnas ), se representan las variables en los ejes x e y .
Si hay muchos datos pero muy agrupados ( tabla de tres columnas y tablas de doble entrada ), se hace igual pero con los puntos más gordos según la fi ,o se pintan muchos puntos juntos , o se pinta en tres dimensiones x , y , fi , con lo que obtendríamos un diagrama de barras en tres dimensiones .
Si hay muchos datos y muchos valores posibles , se pueden agrupar en clases , y se utilizan los estereogramas ( 3 dimensiones ) en los que el volumen de cada prisma es proporcional a la frecuencia . También se puede tomar la marca de clase de los intervalos y tratar la variable continua como si fuese discreta .

Cálculo de parámetros :
– Cuando hay pocos datos o están muy agrupados ( tablas de 2 o 3 columnas )
                                          
      Aparece un parámetro nuevo que es la covarianza que es la media aritmética de las desviaciones de cada una de las variables respecto a sus medias respectivas .
      = 
– Cuando hay muchos datos ( tablas de doble entrada )
                                   
       
  = 

Correlación o dependencia : es la teoría que trata de estudiar la relación o dependencia entre las dos variables que intervienen en una distribución bidimensional , según sean los diagramas de dispersión podemos establecer los siguientes casos :
– Independencia funcional o correlación nula : cuando no existe ninguna relación entre las variables .( r = 0 )
– Dependencia funcional o correlación funcional : cuando existe una función tal que todos los valores de la variable la satisfacen ( a cada valor de x le corresponde uno solo de y o a la inversa ) (r =  1)
– Dependencia aleatoria o correlación curvilinea (ó lineal ): cuando los puntos del diagrama se ajustan a una linea recta o a una curva , puede ser positiva o directa , o negativa o inversa ( -1<r<0  ó  0<r<1)

Ejemplo : a 12 alumnos de COU se les toma las notas de los últimos exámenes de Matemáticas , Física y Filosofía :

Matemáticas Física Filosofía
2 1 2
3 3 5
4 2 7
4 4 8
5 4 5
6 4 3
6 6 4
7 4 6
7 6 7
8 7 5
10 9 5
10 10 9

Si representamos las variables matemáticas- física en un diagrama y matemáticas-filosofía en otro vemos que la correlación es mucho más fuerte en el primero que en el segundo ya que los valores están más alineados .
  
Coeficiente de correlación lineal : es una forma de cuantificar de forma más precisa el ttipo de correlación que hay entre las dos variables .
                                                        r = 

Regresión : consiste en ajustar lo más posible la nube de puntos de un diagrama de dispersión a una curva  . Cuando esta es una recta obtenemos la recta de regresión lineal , cuando es una parábola , regresión parabólica , cuando es una exponencial , regresión exponencial , etc . ( logicamente r debe ser distinto de 0 en todos los casos ) .
La recta de regresión de y sobre x es :    en la cual se hace mínima la distancia entre los valores yj obtenidos experimentalmente y los valores teóricos de y.
A valor    se le llama coeficiente de regresión de y sobre x ( nos da la pendiente de la recta de regresión ).
La recta de regresión de x sobre y es :    en la cual se hace mínima la distancia entre los valores xi obtenidos experimentalmente y los valores teoricos de x.
A valor    se le llama coeficiente de regresión de x sobre y ( su inversa nos da la otra pendiente ) .

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio usa Akismet para reducir el spam. Aprende cómo se procesan los datos de tus comentarios.