mario
Estadística Descriptiva
A continuación veremos un muy breve curso sobre la estadística descriptiva que con el tiempo iremos profundizando cada vez más.
- Datos y estadística
- Datos: son los hechos y cifras que se recogen, analizan y resumen para su presentación e interpretación.Los datos pueden ser cualitativos o cuantitativos. ademas tenemos tambien las escalas de datos:
- Nominal
- Ordinal
- De Intervalos
- De razón
- Fuentes de datos: podemos tener datos de sección transversal o serie de datos. Las fuentes de datos son:
- Fuentes Existentes
- Internet
- Estudios estadísticos
- Estadística descriptiva: datos que se resumen y presentan en una forma fácil de leer y de entender.
- Inferencia estadística: utilizar los datos obtenidos de un pequeño grupo de elementos(la muestra) para hacer estimaciones y tests de hipótesis sobre las características de un grupo más grande (la población).
- Datos: son los hechos y cifras que se recogen, analizan y resumen para su presentación e interpretación.Los datos pueden ser cualitativos o cuantitativos. ademas tenemos tambien las escalas de datos:
- Estadística Descriptiva: Métodos gráficos y tabulación
- Resumiendo datos cualitativos
- Distribución de frecuencias: número de elemento en cada una de las clases
- Frecuencia relativa: porción de los elementos que pertenecen a una clase
- Distribución de frecuencia porcentual: frecuencia relativa por 100
- Gráficas de barras
- Graficas de pastel
- Moda: valor con mauor frecuencia
- Mediana: Ordenada la serie de datos es el valor central
- Resumiendo datos cuantitativos
- Distribución de frecuencias
- Distribución de frecuencia relativa y porcentual
- Gráfica de puntos: El valor de cada dato es representado por un punto
- Histogramas: La diferencia con el gráfico de barra es que este no tiene separación entre las barras del gráfico
- Distribuciones acumuladas: muestra el número de ítems con los valores menores o iguales al límite superior de cada clase.
- Ojivas: es un gráfico de una distribución acumulada.
- Análisis exploratorio de datos: Las técnicas del análisis exploratorio de datos emplean aritmética sencilla y gráficas fáciles de dibujar útiles para resumir datos.
- Diagrama de tallo y hoja: La técnica conocida como diagrama de tallo y hojas muestra en forma simultánea el orden jerárquico y la forma de un conjunto de datos. Similar a histograma pero muestra los valores de los datos al mismo tiempo. (Un gráfico de barras relleno de números)
- Diagrama de tallo y hojas estirado: Si un tallo es muy largo lo podemos dividir y colocar al lado
- Tabulación cruzada y diagrama de dispersión
- Tabulación cruzada: es un método de tabulación para resumir los datos para dos o más variables de forma simultánea.
- Diagrama de dispersión: Un diagrama de dispersión es una presentación gráfica sobre la relación de dos variables cuantitativas.
- Línea de tendencia: En los diagramas de dispersión se puede graficar una línea de tendencia.
- Resumiendo datos cualitativos
- Estadística Descriptiva: Medidas numéricas
- Medidas de localización
- Media: el promedio de todos los valores de los datos.
- Mediana: es el valor en el medio cuando los datos son anotados en orden ascendente.
- Moda: es el valor que ocurre con la mayor frecuencia.
- Percentiles: Un percentil entrega información sobre la dispersión de los datos en el intervalo que va desde el menor hasta el mayor valor de los datos.
- Cuartiles, quintiles y deciles: Los Cuartiles son percentiles específicos: Primer Cuartil = 25to Percentil – Segundo Cuartil = 50mo Percentil = Mediana – Tercer Cuartil = 75.to Percentil. Así como los cuartiles lo que hacen es dividir la distribución en cuatro partes iguales, existen otras formas típicas para dividir los datos, y siguen la misma lógica que los percentiles y cuartiles. Quintiles en 5 partes iguales, deciles en 10 partes iguales.
- Medidas de variabilidad
- Rango: Es la diferencia entre el mayor valor y el menor valor.
- Rango Intercuartílico: es la diferencia entre el tercer cuartil y el primer cuartil.
- Varianza: Está basada en la diferencia entre el valor de cada
- observación (xi) y la media (x para una muestra, para la población).es el promedio del cuadrado de las diferencias entre cada dato y la media.
- Desviación Estándar: es la raíz cuadrada de la varianza.
- Coeficiente de Variación: indica que tan grande es la desviación estándar con respecto a la media. (Desv. estándar / promedio, multiplicado por 100)
- Medidas de la forma de la distribución, de la posición relativa y de la detección de observaciones atípicas
- Forma de la Distribución: En los datos sesgados a la izquierda, el sesgo es negativo; en datos sesgados a la derecha, el sesgo es positivo. Si los datos son simétricos, el sesgo es cero.
- Puntos z: Se usan para conocer la ubicación relativa de los valores de un conjunto de datos. Se puede interpretar como “el número de desviaciones estándar a las que xi se encuentra dentro de la media”.
- Teorema de Chebyshev: permite decir qué proporción de los valores que se tienen en los datos debe estar dentro de un determinado número de desviaciones estándar de la media.
- Regla Empírica: Para datos de una distribución bien comportada
- Aproximadamente un 68% de los valores de los datos se encuentran dentro de una desviación estándar de la media.
- Aproximadamente un 95% de los valores de los datos se encuentran dentro de dos desviaciones estándar de la media.
- Casi un 99,7% de los valores de los datos se encuentran dentro de tres desviaciones estándar de la media.
- Detección de Observaciones Atípicas: Un outlier (observación atípica) es un dato con un valor inusualmente grande o pequeño dentro del set de datos. Un dato con un punto z menor a –3 o mayor a 3 puede ser considerado un outlier.
- Análisis exploratorio de datos
- Resumen de 5 números
- Menor valor
- Primer cuartil
- Mediana
- Tercer cuartil
- Mayor valor
- Diagrama de caja: Un diagrama de caja es un resumen gráfico de los datos con base en el resumen de cinco números.
- Resumen de 5 números
- Medidas de asociación entre dos variables
- Covarianza: La covarianza es una medida de la asociación lineal entre dos variables. Valores positivos indican una relación positiva y negativos relación negativa.
- Correlación: El coeficiente puede tomar valores en el intervalo [–1; 1]. Los valores cerca de –1 indican una fuerte relación lineal negativa.Los valores cerca de +1 indican una fuerte relación lineal positiva.
- La media ponderada y el empleo de datos agrupados
- Media ponderada: Cuando la media es calculada dando a cada valor de los datos un peso (o ponderación) que refleja su importancia se le llama media ponderada.
- Media para Datos Agrupados: El cálculo de media ponderada puede ser utilizado para obtener aproximaciones para la media, varianza y desviación estándar para los datos agrupados.
- Varianza para Datos Agrupados
- Desviación Estándar para Datos Agrupados
- Medidas de localización