Sales pitch. Data visualization element, marketing chart. Research data. Business statistics, financial report, company performance analysis concept. Pink coral blue vector isolated illustration

Estadística Descriptiva

A continuación veremos un muy breve curso sobre la estadística descriptiva que con el tiempo iremos profundizando cada vez más.

 

  • Datos y estadística
    1. Datos: son los hechos y cifras que se recogen, analizan y resumen para su presentación e interpretación.Los datos pueden ser cualitativos o cuantitativos.  ademas tenemos tambien las escalas de datos:
      1. Nominal
      2. Ordinal
      3. De Intervalos
      4. De razón
    2. Fuentes de datos: podemos tener datos de sección transversal o serie de datos. Las fuentes de datos son:
      1. Fuentes Existentes
      2. Internet
      3. Estudios estadísticos
    3. Estadística descriptiva: datos que se resumen y presentan en una forma fácil de leer y de entender.
    4. Inferencia estadística:  utilizar los datos obtenidos de un pequeño grupo de elementos(la muestra) para hacer estimaciones y tests de hipótesis sobre las características de un grupo más grande (la población).

 

  • Estadística Descriptiva: Métodos gráficos y tabulación
    1. Resumiendo datos cualitativos
      1. Distribución de frecuencias: número de elemento en cada una de las clases
      2. Frecuencia relativa: porción de los elementos que pertenecen a una clase
      3. Distribución de frecuencia porcentual: frecuencia relativa por 100
      4. Gráficas de barras
      5. Graficas de pastel
    2. Moda: valor con mauor frecuencia
    3. Mediana: Ordenada la serie de datos es el valor central
    4. Resumiendo datos cuantitativos
      1. Distribución de frecuencias
      2. Distribución de frecuencia relativa y porcentual
      3. Gráfica de puntos: El valor de cada dato es representado por un punto
      4. Histogramas: La diferencia con el gráfico de barra es que este no tiene separación entre las barras del gráfico
      5. Distribuciones acumuladas: muestra el número de ítems con los valores menores o iguales al límite superior de cada clase.
      6. Ojivas: es un gráfico de una distribución acumulada.
    5. Análisis exploratorio de datos: Las técnicas del análisis exploratorio de datos emplean aritmética sencilla y gráficas fáciles de dibujar útiles para resumir datos.
      1. Diagrama de tallo y hoja: La técnica conocida como diagrama de tallo y hojas muestra en forma simultánea el orden jerárquico y la forma de un conjunto de datos. Similar a histograma pero muestra los valores de los datos al mismo tiempo. (Un gráfico de barras relleno de números)
      2. Diagrama de tallo y hojas estirado: Si un tallo es muy largo lo podemos dividir y colocar al lado
    6. Tabulación cruzada y diagrama de dispersión
      1. Tabulación cruzada: es un método de tabulación para resumir los datos para dos o más variables de forma simultánea.
      2. Diagrama de dispersión: Un diagrama de dispersión es una presentación gráfica sobre la relación de dos variables cuantitativas.
        1. Línea de tendencia: En los diagramas de dispersión se puede graficar una línea de tendencia.

 

  • Estadística Descriptiva: Medidas numéricas
    1. Medidas de localización
      1. Media: el promedio de todos los valores de los datos.
      2. Mediana: es el valor en el medio cuando los datos son anotados en orden ascendente.
      3. Moda: es el valor que ocurre con la mayor frecuencia.
      4. Percentiles: Un percentil entrega información sobre la dispersión de los datos en el intervalo que va desde el menor hasta el mayor valor de los datos.
      5. Cuartiles, quintiles y deciles: Los Cuartiles son percentiles específicos: Primer Cuartil = 25to Percentil – Segundo Cuartil = 50mo Percentil = Mediana – Tercer Cuartil = 75.to Percentil. Así como los cuartiles lo que hacen es dividir la distribución en cuatro partes iguales, existen otras formas típicas para dividir los datos, y siguen la misma lógica que los percentiles y cuartiles. Quintiles en 5 partes iguales, deciles en 10 partes iguales.
    2. Medidas de variabilidad
      1. Rango: Es la diferencia entre el mayor valor y el menor valor.
      2. Rango Intercuartílico: es la diferencia entre el tercer cuartil y el primer cuartil.
      3. Varianza: Está basada en la diferencia entre el valor de cada
      4. observación (xi) y la media (x para una muestra, para la población).es el promedio del cuadrado de las diferencias entre cada dato y la media.
      5. Desviación Estándar: es la raíz cuadrada de la varianza.
      6. Coeficiente de Variación: indica que tan grande es la desviación estándar con respecto a la media. (Desv. estándar / promedio, multiplicado por 100)
    3. Medidas de la forma de la distribución, de la posición relativa y de la detección de observaciones atípicas
      1. Forma de la Distribución: En los datos sesgados a la izquierda, el sesgo es negativo; en datos sesgados a la derecha, el sesgo es positivo. Si los datos son simétricos, el sesgo es cero.
      2. Puntos z: Se usan para conocer la ubicación relativa de los valores de un conjunto de datos. Se puede interpretar como “el número de desviaciones estándar a las que xi se encuentra dentro de la media”.
      3. Teorema de Chebyshev: permite decir qué proporción de los valores que se tienen en los datos debe estar dentro de un determinado número de desviaciones estándar de la media.
      4. Regla Empírica: Para datos de una distribución bien comportada
        1. Aproximadamente un 68% de los valores de los datos se encuentran dentro de una desviación estándar de la media.
        2. Aproximadamente un 95% de los valores de los datos se encuentran dentro de dos desviaciones estándar de la media.
        3. Casi un 99,7% de los valores de los datos se encuentran dentro de tres desviaciones estándar de la media.
      5. Detección de Observaciones Atípicas: Un outlier (observación atípica) es un dato con un valor inusualmente grande o pequeño dentro del set de datos. Un dato con un punto z menor a –3 o mayor a 3 puede ser considerado un outlier.
    4. Análisis exploratorio de datos
      1. Resumen de 5 números
        1. Menor valor
        2. Primer cuartil
        3. Mediana
        4. Tercer cuartil
        5. Mayor valor
      2. Diagrama de caja: Un diagrama de caja es un resumen gráfico de los datos con base en el resumen de cinco números.
    5. Medidas de asociación entre dos variables
      1. Covarianza: La covarianza es una medida de la asociación lineal entre dos variables. Valores positivos indican una relación positiva y negativos relación negativa.
      2. Correlación: El coeficiente puede tomar valores en el intervalo [–1; 1]. Los valores cerca de –1 indican una fuerte relación lineal negativa.Los valores cerca de +1 indican una fuerte relación lineal positiva.
    6. La media ponderada y el empleo de datos agrupados
      1. Media ponderada: Cuando la media es calculada dando a cada valor de los datos un peso (o ponderación) que refleja su importancia se le llama media ponderada.
      2. Media para Datos Agrupados: El cálculo de media ponderada puede ser utilizado para obtener aproximaciones para la media, varianza y desviación estándar para los datos agrupados.
      3. Varianza para Datos Agrupados
      4. Desviación Estándar para Datos Agrupados