Buscar este blog

3/20/2013

Conceptos Fundamentales de Estadistica Aplicada

Unidad Estadística

La Estadística es la ciencia que le facilita al hombre el estudio de datos masivos, pasa de esa manera sacar conclusiones valederas y efectuar predicciones razonables de ellos; y así mostrar una visión de conjunto clara y de más fácil apreciación, así como para describirlos y compararlos.
En una forma práctica, la ESTADÍSTICA nos proporciona los métodos científicos para la recopilación, organización, resumen, representación y ANALISIS de DATOS, o análisis de hechos, que se presenten a una valuación numérica; tales como son: Características biológicas o sociológicas, fenómenos físicos, producción, calidad, población riqueza, impuestos, cosechas, etc.
Población o Universo: Es el proceso de medir todos y cada uno de los miembros de un problema o situación particular considerada. Generalmente es muy grande y en la mayor parte de las veces prácticamente imposible de obtener de manera viable.
Pueden ser:

Población Finita: Es aquella que indica que es posible alcanzarse o sobrepasarse al contar.  Es aquella que posee o incluye un número limitado de medidas y observaciones. 
Población Infinita: Es infinita si se incluye un gran conjunto de medidas y observaciones que no pueden alcanzarse en el conteo. Son poblaciones infinitas porque hipotéticamente no existe límite en cuanto al número de observaciones que cada uno de ellos puede generar. 
Muestra: Es un subconjunto de una población. Una muestra es representativa cuando los elementos son seleccionados de tal forma que pongan de manifiesto las características de una población. Su característica más importante es la representatividad. La selección de los elementos que conforman una muestra pueden ser realizados de forma probabilística o aleatoria (al azar), o no.
Parámetro: Es Una medida descriptiva sobre una característica de la población completa.
Estadístico: Cualquier característica medible calculada sobre una muestra o población. La mayoría de los estadísticos muéstrales se encuentran por medio de una fórmula y suelen asignárseles nombres simbólicos que son letras latinas. 
Clasificación: En atención a su metodología, por sus procedimientos y alcances bien definidos, la Estadística la podríamos clasificar en dos grandes ramas, como lo son:
Estadística Descriptiva: Analiza metódicamente los datos, simplificándolos y presentándolos en forma clara; eliminando la confusión característica de los datos preliminares. Permite la elaboración de cuadros, gráficos e índices bien calculados; suficientemente claros, como para disipar las dudas y la obscuridad de los datos masivos. Se limita a describir los datos que se analizan, sin hacer inferencias en cuanto a datos no incluidos en la muestra.
Estadística Inferencial: Provee conclusiones o inferencias, basándose en los datos simplificados y analizados; detectando las interrelaciones que pueden unirlos, las leyes que los rigen y eliminando las influencias del azar; llegando más allá de las verificaciones físicas posibles. Sobre la base de la muestra estudiada saca conclusiones, o sea, hace inferencia o inducción, en cuanto al universo o población, de donde se obtuvo dicha muestra.
Caracteres estadísticos cuantitativos: Se dice que un carácter estadístico es cuantitativo cuando sus modalidades son medibles (expresables como números y cumpliendo unas propiedades de medida.). Ejemplos: peso, talla, pulso, edad, etc.

Caracteres estadísticos cualitativos: Se dice que un carácter estadístico es cualitativo cuando sus modalidades no pueden ser medidas. Ejemplos: raza, sexo, profesión, estado civil, etc.

Discreta: es aquella que solo puede tomar un número finito o infinito numerable de valores. Dicho con otras palabras: cuando no puede tomar cualquier valor entre dos valores dados. O bien solo toma valores aislados, generalmente enteros.

Ejemplo: el número de libros en una estantería, las tiradas de un dado, el número de pétalos de una flor, etc.

Continua: cuando puede tomar, al menos teóricamente, todos los valores posibles dentro de un cierto intervalo de la recta real.

Ejemplo: la temperatura de los enfermos entre 35 y 40 grados, aunque en la práctica sea imposible medir temperaturas aproximando hasta la cuarta o quinta cifra decimal. En la práctica son variables estadísticas continuas aquellas que fijamos como suceso elemental las que entren en un intervalo.

Exactitud de Medida: Es la capacidad de un instrumento de acercarse al valor de la magnitud real; La exactitud depende de los errores sistemáticos que intervienen en la medición, denotando la proximidad de una medida al verdadero valor y, en consecuencia, la validez de la medida.

Sumatoria: En estadística se requiere la suma de grandes masas de datos y es pertinente tener una notación simplificada para indicar la suma de estos datos. Así, si una variable se puede denotar por X.

Tipos de Sumatoria:
Las sumatorias se pueden representar bajo dos tipos de notaciones:

Notación suma abierta.- Esta notación va de una representación de sumatoria a cada uno de los elementos que la componen.

Notación suma pertinente.- Esta notación es al contrario de la suma abierta, va de la representación de cada uno de los elementos de una sumatoria a su representación matemática resumida.

Distribución y representación de datos:
La presentación de datos estadísticos constituye en sus diferentes modalidades uno de los aspectos de mas uso en la estadística descriptiva. A partir podemos visualizar a través de los diferentes medios escritos y televisivos de comunicación masiva la presentación de los datos estadísticos sobre el comportamiento de las principales variables económicas y sociales, nacionales e internacionales.
Presentación escrita: Esta forma de presentación de informaciones se usa cuando una serie de datos incluye pocos valores, por lo cual resulta mas apropiada la palabra escrita como forma de escribir el comportamiento de los datos; mediante la forma escrita, se resalta la importancia de las informaciones principales.
Presentación tabular: Cuando los datos estadísticos se presentan a través de un conjunto de filas y de columnas que responden a un ordenamiento lógico; es de gran eso e importancia para el uso e importancia para el usuario ya que constituye la forma más exacta de presentar las informaciones. Una tabla consta de varias partes, las principales son las siguientes:
Titulo: Es la parte más importante del cuadro y sirve para describir todo él contenido de este.
Encabezados: Son los diferentes subtítulos que se colocan en la parte superior de cada columna.
Columna matriz: Es la columna principal del cuadro.
Cuerpo: El cuerpo contiene todas las informaciones numéricas que aparecen en la tabla.
Fuente: La fuente de los datos contenidos en la tabla indica la procedencia de estos.
Notas al pie: Son usadas para hacer algunas aclaraciones sobre aspectos que aparecen en la tabla o cuadro y que no han sido explicados en otras partes.
Presentación grafica: Proporciona al lector o usuario mayor rapidez en la comprensión de los datos, una grafica es una expresión artística usada para representar un conjunto de datos.
De acuerdo al tipo de variable que vamos a representar, las principales graficas son las siguientes:
Histograma: Es un conjunto de barras o rectángulos unidos uno de otro, en razón de que lo utilizamos para representar variables continuas.
Polígono de frecuencias: Esta grafica se usa para representar los puntos medios de clase en una distribución de frecuencias
Gráfica de barras: Es un conjunto de rectángulos o barras separadas una de la otra, en razón de que se usa para representar variables discretas; las barras deben ser de igual base o ancho y separadas a igual distancia. Pueden disponerse en forma vertical y horizontal.
Gráfica lineal: Son usadas principalmente para representar datos clasificados por cantidad o tiempo; o sea, se usan para representar series de tiempoo cronológicas.
Gráfica de barra 100% y gráfica circular: se usan especialmente para representar las partes en que se divide una cantidad total.
La ojiva: Esta grafica consiste en la representación de las frecuencias acumuladas de una distribución de frecuencias. Puede construirse de dos maneras diferentes; sobre la base "menor que" o sobre la base "o más". Puede determinar el valor de la mediana de la distribución.
En estadística denominamos gráficos a aquellas imágenes que, combinando la utilización De sombreado, colores, puntos, líneas, símbolos, números, texto y un sistema De referencia (coordenadas), permiten presentar información cuantitativa.
La utilidad De los gráficos es doble, ya que pueden servir no sólo como sustituto a las tablas, sino que también constituyen por sí mismos una poderosa herramienta para el análisis De los datos, siendo en ocasiones el medio más efectivo no sólo para describir y resumir la información, sino también para analizarla.
En este trabajo solo nos vamos a centrar únicamente en los gráficos como vehículo de presentación de datos, sin abordar su otra faceta como herramienta de análisis.
Puntuación:

Puntuaciones diferenciales: Las puntuaciones diferenciales resultan de restarles a las puntuaciones directas la media aritmética.
Puntuaciones típicas: Las puntuaciones típicas son el resultado de dividir las puntuaciones diferenciales entre la desviación típica. Este proceso se llama tipificación. Las puntuaciones típicas se representan por z.
Frecuencia: Se llama frecuencia a la cantidad de veces que se repite un determinado valor de la variable. Se suelen representar con histogramas y con diagramas de Pareto.

Limite inferior y superior: Son los límites inferiores y superiores son los valores mínimo y máximo de una distribución.

El límite superior (LS) es el tope del rango de una o un conjunto de mediciones, y se construye sumando la desviación (S) al promedio (X).

El limite Inferior (LI) igual pero en el otro extremo, equivale a restar del promedio la desviación estándar (X-S).

Amplitud del intervalo: Dentro de los conceptos fundamentales de la estadística y la representación gráfica de variables que son continuas, existe una conveniencia por agrupar los valores de una variable en intervalos que por lo general serán del mismo tamaño; elección que se hace por cierto en función del número de datos de que se dispone y de la variación de los mismos. Cada intervalo quedará entonces definido por sus límites superior e inferior. A la diferencia entre ambos extremos se le denomina "amplitud del intervalo".

Elementos de un intervalo:

Límite de Clase: Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.
Amplitud de clase: La amplitud de la clase es la diferencia entre el limite superior e inferior de la clase.
Marca de clase: La marca de clase es el punto medio de cada intervalo y es el valor que representa a todo el intervalo para el cálculo de algunos parámetros.
Punto medio: Para fines de análisis de datos, los valores de las clases se representan a través del punto medio de clase o marca de clase. El punto medio de clase se define como la semi-suma de los límites de clase. El punto medio de clase se identifica como Xi, donde Xi = ½ (limite superior + limite inferior.
Frecuencia simple absoluta: El número de veces que se observa un mismo ítem (Los datos de una misma magnitud o clase), o la cantidad d datos que caen en un mismo intervalo.
Frecuencia simple relativa: Es la relación geométrica entre la frecuencia absoluta y el total de datos. O sea, el cociente de dividir el número de veces que aparece un dato de un intervalo, entre la totalidad de los datos que conforman la muestra de que se trate.
Frecuencia acumulada absoluta: Es la acumulación o suma de todas las frecuencias absolutas hasta el intervalo de clase considerado, inclusive.
Frecuencia acumulada relativa: Viene a ser la acumulación de todas las frecuencias relativas hasta el mismo intervalo considerado, inclusive. El punto medio central Es el valor medio de los límites de cada intervalo de clase. Suelen escogerse siempre intervalos de extensiones iguales.
Medidas de tendencia central

La mayoría  de los datos que se trabajan con fines analíticos muestran una tendencia a agruparse alrededor de un valor central. Tres de las medidas más importantes dentro de esta categoría son:
Media aritmética: Suele suceder que, al considerar un elemento de la muestra, además de tener en cuenta su frecuencia, o sea, las veces que ocurre; conviene considerar que también alguna característica particular que tenga, la cual lo haga diferente a los demás datos; ya sea por su significación o por su importancia.
Ejemplo: En el caso de los pescados, si se capturan 5 de 6 kg., pero entre ellos hay 2 que por su calidad especial o su mayor precio en el mercado, como decir: 2 carites y los demás júreles, no conviene considerarlos iguales a los otros 3. En estos casos, tales datos han de ser ponderados, multiplicándolos por algún factor escogido convencionalmente.
Moda: El modo, o moda viene a ser el valor más común de la muestra, el que ocurre con mayor frecuencia, el más típico, el más denso. Se trata entonces de una medida NO MATEMÁTICA, con lo cual se indica que no se pueden sentar principios algebraicos.
No es afectada por los datos extremos aislados.
No tiene mucha utilidad en las muestras de pocos datos.
Su valor suele variar, al variar los tamaños de los intervalos de clase.
Mediana: Medida de tendencia central y se define en los datos agrupados, como el valor de la abscisa, en la cual, al levantar una ordenada, divide al histograma de distribución de frecuencias en dos área que son absolutamente iguales.
Características de la mediana: Es una medida de tendencia central, del tipo no matemático, y a pesar de que es una medida perfectamente bien definida, es de utilidad deficiente, ya que no se ajusta al cálculo algebraico como tal, no se puede basar en ella teoremas y demás recursos de álgebra. Por eso es que se clasifica como un promedio no matemático.
Percentil: Es aquel que se calcula al dividir en cien partes iguales la distribución. El primer percentil (P1) es igual al valor que supera al 1% de las observaciones y es superado por el 99% restante y así sucesivamente.

El método más sencillo para identificar tanto cuartiles, deciles y percentil eses el gráfico, haciendo uso de la ojiva porcentual ascendente. Sólo requiere buscar en el eje vertical el porcentaje que se busca y leer en el eje horizontal su correspondiente valor.
Medidas de dispersión: Las medidas de dispersión vienen a abundar más en el estudio estadístico, al proporcionar los medios de averiguar el grado en que dichos datos se separan o varían, esto con respecto al valor central, el cual es obtenido por medio de las medidas de tendencia central, es decir que nos dicen el grado de variación o de dispersión de los datos de la muestra, y configuran toda una disciplina que es conocida por el nombre de “Teoría de la dispersión”.
Cuartil e intercuartil: Cuartiles: se divide la distribución en cuatro partes iguales, de manera que cada una tendrá el 25% de las observaciones. Los tres puntos deseparación de los valores son los cuartiles. El cuartil inferior (Q1) es aquel valor de la variable que representa el 25% de las observaciones y a la vez, es superado por el 75% restante. El segundo cuartil (Q2) corresponderá a la mediana de ladistribución. El tercer cuartil (Q3) es aquel valor que representa el 75% y essuperado por el 25% restante de las observaciones.

El rango intercuartil: es una medida de variación entre los valores de las observaciones que se encuentran al final del 25% y 75% del número de las observaciones. Es decir la diferencia de valor entre el 3er cuartil y el 1er cuartil. Siguiendo con la Misma muestra de datos.

Desviación típica: La  desviación típica es la  raíz cuadrada de la  varianza. Es decir, la raíz cuadrada de la media de los cuadrados de las puntuaciones de desviación. La desviación típica se representa por σ. Para simplificar el cálculo vamos o utilizar las siguientes expresiones que son equivalentes a las anteriores. Cuanta más pequeña sea la desviación típica mayor será la concentración de datos alrededor de la media.

Distribución asimetría: Permiten identificar la forma en que se separan o aglomeran los valores de acuerdo a su representación gráfica. Estas medidas describen la manera como los datos tienden a reunirse de acuerdo con la frecuencia con que se hallen dentro de la información. Su utilidad radica en la posibilidad de identificar las características de la distribución sin necesidad de generar el gráfico.

Coeficiente de variación: El coeficiente de variación es la relación entre la desviación típica  de una muestra y su media. Se puede expresar en porcentajes. Además permite comparar las  dispersiones de dos distribuciones distintas, siempre que sus  medias sean  positivas. Se calcula para cada una de las distribuciones y los valores que se obtienen se comparan entre sí.
La  varianza es la  media aritmética del  cuadrado de las desviaciones respecto a la media. Se simboliza s2 para la varianza muestral y σ2 para la varianza poblacional.
Medidas de forma: Son indicadores estadísticos que permiten identificar si una distribución de frecuencia presenta uniformidad. Las medidas de forma permiten comprobar si una distribución de frecuencia tiene características especiales como simetría, asimetría, nivel de concentración de datos y nivel de apuntamiento que la clasifiquen en un tipo particular de distribución.
Las medidas de forma son necesarias para determinar el comportamiento de los datos y así, poder adaptar herramientas para el análisis probabilístico.
Curtosis: es la medida de la altura de la curva y esta dada por:
Si 3  = Ap la distribución es normal  o mesocúrtica.
Si 3 > Ap la distribución es apuntada  o leptocúrtica.
Si 3 < Ap la distribución es achatada  o platicúrtica
Leptocurtica: Recibe el nombre de apuntada  y se presenta cuando la curva es mas aguda que la normal.
Mesocurtica: Es aquella donde la distribución es normal, y la curva se conoce con el nombre de mosocurtica.
Platicurtica: Es aquella donde la curva mas plana que la normal.
Medidas de Correlación: Determina la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional.
Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas.
La correlación entre dos variables busca determinar el grado de relación que existe entre ellas dos. Ella se calcula con los coeficientes de correlación. Los coeficientes de correlación son números que varían entre +1 y -1. Su magnitud indica el grado de asociación entre las variables, si es 0 indica que no existe relación alguna y los valores extremos +1 y -1 indican una correlación perfecta positiva o negativa respectivamente.

Coeficiente de correlacion de pearson: es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas. A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida de las variables.
De manera menos formal, podemos definir el coeficiente de correlación de Pearson como un índice que puede utilizarse para medir el grado de relación de dos variables siempre y cuando ambas sean cuantitativas.
Correlacion positiva o discreta: Es la relación entre dos variables que muestra que ambas aumentan o disminuyen simultáneamente.
Correlacion Negativa o inversa: Es la relación entre dos variables que muestra que una variable disminuye conforme otra aumenta.
Correlacion nula: La correlación nula se da cuando no hay dependencia de ningún tipo entre las variables. En este caso se dice que las variables son incorreladas y la nube de puntos tiene una forma redondeada.
Correlacion Imperfecta: Se determina cuando los puntos dados por par de valores de las variables, no caen sobre la diagonal si no se acercan a el.
Regresión: La regresión es una técnica estadística utilizada para simular la relación existente entre dos o más variables. Por lo tanto se puede emplear para construir un modelo que permita predecir el comportamiento de una variable dada.
La regresión es muy utilizada para interpretar situaciones reales, pero comúnmente se hace de mala forma, por lo cual es necesario realizar una selección adecuada de las variables que van a construir las ecuaciones de la regresión, ya que tomar variables que no tengan relación en la práctica, nos arrojará un modelo carente de sentido, es decir ilógico.
Predicción: Es el proceso de estimación en situaciones de incertidumbre. El término predicción es similar, pero más general, y generalmente se refiere a la estimación de series temporales o datos instantáneos. El pronóstico ha evolucionado hacia la práctica del plan de demanda en el pronóstico diario de los negocios. La práctica del plan de demanda también se refiere al pronóstico de la cadena de suministros.
Entonces tenemos que los pronósticos son procesos críticos y continuos que se necesitan para obtener buenos resultados durante la planificación, de un proyecto.
Coeficiente de correlacion de spearman: En estadística, el coeficiente de correlación de Spearman, ρ (ro) es una medida de la correlación (la asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos son ordenados y reemplazados por su respectivo orden.
relacion de Kendall: Es una técnica no parametricas para medir el grado de correlacion entre variables de una muestra. Mide el grado de asociación entre varios conjuntos (k) de N entidades. Es útil para determinar el grado de acuerdo entre varios jueces, o la asociación entre tres o más variables.
En la prueba estadística el Coeficiente de Concordancia de Kendall (W), ofrece el valor que posibilita decidir el nivel de concordancia entre los expertos. El valor de W oscila entre 0 y 1. El valor de 1 significa una concordancia de acuerdos total y el valor de 0 un desacuerdo total. La tendencia a 1 es lo deseado pudiéndose realizar nuevas rondas si en la primera no es alcanzada significación en la concordancia.
Coeficiente de correlacion de PHI: En estadística, el coeficiente phi φ o rφ, también llamado coeficiente de correlación de Mathewses una medida de la asociación entre dos variables binarias. Esta medida es similar al coeficiente de correlación de Pearson en su interpretación. De hecho, un coeficiente de correlación de Pearson estimado para dos variables binarias nos dará el coeficiente phi.1 El coeficiente phi también relacionado con el estadístico de chi-cuadrado para una tabla de contingencia de a 2×2.2
Coeficiente de correlacion múltiple y regresión Múltiple: En el contexto del análisis de la regresión lineal simple el coeficiente de correlación múltiple establece una medida del grado de asociación lineal entre la variable respuesta y la variable predictora, concretamente entre la variable respuesta y la recta de regresión estimada. Se define, a partir de los n pares de observaciones, mediante  Su cuadrado, R2, denominado coeficiente de determinación múltiple, puede interpretarse como el porcentaje de variabilidad de Y explicada o debida a la recta de regresión
Cuando todos los puntos se encuentran sobre la recta de regresión estimada, es decir, "el ajuste es perfecto",  la suma de cuadrados de residuos, SSE, toma el valor cero y , por tanto,  R2 = 1.  El denominador de la última expresión es una medida de la variabilidad total de la n observaciones de la variable respuesta. 

No hay comentarios:

Publicar un comentario