Unidad
Estadística
En una forma práctica, la ESTADÍSTICA nos
proporciona los métodos científicos para la recopilación, organización,
resumen, representación y ANALISIS de DATOS, o análisis de hechos, que se
presenten a una valuación numérica; tales como son: Características biológicas
o sociológicas, fenómenos físicos, producción, calidad, población riqueza,
impuestos, cosechas, etc.
Población
o Universo: Es el proceso de
medir todos y cada uno de los miembros de un problema o situación particular
considerada. Generalmente es muy grande y en la mayor parte de las veces
prácticamente imposible de obtener de manera viable.
Pueden ser:
Población Finita: Es aquella que indica que es posible
alcanzarse o sobrepasarse al contar.
Es aquella que posee o incluye un número limitado de medidas y observaciones.
Población Infinita: Es infinita si se incluye un gran conjunto de medidas y observaciones que no pueden alcanzarse en el conteo. Son poblaciones infinitas porque hipotéticamente no existe límite en cuanto al número de observaciones que cada uno de ellos puede generar.
Población Infinita: Es infinita si se incluye un gran conjunto de medidas y observaciones que no pueden alcanzarse en el conteo. Son poblaciones infinitas porque hipotéticamente no existe límite en cuanto al número de observaciones que cada uno de ellos puede generar.
Muestra: Es un subconjunto de una población. Una muestra es
representativa cuando los elementos son seleccionados de tal forma que pongan
de manifiesto las características de una población. Su característica más
importante es la representatividad. La selección de los elementos que conforman
una muestra pueden ser realizados de forma probabilística o aleatoria (al
azar), o no.
Parámetro: Es Una medida descriptiva sobre una
característica de la población completa.
Estadístico: Cualquier característica medible calculada
sobre una muestra o población. La mayoría de los
estadísticos muéstrales se encuentran por medio de una fórmula y suelen
asignárseles nombres simbólicos que son letras latinas.
Clasificación: En atención a su metodología, por sus
procedimientos y alcances bien definidos, la Estadística la
podríamos clasificar en dos grandes ramas, como lo son:
Estadística Descriptiva: Analiza metódicamente los datos,
simplificándolos y presentándolos en forma clara; eliminando la confusión
característica de los datos preliminares. Permite la elaboración de cuadros,
gráficos e índices bien calculados; suficientemente claros, como para disipar
las dudas y la obscuridad de los datos masivos. Se limita a describir los datos
que se analizan, sin hacer inferencias en cuanto a datos no incluidos en la
muestra.
Estadística Inferencial: Provee conclusiones o inferencias, basándose
en los datos simplificados y analizados; detectando las interrelaciones que
pueden unirlos, las leyes que los rigen y eliminando las influencias del azar;
llegando más allá de las verificaciones físicas posibles. Sobre la base de la
muestra estudiada saca conclusiones, o sea, hace inferencia o inducción, en
cuanto al universo o población, de donde se obtuvo dicha muestra.
Caracteres estadísticos cuantitativos: Se dice que un carácter estadístico es
cuantitativo cuando sus modalidades son medibles (expresables como números y cumpliendo
unas propiedades de medida.). Ejemplos:
peso, talla, pulso, edad, etc.
Caracteres estadísticos cualitativos: Se dice que un carácter estadístico es
cualitativo cuando sus modalidades no pueden ser medidas. Ejemplos: raza, sexo, profesión, estado
civil, etc.
Discreta: es aquella que solo puede tomar un número finito o infinito numerable de
valores. Dicho con otras palabras: cuando no puede tomar cualquier valor entre
dos valores dados. O bien solo toma valores aislados, generalmente enteros.
Ejemplo: el número de libros en una estantería,
las tiradas de un dado, el número de pétalos de una flor, etc.
Continua: cuando puede tomar, al menos teóricamente, todos los valores posibles
dentro de un cierto intervalo de la recta real.
Ejemplo: la temperatura de los enfermos entre 35
y 40 grados, aunque en la práctica sea imposible medir temperaturas aproximando
hasta la cuarta o quinta cifra decimal. En la práctica son variables
estadísticas continuas aquellas que fijamos como suceso elemental las que entren
en un intervalo.
Exactitud
de Medida: Es la capacidad de
un instrumento de acercarse al valor de la magnitud
real; La exactitud depende de los errores
sistemáticos que intervienen en la medición, denotando la proximidad de una
medida al verdadero valor y, en consecuencia, la validez de la medida.
Sumatoria: En
estadística se requiere la suma de grandes masas de datos y es pertinente tener
una notación simplificada para indicar la suma de estos datos. Así, si una
variable se puede denotar por X.
Tipos de Sumatoria:
Las sumatorias se pueden representar bajo dos
tipos de notaciones:
Notación
suma abierta.- Esta notación va de una representación
de sumatoria a cada uno de los elementos que la componen.
Notación
suma pertinente.- Esta
notación es al contrario de la suma abierta, va de la representación de cada
uno de los elementos de una sumatoria a su representación matemática resumida.
Distribución y representación de datos:
La presentación de datos estadísticos
constituye en sus diferentes modalidades uno de los aspectos de mas uso en la estadística descriptiva. A partir podemos
visualizar a través de los diferentes medios escritos
y televisivos de comunicación masiva
la presentación de los datos estadísticos sobre el comportamiento de
las principales variables económicas
y sociales, nacionales e internacionales.
Presentación escrita: Esta forma de presentación de informaciones
se usa cuando una serie de datos incluye pocos valores, por lo cual resulta mas apropiada la
palabra escrita como forma de escribir el comportamiento de los datos; mediante
la forma escrita, se resalta la importancia de las informaciones principales.
Presentación tabular: Cuando los datos estadísticos se presentan a través de un conjunto de filas y de columnas que responden a
un ordenamiento lógico; es de gran eso e importancia para el uso e importancia
para el usuario ya que constituye la forma más exacta de presentar las informaciones.
Una tabla consta de varias partes, las principales son las siguientes:
Titulo: Es la parte más importante del cuadro y sirve para describir todo él
contenido de este.
Encabezados: Son los diferentes subtítulos que se colocan
en la parte superior de cada columna.
Columna matriz: Es la columna principal del cuadro.
Cuerpo: El cuerpo contiene todas las informaciones
numéricas que aparecen en la tabla.
Fuente: La fuente de los datos contenidos en la tabla
indica la procedencia de estos.
Notas al pie: Son usadas para hacer algunas aclaraciones
sobre aspectos que aparecen en la tabla o cuadro y que no han sido explicados
en otras partes.
Presentación grafica: Proporciona al lector o usuario mayor rapidez en la comprensión de los
datos, una grafica es una expresión artística usada para representar un
conjunto de datos.
De acuerdo al tipo de variable que vamos a representar,
las principales graficas son
las siguientes:
Histograma: Es un conjunto de barras o rectángulos unidos uno de otro,
en razón de que lo utilizamos para representar variables continuas.
Polígono de frecuencias: Esta grafica se usa para
representar los puntos medios de clase en
una distribución de
frecuencias
Gráfica de barras: Es un conjunto de rectángulos o barras separadas una de la
otra, en razón de que se usa para representar variables discretas; las barras
deben ser de igual base o
ancho y separadas a igual distancia. Pueden disponerse en forma vertical y
horizontal.
Gráfica lineal: Son usadas principalmente para representar datos
clasificados por cantidad o tiempo; o sea, se usan para representar series de tiempoo cronológicas.
Gráfica de barra 100% y gráfica circular: se usan
especialmente para representar las partes en que se divide una cantidad total.
La ojiva: Esta grafica consiste en la representación de las
frecuencias acumuladas de una distribución de frecuencias. Puede construirse de
dos maneras diferentes; sobre la base "menor que" o sobre la base
"o más". Puede determinar el valor de
la mediana de la distribución.
En estadística denominamos gráficos a
aquellas imágenes que,
combinando la utilización De sombreado, colores, puntos, líneas, símbolos, números, texto y
un sistema De
referencia (coordenadas), permiten presentar información cuantitativa.
La utilidad De
los gráficos es doble, ya que
pueden servir no sólo como sustituto a las tablas, sino que también constituyen
por sí mismos una poderosa herramienta para el análisis De
los datos, siendo en ocasiones el medio más efectivo no sólo para describir y
resumir la información, sino también para analizarla.
En este trabajo solo
nos vamos a centrar únicamente en los gráficos como vehículo de presentación de datos, sin abordar su otra faceta como herramienta de análisis.
Puntuación:
Puntuaciones diferenciales: Las puntuaciones diferenciales resultan de restarles a las puntuaciones directas la media aritmética.
Puntuaciones típicas: Las puntuaciones típicas son el resultado de dividir las puntuaciones diferenciales entre
la desviación típica.
Este proceso se llama tipificación. Las puntuaciones típicas se representan por z.
Frecuencia: Se llama frecuencia a la cantidad de veces que se repite
un determinado valor de la variable. Se suelen representar con histogramas y
con diagramas de Pareto.
Limite inferior y superior: Son los límites inferiores y
superiores son los valores mínimo y máximo de una distribución.
El
límite superior (LS) es el tope del rango de una o un conjunto de mediciones, y
se construye sumando la desviación (S) al promedio (X).
El
limite Inferior (LI) igual pero en el otro extremo, equivale a restar del
promedio la desviación estándar (X-S).
Amplitud
del intervalo: Dentro de los conceptos fundamentales de la
estadística y la representación gráfica de variables que son continuas, existe
una conveniencia por agrupar los valores de una variable en intervalos que por
lo general serán del mismo tamaño; elección que se hace por cierto en función
del número de datos de que se dispone y de la variación de los mismos. Cada
intervalo quedará entonces definido por sus límites superior e inferior. A la
diferencia entre ambos extremos se le denomina "amplitud del
intervalo".
Elementos de un intervalo:
Límite de Clase: Cada clase está delimitada por el límite inferior de la clase y el límite superior de la clase.
Amplitud de clase: La amplitud de la clase es la diferencia entre el limite superior e inferior de la clase.
Marca de clase: La marca de clase es el punto medio de cada intervalo y
es el valor que representa a todo el intervalo para el cálculo de algunos parámetros.
Punto medio: Para fines de análisis de datos, los valores
de las clases se representan a través del punto medio de clase o marca de
clase. El punto medio de clase se define como la semi-suma de los límites de
clase. El punto medio de clase se identifica como Xi, donde Xi = ½ (limite
superior + limite inferior.
Frecuencia simple absoluta: El número de veces que se observa un mismo
ítem (Los datos de una misma magnitud o clase), o la cantidad d datos que caen
en un mismo intervalo.
Frecuencia simple relativa: Es la relación geométrica entre la frecuencia
absoluta y el total de datos. O sea, el cociente de dividir el número de veces
que aparece un dato de un intervalo, entre la totalidad de los datos que
conforman la muestra de que se trate.
Frecuencia acumulada absoluta: Es la acumulación o suma de todas las frecuencias
absolutas hasta el intervalo de clase considerado, inclusive.
Frecuencia acumulada relativa: Viene a ser la acumulación de todas las frecuencias relativas hasta el
mismo intervalo considerado, inclusive. El punto medio central Es el valor
medio de los límites de cada intervalo de clase. Suelen escogerse siempre
intervalos de extensiones iguales.
Medidas de tendencia central
La mayoría de los datos que se trabajan con fines
analíticos muestran una tendencia a agruparse alrededor de un valor central.
Tres de las medidas más importantes dentro de esta categoría son:
Media aritmética: Suele suceder que, al considerar un elemento
de la muestra, además de tener en cuenta su frecuencia, o sea, las veces que
ocurre; conviene considerar que también alguna característica particular que
tenga, la cual lo haga diferente a los demás datos; ya sea por su significación
o por su importancia.
Ejemplo: En el caso de los pescados, si se capturan 5 de 6 kg ., pero entre ellos hay 2
que por su calidad especial o su mayor precio en el mercado, como decir: 2
carites y los demás júreles, no conviene considerarlos iguales a los otros 3.
En estos casos, tales datos han de ser ponderados, multiplicándolos por algún
factor escogido convencionalmente.
Moda: El modo, o moda viene a ser el valor más
común de la muestra, el que ocurre con mayor frecuencia, el más típico, el más
denso. Se trata entonces de una medida NO MATEMÁTICA, con lo cual se indica que
no se pueden sentar principios algebraicos.
No es afectada por los datos extremos aislados.
No tiene mucha utilidad en las muestras de pocos datos.
Su valor suele variar, al variar los tamaños de los
intervalos de clase.
Mediana: Medida de tendencia central y se define en
los datos agrupados, como el valor de la abscisa, en la cual, al levantar una
ordenada, divide al histograma de distribución de frecuencias en dos área que
son absolutamente iguales.
Características de la mediana: Es una medida de tendencia central, del tipo
no matemático, y a pesar de que es una medida perfectamente bien definida, es
de utilidad deficiente, ya que no se ajusta al cálculo algebraico como tal, no
se puede basar en ella teoremas y demás recursos de álgebra. Por eso es que se
clasifica como un promedio no matemático.
Percentil:
Es aquel que se calcula al dividir en cien partes iguales la distribución. El
primer percentil (P1) es igual al valor que supera al 1% de las
observaciones y es superado por el 99% restante y así sucesivamente.
El método más sencillo para
identificar tanto cuartiles, deciles y percentil eses el gráfico, haciendo uso
de la ojiva porcentual ascendente. Sólo requiere buscar en el eje vertical el
porcentaje que se busca y leer en el eje horizontal su correspondiente valor.
Medidas de dispersión: Las medidas de dispersión vienen a abundar más
en el estudio estadístico, al proporcionar los medios de averiguar el grado en
que dichos datos se separan o varían, esto con respecto al valor central, el
cual es obtenido por medio de las medidas de tendencia central, es decir que
nos dicen el grado de variación o de dispersión de los datos de la muestra, y
configuran toda una disciplina que es conocida por el nombre de “Teoría de la
dispersión”.
Cuartil
e intercuartil: Cuartiles:
se divide la distribución en cuatro partes iguales, de manera que cada una
tendrá el 25% de las observaciones. Los tres puntos deseparación de los valores
son los cuartiles. El cuartil inferior (Q1) es aquel valor de la
variable que representa el 25% de las observaciones y a la vez, es superado por
el 75% restante. El segundo cuartil (Q2) corresponderá a la
mediana de ladistribución. El tercer cuartil (Q3) es aquel valor
que representa el 75% y essuperado por el 25% restante de las observaciones.
El rango intercuartil: es una
medida de variación entre los valores de las observaciones que se encuentran al
final del 25% y 75% del número de las observaciones. Es decir la diferencia de
valor entre el 3er cuartil y el 1er cuartil. Siguiendo con la Misma
muestra de datos.
Desviación
típica: La desviación típica es la raíz cuadrada de la varianza. Es decir, la raíz cuadrada de la
media de los cuadrados de las puntuaciones de desviación. La desviación típica
se representa por σ. Para simplificar el cálculo vamos o utilizar las siguientes
expresiones que son equivalentes a las anteriores. Cuanta más pequeña sea la desviación típica mayor será la
concentración de datos alrededor de la media.
Distribución
asimetría: Permiten identificar la forma
en que se separan o aglomeran los valores de acuerdo a su representación
gráfica. Estas medidas describen la manera como los datos tienden a reunirse de
acuerdo con la frecuencia con que se hallen dentro de la información. Su
utilidad radica en la posibilidad de identificar las características de la
distribución sin necesidad de generar el gráfico.
Coeficiente
de variación: El coeficiente de variación es
la relación entre la desviación típica
de una muestra y su media. Se puede expresar en porcentajes. Además permite
comparar las dispersiones de dos
distribuciones distintas, siempre que sus
medias sean positivas. Se calcula
para cada una de las distribuciones y los valores que se obtienen se comparan
entre sí.
La varianza es la media aritmética
del cuadrado de las desviaciones respecto
a la media. Se simboliza s2 para la varianza muestral y σ2
para la varianza poblacional.
Medidas de
forma: Son
indicadores estadísticos que permiten identificar si una distribución de
frecuencia presenta uniformidad. Las
medidas de forma permiten comprobar si una distribución de frecuencia tiene
características especiales como simetría, asimetría, nivel de concentración de
datos y nivel de apuntamiento que la clasifiquen en un tipo particular de
distribución.
Las medidas de forma son necesarias para determinar el
comportamiento de los datos y así, poder adaptar herramientas para el análisis
probabilístico.
Curtosis: es la medida de la altura de
la curva y esta dada por:
Si 3 = Ap la distribución es normal o mesocúrtica.Si 3 > Ap la distribución es apuntada o leptocúrtica.
Si 3 < Ap la distribución es achatada o platicúrtica
Leptocurtica: Recibe el nombre de apuntada y se presenta cuando la curva es mas aguda que
la normal.
Mesocurtica: Es aquella donde la
distribución es normal, y la curva se conoce con el nombre de mosocurtica.
Platicurtica: Es aquella donde la curva mas
plana que la normal.
Medidas de Correlación: Determina la relación o dependencia que
existe entre las dos variables que intervienen en una distribución bidimensional.
Es decir, determinar si los cambios en
una de las variables influyen en los cambios de la otra. En caso de que suceda,
diremos que las variables están correlacionadas o que hay correlación entre ellas.
La correlación entre dos
variables busca determinar el grado de relación que existe entre ellas dos.
Ella se calcula con los coeficientes de correlación. Los coeficientes de correlación son números que varían entre +1 y
-1. Su magnitud indica el grado de asociación entre las variables, si es 0
indica que no existe relación alguna y los valores extremos +1 y -1 indican una
correlación perfecta positiva o negativa respectivamente.
Coeficiente de correlacion de pearson: es un índice que mide la relación lineal entre dos variables aleatorias cuantitativas.
A diferencia de la covarianza, la correlación de Pearson es independiente de la escala de medida
de las variables.
De manera menos formal, podemos definir el coeficiente de
correlación de Pearson como un índice que puede utilizarse para medir el grado
de relación de dos variables siempre y cuando ambas sean cuantitativas.
Correlacion
positiva o discreta: Es la relación
entre dos variables que muestra que ambas aumentan o disminuyen
simultáneamente.
Correlacion Negativa o inversa: Es la relación entre dos
variables que muestra que una variable disminuye conforme otra aumenta.
Correlacion nula: La
correlación nula se da cuando no hay dependencia de ningún tipo entre las
variables. En este caso se dice que las variables son incorreladas y la nube de
puntos tiene una forma redondeada.
Correlacion Imperfecta: Se determina cuando los puntos dados por par
de valores de las variables, no caen sobre la diagonal si no se acercan a el.
Regresión: La regresión es una técnica estadística utilizada
para simular la relación existente entre dos o más variables. Por lo tanto se
puede emplear para construir un modelo que permita predecir el comportamiento
de una variable dada.
La regresión es muy utilizada para interpretar situaciones reales, pero comúnmente se hace de mala forma, por lo cual es necesario realizar una selección adecuada de las variables que van a construir las ecuaciones de la regresión, ya que tomar variables que no tengan relación en la práctica, nos arrojará un modelo carente de sentido, es decir ilógico.
La regresión es muy utilizada para interpretar situaciones reales, pero comúnmente se hace de mala forma, por lo cual es necesario realizar una selección adecuada de las variables que van a construir las ecuaciones de la regresión, ya que tomar variables que no tengan relación en la práctica, nos arrojará un modelo carente de sentido, es decir ilógico.
Predicción: Es el proceso de estimación en situaciones de
incertidumbre. El término predicción es
similar, pero más general, y generalmente se refiere a la estimación de series temporales o datos instantáneos. El pronóstico ha
evolucionado hacia la práctica del plan de demanda en el pronóstico diario de los
negocios. La práctica del plan de demanda también se refiere al pronóstico de la
cadena de suministros.
Entonces tenemos que los pronósticos son procesos críticos
y continuos que se necesitan para obtener buenos resultados durante la
planificación, de un proyecto.
Coeficiente
de correlacion de spearman: En estadística, el coeficiente de correlación de
Spearman, ρ (ro) es una medida de la correlación (la
asociación o interdependencia) entre dos variables aleatorias continuas. Para calcular ρ, los datos
son ordenados y reemplazados por su respectivo orden.
relacion de Kendall: Es
una técnica no parametricas para medir el grado de correlacion entre variables
de una muestra. Mide el grado de asociación
entre varios conjuntos (k) de N entidades. Es útil para determinar el grado de
acuerdo entre varios jueces, o la asociación entre tres o más variables.
En la prueba estadística el
Coeficiente de Concordancia de Kendall (W), ofrece el valor que posibilita
decidir el nivel de concordancia entre los expertos. El valor de W oscila entre
0 y 1. El valor de 1 significa una concordancia de acuerdos total y el valor de
0 un desacuerdo total. La tendencia a 1 es lo deseado pudiéndose realizar
nuevas rondas si en la primera no es alcanzada significación en la concordancia.
Coeficiente
de correlacion de PHI: En estadística, el coeficiente phi φ o rφ,
también llamado coeficiente de correlación de Mathewses
una medida de la asociación entre dos variables binarias. Esta medida es
similar al coeficiente
de correlación de Pearson en
su interpretación. De hecho, un coeficiente de correlación de Pearson estimado
para dos variables binarias nos dará el coeficiente phi.1 El
coeficiente phi también relacionado con el estadístico de chi-cuadrado para
una tabla de contingencia de a 2×2.2
Coeficiente
de correlacion múltiple y regresión Múltiple: En el contexto del análisis de la
regresión lineal simple el coeficiente de
correlación múltiple establece
una medida del grado de asociación lineal entre la variable respuesta y la
variable predictora, concretamente entre la variable respuesta y la recta de
regresión estimada. Se define, a partir de los n pares de observaciones,
mediante Su cuadrado, R2, denominado coeficiente de determinación múltiple, puede
interpretarse como el porcentaje de
variabilidad de Y explicada o debida a la recta de regresión
Cuando todos los puntos se encuentran sobre la
recta de regresión estimada, es decir, "el ajuste es perfecto", la suma de cuadrados de residuos, SSE, toma el valor cero y , por tanto, R2 = 1. El denominador de la última
expresión es una medida de la variabilidad total de la n observaciones de la
variable respuesta.
No hay comentarios:
Publicar un comentario