POBLACION Y MUESTRA
Si un conjunto de datos consta
de todas las observaciones concebibles (o hipotéticamente) posibles
de cierto fenómeno, se denomina población; si un conjunto
de datos consta solamente de una parte de estas observaciones se conoce
como muestra por lo que una muestra debe ser un subconjunto de la población.
Por ejemplo: Un periódico local imprime un artículo político para todos sus lectores. El periódico desea considerar las actitudes de 200 lectores hacia el artículo y conocer sus puntos de vista.
De acuerdo a lo planteado
en el ejemplo el total de los lectores representaría la población
a la que le llega el artículo y los 200 lectores seleccionados representarían
la muestra para conocer su punto de vista.
Se utilizará la palabra
"muestra" solo en relación con datos que se puedan utilizar
en forma razonable para hacer generalizaciones acerca de la población
de la cual provinieron. En este sentido más técnico, no son
aceptables muchos conjuntos de datos que por lo común se denominan
muestras.
Como el término estadística
se introdujo en relación con los datos de muestra, se agregará
que también existe un nombre para las descripciones estadísticas
de poblaciones llamadas parámetros. Como se observará,
la distinción entre estadística y parámetros servirá
para simplificar nuestro lenguaje. En realidad, hasta se usaran símbolos
diferentes de medidas estadísticas, según se utilicen para
describir muestras o poblaciones. Para poblaciones se utilizarán
letras griegas y para muestras latinas.
Por ejemplo para representar la media o el promedio de una muestra se utilizó
la fórmula:
La media de una población
de N elementos se define en la misma forma. Es la suma de los N elementos,
dividida entre el tamaño de la población N.
En las fórmulas anteriores
se representa a la media de la muestra por
y la media de la población por para identificarlas entre sí.
MEDIDAS
DE DISPERSION
En secciones anteriores se
ha discutido sobre tres medidas descriptivas del centro. Sin embargo, estas
medidas no son suficientes para caracterizar la distribución, puesto
que otro aspecto que debe tomarse en cuenta es la variabilidad de las observaciones.
Con el propósito de
medir la dispersión, se discutirán en este apartado las medidas
de: Amplitud, Desviación media, Varianza, Desviación Estándar
(también llamada desviación típica) y Coeficiente
de Variación.
Amplitud
La medida de dispersión más simple recibe el nombre de Amplitud y es muy poco usada puesto que su única ventaja es la sencillez con que se calcula. Es común que se use el nombre de Rango para esta medida. La amplitud (A) de un conjunto de datos es la diferencia entre las observaciones de mayor a menor valor numérico en el mismo.
Por ejemplo: Supóngase
que en un hospital el pulso de cada paciente se mide tres veces al día
y que cierto día los registros de dos pacientes muestran:
Para calcular la amplitud
de los datos necesario identificar el valor más grande y el valor
más pequeño del conjunto de datos de cada uno de los pacientes.
La amplitud es una medida de dispersión cuya ventaja es la facilidad con que se calcula. Tiene en cambio las siguientes desventajas:
Desviación media, desviación estándar y varianza
Para presentar la desviación
estándar, que es por mucho la medida generalmente más
útil de la dispersión, obsérvese que la dispersión
de un conjunto de datos es pequeña si los valores se agrupan en
forma cerrada en torno a su media y es grande si los valores se dispersan
ampliamente en torno a su media. Por tanto, parecería razonable
medir la dispersión de un conjunto de datos en términos de
las cantidades en las cuales difieren los valores individuales de su media.
Si un conjunto de números:
que constituyen una población con una media , las diferencias entre:
Se denominan las desviaciones
de la media y esto sugiere que se podría usar su promedio
como media de dispersión en la población. A menos que las
x sean todas iguales, algunas de las desviaciones serán positivas
y otras negativas, la suma de todas las desviaciones de la media
y en consecuencia también
su media es siempre cero.
Como realmente se esta interesado en la magnitud de las desviaciones, y no si son positivas o negativas, se pueden ignorar simplemente los signos y definir una medida de variación en termino de los valores absolutos de las desviaciones de la media. En realidad, si se suman las desviaciones de la media como si fueran todas positivas o cero y las dividiéramos entre n, se obtendría la media estadística que se denomina desviación media y se representa por:
Esta medida tiene una apariencia
intuitiva, pero debido al valor absoluto, lleva a encontrar dificultades
teóricas en problemas de inferencia y rara vez se usa.
Un método alternativo consiste en trabajar con los cuadrados de
las desviaciones de la media, ya que también esto eliminará
el efecto de los signos. Los cuadrados de números reales no pueden
ser negativos y pueden tomar el valor de cero.
Por consiguiente, si se promedia las desviaciones cuadradas de la media y se toma la raíz cuadrada del resultado (para compensar el hecho de que las desviaciones fuesen cuadradas), se obtiene la Desviación estándar de la población.
Esta medida de variación
se representa por medio de sigma minúscula () y al expresar literalmente
lo que se ha echo aquí de manera matemática, también
se conoce como la desviación cuadrada media
de la raíz. Al cuadrado de se le llama Varianza
de la población.
Quizá parezca lógico
utilizar la misma fórmula con n y
sustituidas por N y , para la desviación estándar de una
muestra; pero esto no es realmente lo que se hace. En lugar de dividir
la sumas de las desviaciones entre n, se divide entre n-1 y se define como
desviación estándar de la muestra,
que se denota con s como
Su cuadrado s2,
se llama la Varianza de la muestra
Al dividir entre n-1 en vez
de hacerlo entre n, tiene una buena razón. Si se dividiera entre
n y se utilizara s2 como estimación de 2 es
decir, se utilizaría la varianza de una muestra para determinar
la varianza de la población de la cual provino, el resultado sería
demasiado pequeño y esto se corrige al dividir entre n-1 en lugar
de hacerlo entre n. Si el valor de n es muy grande no importa hacerlo entre
n-1 sino que es práctico para definir y s como se hizo.
Coeficiente de variación
Las medidas de dispersión anteriores son todas medidas de variación absolutas. Una medida de dispersión relativa de los datos, que toma en cuenta su magnitud, esta dada por el coeficiente de variación.
El Coeficiente de variación
(C.V.) es una medida de la dispersión relativa de un conjunto de
datos, que se obtiene dividiendo la desviación estándar del
conjunto entre su media aritmética y se expresa como
para una muestra y
para la población.
Los coeficientes de variación tienen las siguientes características:
Por ejemplo: En seis sábados consecutivos un operador de taxis recibió 9, 7, 11, 10, 13 y 7 llamadas a su sitio para su servicio. Calcule:
a) Amplitud.
a) Para calcular la amplitud.
Valor máximo 13
Valor mínimo 7
A=13-7=6
Se puede utilizar la siguiente
tabla::
|
x |
|
|
|
9 |
-0.5 |
0.25 |
|
7 |
-2.5 |
6.25 |
|
11 |
1.5 |
2.25 |
|
10 |
0.5 |
0.25 |
|
13 |
3.5 |
12.25 |
|
7 |
-2.5 |
6.25 |
|
|
0.0 |
27.50 |
Al sustituir los valores
se obtiene:
Cálculo de la varianza en una tabla de frecuencias
Al retomar el ejemplo de
la tabla de distribución de frecuencias de Precipitación
pluvial promedio anual en Baja California 1905 a 1994 en pulgadas.
|
Intervalos |
Valor medio de clase (Xi) |
fi |
fAi |
Fri |
FRAi |
|
| [07.8 - 11.8) |
9.8 |
18 |
18 |
18/90 |
18/90 |
.2000 |
| [11.8 - 15.8) |
13.8 |
13 |
31 |
13/90 |
31/90 |
.3444 |
| [15.8 - 19.8) |
17.8 |
24 |
55 |
24/90 |
55/90 |
.6111 |
| [19.8 - 23.8) |
21.8 |
17 |
72 |
17/90 |
72/90 |
.8000 |
| [23.8 - 27.8) |
25.8 |
13 |
85 |
13/90 |
85/90 |
.9444 |
| [27.8 - 31.8) |
29.8 |
0 |
85 |
0/90 |
85/90 |
.9444 |
| [31.8 - 35.8) |
33.8 |
4 |
89 |
4/90 |
89/90 |
.9889 |
| [35.8 - 39.8) |
37.8 |
1 |
90 |
1/90 |
90/90 |
1 |
|
TOTAL |
90 |
90 |
90/90 |
90/90 |
1 |
Calcular s2 y
s.
|
(Xi) |
(Xi)2 |
fi |
(Xi)(fi) |
(Xi2)(fi) |
|
9.8 |
96.04 |
18 |
176.4 |
1728.72 |
|
13.8 |
190.44 |
13 |
179.4 |
2475.72 |
|
17.8 |
316.84 |
24 |
427.2 |
7604.16 |
|
21.8 |
475.24 |
17 |
370.6 |
8079.08 |
|
25.8 |
665.64 |
13 |
335.4 |
8653.32 |
|
29.8 |
888.04 |
0 |
0 |
0 |
|
33.8 |
1142.44 |
4 |
135.2 |
4569.76 |
|
37.8 |
1428.84 |
1 |
37.8 |
1428.84 |
|
Suma |
90 |
1662 |
34539.6 |
Copyright © 1999 ESPECIALIDA DE COMPUTO APLICADO, ISEI,
CPTexto: JLGC/JAS/YFO
Home Page: JLGC/JAS