Métodos tabulares para organizar conjuntos de datos

 

En la publicación de reportes científicos, de negocios o de administración es común que los datos se presenten por medio de tablas. Aquélla que sobresale por su sencillez y claridad es la presentada con dos encabezados o columnas ilustrada en los siguientes ejemplos:

 

Ejemplo 1. Estudiantes de maestría de nuevo ingreso. Período Primavera de 1996. Instituto de Socioeconomía Estadística e Informática del Colegio de Postgraduados:

Programa

Total de Estudiantes

Economía

12

Sociología Rural

9

Estadística

5

Computo Aplicado

7

 

Este método permite visualizar fácilmente la información. Así, por ejemplo, se observa que el programa que tuvo más estudiantes fue el de Economía y el de menos el programa de Estadística.

 

Ejemplo 2. En la tabla se presentan las calificaciones del examen final de Base de datos I.

Tabla de calificaciones del Examen Final de Base de datos I

88

77

49

38

100

95

60

75

100

80

63

69

50

90

82

65

75

100

95

50

80

70

60

100

75

80

100

90

85

75

 

Para resumir la información del número de estudiantes que obtuvieron una determinada calificación, se hace por medio de una tabla con dos encabezados lo cual permite exhibir en forma concisa el número de veces que se presenta una determinada cantidad en un conjunto de datos.

 

 

Ejemplo 3:Tabla de calificaciones del Examen Final de Base de datos I

Calificación

Número de Estudiantes

38

1

49

1

50

2

60

2

63

1

65

1

69

1

70

1

75

4

77

1

80

3

82

1

85

1

88

1

90

2

95

2

100

5

TOTAL

30

 

La utilidad de este tipo de presentación es máxima cuando el número de datos es pequeño y se acompaña la tabla de algún texto que indique el tipo de observaciones de que se trata.

Un método de presentación útil de organización de datos es a través de Tablas de Frecuencias o Tablas de Distribución de Frecuencias.

En este tipo de tablas la amplitud de los valores numéricos de los datos está dividida en un cierto número de Intervalos o Clases, se utiliza para contar el número de observaciones que pertenecen a cada Intervalo. El número de observaciones que pertenecen a una clase o intervalo se denomina frecuencia.

 

Ejemplo 4. Tabla de Precipitación pluvial promedio anual en Baja California 1905 a 1994 en pulgadas.

18.6

13.8

10.4

15.0

16.0

22.1

16.2

36.1

11.6

7.8

22.6

17.9

25.3

32.8

16.6

13.6

8.5

23.7

14.2

22.9

17.7

26.3

9.2

24.9

17.9

26.5

26.6

16.5

18.1

24.8

16.6

32.3

14.0

11.6

20.0

33.8

15.8

15.2

24.0

16.4

24.1

23.2

17.3

10.5

15.0

20.2

20.2

17.3

16.6

16.9

22.0

23.9

24.0

22.2

21.8

12.2

22.0

9.6

8.0

20.4

17.2

18.3

13.0

10.6

17.2

8.9

16.8

14.2

15.7

8.0

17.7

16.1

17.8

11.6

10.4

13.6

8.4

12.6

8.1

11.6

21.1

20.5

19.8

24.8

9.7

25.1

31.8

24.9

20.0

17.6

 

Con la información del presente ejemplo, primero hay que decidir en cuantas clases deberá dividirse el intervalo y después su amplitud. De acuerdo a la experiencia se recomienda entre 5 y 20 clases, resulta conveniente construirlas de modo que todas las clases tengan la misma anchura, la cual recibe el nombre de amplitud de Clase.

En este caso optaremos por 10 clases, todas ellas con igual amplitud de clase.

Para determinar la amplitud de Clase, se calcula el rango o recorrido que es la diferencia entre el valor numérico mayor y el menor del conjunto de datos, que para nuestro ejemplo es 36.1 - 7.8 = 28.3. Esto nos indica que la suma de los intervalos de clase deberá cubrir al menos esta diferencia.

Esto es: R = Xn - X1 = 36.1 - 7.8 = 28.3

Como decidimos utilizar 10 clases, si se divide este rango entre el número de clases que deseamos, encontraremos en forma aproximada la amplitud de cada clase.

Amplitud de clase = 28.3 / 10 » 3

Como nuestro conjunto de datos está expresado en décimas, el límite inferior de la primera clase, se debe elegir de tal manera que sea cuando menos una décima por debajo del menor de los datos, es decir, 7.7 o menos, con el fin de garantizar que el primer dato se encuentre dentro de la primera clase.

Si se opta por una amplitud de clase de 3 y se elige como límite inferior de la primera clase el número 7.5, la última clase tendrá como valor superior el valor de 37.5, se logra de esta manera que todos los datos estén incluidos en las 10 clases. Nótese que una vez escogidos los intervalos de clase y el límite inferior de la primera clase, los límites de las clases restantes quedan perfectamente definidos.

Para prevenir ambigüedades en cuanto a la clase a la que pertenece cierto número, se dice que un dato pertenece a una determinada clase si su valor numérico es estrictamente mayor que el límite inferior y menor o igual que el límite superior. Así, por ejemplo, la primera clase con una anchura de 3 unidades es:

7.5 a 10.5

El límite superior es 10.5 y el inferior es 7.5 de tal forma que el dato 8.0 pertenece a la clase por que está comprendida entre 7.5 y 10.5, esto es 7.5 < 8.0 £ 10.5, por otra parte el número 7.5, en caso de existir, no pertenecería a la clase, ya que es igual al límite inferior; sin embargo el valor 10.5 sería miembro de la clase pues es igual al límite superior.

 

Al aplicar lo antes descrito se tiene las siguientes clases que son:

intervalos

(07.5 , 10.5]

(10.5 , 13.5]

(13.5 , 16.5]

(16.5 , 19.5]

(19.5 , 22.5]

(22.5 , 25.5]

(25.5 , 28.5]

(28.5 - 31.5]

(31.5 - 34.5]

(34.5 - 37.5]

 

La selección del número adecuado de clases y los cortes entre ellas es un asunto de criterio y de experiencia. Sin embargo, aquí se dan unas reglas empíricas para calcular el número máximo de clases, (Hoaglin, et. al., (1983) p. 22 y sigs.), una de ellas es la de Sturges (1926) que establece que el número de clases es K = 1 + log2 n = 1 + 3.322 log n, la cual subestima el número de intervalos. Otra es la de Velleman (1976), K = , recomendada cuando n es pequeño (n £ 50) y otra es la de Dixon y Kronmal (1965), K = 10 log n, para n grande (n > 50). No se puede establecer que una es superior a otra, sólo pueden utilizarse como un punto de referencia. Cabe aclarar que se considera solamente la parte entera que resulte del cálculo. En particular, los autores hemos observado que para cualquier n, el número de intervalos o clases que funciona bastante bien es .

 

Al tomar el ejemplo de las precipitaciones en Baja California donde el valor de n = 90, el cálculo del Sturges quedará como:

K = 1 + 3.322 log n = 7.49 » 7

Si se considera nuestra regla empírica el número de clases sería

Al retomar el valor calculado de K por la regla de Sturges se obtiene que la amplitud de clase es c.

Al construir una tabla con los resultados de los cálculos anteriores de K y c, con la regla de Sturges queda:

intervalos

(07.7 , 11.7]

(11.7 , 15.7]

(15.7 , 19.7]

(19.7 , 23.7]

(23.7 , 27.7]

(27.7 , 31.7]

(31.7 , 35.7]

(35.7 , 39.7]

 

A diferencia de la tabla anterior, la fórmula de Sturges proporciona un valor calculado de K, que cubre también los valores extremos al tomar una décima anterior al menor dato, como inicio y el mayor que debe de estar considerado en el último intervalo de clases.

Comúnmente se elige al punto central de cada intervalo y se le denomina Centro de clase (mi) o punto medio de la clase (mi ), el cual se obtiene dividiendo entre dos la suma de los límites de clase.

Para la primera clase de la tabla anterior, el punto medio es:

Observe que una vez determinado el primero de los puntos medios, los subsiguientes los obtenemos sumando la amplitud de clase al primero, esto es, 9.7 = 4 = 13.7, y así sucesivamente.

 

Para el ejemplo se muestran los intervalos y los puntos medios de clase:

intervalos

Puntos medios (mi)

(07.7 , 11.7]

(11.7 , 15.7]

m2 = 9.7 + 4 = 13.7

(15.7 , 19.7]

m3 = 13.7 + 4 = 17.7

(19.7 , 23.7]

m4 = 17.7 + 4 = 21.7

(23.7 , 27.7]

m5 = 21.7 + 4 = 25.7

(27.7 , 31.7]

m6 = 25.7 + 4 = 291.7

(31.7 , 35.7]

m7 = 29.7 + 4 = 33.7

(35.7 , 39.7]

m8= 33.7 + 4 = 37.7

 

El siguiente paso para construir la Tabla de Frecuencias es contar el número de observaciones que pertenecen a cada clase. Este número es llamado Frecuencia Absoluta de clase (fi).

intervalos

Punto medio de clase (mi)

Conteo

fi

(07.7 , 11.7]

9.7

||||| ||||| ||||| |||

18

(11.7 , 15.7]

13.7

||||| ||||| |||

13

(15.7 , 19.7]

17.7

||||| ||||| ||||| ||||| ||||

24

(19.7 , 23.7]

21.7

||||| ||||| ||||| ||

17

(23.7 , 27.7]

25.7

||||| ||||| |||

13

(27.7 , 31.7]

29.7

 

0

(31.7 , 35.7]

33.7

||||

4

(35.7 , 39.7]

37.7

|

1

 

También resulta conveniente calcular las frecuencias relativas de clase (fRi); que indican la proporción del total de observaciones perteneciente a cada clase. Para obtenerlas, se divide la frecuencia absoluta de la clase entre el total de observaciones (Total de frecuencias absolutas). Para el ejemplo en cuestión, a la primera clase le corresponde una frecuencia absoluta de 18, porque los 18 números 10.4, 11.6, 7.8, 8.5, 9.2, 11.6, 10.5, 9.6, 8.0, 10.6, 8.9, 8.0, 11.6, 10.4, 8.4, 8.1, 11.6 y 9.7 pertenecen a ella. La correspondiente frecuencia relativa es 18/90, donde 90 es el número total de observaciones. A continuación se presenta la tabla incluyendo las frecuencias relativas.

intervalos

Punto medio de clase (mi)

Conteo

fi

fRi

(07.7 , 11.7]

9.7

||||| ||||| ||||| |||

18

18/90

(11.7 , 15.7]

13.7

||||| ||||| |||

13

13/90

(15.7 , 19.7]

17.7

||||| ||||| ||||| ||||| ||||

24

24/90

(19.7 , 23.7]

21.7

||||| ||||| ||||| ||

17

17/90

(23.7 , 27.7]

25.7

||||| ||||| |||

13

13/90

(27.7 , 31.7]

29.7

 

0

0/90

(31.7 , 35.7]

33.7

||||

4

4/90

(35.7 , 39.7]

37.7

|

1

1/90

TOTAL

90

90/90

 

A la tabla de frecuencias es conveniente añadirle información sobre el número de datos cuyo valor numérico es menor o igual que el límite superior de cada clase; este número recibe el nombre de frecuencia acumulada (FAi). y se obtiene al sumar las frecuencias absolutas de las clases precedentes. De la misma manera se calcula la frecuencia relativa acumulada (FRA), al adicionar las frecuencias relativas de las clases anteriores.

 

Enseguida se ilustra el cálculo con las frecuencias relativas. En la tabla anterior se observa que hay 18 datos de 90, cuyo valor numérico es menor que el límite superior de la primera clase; por lo tanto, la frecuencia acumulada para esta clase es de 18/90. En la segunda clase hay 13 observaciones de 90, por lo tanto 18 + 13 = 31 observaciones de 90, cuyo valor numérico es menor que el límite superior de la segunda clase; por lo tanto, la frecuencia acumulada relativa que le corresponde es 31/90. Este procedimiento continúa hasta determinar que proporción de los datos existe, cuyo valor es menor que el límite superior de la última clase, lo que nos dará la última frecuencia acumulada relativa, cuyo valor es siempre uno.

 

La tabla que resume la información presentada recibe el nombre de Tabla de Frecuencias.

intervalos

Punto medio de clase (mi)

Conteo

fi

fAi

FRi

FRAi

(07.7 , 11.7]

9.7

||||| ||||| ||||| |||

18

18

18/90

18/90

(11.7 , 15.7]

13.7

||||| ||||| |||

13

31

13/90

31/90

(15.7 , 19.7]

17.7

||||| ||||| ||||| ||||| ||||

24

55

24/90

55/90

(19.7 , 23.7]

21.7

||||| ||||| ||||| ||

17

72

17/90

72/90

(23.7 , 27.7]

25.7

||||| ||||| |||

13

85

13/90

85/90

(27.7 , 31.7]

29.7

 

0

85

0/90

85/90

(31.7 , 35.7]

33.7

||||

4

89

4/90

89/90

(35.7 , 39.7]

37.7

|

1

90

1/90

90/90

TOTAL

90

90

90/90

90/90

 

 

 

 

Algún Comentario de esta página escribir E-mail:
jlgcue@colpos.colpos.mx

Copyright © 2002 Jose3, ISEI, CP y FES Zaragoza, UNAM
Texto: José Luis García Cué, María José Marques Dos Santos y José Antonio Santizo Rincón

Home Page: José Luis García Cué