Taula de freqüències
En estadística descriptiva una taula de freqüències[1][2][3] o distribució de freqüències és una taula que mostra els valors d'una variable estadística (individualment o agrupats en classes) juntament amb el comptatge del nombre de vegades de cada valor o classe (freqüència absoluta) o les freqüències relatives, o els percentatges, o similars.[4]
Exemples introductoris
[modifica]En un estudi estadístic, després de la recollida de dades, el primer que es fa és presentar les dades de manera que siguin fàcilment comprensibles mitjançant taules i gràfiques adients. La presentació més habitual és la de les taules de freqüències.
Per exemple, la següent taula mostra els 10 noms posats a nadons (nenes i nens) més freqüents a Catalunya durant l'any 2018 (font: Institut d'Estadística de Catalunya, consultada el 5/05/20):[5]
En aquesta taula, freqüència es refereix al nombre de nadons amb el nom corresponent, que s'anomena la freqüència absoluta. La següent columna mostra el nombre de nadons amb aquell nom per cada 1000 nadons.
El segon exemple recull el resultat de les notes d'un examen d'un grup de 25 estudiants. A la següent taula hi ha les freqüències absolutes i relatives (freqüència absolutes dividides per 25) i permet obtenir una primera idea de com ha anat l'examen:
Quan es disposa d'una variable estadística discreta amb molts valors diferents o una variable contínua, cal agrupar els valors de la variable en intervals o classes. La taula següent dona la superfície útil (en ) dels habitatges principals de Catalunya el 2011. Font: Idescat, consultada el 5/05/20).[6]
Freqüències absolutes i relatives. Percentatges o similars. Freqüències acumulades
[modifica]En una taula de freqüències es troben una o més de les següents quantitats:
- Freqüència absoluta de cada possible valor de la variable, o grup de valors (classes o intervals): és el nombre de vegades que es repeteix aquell valor (o d'observacions que estan en una classe). Si hi ha valors possibles o classes, es designa les freqüències absolutes per . Es designa per el nombre total de dades:
- Freqüència relativa de cada valor (o tant per u), que és la freqüència absoluta dividia pel nombre total de dades. Es designaran per . Tenim que i
- Percentatge de cada valor: és la freqüència relativa multiplicada per 100. Es designaran per :
i
- De manera similar es defineixen el tant per mil (denotat per ‰), el tant per deu mil, etc., i cadascun té notacions diferents segons el context; per exemple, a la indústria s'escriu ppm per «parts per milió», o en epidemiologia pmh que vol dir «per milió d'habitants».
- Freqüències absolutes acumulades, designades per definides per
Anàlogament es defineixen les freqüències relatives acumulades, o els percentatges acumulats, etc. Per exemple, la taula de la superfície dels habitatges amb els percentatges acumulats és la següent:
Intervals o classes
[modifica]Quan s'estudia una variable discreta amb molts possibles valors diferents o una variable contínua els valors de la variable s'agrupen en classes o intervals (en anglès es diuen bins). Ens ocuparem ara de les notacions i dels convenis que normalment es prenen. A part del llenguatge autoexplicatiu, com a l'exemple de la superfície dels habitatges (menys de 29 , etc.) normalment es fan servir els intervals (matemàtiques). Cal recordar que:
- L'interval tancat designa el conjunt de nombres (reals) que estan entre i incloent ambdós i , que s'anomenen els extrems de l'interval.
- L'interval obert (notació que utilitzarem), o , designa el conjunt de nombres (reals) que estan entre i excloent ambdós extrems i :
- Els intervals semioberts (o semitancats) i amb definicions evidents.
Construcció de taules de freqüències
[modifica]No hi ha regles precises per construir una taula de freqüències, ja que depèn molt de les dades que s'estigui analitzant, però unes directrius són les següents:
- És convenient (quan es pugui!) que tots els intervals tinguin la mateixa amplada (bin width).
- Els intervals no s'han de superposar.
- Totes les dades han de caure en un i només un dels intervals.
- És convenient que hi hagi un total d'entre 5 i 15 intervals (però vegeu més avall uns criteris basats en la construcció d'histogrames)
Aleshores:
- Primer s'estableix provisionalment el nombre d'intervals que es vol tenir, suposant que tots els intervals tindran la mateixa amplada.
- Després, s'ha de determinar l'amplada comuna dels intervals (bin width). Per això, es calcula la diferència entre la dada major i la dada menor, i es divideix entre el nombre d'intervals desitjats. Aquest resultat s'arrodoneix a un nombre més gran amb pocs (o cap) decimal.
- Es calculen els extrems dels intervals que s'utilitzaran, tenint en compte que han de ser nombres el més senzill possible (amb pocs o cap decimal).
- Es decideix com han de ser els intervals (semioberts per la dreta, etc.) i si el primer i últim interval han de ser diferents.
- Si hi ha intervals amb freqüència absoluta petita, cal replantejar-se el nombre d'intervals a utilitzar, provant amb un nombre més petit.
- Molt sovint els intervals amb les dades més petites o més grans tenen freqüències absolutes molt petites (potser 0), i llavors s'agrupen en intervals més grans
Exemple: Es prepara la taula de freqüències de cinc intervals per al conjunt dels següents 20 dades:
Dada major = 10, Dada menor = 1. Llavors, per calcular l'amplada, (10-1)/5=1,8, i es pren 2 com a amplada dels intervals.
Com la dada menor és 1, es selecciona a 2 com la límit superior del primer interval. Llavors, la límit superior del segon interval serà 2+2 = 4, el del tercer serà 4+2 = 6 i així successivament.
Es prendran els intervals oberts per la dreta i tancats per l'esquerra, excepte el primer que es prendrà tancat; així, els intervals seran: [0,2], (2,4], (4,6], (6,8] i [8,10]. Cal notar que els intervals són disjunts dos a dos i que no hi ha cap ambigüitat amb les dades que prenen un valor que sigui un extrem de l'interval, per exemple, el nombre 4 està a l'interval (2,4] i no al (4,6].
Construcció d'una taula de freqüències amb EXCEL
[modifica]L'Excel pot calcular de manera automàtica la taula de freqüència d'un conjunt de dades. Aquí s'il·lustra els passos amb les dades de l'exemple anterior.
Pas 1: S'entra els nombres a la columna A, començant a A1. Cal prémer la tecla "ENTER" després de cadascun.
Pas 2: Calcular l'ample comú dels cinc intervals i les límits superiors de cada un:
Dada major = 10, dada menor = 1.
Els límits superiors són: 2, 4, 6, 8, 10.
Pas 3: A la columna B, començant a B1 entrem 2, 4, 6, 8.
No cal posar l'extrem inferior del primer interval (el 0), ja que l'EXCEL posa tots els valors menors o iguals a 2 al primer interval. Després, s'utilitza el mateix conveni adoptat pels extrems dels intervals (oberts per l'esquerra i tancats per la dreta). Finalment, no cal entrar la límit superior de l'últim interval, ja que l'últim interval contindrà tots els valors més grans (estrictament) que el límit superior de l'interval anterior (el 8).
Pas 4: Com que la taula tindrà 5 intervals (bins), es selecciona 5 cel·les contigües, per exemple C3: C7.
Pas 5: Fer un clic a la barra de fórmula i entrar la fórmula (cal tenir en compte si l'EXCEL instal·lat té les fórmules en català o castellà)
Frecuencia (a1: a20; b1: b4)
Observeu que la primera part conté la llista de dades entre A1 i A20. La segona conté la llista de límits superiors de cada interval (excepte l'últim, segons hem comentat)
Pas 6: Prémer simultàniament les tecles Control-Majúscules-Enter, ja que es tracta d'una fórmula vectorial.
Veureu que es desplegaran una llista de cinc números que corresponen a la freqüència de cada interval.
Elecció del nombre d'intervals
[modifica]A partir de les propietats dels histogrames es tenen unes regles orientatives per a l'elecció del nombre d'intervals. La primera regla, i una de les que més s'utilitza, és la regla de Sturges[7] (els paquets estadístics la utilitzen a menys que es digui una altra cosa): per a observacions, el nombre de classes recomanat és
on el logaritme de la dreta és en base 10. Una altra regla que s'utilitza és de Terrell and Scott[8]
que justifiquen sobre la base de propietats asimptòtiques. També és important la regla de Scott[9]
on és una estimació de la desviació típica de la població, per exemple, la desviació típica modificada de les dades.
Referències
[modifica]- ↑ Calot, Gérard. Curso de Estadística Descriptiva. Madrid: Paraninfo, 1970.
- ↑ Lobez Urquia, J.. Estadística intermedia : descriptiva, probabilidades y teórica, muestreo, actuarial. 3. ed. Barcelona: Vicens-Vives, 1972. ISBN 84-316-1236-3.
- ↑ Moore, David S.. Estadística aplicada básica. Barcelona: Antonio Bosch, 1995. ISBN 84-85855-80-9.
- ↑ «frequency distribution | statistics | Britannica» (en anglès). [Consulta: 3 febrer 2022].
- ↑ «Idescat. Noms dels nadons. Noms més freqüents dels nadons». [Consulta: 30 gener 2022].
- ↑ «Idescat. Cens de població i habitatges. Habitatges principals. Per superfície útil. Catalunya». [Consulta: 30 gener 2022].
- ↑ Sturges, Herbert A. «The Choice of a Class Interval». Journal of the American Statistical Association, 21, 153, 01-03-1926, pàg. 65–66. DOI: 10.1080/01621459.1926.10502161. ISSN: 0162-1459.
- ↑ Terrell, George R.; Scott, David W. «Oversmoothed nonparametric density estimates.». J. Amer. Statist. Assoc. 80 (1985), no. 389, 209–214.
- ↑ Scott, David W. «On optimal and data-based histograms» (en anglès). Biometrika, 66, 3, 01-12-1979, pàg. 605–610. DOI: 10.1093/biomet/66.3.605. ISSN: 0006-3444.