Legge di Benford: differenze tra le versioni
→Ambiti di applicazioni e limiti: virgola tra soggetto e verbo |
|||
Riga 26: | Riga 26: | ||
== Storia == |
== Storia == |
||
=== Scoperte, riscoperte e approfondimenti === |
=== Scoperte, riscoperte e approfondimenti === |
||
La ''legge di Benford'' pare sia stata scoperta dal matematico e astronomo [[Simon Newcomb]] e descritta in "American Journal of Mathematics" nel [[1881]]. Secondo quello che forse è solo un aneddoto, Newcomb notò |
La ''legge di Benford'' pare sia stata scoperta dal matematico e astronomo [[Simon Newcomb]] e descritta in "American Journal of Mathematics" nel [[1881]]. Secondo quello che forse è solo un aneddoto, Newcomb notò come, nei libri con le tavole dei logaritmi, le pagine con le tabelle aventi "1" quale prima cifra fossero molto più sporche delle altre, probabilmente perché usate più spesso. Venne controargomentato che in qualsiasi libro al quale si accede alle pagine in modo sequenziale le prime sarebbero state più usate delle ultime. |
||
Successivamente, nel [[1938]], il fisico [[Frank Benford]] analizzò raccolte di numeri di molti altri ambiti di applicazione e così questa legge gli venne attribuita. |
Successivamente, nel [[1938]], il fisico [[Frank Benford]] analizzò raccolte di numeri di molti altri ambiti di applicazione e così questa legge gli venne attribuita. |
Versione delle 21:24, 2 ott 2014
La distribuzione di Benford meglio nota come legge di Benford o legge della prima cifra è una distribuzione di probabilità che descrive la probabilità che un numero presente in molte raccolte di dati reali (p.es. popolazione dei comuni, quotazione delle azioni, costanti fisiche o matematiche, numero di strade esistenti nelle località) cominci con una data cifra, ad esempio "1", che secondo questa variabile casuale discreta dovrebbe essere nel 30,1% dei casi la prima cifra. La funzione di probabilità è data da
prima cifra prime due cifre n P(x=n) n P(x=n) 1 30,1% 10 4,1% 2 17,6% 11 3,8% 3 12,5% 12 3,5% 4 9,7% 13 3,2% 5 7,9% 14 3,0% 6 6,7% ... ... 7 5,8% ecc. 8 5,1% ... 9 4,6% 99 0,4% |
Una delle estensioni della legge di Benford, prende in considerazione la coppia delle prime due cifre (da 10 a 99 dunque), lasciando invariata la formula, ma semplicemente modificando l'intervallo di validità da [1,9] a [10,99].
Una breve e intuitiva spiegazione del perché in "natura" accade ciò, e che quindi la cifra 1 si presenti con maggior frequenza, poi la cifra 2 e così via, è dato dal fatto che noi contiamo a iniziare dal numero 1 in avanti sino al 9. Se proviamo a pensare alle cifre da 1 a 9 è chiaro che abbiamo le stesse probabilità che una cifra inizi con 1 o 2 o 3 o 9. Se, però, prendiamo già i numeri da 1 a 20 ecco che da 11 a 19 ho molti più numeri che iniziano con la cifra 1. Se prendiamo quelli da 1 a 30 ne ho molti che iniziano con 1 ma anche con 2. Come si può facilmente notare, per avere numeri che inizino con 9, ad es, devo andare molto in là con i numeri e quindi aumento anche la quantità di quelli che inizieranno con 1 o con 2 e quindi con cifre basse, per cui in una distribuzione di numeri legati a superfici, popolazioni, sarà più alta la probabilità di averne che inizino con 1 piuttosto che con 9. La cosa comunque singolare è che Benford riuscì a far vedere che per molte distribuzioni, la probabilità che un numero inizi con una certa cifra tra 1 e 9 è sempre la stessa (30,1% per la cifra 1, 17,6% per la cifra 2, 4,6% per la cifra 9)
Storia
Scoperte, riscoperte e approfondimenti
La legge di Benford pare sia stata scoperta dal matematico e astronomo Simon Newcomb e descritta in "American Journal of Mathematics" nel 1881. Secondo quello che forse è solo un aneddoto, Newcomb notò come, nei libri con le tavole dei logaritmi, le pagine con le tabelle aventi "1" quale prima cifra fossero molto più sporche delle altre, probabilmente perché usate più spesso. Venne controargomentato che in qualsiasi libro al quale si accede alle pagine in modo sequenziale le prime sarebbero state più usate delle ultime.
Successivamente, nel 1938, il fisico Frank Benford analizzò raccolte di numeri di molti altri ambiti di applicazione e così questa legge gli venne attribuita.
Nel 1996 Ted Hill dimostrò il teorema sulle distribuzioni miste.
I dati presentati da Benford nel 1938
Titolo | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | Valori |
---|---|---|---|---|---|---|---|---|---|---|
Fiumi, superfici | 31,0 | 16,4 | 10,7 | 11,3 | 7,2 | 8,6 | 5,5 | 4,2 | 5,1 | 3,5 |
Popolazione | 33,9 | 20,4 | 14,2 | 8,1 | 7,2 | 6,2 | 4,1 | 3,7 | 2,2 | 32,9 |
Costanti | 41,3 | 14,4 | 4,8 | 8,6 | 10,6 | 5,8 | 1,0 | 2,9 | 10,6 | 1,4 |
Quotidiani | 30,0 | 18,0 | 12,0 | 10,0 | 8,0 | 6,0 | 6,0 | 5,0 | 5,0 | 1,0 |
Calore specifico | 24,0 | 18,4 | 16,2 | 14,6 | 10,6 | 4,1 | 3,2 | 4,8 | 4,1 | 13,9 |
Pressioni | 29,6 | 18,3 | 12,8 | 9,8 | 8,3 | 6,4 | 5,7 | 4,4 | 4,7 | 7,3 |
H.P. Lost | 30,0 | 18,4 | 11,9 | 10,8 | 8,1 | 7,0 | 5,1 | 5,1 | 3,6 | 6,0 |
Peso molecolare | 26,7 | 25,2 | 15,4 | 10,8 | 6,7 | 5,1 | 4,1 | 2,8 | 3,2 | 18,0 |
Drenaggio | 27,1 | 23,9 | 13,8 | 12,6 | 8,2 | 5,0 | 5,0 | 2,5 | 1,9 | 1,9 |
Peso atomico | 47,2 | 18,7 | 5,5 | 4,4 | 6,6 | 4,4 | 3,3 | 4,4 | 5,5 | 91 |
1/n, √n | 25,7 | 20,3 | 9,7 | 6,8 | 6,6 | 6,8 | 7,2 | 8,0 | 8,9 | 50,0 |
Design | 26,8 | 14,8 | 14,3 | 7,5 | 8,3 | 8,4 | 7,0 | 7,3 | 5,6 | 5,0 |
Reader's Digest | 33,4 | 18,5 | 12,4 | 7,5 | 7,1 | 6,5 | 5,5 | 4,9 | 4,2 | 3,8 |
Coste | 32,4 | 18,8 | 10,1 | 10,1 | 9,8 | 5,5 | 4,7 | 5,5 | 3,1 | 7,1 |
X-Ray Volts | 27,9 | 17,5 | 14,4 | 9,0 | 8,1 | 7,4 | 5,1 | 5,8 | 4,8 | 7,7 |
American League | 32,7 | 17,6 | 12,6 | 9,8 | 7,4 | 6,4 | 4,9 | 5,6 | 3,0 | 14,8 |
Blackbody | 31,0 | 17,3 | 14,1 | 8,7 | 6,6 | 7,0 | 5,2 | 4,7 | 5,4 | 11,5 |
Indirizzi | 28,9 | 19,2 | 12,6 | 8,8 | 8,5 | 6,4 | 5,6 | 5,0 | 5,0 | 3,2 |
n, n², n³, …, n! | 25,3 | 16,0 | 12,0 | 10,0 | 8,5 | 8,8 | 6,8 | 7,1 | 5,5 | 9,0 |
Tassi di mortalità | 27,0 | 18,6 | 15,7 | 9,4 | 6,7 | 6,5 | 7,2 | 4,8 | 4,1 | 4,8 |
Media | 30,6 | 18,5 | 12,4 | 9,4 | 8,0 | 6,4 | 5,1 | 4,9 | 4,7 | 10,1 |
Errore probabile | ± 0,8 | ± 0,4 | ± 0,4 | ± 0,3 | ± 0,2 | ± 0,2 | ± 0,2 | ± 0,3 |
Bibliografia storica
- 1881 - Simon Newcomb, "Note on the Frequency of Use of the Different Digits in Natural Numbers" in The American Journal of Mathematics
- 1938 - Frank Benford, "The Law of Anomalous Numbers" in Proc. Amer. Phil. Soc.
- 1961 - Roger Pinkham, "On the distribution of first significant digits" in Ann. Math. Statist.
- 1972 - Hal R. Varian, "Benford's law" in American Statistician
- 1976 - R. A. Raimi, "The first digit problem" in American Mathematical Monthly
- 1992 - Mark Nigrini, "The detection of income evasion through an analysis of digital distributions", tesi di dottorato presso l'Università di Cincinnati
- 1995 - T. P. Hill, "Base-Invariance Implies Benford's Law" in Proc. Amer. Math. Soc.
- 1996 - T. P. Hill, "The statistical derivation of the significant digit law" in Statistical Science
- 1996 - Mark Nigrini, "A taxpayer compliance application of Benford's Law" in Journal of the American Taxation Association
Esempi
Abitanti dei comuni italiani al censimento 2001
Prima cifra Prime due cifre ------------------------ ------------------------- n comuni percentuale n comuni percentuale 1 2547 31,0 10 343 4,2 2 1391 16,9 11 309 3,8 3 1057 12,9 12 320 3,9 4 791 9,6 13 262 3,2 5 632 7,7 14 273 3,3 6 544 6,6 15 220 2,7 7 484 5,9 ... ... ... 8 406 4,9 97 24 0,3 9 365 4,4 98 30 0,4 Tot 8217 100,0 99 19 0,2
Ambiti di applicazioni e limiti
Nel 1972, Hal Varian suggerì la possibilità di utilizzare questa legge per individuare eventuali falsificazioni nelle raccolte di dati usate per supportare decisioni politiche, basandosi sul presupposto che chi vuole "addomesticare" i dati ha una preferenza a usare numeri distribuiti in modo non "naturale". Comparando la frequenza relativa delle prime cifre dei numeri usati con la v.c. di Benford si potrebbero così evidenziare risultati anomali. Alla stessa maniera si può usare questa variabile casuale per cercare falsificazioni in raccolte di dati riguardanti assicurazioni, costi, entrate, ecc.
Nel 1992 Mark Nigrini propose l'utilizzo di questa variabile casuale per testare la credibilità delle delle scritture contabili, dopo averla testato con successo su casi reali e con frode accertata.
Tuttavia è necessaria la prudenza prima di applicare la legge di Benford, in quanto solo un insieme di numeri scelti a caso da una data variabile casuale obbedisce a tale legge, mentre in un insieme di dati "reali" può, ma non deve, seguire tale legge, se sono stati imposti anche inconsapevolmente dei limiti. Per esempio mentre la distribuzione della prima cifra di statistiche quali "popolazione dei comuni italiani che cominciano con la lettera F" oppure "quotazione delle azioni che hanno subito una perdita nella giornata di borsa" si suppone seguire la v.c. di Benford, ciò non è presumibilmente più valido se la statistica viene definita in modi come "popolazione dei comuni italiani con 1000 fino 9999 abitanti".
Metodologia
Funzione di probabilità
Il valore atteso è E(X)=µ=3,44, la varianza pari a σ²=6,06 e l'asimmetria =0,79, nel caso che x debba essere compreso tra 1 e 9 (inclusi).
Al di là delle spiegazioni "comuni", la v.c. di Benford può essere costruita facendo ricorso a ζ la funzione zeta di Riemann (vedasi pure variabile casuale Zeta).
Teoremi e corollari
Invarianza di scala
Se un fenomeno segue la legge di Benford, allora moltiplicando tutti i valori per un numero prefissato, si ottiene una nuova raccolta di valori che seguono a loro volta la legge di Benford.
Esempio: se le quotazioni espresse in Lire delle azioni quotate in borsa seguono la legge di Benford, allora le stesse quotazioni espresse in Euro seguono anch'esse la legge di Benford.
L'invarianza di scala richiede che
Essendo richiesto che e che anche si ricava che la forma dev'essere del tipo 1/x. Effettivamente
- per
è una distribuzione continua di probabilità che produce valori casuali le cui prime cifre rispettano la legge di Benford.
Probabilità della seconda cifra
seconda cifra n P(y=n) 0 12,0% 1 11,4% 2 10,9% 3 10,4% 4 10,0% 5 9,7% 6 9,3% 7 9,0% 8 8,8% 9 8,5% |
La probabilità che la seconda cifra sia n è pari a
- per
Tale formula può essere generalizzata per determinare la probabilità della terza, quarta cifra, le quali sono sempre più "equamente" distribuite (ovvero la differenza tra la prima e l'ultima tende a ridursi).
Generalizzazione a sistemi non decimali
Per un qualsiasi sistema numerico a base B, la probabilità della prima "cifra" diventa
dove d indica la prima "cifra" e ln il logaritmo naturale di base e (vale a dire ln=loge)
Voci correlate
Altri progetti
- Wikimedia Commons contiene immagini o altri file su Legge di Benford