Ciência de Garagem

Um blog sobre ciência em geral e matemática em particular

segunda-feira, março 20, 2017

Bancando o detetive com a Lei de Newcomb-Benford

Uma das situações mais frustrantes para os estudantes é deparar-se com um novo conceito matemático sem a devida contextualização, ou ainda, sem a apresentação de situações práticas e reais onde esse conceito possa ser aplicado, dando-lhe um significado e um sentido. Este é precisamente o caso quando estudamos logaritmos na escola: aprendemos as regras para operá-los, trabalhando com as identidades logarítmicas (produto, quociente, potência, raiz), mudanças de base, etc. Mas na boa: para que servem os logaritmos, afinal? A verdade é que logaritmos são aplicados em temas tão diversos quanto probabilidade e estatística, algoritmos computacionais, fractais, música, entre outros; o problema neste caso é que são necessários conhecimentos sobre uma enorme variedade de outros assuntos para entender e contemplar a beleza e o poder dos logaritmos nessas aplicações, uma tarefa inglória para o estudante do ensino fundamental. Existe, porém, uma forma de aplicar logaritmos em situações práticas bem próximas da realidade do aluno através da chamada Lei de Newcomb-Benford. A lei de Newcomb-Benford estabelece empiricamente que em determinadas fontes de dados numéricos o primeiro dígito não apresenta uma distribuição uniforme de ocorrências dos algarismos de 1 a 9, mas antes uma distribuição logarítmica decrescente quanto maior for o algarismo. Este tipo de distribuição ocorre para uma ampla gama de conjuntos de dados: número do endereço residencial, população por cidade, taxas de mortalidade, balanços contábeis, bem como constantes físicas e matemáticas. Simon Newcomb, astrônomo e matemático canadense, foi o primeiro a identificar este princípio estatístico, ou pelo menos a reportá-lo formalmente em seu artigo de 1881, onde afirma:

“Que os dez dígitos não ocorrem com igual frequência está evidente a qualquer um que faça muito uso de tabelas logarítmicas e nota quão rapidamente as primeiras páginas desgastam-se em relação às últimas. O primeiro número significativo é comumente o 1 mais que qualquer outro, e a frequência diminui até 9”.

Simon Newcomb
Porém, coube a Frank Benford, engenheiro eletricista e físico norte-americano, redescobrir e generalizar este princípio em seu artigo de 1938, dando-lhe a formatação matemática conhecida atualmente.

Frank Benford
A esta altura você talvez esteja pensando: “Tá, e que formatação matemática é essa?”. Observe abaixo sobre o quê Newcomb estava falando:

$$ P(d)=log_{10}\left ( 1+\frac{1}{d} \right ) $$

Essa fórmula informa qual a probabilidade P de um dígito d ocorrer num conjunto de números, e que essa probabilidade tem um comportamento logarítmico. Na fórmula, d é o primeiro dígito de um número, podendo ser os algarismos 1, 2, 3, 4, 5, 6, 7, 8 ou 9. Substituindo um algarismo de cada vez na fórmula, obtemos a probabilidade de ocorrência de cada algarismo em um conjunto numérico, conforme indicado na tabela abaixo:

d
P(d)
1
30,1%
2
17,6%
3
12,5%
4
9,7%
5
7,9%
6
6,7%
7
5,8%
8
5,1%
9
4,6%
Por exemplo, a probabilidade do algarismo 1 ocorrer como o primeiro dígito em um conjunto de números é de:

$$ P(1)=log_{10}\left ( 1+\frac{1}{1} \right )=log_{10}\left ( 1+1 \right )=log_{10}\left ( 2 \right )\cong  0,301 $$

Ou seja: 30,1%; para o algarismo 2, a probabilidade cai para 17,6%; e assim sucessivamente até o algarismo 9, cuja probabilidade de ocorrência cai para apenas 4,6%. É isto o que Newcomb quis dizer quando afirmou que “o primeiro número significativo é comumente o 1 mais que qualquer outro, e a frequência diminui até 9”. Pois é, havíamos prometido uma demonstração prática, correto? Então é chegada a hora de utilizarmos essa preciosa ferramenta empírica, atuando como verdadeiros detetives. Para quem mora em apartamento, provavelmente já viu chegar à casa a correspondência da administradora contendo o demonstrativo de despesas do seu condomínio. Pois bem, vejamos um pequeno exemplo dessas demonstrações de despesas:


Despesas
01/2016
02/2016
03/2016
Despesas com pessoal
Salários
4.088,00
5.068,00
9.020,65
INSS
2.609,12
5.420,44
2.582,46
PIS
69,02
61,46
71,48
Vale Transporte
199,40
98,80
98,00
FGTS
863,15
650,98
571,50
Contribuição Confederativa
106,12
110,65
110,65
Adiantamento
2.217,00
1.630,00
1.851,00
Cesta Básica
403,58
398,54
323,82
Despesas com refeitório
63,00
48,00
97,60
Tarifas Públicas
Luz
1.773,96
2.214,26
2.289,06
Telecomunicações
316,34
310,05
310,97
Conservação
Materiais Elétricos
115,45
19,80
580,65
Outros Materiais e Equipamentos
869,46
549,46
558,61
Material de Limpeza
606,00
47,71
672,71
Outros Serviços Prestados por Terceiros
658,00
1.922,00
1.186,00
Material de Reformas e Reparos
809,20
1.617,24
2.177,09
Retirada de Entulho
340,00
240,00
85,00
Manutenção de Piscina/Sauna
402,84
292,33
549,28

Vamos agora iniciar a seleção do primeiro dígito de cada uma dessas despesas, destacando-os com a cor vermelha:

Despesas
01/2016
02/2016
03/2016
Despesas com pessoal
Salários
4.088,00
5.068,00
9.020,65
INSS
2.609,12
5.420,44
2.582,46
PIS
69,02
61,46
71,48
Vale Transporte
199,40
98,80
98,00
FGTS
863,15
650,98
571,50
Contribuição Confederativa
106,12
110,65
110,65
Adiantamento
2.217,00
1.630,00
1.851,00
Cesta Básica
403,58
398,54
323,82
Despesas com refeitório
63,00
48,00
97,60
Tarifas Públicas
Luz
1.773,96
2.214,26
2.289,06
Telecomunicações
316,34
310,05
310,97
Conservação
Materiais Elétricos
115,45
19,80
580,65
Outros Materiais e Equipamentos
869,46
549,46
558,61
Material de Limpeza
606,00
47,71
672,71
Outros Serviços Prestados por Terceiros
658,00
1.922,00
1.186,00
Material de Reformas e Reparos
809,20
1.617,24
2.177,09
Retirada de Entulho
340,00
240,00
85,00
Manutenção de Piscina/Sauna
402,84
292,33
549,28

A seguir, totalizamos a quantidade de ocorrências de cada um dos dígitos destacados em vermelho:

Dígito:
1
2
3
4
5
6
7
8
9
Ocorrências:
12
8
6
5
7
7
1
4
4

Temos um total de 18 itens de despesa ao longo de três meses, totalizando 54 itens. A razão entre o total de ocorrências de cada dígito e o total de itens de despesa nos fornece a porcentagem de ocorrências para cada dígito:

Dígito:
1
2
3
4
5
6
7
8
9
Razão:
12/54
8/54
6/54
5/54
7/54
7/54
1/54
4/54
4/54
Porcentagem:
22,2%
14,8%
11,1%
9,26%
12,9%
12,9%
1,8%
7,4%
7,4%

Comparando os valores obtidos com aqueles estabelecidos pela lei de Newcomb-Benford, temos:

Dígito:
1
2
3
4
5
6
7
8
9
Porcentagem:
22,2%
14,8%
11,1%
9,26%
12,9%
12,9%
1,8%
7,4%
7,4%
Lei N-B:
30,1%
17,6%
12,5%
9,7%
7,9%
6,7%
5,8%
5,1%
4,6%

Importante: para que a lei de Newcomb-Benford tenha significância, o conjunto numérico deveria ter, pelo menos, 100 itens. Significa dizer que, numa análise mais rigorosa, seria necessário juntarmos vários meses de demonstrativos de despesa a fim de obtermos uma quantidade significativa de itens. Seja como for, o resultado acima mostra uma convergência entre as porcentagens encontradas e aquelas esperadas pela lei para os dígitos 1, 2, 3 e 4. E nota-se uma divergência para os dígitos 5, 6, 7, 8 e 9. Se ao longo dos meses constatar-se que as porcentagens de todos os dígitos convergem para as porcentagens da lei de Newcomb-Benford, significa que o seu condomínio é bem administrado. Senão... é bom os condôminos começarem a acompanhar as despesas mais de perto, pois a participação e o envolvimento de todos é que permite o bom andamento de um condomínio, de uma empresa e até de um país. Observe que você teve de lidar com diversas ferramentas matemáticas bem conhecidas e ensinadas na escola: somas, frações e porcentagens além, é claro, de logaritmos. E com essas ferramentas e o conhecimento da lei de Newcomb-Benford fomos capazes de analisar o comportamento de um balancete contábil, atuando como verdadeiros detetives, e de um modo que poucos conhecem! Não é qualquer conjunto de números que obedece a essa lei empírica; para maiores informações, consulte na internet: lei de Benford, ou para quem domina o inglês: Benford’s law. Para finalizar, aqueles que quiserem se aprofundar um pouco mais neste assunto, podem pesquisar também este link: Lei de Newcomb-Benford como ferramenta de auditoria.


Bibliografia:
Newcomb S., "Note on the frequency of use of the different digits in natural numbers", American Journal of Mathematics, vol. 4 – No. 1, 39-40, 1881.
Benford F., "The law of anomalous numbers". Proceedings of the American Philosophical Society 78 (4), 551–572, March-1938.