Nos cursos de estatística, um dos primeiros problemas que são ensinados é o de comparação de proporções. O objetivo, por exemplo, é verificar se duas moedas (A e B) têm a mesma probabilidade de cair cara.

Definimos então que é uma variável aleatória que recebe o valor 1 quando em um lançamento da moeda A o resultado foi cara. Caso contrário o valor de é 0. Podemos então propor que em que é a probabilidade de . Analogamente, definimos e .

Em seguida, com o objetivo de testar se , propomos o seguinte experimento. Vamos lançar as moedas A e B, e vezes respectivamente. Assim, obtivemos e , vetores de tamanho e contendo zeros ou uns de acordo com os resultados das moedas.

Suponha que existam duas populações A e B. Queremos saber se a proporção de ocorrência de um certo evento em A é igual a proporção de ocorrência em B. Para isso obtivemos uma amostra da variável aleatória X (“ocorrência do evento”) em cada população de tamanhos $n_A$ e $n_B$.

Dado o modelo probabilístico e o experimento realizado, queremos testar se as duas moedas possuem a mesma probabilidade de sair cara.

Para qualquer aluno de estatística viriam dois testes de hipótese na cabeça: o teste normal de comparação de proporções ou o teste chi-quadrado. Ambos ensinados em qualquer curso introdutório de estatística.

Mas qual deles devemos usar?

O teste normal de comparação de proporções

O teste normal parte da seguinte afirmação: O estimador de máxima verossimilhança para é .

Como procedimento básico de inferência estatística clássica tentamos encontrar a distribuição de . Acontece que, é fácil ver que possui distribuição Binomial, basta notar que se então .

Também é conhecido que uma aproximação razoável da distribuição é a distribuição

Tudo o que foi dito anteriormente serve para a moeda B. Segue que queremos fazer um teste para contra . Logo, vamos usar a quantia , para a qual podemos afirmar:

Segue então que podemos usar a seguinte estatística para testar a nossa hipótese:

Como é apenas a padronização de uma variável com distribuição Normal, segue que .

Com todas essas ferramentas, já poderíamos testar se as duas proporções são iguais.

O teste Chi Quadrado

O teste de é muito flexível e pode servir para testar inúmeras hipóteses diferentes. Uma delas é testar a aderência de um modelo probabilístico. Sabemos que o modelo com o qual estruturamos o nosso experimento foi e , mas vamos testar a aderência do seguinte modelo: e . Testar a aderência deste modelo parece ser equivalente a testar que .

Um estimador óbvio para seria:

Em seguida calculamos a estatística de que é ou a seguinte expressão:

Aqui usamos , e análogo para B.

Agora podemos comparar o valor de Q na nossa amostra com os quantis da distribuição para decidir se podemos afirmar que as proporções são iguais.

Os dois testes são iguais!

Um conhecido resultado de inferência estatística é que se então Portanto e possuem a mesma distribuição. Além disso, é possível provar (depois de bastante conta chata) que neste caso . Deste modo, como e possuem a mesma distribuição e são matematicamente iguais podemos afirmar que os dois testes são equivalentes! Apesar deste resultado ser simples, para mim nunca tinha sido claro que as duas abordagens eram exatamente iguais!