Como uma xícara de chá lançou as fundações para a análise estatística moderna


Fisher não levou bem as críticas de Neyman e Pearson. Em resposta, ele chamou seus métodos de “infantil” e “absurdamente acadêmico”. Em particular, Fisher discordou da idéia de decidir entre duas hipóteses, em vez de calcular o “significado” das evidências disponíveis, como ele havia proposto. Enquanto uma decisão é final, seus testes de significância deram apenas uma opinião provisória, que poderia ser revisada posteriormente. Mesmo assim, o apelo de Fisher por uma mente científica aberta foi um pouco prejudicada por sua insistência de que os pesquisadores devessem usar um corte de 5 % para um valor de p “significativo”, e sua alegação de que “ignoraria completamente todos os resultados que não atingem esse nível”.

A Acrimony daria lugar a décadas de ambiguidade, pois os livros didáticos gradualmente confundiam o teste de hipóteses nulas de Fisher com a abordagem baseada em decisão de Neyman e Pearson. Um debate diferenciado sobre como interpretar evidências, com a discussão sobre o raciocínio estatístico e o design de experimentos, tornou -se um conjunto de regras fixas para os alunos seguirem.

Pesquisas científicas convencionais seriam confiadas em limiares simplistas de valor-p e decisões verdadeiras ou falsas sobre hipóteses. Neste mundo apreciado, os efeitos experimentais estavam presentes ou não estavam. Medicamentos funcionaram ou não funcionaram. Não seria até a década de 1980 que os principais periódicos médicos finalmente começaram a se libertar desses hábitos.

Ironicamente, grande parte da mudança pode ser rastreada até uma idéia de que Neyman cunhou no início da década de 1930. Com as economias lutando na Grande Depressão, ele percebeu que havia uma demanda crescente por idéias estatísticas sobre a vida das populações. Infelizmente, havia recursos limitados disponíveis para os governos estudarem esses problemas. Os políticos queriam resultados em meses – ou até semanas – e não havia tempo ou dinheiro suficiente para um estudo abrangente. Como resultado, os estatísticos tiveram que confiar na amostragem de um pequeno subconjunto da população. Esta foi uma oportunidade de desenvolver algumas novas idéias estatísticas. Suponha que queremos estimar um valor específico, como a proporção da população que tem filhos. Se amostarmos 100 adultos aleatoriamente e nenhum deles são pais, o que isso sugere sobre o país como um todo? Não podemos dizer definitivamente que ninguém tem um filho, porque se provemos um grupo diferente de 100 adultos, poderíamos encontrar alguns pais. Portanto, precisamos de uma maneira de medir o quão confiante devemos estar com a nossa estimativa. Foi aqui que entrou a inovação de Neyman. Ele mostrou que podemos calcular um “intervalo de confiança” para uma amostra que nos diz com que frequência devemos esperar que o verdadeiro valor populacional esteja em um determinado intervalo.

Os intervalos de confiança podem ser um conceito escorregadio, já que eles exigem que interpretemos dados tangíveis da vida real, imaginando muitas outras amostras hipotéticas sendo coletadas. Como esses erros do tipo I e do tipo II, os intervalos de confiança de Neyman abordam uma questão importante, apenas de uma maneira que muitas vezes perplexiza estudantes e pesquisadores. Apesar desses obstáculos conceituais, há valor em ter uma medição que pode capturar a incerteza em um estudo. Muitas vezes, é tentador – principalmente na mídia e na política – se concentrar em um único valor médio. Um único valor pode parecer mais confiante e preciso, mas, em última análise, é uma conclusão ilusória. Em algumas de nossas análises epidemiológicas voltadas para o público, meus colegas e, portanto, escolhemos relatar apenas os intervalos de confiança, para evitar a atenção extraviada em valores específicos.

Desde a década de 1980, os periódicos médicos colocaram mais foco em intervalos de confiança do que reivindicações autônomas ou verdadeiras. No entanto, os hábitos podem ser difíceis de quebrar. A relação entre intervalos de confiança e valores de p não ajudou. Suponha que nossa hipótese nula seja que um tratamento tenha efeito zero. Se nosso intervalo estimado de confiança de 95 % para o efeito não contiver zero, o valor P será inferior a 5 % e, com base na abordagem de Fisher, rejeitaremos a hipótese nula. Como resultado, os documentos médicos geralmente estão menos interessados ​​no intervalo de incerteza e, em vez disso, mais interessados ​​nos valores que ele faz – ou não – contém. A medicina pode estar tentando ir além de Fisher, mas a influência de seu corte arbitrário de 5 % permanece.

Trecho adaptado de Prova: a ciência incerta da certezaAssim, Por Adam Kucharski. Publicado pela Perfil Books em 20 de março de 2025, no Reino Unido.



Ver artigo original (Em Inglês)