domingo, 23 de outubro de 2016

O Problema das Múltiplas Comparações



*Da série, Como Criar um Estudo Falso Positivo

Imaginem que um farsante pretende provar ser vidente, capaz de adivinhar coisas. Um cético faz um experimento em que sobra apenas 4.9% de probabilidade do suposto vidente acertar por acaso (sorte). Se ele acertar, P = 0.049 será estatisticamente significante (< 0.05), rejeitaremos a hipótese nula (farsante) e acreditaremos na sua capacidade premonitória.

Mas isso só funcionará se o suposto vidente tiver apenas 1 tentativa de acertar. Por outro lado, se ele tentar 30 vezes e cada uma das vezes a probabilidade for 5%, ele terá 80% de probabilidade de acertar em alguma das vezes. Calculei 80% pela fórmula P = 1 - (1 - P)N, sendo N o número de tentativas ou comparações. Ou seja, 1 - (1 - 0.05)30 = 0.80

Já pensou se acreditássemos no acerto depois do farsante tentar 30 vezes? 

Utilizando o problema das múltiplas comparações, provamos o que queremos. Imaginem que desejo demonstrar que meu time do coração (Bahia) é superior ao time do Barcelona. Difícil provar isso em um único jogo de futebol, cuja probabilidade de sucesso do Bahia seria, digamos, 5%. Mas se eu fizesse 30 jogos de futebol, haveria 80% de probabilidade do Bahia vencer em um deles. Eu poderia fazer isso e publicar na imprensa apenas o jogo que o Bahia ganhou. 

Concordo que seria difícil esconder 29 jogos realizados em grandes estádios.  Assim como é difícil esconder o resultado de um grande ensaio clínico multicêntrico. Por outro lado, não é difícil esconder 29 estudos pequenos e unicêntricos. Aliás, estes estudos se escondem naturalmente, pois é mais difícil publicar estudos negativos do que estudos positivos ou o autor fica desestimulado em preparar um artigo que não traz a novidade desejada. É o que chamamos de viés de publicação.

Veja que perfeita combinação de três características presentes em estudos pequenos: 

  • São inúmeros estudos pequenos (múltiplas comparações)
  • São imprecisos (mais fácil o Bahia ganhar do Barcelona por sorte em um jogo de 20 minutos do que em um jogo de 90 minutos).
  • São fáceis de esconder (viés de publicação).

Portanto, a existência de estudos pequenos gera as múltiplas comparações, sendo um prato cheio para provar o que é falso, via viés de publicação. 

Não dá para confiar em estudos pequenos. O que é pequeno? Vide nosso post sobre cálculo do tamanho amostral.

Mas podemos julgar inexequível fazer 30 jogos Bahia x Barcelona, mesmo que cada jogo tenha apenas 20 minutos. Neste caso, a boa notícia é que podemos fazer múltiplos testes em um único jogo de futebol. Ou em um único estudo clínico. Há 3 formas:

1. Supervalorização de desfechos secundários (que são múltiplos): gol é o desfecho primário de um jogo de futebol. Mas sei que este desfecho pode ser difícil de provar minha tese. Portanto, eu analiso inúmeros desfechos secundários: chutes a gol, posse de bola, chutes na trave, impedimentos, escanteios, etc, etc.  Desta forma, se o Bahia não fizer mais gols do que o Barcelona (provável que não faça), escolherei para valorizar algum desfecho secundário que por sorte (acaso) tenha sido favorável ao Bahia. E posso concluir o estudo da seguinte forma: "Embora o Bahia não tenha feito mais gols, seu número de escanteios foi maior". Observe que esta conclusão tem uma conotação positiva. É assim que se faz para induzir leitores de trabalhos a uma ideia desejada. Até mesmo porque a mente humana tem maior tropismo por afirmações positivas do que negativas. 

Em estudos clínicos, isto é feito quando o desfecho primário não mostra diferença entre os grupos, e o autor passa a valorizar mais um desfecho secundário. Vejam como conclui um estudo publicado no Circulation (revista de maior impacto em cardiologia), que queria mostrar Omapatrilato como superior a Enalapril em insuficiência cardíaca. Este estudo foi negativo na análise do desfecho primário, daí o autor determinou a posteriori um desfecho secundários e conseguiu positividade, concluindo da seguinte forma:  

"Omapatrilat reduces the risk of death and hospitalization in chronic heart failure but was not more effective than ACE inhibition alone in reducing the risk of a primary clinical event." Vejam que ele consegue fazer uma conclusão para todos os gostos. 

Fico fascinado quando o técnico de um time diz: "jogamos muito bem, o que faltou foi a bola entrar". Ele está fazendo exatamente isso. Jogar muito bem, funciona como um desfecho secundário.

Assim como o que dita o vitorioso em um jogo de futebol é o número de gols, o que deve ditar a conclusão de um trabalho é o desfecho primário, que usualmente é único, evitando as múltiplas comparações na conclusão do trabalho. 

Outro ótimo exemplo do problemas das múltiplas comparações gerando equívocos são as múltiplas análises de desfechos adversos comentada na nossa última postagem “A Insegurança das Análises de Segurança”. Quem não leu, vejam o mito do diabetes e estatina relatado naquela postagem.


2. Análise de subgrupo: outra forma de provar que meu time é superior ao Barcelona seria dividir o jogo de futebol em pequenos subgrupos de jogadas, delimitador por um tempo de 10 minutos. Depois de perceber que o resultado final do jogo foi 4 x 1 para o Barcelona, inicio minha estratégia de análise de subgrupos. Por exemplo, nos primeiros 10 minutos, qual foi o resultado do jogo? Entre o minuto 10 e 20, qual foi o placar? E por aí vai, vou analisando subgrupos de 10/10 minutos. Se em algum desses períodos, o Bahia fizer mais gols que o Barcelona, esse momento seria valorizado como uma evidência a favor do Bahia. 

Parece absurdo, mas autores inconformados com seus resultados negativos, tendem a valorizar mais suas análises de subgrupo. Certa feita, um estudo publicado no New England Journal of Medicine não encontrou diferença de desfecho cardiovascular entre pacientes randomizados para comprimido de ômega-3 ou placebo. Veja o que foi escrito: 

“However, there was a 27% reduction in major cardiovascular events with ALA among women, which approached significance (hazard ratio, 0.73; 95% CI, 0.51 to 1.03; P=0.07)”.

Em geral, a comunidade científica é (corretamente) cética quanto a análises de subgrupo. Assim, fica difícil que um autor conclua um estudo como plenamente positivo baseado apenas no resultado de subgrupo. Mas ao trazer a possibilidade de benefício em algum subgrupo, ou autores confundem o leitor, amenizando o impacto da informação negativa. Isso funciona e a gente nem percebe.  Melhor dar uma informação negativa seguida de uma positiva (subgrupo), do que apenas concluir pela negatividade.

Há algum tempo devo neste Blog uma postagem dedicada especificamente a análise de subgrupo.  

3. Estudo truncado: essa é genial. Imaginem que (por sorte) o Bahia faça um gol, aos 25 minutos do primeiro tempo. Neste momento, com o jogo 1 x 0 para o Bahia,  digo que está provada a superioridade do Bahia e interrompo o jogo. Apesar de uma atitude grosseira em um jogo de futebol, esta é a forma mais elegante de usar do problemas das múltiplas comparações em ensaios clínicos. Elegante porque se utiliza do argumento (pseudo) ético de que não podemos deixar um grupo sem o uso da terapia, pois ficou provado seu benefício. O problema é que não foi demonstrado benefício de uma forma metodologicamente segura, pois o estudo sendo interrompido precocemente carece de precisão. Na verdade, anti-ético é concluir algo com falsidade. 

Estudos como PRAMI, PREDIMED, JUPITER, FAME-2, PROWESS são alguns dos muitos que já citamos nesse Blog. 

As Ilusões do Mundo Real


A falta de percepção do fenômeno das múltiplas comparações faz com que muitas vezes consideremos como tão inusitado um evento, que este só pode ter sido decorrente de algum plano maior. 

Nesta cena do filme "O Estranho Caso de Benjamin Button" (vide abaixo), o personagem principal argumenta o quanto improvável tenha sido o acidente que ocorreu com Daisy. Ele descreve a sequência de pequenos eventos necessários para terminar no desfecho do acidente. Uma sequência de tantos eventos ocorrendo na hora certa, no lugar certo, que se torna altamente improvável o que ocorreu com ela. Tão improvável que isto não poderia ter ocorrido por acaso. Afastado o acaso, sobre a causa. Então ele insinua que algo tem que ter causado aquilo, imagino algo como Deus ou destino.

Sim, é improvável aquilo ter ocorrido com Daisy. No entanto, no mundo não há apenas uma Daisy candidata ao atropelamento. Há bilhões de Daisys, cada uma com sua mínima probabilidade deste evento, resultando em uma altíssima probabilidade de um atropelamento acontecer com alguma Daisy no mundo. É o problemas das múltiplas tentativas. O mesmo fenômeno. 

No entanto, nós sofremos do vies da falácia narrativa, quando contamos a história de frente para trás. Uma vez ocorrendo um fenômeno, procuramos uma causa platônica retrospectivamente, sem perceber que aquilo pode ter sido decorrente do acaso. 

Deus não planeja o mal para as pessoas. Deus prefere reger o mundo pelo acaso, como discutimos na postagem “A Oração do Acaso”. É por isso que o mundo é repleto de fenômenos estatísticos explicando o que não pode ser explicado. 




* Para conhecer nosso curso online de MBE, clique aqui.

3 comentários:

  1. Sobre os estudos truncados , apenas para acrescentar como você mesmo já mencionou aqui, quando eles são truncados com mais de 500 desfechos o risco de se superestimar a redução do risco relativo diminui, foi o que aconteceu por exemplo com o SPRINT-TRIAl, que foi truncado com pouco mais de 500 desfechos. Mas, vejo que muitos estudos truncados são utilizados nas diretrizes para embasar determinadas condutas. Além desses citados tem o HYVET study sobre tratamento da HAS em pacientes muito idosos e o AFCAPS/TEXCAPS para dislipidemias que são bem "famosinhos".
    Não sei se encaixaria nesse contexto , mas como ficam as condutas que são baseadas em desfechos substitutos - não seria uma espécie de ilusão, já que desfechos substitutos são meros geradores de hipóteses, penso que algo semelhante a basear uma conduta em desfecho secundário - Ex: médicos que utilizavam a ezetimiba antes do IMPROVE-IT.

    ResponderExcluir