domingo, 30 de setembro de 2012

O que é Intervalo de Confiança?



Vemos com muita frequência o uso de intervalo de confiança nos resultados de diferentes tipos de estudos. Por exemplo, em estudos que avaliam eficácia terapêutica ou marcadores de risco, a descrição do risco relativo sempre é seguida do intervalo de confiança. Em estudos de acurácia, as medidas de sensibilidade e especificidade devem também ser seguidas do intervalo de confiança. Em estudos descritivos, de prevalência ou incidência, estas proporções devem ter seus intervalos de confiança.

Imaginem que um ensaio clínico randomizado afirma que “o risco relativo da droga em relação ao placebo foi 0.78 (95% IC = 0.68 – 0.88).

O que significa isso?

Se nossos estudos avaliassem toda a população-alvo do estudo, teríamos plena confiança nos resultados. Porém isso não é factível na maioria dos casos, fazendo com que estudemos amostras, ao invés da população. Ao estudar um parte da população (amostra) podemos dar o azar (acaso) de encontrar um resultado que difere da realidade. Por isso, devemos estimar a precisão estatística do resultado. Como fazer?

Poderíamos pensar, se não tenho certeza de que minha amostra está correta, farei um segundo estudo para checar. Neste segundo estudo, imaginem que o resultado do risco relativo foi 0.77, ao invés de 0.78. Puxa vida, então como saber onde está a verdade? Bem, façamos um terceiro estudo, cujo resultado foi 0.79. O jeito é fazer um quarto estudo, e assim sucessivamente ... Ao completar 100 estudos nesse processo de busca do verdadeiro risco relativo, vamos nos deparar com uma variação dos resultados destes estudos. Utilizando esta variabilidade dos resultado, calculamos o intervalo de confiança.

O intervalo de confiança no nível 95% (95% IC) significa que o resultado estará dentro daquele intervalo em 95 dos 100 estudos hipoteticamente realizados, ou seja, o risco relativo estará entre 0.68 e 0.88. O 5 estudos excluídos deste intervalo representam valores extremos que possuem maior possibilidade de terem ocorrido por acaso. Por isso são excluídos de um intervalo que deseja estimar onde está a verdade.

Desta forma, a leitura correta do intervalo de confiança é: podemos afirmar que em 95 de 100 amostras hipotéticas, o resultado estará dentro deste intervalo.

O valor de 0.78 é uma medida central, mais próxima da verdade, porém não há garantia de que seja exatamente isso. A garantia é de que o risco relativo não está acima de 0.88, nem abaixo de 0.68. Observem que quanto mais estreito o intervalo de confiança, mais precisa é a estimativa. E essa é exatamente a definição estatística de precisão, a capacidade de um resultado se repetir em diferentes medidas da mesma realidade.

Se a medida em questão possuir um valor que representa a hipótese nula do trabalho, podemos usar o intervalo de confiança para avaliar significância estatística. No caso do risco relativo (ou do hazard ratio), o valor 1 representa ausência de diferença entre grupo tratamento versus grupo controle; ou expostos ao fator de risco versus não expostos. Portanto, se o intervalo de confiança do risco relativo envolver o valor 1, o estudo não terá significância estatística para rejeitar a hipótese nula. Pode conferir, isso sempre coincide com um valor de P maior do que 0.05. No caso da redução absoluta de risco, o intervalo de confiança não deve envolver o zero para ter significância estatística.

Há situações em que o intervalo de confiança se refere a uma medida descritiva simplesmente, não há teste de hipótese (nem hipótese nula). Por exemplo quero descrever qual é a média do colesterol de uma população. Encontramos uma média  de 220 mg/dl e podemos usar o intervalo de confiança para estimar a precisão dessa afirmação. Também serve para variáveis categóricas, ou seja, intervalo de confiança de proporções, tipo: prevalência, incidência (risco), sensibilidade, especificidade.

Mas como se calcula o intervalo de confiança?

Claro que não precisamos fazer 100 estudos para calcular. Podemos obter este intervalo com apenas um estudo realizado, ainda bem. Estudando apenas uma amostra e utilizando fórmulas estatísticas que levam em consideração o tamanho amostral, a  variabilidade de uma variável contínua (a redundância foi proposital) ou a frequência do desfecho quando a variável é categórica. Essas fórmulas nos fornecem o erro-padrão, que é a medida de incerteza do estudo. Simplesmente, o resultado encontrado na amostra ± 1.96 erros-padrão = intervalo de confiança.

Curiosidade: Por que 1.96? Este é o valor de Z que delimita 95% de probabilidade de acordo com a curva de distribuição normal (mas não se preocupem em entender isso).

Quando a variável é numérica, fica fácil calcular o erro-padrão, pois este é o desvio-padrão dividido pela raiz quadrada do tamanho amostral. Quando a variável é uma proporção, utiliza-se uma fórmula um pouco mais complexa. Há calculadoras online (vejam aqui) que nos permitem calcular intervalo de confiança de uma proporção, digitando apenas o numerador e o denominador da fração.

O intervalo de confiança é uma medida pouco entendida, pois não estamos acostumados a pensar assim no cotidiano. Precisamos permitir que este conceito penetre em nossas mentes. Por exemplo, não existem pessoas 100% confiáveis, qualquer um mente de vez em quando. É só assistir ao filme de Liar Liar (1997, com Jim Carrey), que perceberemos o quanto caótica seria a vida sem pequenas mentiras. Por outro lado, mesmo reconhecendo que alguém mente, podemos identificar que esta pessoa tem um intervalo de confiança que nos deixa tranqüilos em saber que não seremos traídos por ela em assuntos relevantes. Ao invés de tratar pessoas de forma dicotômica (honestos ou desonestos), podemos classificá-las de acordo com a amplitude de seu intervalo de confiança

No julgamento do Mensalão, há réus com intervalos de confiança extremamente amplos, chegando próximo ao infinito. O que me parece é que quanto mais amplo o intervalo de confiança, mas cara de pau a pessoa é. Pena que aquele com intervalo de confiança mais amplo de todos não esteja oficialmente como réu do Mensalão.

domingo, 23 de setembro de 2012

Pensamento Relativo versus Pensamento Absoluto




Recentemente publicada no British Medical Journal uma interessante descrição da frequência do uso de medidas de associação relativas versus absolutas em artigos científicos. Naquele trabalho,  foi estudada uma amostra de 334 artigos publicados durante o ano de 2009 nas principais revistas de impacto, de escopo médico (NEJM e Lancet) ou epidemiológico. Em 75% dos artigos apenas medidas relativas foram descritas, em 18% apenas medidas absolutas e em 7% ambas.

A partir daí, devemos refletir sobre o porquê da predileção pelo relativo, se isso é bom ou ruim. Neste contexto, faremos uma revisão destas medidas de associação, apontando  vantagens e desvantagens do uso do relativo e absoluto.

No cotidiano, as pessoas tendem a valorizar mais o relativo do que o absoluto, como se o relativo representasse uma forma “maior” de pensar. O termo “isso é relativo” é muito usado no intuito de propor um pensamento mais avançado a respeito de uma dada questão; “vamos relativizar” indica uma percepção de que as coisas devem ser analisadas de acordo com seu contexto. É como se o pensamento relativo fosse a palavra final ou uma palavra mais equilibrada no julgamento das coisas.

Por outro lado, no raciocínio médico baseado em evidências, o absoluto é mais valorizado quando julgamos a magnitude do benefício de uma conduta ou a magnitude do dano causado por um fator de risco. Em várias postagens deste Blog, enfatizamos a importância da redução absoluta de risco como a medida mais adequada na análise de relevância de um tratamento. Inclusive esta é usada para calcular o NNT. Já as medidas relativas podem gerar falsa impressão, uma impressão mais favorável ao tratamento do que é a realidade.

Mas antes de avançar nesta discussão, vamos revisar estes conceitos.

O risco relativo (RR) é calculado pela razão entre o risco do tratamento / risco do controle, por exemplo, risco da droga / risco da placebo. RR < 1 indica efeito protetor do tratamento, pois o risco deste (numerador) é menor do que o risco do controle (denominador). Um RR > 1 indica efeito deletério do tratamento, sendo também usado para avaliação de fatores de risco. Por exemplo, risco de câncer dos expostos a tabagismo / risco dos não expostos é maior do que 1, indicando dano.

Em um ensaio clínico, se o grupo droga apresenta mortalidade de 3% e o grupo placebo de 10%, o RR (3/10) será 0.30. A partir do RR, podemos calcular a redução relativa do risco (RRR) pela fórmula 1 – RR. Ou seja, 1 – 0.30 = 0.70, que significa 70% de redução relativa de risco. Essa é a mensuração do benefício relativo.

Já a redução absoluta do risco é a simples subtração do risco no grupo controle pelo risco no grupo de tratamento ativo. No exemplo acima, 10% - 3%, indica 7% de redução absoluta de risco. Observem que numericamente o relativo (70%) impressiona mais do que o absoluto (7%).

Quando falamos de fatores de risco, essa medida seria o aumento absoluto do risco, calculado pela subtração do risco nos expostos ao fator pelo risco nos não expostos. 

De acordo dados citados no Jornal Nacional, empresas aéreas brasileiras são fatores de risco para acidentes de avião, quando comparadas a empresas americanas. Dividindo a probabilidade de acidente no Brasil pela probabilidade nos Estados Unidos, chegamos a 6.8 de risco relativo no Brasil em relação aos Estados Unidos, um aumento relativo de 5.8, ou seja, 580%. Viajar de avião na TAM (por exemplo) aumenta em 580% o risco quando comparado à American Airlines. Isso poderia dar uma boa propaganda para a AA. Mas quando olhamos o aumento absoluto do risco, verificamos que este é ínfimo. Na verdade, o risco absoluto de acidente nos Estados Unidos é muito baixo (0.26 acidentes por 1 milhão de vôos). Mesmo que a gente multiplique isso por 6.8 (risco relativo), o Brasil continua com um risco absoluto muito baixo, equivalente a apenas 1.76 acidentes/1 milhão do vôos. Ou seja, em termos absolutos a mudança é mínima, embora pareça uma grande mudança se falarmos em 580% de aumento. Viajar pela TAM incrementa apenas 1.5 acidentes a cada 1 milhão de vôos.

Parênteseusei TAM e a AA apenas como exemplo do Brasil e Estados Unidos, para o texto ficar mais atraente. Eu poderia ter falado em Gol e Delta. TAM, por favor não tire minhas milhas.

A indústria farmacêutica sempre faz isso. Ao mostrar o efeito benéfico de uma droga, prefere usar risco relativo, dando uma boa impressão. Uma vez vi uma propaganda em que o benefício era descrito em redução relativa de risco, mas o malefício da droga (efeito adverso) era descrito em redução absoluta de risco.

A indústria faz os médicos de idiotas a todo momento com manipulações deste tipo. Primeiro, dão uns presentinhos aos médicos (de almoço em congressos a passagens aéreas), tornando-os susceptíveis a ouvir baboseiras.  Com um presentinho no bolso (ou uma caixinha de lanche no colo) e uma quase proposital ignorância em relação a simples medidas de risco, os médicos passam a acreditar em contos de fada, aceitando argumentos baseados apenas no relativo. De fato, o mundo é relativo, a depender do nosso interesse, acreditamos mais ou menos nas coisas.

Mas não é só a indústria que prefere as medidas relativas. Os autores as preferem também, tal como evidenciado pelo artigo do British Medical Journal, onde 75% dos artigos não descrevem o absoluto, apenas o relativo. Independente do autor ter ou não vinculo com a indústria, o texto fica mais atraente ao usar o relativo. O estudo COMMIT mostrou que Clopidogrel reduz desfechos cardiovasculares em pacientes com infarto. A redução relativa do risco foi de 9%, enquanto a redução absoluta do risco foi de 1%. Qual você usaria no resumo do artigo? Imaginem a frase, Clopidogrel reduz em 1% o risco de eventos cardiovasculares. Mas a realidade é essa, ou seja, o NNT é de 100.

Até este ponto, reforçamos a crítica relativo, relembrando que a verdadeira relevância está no absoluto. O que precisamos discutir agora é o valor do risco relativo e da redução relativa de risco.

Se criticamos as medidas relativas, por que elas existem, onde está sua utilidade? Na verdade, elas são muito úteis também. 

O efeito intrínseco de uma terapia (ou fator de risco) está no relativo e não no absoluto. Isto porque a redução absoluta do risco não depende apenas da terapia, mas também do risco basal do paciente. Esta medida, assim como o NNT, varia de paciente para paciente. Para uma mesma terapia, pacientes de alto risco apresentam um NNT melhor (menor), enquanto pacientes de baixo risco apresentam um NNT pior (maior).

Já o efeito relativo do tratamento não é influenciado pelo risco basal do paciente.

Aí está o valor de saber a redução relativa do risco, pois aplicando esta medida ao risco basal do paciente, saberemos qual o NNT específico daquele tipo de paciente. Por exemplo, sabemos que anticoagulação na fibrilação atrial promove uma redução relativa do risco de AVC de 60% (resultado de ensaios clínicos). Imaginem um paciente cujas características clínicas indiquem 12% de probabilidade anual de AVC de acordo com o escore CHADS. Assim, 60% x 12% = 7% de redução  absoluta. Isso dá um NNT de 14. 

Por outro lado, se for um paciente com risco basal de apenas 3%, multiplicando 60% x 3% teremos 1.8% de redução absoluta de risco, com NNT de 56. Percebam como muda a redução absoluta de risco, de um benefício de grande magnitude para um de pequena magnitude.

Sabendo então o real benefício absoluto que paciente vai receber com a terapia, podemos tomar melhor decisões de risco/benefício ou custo/benefício. Aí entra o julgamento clínico na decisão, tal como descrito em postagem anterior.

Quando analisamos a relevância de uma terapia em um ensaio clínico, devemos saber que aquele NNT calculado se refere à média dos diferentes pacientes avaliados no trabalho. Seria um NNT médio. Mas devemos ter em mente que nos extremos este NNT tende a ser melhor ou pior. Em postagem prévia, concluímos que o Ticagrelor não é nenhuma panacéia, pois o NNT do estudo Plato (para eventos combinados) é de 52. Desta forma, se esta droga tiver que ser usada, que seja feita apenas nos pacientes de alto risco de acordo com o Escore GRACE, pois neste caso o NNT seria otimizado.

Isto é o que podemos chamar de árvore de decisão clínica, a qual deve ser feita nesta sequência:

1) Calculamos o risco absoluto do paciente, baseado nas estimativas de modelos probabilísticos validados (escores de risco).
2) Identificamos com base em evidências científicas de qualidade qual a redução relativa do risco com o tratamento.
3) Aplicamos (multiplicação) esta redução relativa ao risco absoluto, encontrando a redução absoluta do risco naquele paciente.
4) Calculamos o NNT (100/RAR).

5) No caso de haver um lado ruim da terapia, devemos fazer o mesmo procedimento acima. Ou seja, começamos calculando o risco basal do efeito adverso.
6) Aplicamos o aumento relativo do risco de efeito adverso com a terapia a este risco basal, encontrando o aumento absoluto do risco e o NNT para dano, que também é chamado de NNH (number needed to harm).
7) Depois comparamos o NNT com o NNH e decidimos se naquele paciente específico o benefício supera o risco. Isso pode variar de paciente a paciente.

Desta forma, fica claro a utilidade do relativo. O relativo é a propriedade intrínseca da droga. Esta propriedade usualmente é constante em diferentes tipos de paciente, tal com pode ser demonstrado por análises de subgrupo que indicam consistência do efeito de um tratamento benéfico.

A redução relativa do risco está para a acurácia (sensibilidade e especificidade) de um exame, assim como a redução absoluta do risco está para o valor preditivo do resultado deste exame. Lembram que o valor preditivo do método depende não só do resultado do exame, como também na probabilidade pré-teste. Da mesma forma, a redução absoluta do risco depende não só do efeito do tratamento (redução relativa), mas também do risco basal do paciente (pré-tratamento).

Muito interessante como o relativo interage com o absoluto em prol de um pensamento médico mais aprimorado, individualizando as características do paciente para uma decisão mais acertada. Quem disse que medicina baseada em evidência não individualiza o paciente? Existem ferramentas que proporcionam nossa capacidade de sair da leitura do artigo científicos e aplicar o conhecimento de forma diferente em pacientes diferentes. Foi o que fizemos nesta postagem. 

Portanto, ambos tem seu valor, o relativo e o absoluto se complementam. E se os autores apenas reportarem o relativo ou o absoluto (como fazem 83% dos artigos), é fácil calcular o outro, não precisa ser gênio. Apenas se acostumar a pensar de forma científica e ordenada.

Parece pouco intuitivo, pois estamos acostumados a pensar que o relativo conota variação de acordo com a situação. Mas é a aplicação do relativo como uma constante que nos mostra a variação do absoluto a depender de cada situação. Como Einstein diria, E = M x C2 é a mesma para cada situação, o que muda é a massa da matéria, tal como muda o risco basal do paciente. A massa na física corresponde ao risco do paciente calculado com base nos escores. É a "massa do risco".

terça-feira, 18 de setembro de 2012

III Curso de Medicina Baseada em Evidências


Anualmente, fazemos em Salvador o Curso de Medicina Baseada em Evidências, que tem como intuito transmitir conceitos metodológicos básicos e avançados, discutir a abordagem filosófica da medicina baseada em evidências e oferecer um roteiro prático de como analisar e aplicar evidências científicas. O curso é bastante interativo, com muitos exemplos práticos e participação ativa da platéia na discussão.

Como normalmente ocorre, será realizado no Hospital São Rafael, nos dias 09 e 10 de novembro. As atividades ocorrerão sexta a tarde e durante todo o dia de sábado, tendo o formato de curso de imersão.

A inscrição poderá ser feita no local (no primeiro dia, sexta). Se quiserem se prevenir, podem fazer inscrição prévia. Para tal, façam contato telefônico de acordo com a orientação do cartaz abaixo. Cliquem no cartaz para ampliar.

Espero vocês.



sábado, 1 de setembro de 2012

Devemos congelar pacientes? – O Mito da Hipotermia na Parada



Texto escrito por Luis Correia e Márcia Noya

Nos últimos anos, temos experimentado um crescente entusiasmo pela terapia de hipotermia após reanimação cardio-respiratória. Uns mencionam que esta conduta é recomendada pelo ACLS, outros lembram do impressionante número necessário ao tratar de 6 para prevenir uma morte, alguns consideram a adoção desta conduta um marcador de qualidade em unidades de tratamento intensivo.

Paradoxalmente, percebemos que este não é um tratamento implementado na maioria das UTIs do Brasil. Então, das duas uma: ou somos muito incompetentes ao ponto de deixar de implementar uma terapia com NNT de 6; ou na verdade a hipótese nula da ausência de benefício não foi rejeitada pelas evidências atuais.

Para esclarecer qual das duas alternativas é a verdadeira, precisamos fazer uma análise das evidências que testaram a hipótese de que “congelar” pacientes traz benefícios neurológicos e preservam vida.

Assim, temos que voltar no tempo até fevereiro de 2002, quando o New England Journal of Medicine publicou simultaneamente dois ensaios clínicos com resultados positivos a favor do benefício da hipotermia, um trabalho austríaco e outro australiano. O primeiro com (pasmem) apenas 77 pacientes e o segundo com (pasmem) apenas 275 pacientes pós-parada. Analisaremos estes trabalho de acordo com os critérios indicados na série de postagens sobre análise crítica de evidências sobre terapia. Há ainda dois trabalhos menores (2001 e 2012), os quais não mencionarei nesta postagem por questão de espaço e porque estes não mudariam nosso raciocínio.

Efeito de Confusão

Sabemos que o ideal é a randomização para os grupos tratamento ou controle, pois desta forma não há tendenciosidade da escolha da conduta, o que torna os grupos semelhantes em características clínicas, reduzindo a possibilidade de efeito de confusão como explicação do resultado. O estudo australiano (o menor deles) de fato randomizou (sorteou) pacientes para tratamento ou controle. A despeito do pequeno tamanho amostral, esta randomização foi suficiente para tornar os dois grupos semelhantes, tal como demonstrado na tabela de características clínicas do estudo.

Por outro lado ... embora o estudo austríaco tente nos induzir a achar o contrario, este não foi um estudo randomizado. Os autores descrevem patients were randomly assigned to hypothermia or normothermia according to the day of the month, with patients assigned to hypothermia on odd-numbered days”. Esta é na realidade uma frase paradoxal, pois este não se constitui em um método (aceitável) de randomização. Randomização pressupõe imprevisibilidade para qual grupo o paciente será alocado. Esta imprevisibilidade previne tendenciosidade na alocação de pacientes menos graves para o grupo tratamento. Percebam. Se hoje é dia ímpar, o paciente será alocado para o grupo “congelamento” caso este seja incluído no estudo. Sabendo disso, podemos não incluir no estudo pacientes de pior prognóstico em dias ímpares, sendo mais liberais na inclusão de pacientes em dias pares. Esse processo (mesmo que inconsciente) promove uma maior possibilidade de fatores de confusão explicando os resultados. E foi justamente este estudo que não mostrou uma tabela completa comparando características clínicas entre os dois grupos. A tabela se limitou basicamente a dados da reanimação.

Sendo assim, um dos dois estudos pode ter sofrido de um processo de alocação não randomizado. Fico a me perguntar o que custava sortear o paciente na chegada; por que a escolha desse questionável método de alocação? Será que nos dias pares uma equipe melhor preparada ficava de sobreaviso para implementar a hipotermia? Isso seria outro viés, um viés de qualidade da equipe.

Viés de Aferição

Embora ambos os estudos descrevem que avaliação do desfecho neurológico tenha sido realizada por um pesquisador cego em relação à alocação do tratamento, não podemos considerar este um estudo cego. Do ponto de vista do paciente, pode até ser cego, pois o mesmo estava em coma. No entanto, toda a UTI sabia que o paciente estava sendo resfriado. Mesmo que o médico que avaliou o desfecho não soubesse, pode ser que a alocação aberta para um tratamento complexo e experimental como hipotermia tenha promovido mais grau de atenção e cuidado para este paciente, em comparação ao paciente que recebeu o tratamento monótono e usual que todos sempre recebem. Mesmo que não seja possível cegar o tratamento neste caso, um esforço especial deveria ser feito para que o tratamento do grupo controle fosse tão bom quanto o grupo hipotermia. Em ambos os trabalhos parece que isto pode não ter ocorrido. Na verdade, a média de temperatura do grupo controle foi acima de 37oC em ambos os estudos. É como se houvessem comparado “febre” versus hipotermia, e não normotermia versus hipotermia. Mesmo que esta "febre" não tenha influenciado diretamente no desfecho, esta representa um marcador de que este grupo não foi tratado com excelência. Por outro lado, toda a atenção necessariamente dispensada aos pacientes “congelados” possivelmente promoveu um tratamento excelente qualidade.

Observe que isto gera um viés de aferição. Devidos a estes mecanismos, o que pode ter sido aferido não foi o efeito da hipotermia, mas sim a excelência de tratamento recebido por estes pacientes. Não podemos garantir que isto não ocorreu.

Acaso

Quando identificamos um valor de P estatisticamente significante, consideramos que a probabilidade da diferença observada ocorrer se a hipótese nula for verdadeira é muito pequena. Por isso rejeitamos a hipótese nula e passamos acreditar na diferença encontrada. No entanto, a validade do valor de P depende também do poder estatístico do estudo. Ou seja, em um estudo positivo a despeito de reduzido poder estatístico, o valor de P pode ter aparecido estatisticamente significante por acaso.

A explicação disto está no fato de que quando o tamanho amostral é muito pequeno, uma diferença muito grande entre os dois grupos é necessária para que se consiga significância estatística. Diferença tão grande que se torna inverossímil. Diferença tão grande que mais provavelmente decorreu do acaso. Por isto que quando o poder estatístico é insuficiente, o valor de P tende a subestimar o acaso. Ou seja, o acaso pode ter ocorrido, apesar do valor de P < 0.05.

Não é que o cálculo do valor de P esteja errado. É porque do ponto de vista de uma análise qualitativa, a observação tem mais proximidade com a possibilidade do acaso. Por exemplo, se uma coisa absurda acontecer, com um valor de P = 0.01, é mais provável que a coisa caiu exatamente no 1% dos resultados extremos com a hipótese nula verdadeira, do que se a coisa não fosse absurda. Este é um pensamento sutil, mas muito verdadeiro.

Desta forma, se faz necessário que o estudo tenha um poder estatístico para detectar uma diferença predeterminada entre os grupos e que esta diferença seja razoável.  Em nenhum dos dois trabalhos isso ocorreu. Enquanto o estudo austríaco não descreveu cálculo do tamanho amostral, o estudo australiano calculou um tamanho amostral que dá um poder de 80% para detectar uma diferença sem precedentes em nenhum estudo sobre terapia, ou seja, uma diferença absoluta de 36%. É muito otimismo, isso é irreal.

Viés de Publicação

O fato de que o resultado positivo ocorreu simultaneamente em dois estudos independentes, feitos em diferente locais do mundo, nos induz a pensar que de fato o efeito benéfico observado deve ser verdadeiro. Isso seria verdade se apenas estes dois estudos fossem os que tivessem sido realizados em todo o universo. E nesse momento entra o viés de publicação.

Sabemos que isso não é verdade, ou seja, outros estudos devem ter sido realizados. Imaginem 30 estudos, em diferentes locais do mundo, todos de pequeno tamanho amostral, tal como os que estamos discutindo. Agora imaginem que a hipótese nula é verdadeira, ou seja, que na verdade hipotermia não serve para nada. Neste contexto, consideremos que 28 destes estudos mostram o resultado correto, ou seja, semelhança entre os grupos. E dois destes estudos mostram resultado positivo, meramente por acaso. Neste contexto, os dois estudos positivos possuem maior probabilidade de serem aceitos para publicação em revistas de impacto do que os 28 que mostram resultados negativos. Além disso, muitos dos estudos de resultados negativos nem mesmo são escritos ou submetidos para publicação pelos autores. Isso promove um viés de publicação a favor de estudos positivos.

O viés de publicação é um fenômeno inerente de estudos pequenos, geralmente unicêntricos. Grandes estudos multicêntricos são publicados, mesmo quando negativos. Mas os estudos pequenos ficam mais vulneráveis a este fenômeno. Isso ocorre devido à dificuldade de publicar um estudo pequeno. Assim, estes estudos precisam ser pelo menos positivos, para atrair a atenção de revisores e editores para a aceitação do artigo.

O viés de publicação vem de nossa inadequada tendência a valorizar mais dados positivos do que dados negativos, como retratado na frase de Francis Bacon: "It is peculiar and perceptual error of the human understanding to be more moved and excited by affirmatives than negatives."


Crendice versus Ciência

Já comentei previamente neste Blog o problema da mente crente. Por questões evolutivas, nossa mente tende a acreditar mais em dados positivos do que em dados negativos. Corroborando com a mente crente, temos a mentalidade do médico ativo, onde nos sentimos mais úteis, melhores médicos, se adotarmos condutas novas e interessantes, em detrimento do pensamento científico.

São muitos os que argumentam insistentemente de que precisamos fazer coisas sem evidências, pois não há evidência para todo tipo de conduta. Chegam a estragar a inteligente frase “ausência de evidência não é evidência de ausência”, quando a utilizam para sofismar a favor da adoção de terapias sem base científica. Aplicar esta frase como justificativa para adotar uma terapia é inadequado. Esta frase foi criada no contexto de que certos estudos negativos podem não ser definitivos. Neste caso, a frase está estimulando estudos futuros, com maior poder estatístico, por exemplo. Mas a idéia da frase não deve ser usada na tomada de decisão clínica, permitindo a adoção de condutas incertas.

Esta  discussão está no cerne dos princípios da medicina baseada evidências, já colocados inúmeras vezes em postagens deste Blog. Primeiro, devemos avaliar se o caso corresponde a uma situação de plausibilidade extrema, o princípio dopára-quedas. São situação óbvias, que não devem requerer um ensaio clínico para confirmar a idéia. É a efetividade do pára-quedas na prevenção de morte durante salto livre de uma avião em pleno vôo; o caso do diurético no edema agudo de pulmão; insulina no diabético tipo I; laparotomia em indivíduo baseado no abdômen. Se estamos diante de plausibilidade extrema, devemos adotar a conduta, pois nunca existirá um estudo para testar esta hipótese, porque estes estudos seriam desnecessário e anti-éticos.

As demais situações, que correspondem à maioria da terapias em medicina, partem do princípio da equipoise, ou seja, quando há uma dúvida suficiente para justificar um estudo controlado, onde parte dos pacientes não adotem a terapia. Nestas situações devemos partir do princípio da hipótese nula, onde a premissa é de ausência de benefício, e quando surgem evidências suficientes, rejeitamos a hipótese nula e ficamos com a hipótese alternativa de que a conduta deve ser adotada.

Mas qual seria o prejuízo de preferir preferir o princípio da crendice, em detrimento da hipótese nula?

Primeiro, muitas terapias cuja expectativa é de serem benéficas, podem na verdade ser maléficas. Muitos são os exemplos na literatura em que o princípio da crendice foi utilizado, a terapia foi adotada e depois descobriu-se que a coisa era maléfica, sendo a conduta suspensa: a adoção de terapia de reposição hormonal para prevenção vascular, otimização do nível de hemoglobina em pacientes críticos pela conduta de transfusão liberal, terapia agressiva com insulina em paciente críticos, para citar apenas uns dos múltiplos exemplos históricos.

No caso particular do “congelamento”, pensemos. Essa terapia foi testada em pacientes que apresentaram morte súbita presenciada, cuja etiologia principal é a doença aterosclerótica coronariana. Estes paciente podem estar com alguma lesão coronária instável, tipo uma artéria subocluída. Qual será o efeito do “congelamento” nesta coronária. Será que causaria vasoespasmo, piorando o status isquêmico do paciente? Não sabemos, mas esta idéia mostra que há plausibilidade para o malefício também . Outro potencial prejuízo seria o enfoque na terapia de “congelamento”, em detrimento de condutas mais voltadas para a etiologia do problema, como a realização de cateterismo cardíaco de urgência em alguns casos.

O segundo grande prejuízo do princípio da crendice é o fenômeno denominado reversão médica. Este fenômeno é caracterizado pelo vai e vem dos paradigmas. Ou seja, paradigmas que são criados sem base científica, sendo depois derrubados por evidências. O prejuízo da reversão médica é mais coletivo do que individual. É o prejuízo de uma cultura precipitada em criar idéias, fazendo do que deveria ser conhecimento científico, um processo caótico e pouco criterioso de acúmulo de pensamentos. Além disso, quando ocorre reversão médica, alguns dos falsos paradigmas podem estar tão enraizados no inconsciente coletivo, que fica difícil derrubá-los.

Em terceiro lugar, a dúvida de se um tratamento é benéfico, maléfico ou neutro muitas vezes vem junto com a certeza de que o tratamento gera gastos significativos (Xigris), prolongamento do internamento para realização de procedimentos desnecessários (tipo uma fechamento de FOP) e muitas vezes sofrimento ao paciente e sua família.


Expectativa

Em minha opinião, a evolução da medicina no próximo século dependerá muito mais da evolução do pensamento médico, do que do surgimento de novos tratamentos. Se por algum motivo (não estou propondo isso) descobertas de novos tratamentos fossem congeladas por um século e o enfoque passasse a ser no estudo do raciocínio médico e de como melhor aplicar o conhecimento que já temos, esta seria uma era de renascimento. Uma era de muito mais evolução e benefício para os pacientes do que observamos hoje.

Torço para que estudos futuros de boa qualidade testem corretamente a hipótese do “congelamento” e tomara que esta conduta seja benéfica. Porém minha torcida maior, com otimismo, é para que este venha a ser um século de iluminismo do pensamento médico.