quinta-feira, 30 de junho de 2011

CHADSVASc: a Discussão Continua ...

Recentemente os colegas Danilo e Marcus Picoral me chamaram a atenção através deste Blog para um trabalho publicado no British Medical Journal, o qual avalia a acurácia do CHADSVASc para predizer desfechos em pacientes com fibrilação atrial, não anticoagulados.

Este trabalho é uma análise retrospectiva feita da Dinamarca, a partir dos registros do diagnóstico de internamento (CID) contidos no sistema de saúde daquele país. Os autores cruzaram o registro ambulatorial de que o paciente tinha fibrilação atrial com um eventual registro hospitalar de internamento por acidente vascular cerebral. Desta forma, dá para perceber que a validade interna dos dados apresentados neste trabalho é menor do que se fosse uma coorte de pacientes com fibrilação atrial para fins científicos. Não obstante, esta evidência não pode ser descartada, pois sua metodologia permitiu a análise de uma amostra de tamanho sem precedentes em 70.000 pacientes.

Este inédito tamanho amostral proporcionou (agora assim) que as estimativas do risco de AVC em cada pontuação do CHADSVASc fossem mais precisas, visto que os intervalos de confiança foram estreitos o suficiente para que cada faixa se diferenciasse em risco de AVC (menor superposição). Vale salientar que os valores encontrados diferem dos contidos na tabela que o Guideline Europeu apresentou, baseada em dados quase imaginários. Desta forma, agora temos uma tabela verdadeira, que nos permite saber qual o risco de acordo com o valor do CHADSVASc. Embora sejam dados provenientes de códigos de internamento, acho que o estudo agrega valor pelo seu tamanho amostral (os erros ficam um pouco mais diluídos).

Por outro lado, esse trabalho traz um dado concreto que reafirma nossa análise feita na postagem anterior: a acurácia discriminatória (entre quem vai e quem não vai ter AVC) do CHADSVASc é idêntica à do CHADS. Neste estudo de 70.000 pacientes, a estatísticas-C do CHADSVASC analisado em toda sua amplitude de valores (0-9) é 0.79, comparada a 0.80 do CHADS2 no seguimento de 10 anos. Ou seja, CHADSVASC de fato não é melhor.

Quem lê só o resumo do estudo, sai com a impressão de que as estatísticas-C do CHADSVASc são melhores. Porém a análise que demonstrou isso foi a que testou ambos os escores simplificados, ou seja, 3 possibilidades de classificação apenas (baixo, médio ou alto risco). Esta é uma forma inadequada de utilizar estatística-C, a qual funciona melhor para variáveis numéricas ou para ordinais que possuem vários possibilidades de resposta. A análise que vale é aquela que testou a estatística-C usando toda a amplitude dos escores. Nesta, eles são iguais, como descrito no parágrafo acima.

O artigo conclui que CHADSVASc is more valid for stroke prediction in patients categorised as being at low and intermediate risk by the CHADS scheme.

Eles dizem isso porque os pacientes classificados com de baixo risco pelo CHADSVASc realmente têm menor incidência de eventos embólicos (0.66%) do que os pacientes classificados como de baixo risco pelo CHADS (1.24%). Por outro lado (isto eles não dizem), os pacientes classificados como de alto risco pelo CHADSVASc têm menor incidência de eventos embólicos (5.72%) do que os pacientes classificados como de alto risco pelo CHADS (7.97%).

É trocar uma coisa pela outra. Por isso que o CHADSVASC não tem uma estatística-C melhor do que o CAHDS, não é superior.

O que é mais importante, identificar pacientes de alto risco ou de baixo risco? No mínimo, as coisas são igualmente importantes.

quinta-feira, 23 de junho de 2011

O Extraordinário Fenômeno de Regressão à Média


O fenômeno de regressão à média é um dos processos menos compreendidos entre leigos e médicos e esta incompreensão provoca interpretações inadequadas de observações científicas. Esta falta de entendimento não decorre de complexidade, pois este é um fenômeno simples. Decorre da regressão à média ser dependente do acaso e da mente humana não estar condicionada a considerar o acaso como um importante componente dos eventos universais.

Por uma questão evolutiva, de sobrevivência, acostumamos a encontrar alguma relação de causa-efeito para qualquer fato com o qual nos deparamos. Nossos ancestrais, na tentativa de criar um ambiente favorável à sobrevivência, procuravam associar todo fato positivo e todo fato negativo a uma causa específica. É freqüente a observação “peguei uma gripe, pois tomei um vento forte ontem”. Na verdade adquirir ou não uma infecção viral é puraobra do acaso, ou azar de ter respirado um ar momentaneamente contaminado por um vírus. O azar ou a sorte diferencia pessoas que ficaram ou não doentes durante um surto de gripe. No entanto, nosso pensamento inato não funciona assim. Por isso que o fenômeno de regressão à média não é intuitivo.

A regressão à média define que em qualquer série de eventos aleatórios, há uma grande probabilidade de um acontecimento extraordinário ser seguido, em virtude puramente do acaso, por um acontecimento mais corriqueiro. Tentarei ilustrar isto com exemplos cotidianos, depois utilizarei o exemplo de um ensaio clínico para demonstrar a importância disto na prática científica.

Imaginem um aluno mediano, daquele que tira sempre a nota mínima para passar de ano, digamos 5,0. Um belo dia esse aluno chega em casa com uma nota 9,0 em matemática (sem ter colado na prova, ou seja, nota verídica). Os pais ficam felizes, elogiam e até lhes compram um belo presente, na intenção de que o incentivo perpetue aquele extraordinário desempenho do garoto. No entanto, na prova seguinte, o aluno volta a seu padrão mediano, recebendo uma nota 6,0. Os pais pensam: não se pode elogiar, temos que ser mais duros com ele. Mas não foi a moleza dos pais que provocou a queda do aproveitamento, foi o fenômeno de regressão à média. Na verdade, o normal do garoto é tirar notas medianas, a nota 9,0 foi obra meramente do acaso e o acaso tende a não se repetir. Por isso que no próximo teste o garoto vai regredir à média de suas notas ao longo do ano. 

Outro dia, o aluno top da turma por acaso tira uma nota 6,0 em matemática. Os pais, bastante rígidos, o colocam de castigo. Na prova seguinte, ele tira nota 10, como de costume. Raciocínio dos pais? Temos que ser duros com ele, assim dá resultado. Nada disso, a nota 6,0 foi um acaso, ele regrediria a sua nota 10 de qualquer jeito.

Assim surgiu o mito de que quanto mais rígida a escola, melhor o desempenho do aluno. A palmatória, usada na época de nossos avós, surgiu exatamente da falta de entendimento da regressão à média. O bom aluno, quando falhava, melhorava após a punição. O aluno medíocre, quando tinha um bom desempenho, não poderia ser premiado, pois após a premiação, seu rendimento cairia. Quanto sofrimento poderia ter sido evitado pelo conhecimento da regressão à média.

Às vezes um bom jogador de futebol (porém não espetacular), após boas temporadas pelo campeonato brasileiro, joga um campeonato extraordinário (artilheiro), se tornando um ídolo. Daí se cria um mito, um novo Pelé. O jogador é rapidamente vendido para um clube europeu por milhões de Euros. Lá não corresponde às expectativas. Daí surgem várias explicações: não se adaptou ao frio, tem saudade dos amigos, só quer saber de balada... Nada disso, simplesmente regressão à média. Claro, as baladas atrapalham, mas craque é craque, que diga Romário.

Lembro de Adriano, bom jogador, que se tornou um ídolo após ter feito um gol na final da Copa América contra a Argentina, aos 47 minutos do segundo tempo. Brasil campeão, por acaso. Adriano se tornou um mito depois daquele jogo, sendo inclusive comparado a Ronaldo Fenômeno. Foi para Europa e regrediu à sua média de bom jogador. Até concordo que houve outras causas, mais um grande fator foi a sua valorização excessiva após algo ocorrido pelo acaso. Com certeza, regressão à média foi um importante componente.

A figura acima ilustra porque pais muito baixos tendem a ter filhos mais altos que eles e pais extremamente altos tendem a ter filhos um pouco mais baixos que eles. Esse é um dos mais usados exemplos de regressão à média. Os pais eram tão baixos ou tão altos por acaso.

Entrando na ciência médica, o fenômeno de regressão à média explica porque é imprescindível a presença de um grupo controle para avaliar se uma intervenção é benéfica. Recentemente foi publicado no Journal of American College of Cardiology um ensaio clínico randomizado, avaliando o efeito do transplante de células-tronco na melhora da fração de ejeção em pacientes com miocardiopatia isquêmica. Metade dos pacientes recebeu células-tronco e a outra metade não, servindo de grupo controle. Interessante notar que a média da fração de ejeção no grupo controle apresentou um aumento de 7% em termos absolutos, sem que nada fosse feito. O grupo transplantado apresentou uma melhora maior, a qual foi estatisticamente superior ao grupo controle, concluindo-se que a terapia influenciou positivamente na função ventricular. Agora imaginem se o tratamento não servisse para nada e os autores fizessem um estudo sem grupo controle. A melhora de 7% entre antes e depois, estatisticamente significante, lhes faria concluir que a terapia teria funcionado. Mas essa melhora decorreu do fenômeno de regressão à média. Isso ocorre quando uma amostra é selecionada com base em uma característica anormal, no caso, fração de ejeção muito baixa. Alguns desses pacientes estão com valores tão baixos por acaso. Quando é feita uma segunda medida, eles tendem a regredir à média, elevando a média geral do grupo.

É por este mesmo motivo que ensaios clínicos de drogas anti-hipertensivas e anti-lipidêmicas precisam de grupo controle, não basta medir antes e depois, pois a segunda medida da pressão arterial e do colesterol sempre tenderá a ser menor, uma vez que a seleção da amostra foi feita com base na variável de interesse sendo anormal.

Como este fenômeno é mal compreendido, vemos com freqüência pessoas insistindo em avaliar efeito de uma estratégia terapêutica simplesmente medindo a variável de desfecho antes e depois. O paciente nunca pode ser seu próprio controle, pois a média do grupo tende sempre a melhorar. É um equívoco testar efeito terapêutico sem grupo controle.

Enfim, na vida cotidiana e científica devemos considerar o acaso com um dos componentes da realidade multifatorial responsável pelos fenômenos a nossa volta. Isso evitará interpretações equivocadas de nossa realidade e desenhos metodológicos incorretos. A noção do fenômeno de regressão à média é um dos componentes da maturidade científica.

* Esta é a primeira postagem da série Curiosidades Estatísticas de Utilidade Científica.

quinta-feira, 16 de junho de 2011

STICH Trial: Um Estudo Negativo (por Anis Rassi Jr)

O STICH trial foi comentado neste Blog como um estudo negativo, ou seja, indica que cirurgia de revascularização não traz benefício além do tratamento clínico em pacientes com miocardiopatia isquêmica.
Percebe-se ao longo do estudo uma tendência a não aceitar plenamente sua negatividade. Isso fica demonstrado na dúbia conclusão do autor:

In this randomized trial, there was no significant difference between medical therapy alone and medical therapy plus CABG with respect to the primary end point of death from any cause. Patients assigned to CABG, as compared with those assigned to medical therapy alone, had lower rates of death from cardiovascular causes and of death from any cause or hospitalization for cardiovascular causes.

As colocações informais do autor vão ainda mais longe na valorização de análises secundários, em detrimento da análise primária, colocando o estudo como pró-cirúrgico: 

No trial is “negative” if patients and physicians win by having access to truly new data to inform complex decision making. The totality of the information — i.e., the adjusted analyses of the as-randomized (intention-to-treat population) for the all-cause mortality endpoint, the unadjusted and adjusted analyses of the important secondary endpoints, and the treatment-received and per-protocol analyses of all the endpoints — clearly supports the clinical efficacy of CABG plus medical therapy over that of medical therapy alone. My fellow investigators and I hypothesized that CABG plus medical therapy would reduce unadjusted all-cause mortality by 25%; instead, the hazard ratio in the CABG group was 0.86 (relative risk reduction, 14%; P=0.12). So from a purely statistical perspective, our finding did not prove our hypothesis; what we may infer clinically from the data is a different thing.

Em resposta, Anis Rassi Jr enviou a correspondência abaixo ao New England Journal of Medicine, nos cedida pelo autor para postagem neste Blog. Um bom exemplo de interpretação correta de evidências científicas:

Findings of the STICH Trial do not support preferential indication of CABG above medical therapy alone for patients with left ventricular dysfunction. All-cause mortality (primary outcome) did not differ between treatment groups. The decrease in cardiovascular mortality (secondary outcome) was marginal (p=0.05), unadjusted for multiple outcome comparisons, and clinically irrelevant since overall mortality was unaffected. Death from any cause or hospitalization for cardiovascular causes (another major secondary outcome), although lower in the CABG group, was not prespecified and was newly introduced in the published report.

Also, whether subsequent CABG was counted as a hospitalization event is not clear, but doing so could have biased the results against the medically-treated group. Finally, there is no justifiable reason for secondary as-treated and per-protocol analyses, particularly when treatment crossovers of up to 20% were anticipated and included in the sample size and power calculations (2). With recent evidence that in different subgroups of patients with chronic CAD, surgical or percutaneous coronary revascularization is not superior to optimal medical therapy (1,3,4) a randomized trial of left main disease is now justified.

domingo, 12 de junho de 2011

Telefone Celular, Câncer e os Alarmistas


Na semana passada, a principal notícia da imprensa leiga a respeito de saúde foi a possível relação entre telefone celular e câncer cerebral. Ao assistir longas reportagens no Jornal Nacional e na CNN, me questionei: qual o embasamento científico a respeito disso? Existem estudos?

Sim, existem vários estudos, portanto precisamos analisar a totalidade das evidências para chegarmos à conclusão. O tipo de estudo que nos fornece evidências a este respeito desse assunto têm o desenho de caso-controle. Sabemos que o ideal para se avaliar fatores de risco são estudos de coorte, mas esses são impraticáveis para doenças de baixa incidência. Como câncer de cérebro não é uma doença muito comum (tal como câncer em geral ou doença cardiovascular), centenas de milhares de pacientes teriam que ser seguidos prospectivamente para que alguns desenvolvessem esse problema. Isso seria impraticável. Nesta situação de raridade do desfecho, se utiliza o desenho de estudo denominado caso-controle. Nesse caso, são identificados pacientes com câncer de cérebro e indivíduos saudáveis. Então se aplica um questionário avaliando como foi nos últimos anos o uso de celular dessas pessoas. Ou seja, os doentes utilizaram mais celular do que os saudáveis?

Então o que dizem esses estudos? A grande maioria não demonstra associação entre câncer e uso de celular. Uma minoria de qualidade metodológica questionável sugere efeito protetor do celular contra câncer. E outra minoria de qualidade metodológica limitada sugere que celular causa câncer. Essas informações estão bem sumarizadas em uma revisão sistemática publicada na respeitada revista Epidemiology em 2009. E para corroborar com o que sugere a maioria das evidências, neste ano foi publicado no respeitado International Journal of Epidemiology o maior dos estudos de caso-controle, denominado INTERPHONE Study. Nesse grande estudo, participaram 13 países, sendo recrutados 2.708 pacientes com glioma, 2.409 pacientes com meningioma e 7.658 controle pareados. Resultado? Não há associação entre celular e câncer na análise primária do estudo. Em outras palavras, celular não causa câncer.

Outra importante evidência a favor da inocência do celular é a ausência de aumento da incidência de câncer de cérebro nos últimos 15 anos, de acordo com estudos de desenho ecológico. No início da década de 90, virtualmente ninguém no mundo usava celular. Na década de 2000, virtualmente todas as pessoas usavam celulares. Viraria uma epidemia de câncer de cérebro. Mas nada foi observado.

Mas porque então surge na imprensa uma notícia como essa? Porque a Organização Mundial de Saúde reconhece a possibilidade do vínculo entre celular e câncer?

Identifico três causas, a serem descritas nos próximos parágrafos:

Primeiro, os alarmistas, pessoas que vivem de assustar as pessoas. Os alarmistas existem em várias áreas, por todo lado. Existem porque uma notícia ruim gera mais impacto do que uma notícia boa. Quando assistimos ao Jornal Nacional, saímos deprimidos, pois o que vemos são 80% de notícias ruins e 20% de notícias neutras ou boas. Mas isso é um viés, o mundo é melhor do que parece aos olhos dos telejornais. É só olhar ao redor. Mas os alarmistas vivem do incêndio, seja por vocação, seja por interesse. Em nossa prática, vemos médicos alarmistas, também chamados de incendiários. Estes são aqueles que supervalorizam o problema de seu paciente, para também supervalorizar a importância de seu tratamento. Indivíduo assintomático, faz teste ergométrico desnecessário, porém positivo para isquemia miocárdica. Daí faz um cateterismo que mostra obstrução em apenas uma artéria. O médico alarmista diz ao paciente que ele pode ter um infarto ou morrer, portanto precisa fazer uma angioplastia. O médico científico diz que a angioplastia não reduz infarto, nem reduz probabilidade de óbito, então o que o paciente precisa é controlar seus fatores de risco. Qual médico parece mais importante aos olhos de mentes superficiais? O alarmista, é claro. Esse aparentemente resolveu o problema do paciente de forma mais ativa. Este é um simples exemplo do benefício pessoal de ser alarmista.

Segundo, a mente humana tende a ser crédula, por uma questão puramente evolutiva. Isso se explica pela lei da sobrevivência. Há 200.000 anos, o homem vivia em constante perigo. Quando os arbustos na floresta se mexiam, a probabilidade maior era de ser apenas o vento. Mas o homem crédulo achava logo que era um leão se aproximando e saía correndo. Um dia viria a ser um leão de fato. Assim, a mente crédula teve uma maior probabilidade de sobreviver do que a mente cética. Por este motivo, o homem é biologicamente crédulo. É só um alarmista trazer o problema, que logo acreditamos, devido ao medo, ao instinto de preservação. Mas estamos em outra época, não vivemos mais em constante perigo e hoje existe algo denominado ciência. Em ciência, uma idéia só deve ser tornar vigente, quando somos capazes de rejeitar a hipótese nula. Como comentado na postagem anterior, a premissa básica do pensamento científico é a hipótese nula. Só fortes evidências a rejeitam. Não há forte evidência para rejeitar a hipótese nula de que celular não causa câncer.

Terceiro, os politicamente corretos. Essas são pessoas que não têm convicção de que o celular causa câncer, no fundo acham que não causam, mas se posicionam com preocupação, cuidado e falam: ainda não sabemos, por via das dúvidas, devemos aproximar pouco o telefone da cabeça ou usar o viva-voz. Para estes, fico uma frase da Bíblia sempre lembrada por Nizan Guanaes: "Seja quente, ou seja, frio, não seja morno que eu vomito." O certo, sem querer parecer equilibrado é dizer: celular não causa câncer. Até que se prove o contrário, o que é muito improvável.

O telefone celular representou uma das maiores revoluções em comunicação do final do século passado, nos trouxe vários benefícios. Talvez a gente até exagere no uso dessa ferramenta, mas rejeitar a hipótese nula sobre o risco do celular e assumir que este causa câncer com base em estudos de má qualidade metodológica (desprezando os melhores estudos) é um desserviço.

Enfim, não precisamos exagerar no politicamente corretos, nossa mente não precisa funcionar como a dos nossos ancestrais, nem devemos nos influenciar por alarmistas: celular não causa câncer!

sábado, 4 de junho de 2011

A Futilidade da Niacina


De acordo com o dicionário Wikipédia, um dos significados da palavra futilidade é inutilidade, aquilo que não dá resultado. É o que está demonstrado na figura acima: tentar acertar a bolinha de golfe é quase o mesmo que não tentar, pois a probabilidade de acerto é mínima. Então essa tentativa pode ser considerada fútil. Em medicina baseada em evidências, o termo futilidade se aplica quando uma intervenção não produz resultados, ou no máximo produz um resultado desprezível.

É o que foi demonstrado pelo ensaio clínico AMI-HIGH, o qual testou a hipótese de que o uso de niacina (ácido nicotínico, vitamina B3) traz benefício em indivíduos que já fazem uso de estatina, mas têm HDL-colesterol baixo. Esse estudo pretendia randomizar 3.400 pacientes, mas foi interrompido com 1.700, pois não havia nenhum indício de benefício em análise interina. Em outras palavras, foi interrompido porque a Niacina preencheu critério de futilidade: mesmo se o estudo continuasse, iria mostrar ausência de benefício ou na melhor das hipóteses um benefício desprezível.

Já critiquei nesse Blog estudos truncados (interrompidos precocemente) que mostram benefício de uma terapia. Porém no caso presente a crítica não se aplica, pois a interrupção foi por critério de futilidade. Sabemos que o pensamento científico deve partir da premissa de que a hipótese nula é verdadeira. Interromper um estudo e continuar com a hipótese nula está dentro da ordem cientifica. Principalmente se a análise mostra que se houver benefício, este será irrelevante.

Por outro lado, é criticável rejeitar a hipótese nula (premissa básica) com base em estudo truncado. É exatamente devido à violação desse princípio científico da hipótese nula que muitos mitos são criados em medicina e depois precisam ser derrubados.

As pessoas acreditam nas coisas antes da hora. Por exemplo, acreditamos antes da hora que Robinho seria um novo Pelé. Até Pelé falou isso. Rejeitamos a hipótese nula de que Robinho era normal. O tempo mostrou que Robinho é apenas um bom jogador. Foi um entusiasmo precoce. Em futebol, tudo bem. Mas em medicina não podemos fazer isso (a exceção do paradigma do para-queda).

Vamos voltar à Niacina.

Ao longo da última década a indústria farmacêutica fez uma propaganda entusiástica do uso de niacina para paciente com HDL-baixo. Com isso ressuscitou a utilização de uma droga que após o advento das estatinas havia perdido espaço. O faturamento anual com a venda de Niacina nos Estados Unidos chega a $1 bilhão. O problema é que todo esse faturamento não é baseado em evidências. Os estudos que mostraram algum benefício clínico com Niacina datam mais de 30 anos, época em que estatinas não existiam. Agora com o uso de estatina, precisamos demonstrar benefício clínico nesse cenário.

Todos nos lembramos das visitas dos representantes, que argumentavam plausibilidade biológica, citavam estudos de Niacina em pacientes sem estatina ou citavam estudos de desfechos substitutos. Mas essas propagandas não eram cientificamente convincentes.

HDL-colesterol baixo tem associação independente com eventos cardiovasculares em estudos de coorte prospectiva, inclusive com uma relação dose-resposta. Estes dados epidemiológicos aliados à plausibilidade permitem a conclusão de que HDL-colesterol baixo representa um fator de risco para doença aterosclerótica. Isso é conclusão científica. A partir daí, pode-se criar a hipótese de que se aumentarmos farmacologicamente o HDL-colesterol, reduziremos eventos cardiovasculares. Isso é uma hipótese plausível. Por outro lado, considerar isso uma verdade suficiente para adotar a conduta é pura extrapolação.

Ao tempo em que critico a propaganda não embasada, devo reconhecer o mérito da indústria em ter co-financiado este estudo. Este não foi um estudo conduzido pela indústria, foi conduzido e parcialmente financiado pelo National Institute of Health (NIH), órgão governamental, isento. Mesmo assim, a Abbot aceitou financiar metade das despesas do estudo, sem influência nos resultados. É um mérito e um modelo que deveria ser mais freqüente: estudos financiados pela indústria, porém conduzidos por orgãos independentes.

O AMI-HIGH não está publicado, foi apenas anunciado em forma de conferência no NIH. Estes eram pacientes de alto risco cardiovascular, em uso de estatina, com LDL baixo, porém HDL baixo e triglicérides elevados. Apesar de a Niacina ter aumentado o HDL-colesterol, não houve benefício clínico: a incidência anual do desfecho primário composto foi 5.6% no grupo controle versus 5.8% no grupo niacina. Esse desfecho primário foi o composto de infarto fatal e não fatal, AVC, angina instável ou revascularização.

Precisamos entender que os sistemas biológicos são complexos, o que faz com que eventos sejam decorrentes de uma multiplicidade de fatores, que possuem uma multiplicidade de interações. Impossível prever o resultado de uma intervenção. Embora HDL-colesterol seja uma molécula anti-aterogênica, aumentar sua concentração pode não ter efeito anti-aterogênico, pois qualitativamente essas novas moléculas podem ser diferentes. Lembram do estudo Illuminate, que testou torcetrapib, uma droga muito mais potente do que Niacina para aumentar HDL-colesterol? Aumentou mortalidade! Justificaram pelo aumento dos níveis pressóricos com a droga, mas será que foi por isso mesmo? Recentemente, o estudo ACCORD não mostrou benefício de fibratos em diabéticos sob uso de estatina, que tinham HDL-colesterol médio de 38 mg/dl.

Ou seja, Niacina, torcetrapib, fibratos, todas estas são estratégias que aumentam HDL-colesterol, porém sem resultar em benefício clínico. Será que estamos com a hipótese certa? Será que HDL-colesterol é mesmo fator de risco? Sabemos que a validação final de um fator de risco é quando o controle do fator reduz a incidência de doença. Tratar LDL-colesterol reduz desfecho, tratar hipertensão reduz desfecho, parar de fumar reduz desfecho. Mas ainda não conseguimos provar o mesmo com HDL-colesterol. Os estudos de 30 anos atrás com Niacina aumentavam HDL-colesterol, mas também reduziam LDL-colesterol. De onde veio o benefício?

Essa é mais uma história que nos lembra do paradigma da medicina baseada em evidências. Mais um exemplo de que plausibilidade biológica não é suficiente para garantir benefício clínico. Mais um exemplo de que estudos de desfechos substitutos não garantem benefício clínico. E assim vamos evoluindo cientificamente.

quarta-feira, 1 de junho de 2011

Como Analisar Criticamente um Artigo sobre Acurácia


Na postagem anterior, definimos acurácia e mostramos a importância das medidas de sensibilidade, especificidade e razões de probabilidades de métodos diagnósticos. Estes parâmetros não surgem por encanto. O conhecimento da acurácia de um método é proveniente de evidências científicas. Como toda evidência científica, estas também devem passar pelo crivo da análise crítica dos métodos utilizados para chegar às respectivas conclusões. A comunidade médica está mais habituada a avaliar criticamente ensaios clínicos terapêuticos, mas a correta avaliação da acurácia de testes é de igual importância, pois tudo começa pelo diagnóstico.

Estudos de acurácia possuem o caráter transversal, do tipo que avalia uma realidade no momento presente. E diagnóstico é isso mesmo, é a tentativa de retratar o que está ocorrendo no presente. Portanto, não se faz necessário seguimento prospectivo. A metodologia consiste na realização do método em questão e na checagem se este método foi capaz de detectar os doentes (sensibilidade = testes positivos/doentes) e detectar os saudáveis (especificidade = testes negativos/saudáveis). Para avaliar se o método faz essa distinção corretamente, precisamos saber quem é realmente doente ou saudável. Desta forma, é necessário que os pacientes realizem outro exame, teoricamente melhor que o exame em questão, o qual é denominado de padrão-ouro ou padrão de referência. Por exemplo, para avaliar a acurácia da angiotomografia de coronárias, o cateterismo cardíaco será o padrão-ouro.

Muito bem, assim se fazem os estudos de acurácia diagnóstica. Para avaliar criticamente um estudo deste tipo, sugiro os seguintes passos:

1) Verifique se o padrão de referência escolhido é adequado, ou seja, realmente o padrão de referência é um método ouro? Um exemplo, um estudo publicado no New England Journal of Medicine, que avaliou acurácia da angiotomografia para o diagnóstico de embolia pulmonar, utilizou angiografia invasiva (OK) ou cintilografia pulmonar (?) ou ultrassom de membros inferiores (???) como padrões de referência. Claro, essas duas últimas referências podem ser de pior acurácia do que a angiotomografia, então não poderiam ser referências.

2) Verifique se a leitura do padrão de referência foi independente da leitura do método avaliado, ou seja, feita por pessoas diferentes, para que o conhecimento do padrão-ouro não influencie da leitura do exame. Além disso, a leitura do método deve ser cega em relação ao quadro clínico do paciente. Se não, o resultado do método não será apenas proveniente do método, mas da visão clínica do observador. As coisas não podem se confundir.

3) Procure pelo viés de verificação (referral bias): esse é o viés mais comum em estudos de acurácia. Ocorre quando nem todos os pacientes avaliados realizam padrão-ouro. A maioria dos estudos que avaliaram a acurácia da cintilografia miocárdica sofreu desse viés. Isso por que os médicos ficavam menos motivados a solicitar cateterismo cardíaco (padrão-ouro) se a cintilografia fosse negativa. Esse viés superestima a sensibilidade e subestima a especificidade. Imaginem se nenhum paciente com teste negativo fizesse o cateterismo e todos os pacientes com teste positivo fizessem o cateterismo. Isso iria provocar sensibilidade de 100% e especificidade de 0%. É só pensar um pouco que dá para entender: todos os pacientes com cateterismo positivo teriam cintilografia positiva (sensibilidade 100%) e nenhum paciente com cateterismo negativo teriam cintilografia negativa, porque só tinha gente com teste positivo (especificidade 0%). Já estudos mais contemporâneos, a exemplo dos que avaliaram a angiotomografia de coronárias, preveniram esse problema, pois recrutaram pacientes que já tinham indicação de cateterismo.

4) Verifique se o estudo é retrospectivo ou prospectivo. Na situação retrospectiva, o estudo é menos confiável,  pois o exame não é realizado com intuito de ser avaliado, na verdade eles são realizados como parte da conduta clínica. Desta forma, sua leitura é menos padronizada e nem sempre cega. Já vi na prática médicos laudando métodos de pesquisa de isquemia miocárdica tendo o laudo do cateterismo para se embasar. Do ponto de vista da geração de conhecimento científico, isso é um grande viés. Os estudos retrospectivos são também muito vulneráveis ao viés de verificação, pois refletem a prática clínica. Diferente de um desenho prospectivo, onde obrigatoriamente o paciente faz o padrão-ouro. Além disso, estudos retrospectivos são mais sujeitos ao viés de publicação, ou seja, têm menos possibilidade de serem publicados se o resultado for negativo. Já o prospectivo não, foi tudo planejado e o autor tem motivação de publicar, independente do resultado. Essa é a explicação para a falácia da avaliação de dissincronia pelo ecocardiograma. Esse método foi tido na década passada como um ótimo exame para predizer resposta à terapia de ressincronização. Porém eram todos estudos pequenos, a maioria retrospectivos, e no máximo deveriam ter gerado hipótese. No entanto, as pessoas se entusiasmaram e começaram a utilizar essa avaliação na prática clínica. Depois ficaram todos perplexos pelo resultado do primeiro estudo prospectivo de grande porte (denominado PROSPECT), que mostrou sensibilidade e especificidade em torno de 50% para a maioria dos parâmetros. Grande lição. Alguns viuvos da avaliação de dissincronia ainda tentam criticar o PROSPECT, mas sem grande repercussão.

5) Finalmente, observem intervalo de confiança das estimativas da sensibilidade e especificidade. Este nos dará a idéia da precisão do que está sendo dito a respeito da acurácia. Há artigos que nem traz esse o intervalo de confiança. Esta omissão é o mesmo que fazer uma comparação entre droga e placebo e não mostrar o valor de P. Lembro-me de um trabalho que encontrou uma especificidade de 85% da tomografia de coronárias. Porém o intervalo de confiança is de 62% a 96%. Ou seja, a precisão da estimativa não era boa, pois o trabalho só tinha 50 pacientes. De acordo com esse trabalho só poderíamos afirmar que a especificidade não é pior que 62%.

Depois de tudo isso, não podemos esquecer de avaliar se as razões de probabilidade são boas, pois tem autor concluindo muita besteira por aí. Além disso, tem gente fazendo conclusões erradas com base apenas no valor preditivo.

Chega a ser divertido ler com atenção artigos de acurácia. Criem esse hábito e vejam com é fácil achar erros. Parece até jogo dos sete erros.

* Essa é a segunda postagem da série Análise Crítica de Métodos Diagnósticos