domingo, 21 de julho de 2013

LOOK AHEAD



Recentemente, foi publicado no New England Journal of Medicine o estudo LOOK-AHEAD, o qual demonstrou ausência de benefício clínico de intervenção intensa com  exercício físico e dieta para perda de peso em pacientes diabéticos. Será que é verdade?

Citamos este estudo na polêmica postagem O Politicamente Correto e as Recomendações de Hábitos de Vida. Naquele momento, o resultado do LOOK-AHEAD estava anunciado, porém o artigo não havia sido publicado na íntegra. Agora podemos fazer a avaliação deste trabalho, sendo uma boa oportunidade para discutir como analisar veracidade de estudos negativos.

O resultado do LOOK-AHEAD vai de encontro a uma forte crença: intervenção com exercício e dieta para perda de peso trazem benefício clínico. Esta crença é tão forte que a comunidade médica nem mesmo achava que este trabalho seria necessário, tal a “certeza” do benefício destas intervenções. Agora com o artigo publicado, devemos dissecar a evidência. Neste caso, faremos uma análise ainda mais detalhada do que o habitual, devido à surpresa do resultado negativo. Quem achar cansativo, simplesmente acredite na veracidade do trabalho, pule as próximas três partes e leia a parte final, que fala do conforto cognitivo.  Mas quem quiser aproveitar para revisar como se avalia um estudo negativo, leia tudo.

Um estudo pode ser negativo por dois motivos: de fato pode não haver benefício da conduta testada; ou pode ser negativo devido a erros: sistemáticos (vieses) ou aleatórios (acaso). Temos que diferenciar as duas circunstâncias. O resultado de qualquer estudo deve ser visto com ceticismo até que se aplique a análise sistemática da veracidade da evidência. Ceticismo é bom, pois nos deixa mais atentos. 

Erros Sistemáticos (vieses)

Que falhas metodológicas poderiam fazer deste um estudo falso negativo? Observem na equação de um ensaio clínico que de um lado há a intervenção, do outro lado há o desfecho.

INTERVENÇÃO  => DESFECHO

Erros podem acontecer na aplicação da intervenção ou aferição do desfecho.

A intervenção foi descrita pelo protocolo do estudo como “intensa”, caracterizada por reuniões de aconselhamento toda semana, durante os 6 primeiros meses. A dieta recomendada tinha 1.200 a 1.800 calorias/dia e o exercício 175 minutos de atividade moderada-intensa por semana. Parece um bom planejamento, mas o que temos que questionar é se a intervenção promoveu as alterações antropométricas e fisiológicas que teoricamente resultariam em benefício clínico. Esta análise mostra que de fato os pacientes perderam 8.6% de peso no primeiro ano, tal como havia sido planejado pelo estudo. Mais do que isso, sustentaram boa parte dessa perda de peso aos longos dos 13 anos de estudo, terminando com 6% de peso a menos do que no início do estudo. Isso parece pouco, 6-8% de redução em população de 100 Kg em média. De fato, não é uma perda de peso que deixa ninguém esbelto, mas é o que se consegue com dieta; e é dieta que está sendo aqui testada. Inclusive, essa perda de peso supera o que se verifica em estudos de droga para obesidade. Por exemplo, a “aclamada” Sibutramina reduziu 4.5% do peso no estudo SCOUT. Desta forma, o estudo conseguiu testar uma intervenção que de fato reduziu peso; ou melhor reduziu o peso que dieta consegue reduzir. Portanto, não houve viés de aplicação da intervenção.

E quanto ao exercício? Este também foi eficaz em promover mudanças fisiológicas, tendo gerado ganho de capacidade funcional, medido em METS.

Ainda dentro da análise da intervenção, é importante verificar se o grupo controle de fato fez o papel de controle. Um bom controle tem que ser diferente da intervenção, gerando um contraste que provoque diferença de desfecho entre os grupos. Por questões éticas, o grupo controle também recebeu aconselhamento, em menor intensidade. Isso promoveu perda de peso progressiva ao longo dos anos, reduzindo um pouco o contraste entre os grupos. Mas isso não foi suficiente para fazer o contraste desaparecer: em média, ao longo dos anos de estudo, a diferença de peso entre os grupos foi 4 Kg, o que se considera significativo em estudos que avaliam perda de peso com dieta. Na verdade, em estudos de hábitos de vida, é esperado que o grupo controle tenha algum tipo de melhora simplesmente pela motivação de estarem no estudo. O que temos que avaliar é se essa melhora foi grande o suficiente para invalidar o estudo. Aqui não parece ter sido o caso.

Desta forma, quando à intervenção não identificamos vieses preocupantes.

E quanto ao desfecho? Este foi um desfecho composto apenas de eventos duros, objetivos e de importância clínica: morte, infarto e AVC. Isto torna improvável a possibilidade de viés de aferição dos desfechos. Mesmo em estudos abertos como o LOOK-AHEAD (não poderia deixar de ser, por questões óbvias), estes tipos de desfechos raramente sofrem erros de aferição, pois são muito objetivos. Além disso, os autores tiveram o cuidado de tornar cega a adjudicação (auditoria) destes desfechos, evitando que estes pesquisadores soubessem da alocação dos pacientes. Mesmo assim, um eventual viés de aferição, se ocorresse, possivelmente seria a favor do grupo intervenção, visto que a noção de que um paciente experimentou perda de peso e praticou atividade física nos deixa mais propícios a acreditar em melhora prognóstica para estes indivíduos.

Uma virtude deste estudo é o tempo de follow-up, cuja mediana foi de 10 anos. Usualmente os estudos de prevenção primária têm em torno de 5 anos de segmento (vide estatinas, anti-hipertensivos). Por se tratar de intervenções relacionadas a hábitos de vida, poderia ser que os resultados demorassem mais a aparecer. Portanto, os autores tiveram o cuidado de realizar um longo follow-up, quase sem precedentes em estudos de intervenção. Isso dá mais consistência ao resultado negativo, que não pode ser atribuído a tempo insuficiente para se detectar benefício clínico.

Portanto, aqui temos um estudo confiável quanto à intervenção e quanto à aferição dos desfechos.

Mas ainda analisando erros sistemáticos, resta outra possibilidade: o viés de confusão, que ocorre quando os dois grupos são diferentes e essas diferenças podem provocar heterogeneidade de desfechos. Isso pode explicar o resultado consistente dos estudos observacionais, que demonstram associação entre exercício físico e menor risco cardiovascular. Quem faz exercício é diferente de quem não faz (menos doentes, mais cuidadosos com a saúde) e essas diferenças podem ser as verdadeiras causas do melhor prognóstico destes pacientes. Como solucionar? Fazendo ensaios clínicos randomizados, pois a “mágica da randomização” garante que os grupos sejam semelhantes.

Paradoxalmente, as pessoas não atentam muito para a grande necessidade de ensaios clínicos randomizados e insistem em citar estudos observacionais como evidências definitivas do benefício de hábitos de vida, como é o caso do exercício. São exatamente os hábitos de vida que mais precisam de estudos randomizados, pois estes hábitos trazem consigo várias características demográficas, clínicas, antropométricas, sociais, econômicas de seus praticantes. Portanto, às viúvas do exercício ou perda de peso, por favor, não critiquem o LOOK-AHEAD citando estudos observacionais positivos. O potencial viés do desenho observacional é maior do que qualquer outro.

O LOOK-AHEAD é um estudo randomizado e como podemos perceber na tabela de características clínicas, as duas amostras (intervenção e controle) são idênticas.

Porém ainda há um detalhe que normalmente não se percebe e não é considerado na análise de fatores de confusão. Às vezes, os pacientes são semelhantes no momento basal, mas ao longo do estudo se tornam diferentes.  É o que resolvi denominar de fator de confusão prospectivo. Será que o grupo controle foi melhor tratado com drogas por uma reação compensatória dos médicos para com os pacientes que não foram randomizados para a intervenção? Seria um viés de desempenho, típico de um estudo aberto. De fato, houve maior freqüência do uso de estatinas e anti-hipertensivos. Isso foi o que mais me preocupou como potencial viés. Isto poderia ter feito o grupo controle menos predisposto a desfechos, anulando uma eventual superioridade do grupo intervenção. Fui atrás dos detalhes e o material suplementar do artigo traz as informações. Na verdade, a diferença de uso de estatina foi mínina (74% versus 71%), o mesmo com anti-hipertensivos (88% versus 87%).

Erros Aleatórios

Quando um estudo é negativo (não encontra associação), devemos nos questionar se isto ocorreu devido ao que se chama de erro tipo II: não encontrar uma associação que na verdade existe, devido a falta de poder estatístico. Assim, devemos começar por ler o cálculo do tamanho amostral (usualmente no final dos métodos, no item de análise estatística), observando quatro questões:

Primeiro: qual poder estatístico o autor propõe para seu estudo? Este poder deve ser de pelo menos 80%, pois a maior probabilidade de erro tipo II aceitável é 20%. Observem que a probabilidade do erro tipo II é o complemento do poder estatístico (100% - 80% = 20%). Neste quesito, nunca um autor vai propor ter um poder estatístico menor que 80% (seria um tiro no pé). Assim, geralmente o planejado é um poder de 80%, 85% ou 90%. O que pode acontecer é o autor omitir o cálculo do tamanho amostral, justamente por não ter um poder de pelo menos 80%. Isso levantaria suspeita, mas não foi o caso aqui. No LOOK-AHEAD, o poder proposto foi 80%.

Segundo: qual a diferença de desfecho entre os grupos que o autor se propõe detectar? Esse item é muito importante. Na verdade, não existe um único tamanho amostral necessário para cada estudo, pois este depende da diferença que o autor faz questão de encontrar. Quanto menor essa diferença, maior o tamanho amostral necessário, pois para detectar coisas pequenas, precisamos de uma lente grande. Aqui a lente do estudo é seu tamanho amostral. Se o autor faz questão de encontrar uma diferença pequena, seu tamanho amostral necessário grande. Se a diferença que ele faz questão de encontrar é grande, seu tamanho amostral pode ser menor. Quando digo “encontrar diferença” significo obter um valor de P < 0.05.

O que devemos analisar é se faz sentido o grau de diferença que o autor faz questão de encontrar. Ou colocado de outra forma, qual a diferença que ele tolera não encontrar. Devemos avaliar se nesta proposta o autor está aceitando não encontrar algo que seja clinicamente relevante. Idealmente, o estudo deve ter tamanho amostral para detectar as diferenças que sejam relevantes em magnitude, não necessitando demonstrar diferenças sem importância.

Neste estudo, o autor parte das premissas de que a incidência do desfecho no grupo controle seria de 2% ao ano e de que o tratamento traria um redução relativa de 18% no desfecho. Uma redução relativa de 18% em cima de uma incidência de 2% resulta em 0.4% de redução absoluta ao ano. Parece algo razoável, ou seja, ele não está tolerando que grandes reduções não sejam detectadas, pois tem capacidade de detectar 0.4% de redução absoluta. 

Terceiro: devemos agora olhar nos resultados se realmente a incidência de 2% ao ano ocorreu no estudo, do contrário o estudo não teria um numero de desfechos necessários para oferecer tal poder estatístico. Vejam nos resultados que a incidência do desfecho foi 1.9% ao ano, ficando bem próximo ao que o autor se propôs.

Observem então que a análise do poder não se resume à leitura do planejamento do estudo, mas também à leitura de se o resultado do estudo correspondeu à premissa de incidência do desfecho. Se o autor imaginou que a incidência do desfecho seria X e sua incidência foi menor, o estudo terá um poder menor do que ele planejou.

No LOOK-AHEAD a incidência ficou bem próximo no planejado. Sendo assim, podemos afirmar que o autor tinha um poder de 80% para detectar uma redução relativa de 18%, o que julgamos ser adequado.  Ou seja, o erro tipo II deixa de ser uma preocupação maior.

Quarto: por fim, devemos olhar as diferença de desfecho entre os dois grupos. Observem abaixo a curva de incidência cumulativa. É muito próxima, não há diferença alguma. A suspeita de erro tipo II faz mais sentido quando há alguma diferença que não alcançou significância estatística, o que não é o caso aqui.



Aplicabilidade e Diabetes

O resultado deste trabalho se aplica apenas a diabéticos? Já comentamos várias vezes neste Blog sobre o Princípio da Complacência. Ensaios clínicos são experimentos intensamente controlados, que utilizam de uma população-alvo restrita para prova de conceito. Uma vez este conceito demonstrado, devemos (até certo limite) permitir sua extrapolação para que uma população abrangente se beneficie. Esta conduta é respaldada, pois uma vez demonstrado um conceito, é raro que o conceito mude com a mudança do tipo de paciente. Isto porque interação é um fenômeno raro, é só verificar na análise de subgrupo dos ensaios clínicos em geral. A definição de diabetes como critério de inclusão tem sido usada em ensaios clínicos para identificar uma amostra de risco elevado, o que favorece o poder estatístico do estudo. E não porque o interesse da pergunta diz respeito apenas em diabéticos. Isso tem sido um engano, assim como o não entendimento do Princípio da Complacência tem sido talvez o mais importante equívoco de raciocínio em medicina baseada em evidências.

Desta forma, o presente estudo mostra que a intervenção não é benéfica em diabético. Quanto ao não diabético, o estudo pelo menos reduz a probabilidade de que a intervenção seja benéfica. Há alguma aplicabilidade. Pode não fechar a questão em não diabéticos, mas coloca um forte ponto de interrogação, reforçando a necessidade de que isso seja testado, antes de ficarmos afirmando benéficos não demonstrados.

Conforto Cognitivo

Embora bem desenhado e a despeito de nossa criteriosa análise, não faltarão críticas ao LOOK-AHEAD. Estas críticas serão de múltiplas ordens, e ocorrerão devido ao fenômeno de leitura seletiva, quando rejeitarmos evidências que vão de encontro às nossas crenças e abraçamos as evidências que vão ao encontro de nossas crenças.

Os psicólogos dão algumas explicações para isto e uma delas é o interessante fenômeno de conforto cognitivo. Acreditamos no que é mais confortável, pois é desconfortável ter seus valores questionados, dá trabalho de pensamento. Mudança de paradigma é sempre uma ruptura com a tradição. É mais confortável ouvir alguém falar o que já pensamos, dá menos trabalho mental, por mais monótono que isso possa ser. É interessante perceber a feição das pessoas quando falamos em público. Dá para perceber nitidamente o sorriso, a satisfação de alguém quando estamos falando algo com que a pessoa concorda, enquanto percebemos nítida mudança de expressão quando algo controverso entre em conflito com o pensamento vigente. Uma mentira repetida várias vezes vira verdade, pois se torna confortável ouvir uma idéia comum. Conforto cognitivo é um fenômeno psicológico demonstrado cientificamente. É confortável ouvir falar que intervenção intensa com exercício e dieta são condutas benéficas, é desconfortável ouvir falar o contrário.

Pode ser que uma intervenção que promova perda mais substancial de peso (dieta não consegue de forma sustentada, isso é um fato) ofereça benefícios clínicos. Nesta questão, necessitamos de ensaios clínicos randomizados a respeito do impacto de longo prazo da cirurgia bariátrica em desfechos duros, tais como os avaliados no LOOH-AHEAD. 

Na construção do conhecimento científico, devemos fazer um esforço para nos livrar do conforto cognitivo, estando abertos a novos paradigmas, mesmo que estes sejam transgressores da tradição. O rabino Nilson Bonder nos traz em seu livro “A Alma Imoral” a idéia de que transgressão promove evolução, tradição promove estagnação. E quando a transgressão é baseada em evidências (como é o caso da conclusão do estudo em questão), melhor ainda.

Neste aspecto, este trabalho tem um nome perfeito, até visionário em relação ao resultado aqui apresentado: LOOK-AHEAD. Precisamos olhar para frente, sair na zona de conforto cognitivo e nos permitir transgressões de velhos paradigmas, desde que estas sejam baseadas em evidências científicas. Assim, evoluiremos científica, filosófica e clinicamente.

OBS: Este texto é um complemento da antiga postagem O Politicamente Correto e as Recomendações de Hábitos de Vida, onde o estudo LOOK-AHEAD foi pela primeira vez mencionado. Naquela postagem se encontra nossa opinião em relação ao papel do exercício e perda de peso na recomendação médica.

quinta-feira, 4 de julho de 2013

O Movimento da Ruas e a Medicina Baseada em Evidências



Nessa época de indignação que vinha adormecida há muito tempo, foi bonito ver a manifestação dos médicos ontem pelo país a fora. Cobramos melhores condições de trabalho e mostramos que não é com soluções fictícias que se resolverá o problema da saúde no Brasil. As soluções apresentadas pela presidente deste país evidenciam claramente a desordem que habita a mente presidencial, as virtuais propostas representam mais coisa de marqueteiro do que de estadista. De fato, Dilma está longe de ser um estadista e esse momento requer um desses. De médicos cubanos a “20.000 unidades de atendimento médico” essas são as soluções até então apresentadas.

Qual a relação da medicina baseada em evidências com esse momento que o país está vivendo? Além de ir às ruas para exigir condições melhores de trabalho, talvez os médicos possam usar esse momento para refletir se a responsabilidade está toda nos governantes ou se tem alguma que seja nossa também. Ou somos apenas vítimas?

É aí que entra a medicina baseada em evidências, pois além de propor que decisões médicas sejam baseadas em análise científica voltada para eficácia e segurança, o pensamento vai ao encontro da racionalização dos gastos médicos. Deveríamos pensar de forma sistemática em eficácia, efetividade e eficiência (custo-efetividade). Perceberíamos que a melhoria não depende apenas do governo, mas também de como nós, médicos, “administramos” os recursos oferecidos. Senti falta de alguns cartazes com esse tom de amadurecimento em relação a nossas próprias responsabilidades. Desta forma, seguindo o estilo presidencial, apresentarei cinco propostas baseadas em evidências, que representam um pouco que podemos fazer por um sistema de saúde mais eficiente.

1.  Utilizar do princípio mais básico da medicina baseada em evidências: uma conduta terapêutica deve ser instituída como rotina quando houver comprovação científica de seu benefício (exceção às situações de plausibilidade extrema). Neste quesito, devemos evitar o fanatismo por condutas nãodemonstradas e, de forma responsável, implementar rotinas com base no demonstrado. Assim, economizaríamos bilhões na medida em que coisas como Xigris não seriam implementadas antes da hora. Cada especialista pode rapidamente identificar os inúmeros exemplos de procedimentos de alto custo que foram utilizados por muito tempo apenas para depois entendermos que aquilo de nada valia. Isso é rotina na prática médica, trazendo prejuízos financeiros, clínicos (quando a conduta na verdade é maléfica) e científicos (criação de falsos paradigmas, difíceis de derrubar retroativamente).

2.  Evitar a cultura de exames inapropriados. Grande parte dos exames que solicitamos não vão ajudar o raciocínio diagnóstico (atrapalham), nem muito menos melhoram o desfecho do paciente. No entanto, vivemos e propagamos a cultura dos exames, a cultura do check-up. Vejam o caso do teste ergométrico, em que os médicos reclamam tanto o pagamento de míseros 50 reais pelos planos de saúde. Estudo realizado por nosso grupo (tese de Antônio Marconi, de Petrolina) mostrou que 85% das solicitações de testes ergométricos para pesquisa de doença coronária em sua região são inapropriadas, ou seja, testes realizados em pacientes assintomáticos ou com baixa probabilidade pré-teste. Essa amostra tinha tanto pacientes do SUS, como de convênio. Ora, se a gente banaliza tanto um exame, nossa remuneração fica banalizada também, claro. Um exame que praticamente todo adulto faz anualmente, precisa ser muito barato mesmo. Por que não sentamos na mesa e negociamos? “Vou pedir menos exame desnecessário e você aumenta o valor do exame.” Isso sem falar na peregrinação que um paciente do SUS tem que fazer quando um médico “caneta” a solicitação inapropriada de um teste ergométrico. Peregrinação esta que muitas vezes termina em uma clínica popular, com o paciente pagando (desnecessariamente) pelo exame, pois o SUS não tem (nem nunca terá) condição de fazer tanto teste, em tanta gente. Vai até de encontro ao Ato Médico, pois não tem médico para fazer teste em 100% dos adultos brasileiros. Vai acabar tendo que importar médico de cuba mesmo. Estão vendo a incoerência?

3.  Evitar overdiagnosis e overtreatment: muitos dos exames desnecessários acabam sendo positivos (verdadeiramente), mas isso não significa que haja necessidade de tratamento. Angioplastia está indicada em paciente assintomático com entupimento de 75% de uma de suas artérias? Depois de um PSA (contra-indicado como exame de triagem), vem a biópsia, que muitas vezes dá positiva para uma adenocarcinoma localizado, em paciente assintomático. Quase sempre resulta em prostatectomia. Estamos no caminho certo ao diagnosticar e tratar pseudo-doenças? Isso merece uma reflexão.

4.   Pensar em custo-efetividade: mesmo terapias de comprovada eficácia, devem ser analisados sob o crivo da magnitude de seu benefício. Utilizemos o paradigma do NNT. Benefícios verdadeiros, porém de baixo impacto, pouco mudam a vida do paciente. E às vezes são de alto custo. Mesuremos o benefício e avaliemos o custo deste benefício. Há terapias de alto custo (novidades), cujo impacto devem ser analisado na razão de seu benefício. Sejamos responsáveis ao propor que o SUS passe a oferecer stents farmacológicos. Vela a pena mesmo? Onde chegaremos? Precisamos entender melhor o pensamento de custo-efetividade.

5. Propagar o desenvolvimento do pensamento científico: esta deve ser ferramenta crucial para o médico. Nos livra do lobby da indústria farmacêutica, de interesses pessoais, da excessiva hierarquia de conhecimento, a qual inibe o desenvolvimento de nossa forma de pensar. Ciência se desenvolve com base no debate informal, troca de idéias. Em nossos congressos, pouco discutimos ideias, pouco reavaliamos nossos paradigmas. Nos limitamos a repetir o que é dito tradicionalmente, repetir o texto de guidelines. Assim não há risco de discordância, porém corremos o risco de estagnação. Ciência é democracia.

Temos poder de modificar e melhorar a qualidade da saúde pública. E também da saúde  complementar, por que não? Embora nosso aprimoramento não seja suficiente para resolver as questões, este é necessário. Sem a racionalização da medicina, as mudanças reivindicadas não serão resolutivas. Há exemplos de países desenvolvidos com medicina socializada, que aplicam os recursos de forma muito mais racional do que nosso pobre país. Precisamos mudar nossa cultura. Devemos exigir desse governo mediano, como fizemos ontem. Mas podemos também oferecer nossa contra-partida.