Um dos aspectos mais importantes na interpretação de artigos científicos é o seu processo de amostragem, o qual inclui o tamanho amostral. É muito frequente que algum canal de mídia ou profissional da saúde referencie um estudo em questão enfatizando um grande tamanho amostral – ou seja, um estudo em que muitas pessoas foram avaliadas –, especialmente quando o objetivo em questão seja impressionar o ouvinte (ou leitor).
Afinal, um estudo grande é sinônimo de um estudo bom? A resposta mais correta para essa questão é “depende”.
Por exemplo, caso esse estudo em questão seja um ensaio clínico com todas as características essenciais ao bom proveito desse delineamento (amostragem probabilística, randomização adequada, mascaramento dos participantes e avaliadores, análise por intenção de tratar), é muito provável o estudo seja bom ou excelente. Um grande tamanho amostral, para esse delineamento, oferece vantagens importantíssimas para a avaliação de evidências. Primeiro, com um grande tamanho amostral, é mais provável que minorias populacionais (grupos étnicos minoritários, indivíduos com doenças raras, fatores de risco de baixa prevalência, etc) consigam ser representadas pela amostra, o que facilita bastante a validade externa. Além disso, quando são randomizadas muitas pessoas, pela lei das probabilidades, podemos ter muito mais segurança de que o processo de randomização, de fato, anule os fatores confundidores entre os grupos exposição e controle, além de possibilitar uma inferência estatísticamais adequada para os grupos. A análise estatística, aliás, fica muito mais facilitada com uma amostra grande, visto que o problema de falta de poder estatístico do estudo (capacidade de detectar erro tipo 2) fica diminuído. Um ensaio clínico bem conduzido e com uma amostra razoavelmente grande (consequentemente com um intervalo de confiança pequeno) é um nível de evidência tão bom, que apenas 1 único estudo desses é suficiente para a evidência ser considerada de nível 1A, de acordo com o Oxford Center for Evidence-Based Medicine.
Em contrapartida, essa não é a regra, na prática, quando avaliamos outros delineamentos com grande tamanho amostral. Estudos de grande tamanho amostral (muitas vezes populacionais) publicados na literatura são, majoritariamente, classificados com o que chamamos de coortes retrospectivas (ou históricas). É fácil detectar um desses, pois a história se repete: normalmente são milhares de pacientes, observados em um determinado país (ou região de um país), com dados coletados de registros de saúde pública de uma base de dados nacional. Neste caso, temos de ter cuidado para não cair nas armadilhas. Estudos de coorte são os melhores estudos observacionais que podemos conduzir, porém eles não são conclusivos a ponto de validar uma intervenção. Esse erro é muito comum em estudos nutricionais, normalmente buscando associação entre um consumo de determinado alimento e um desfecho de interesse. Além disso, coortes retrospectivas estão extremamente sujeitos a vieses de aferição, visto que normalmente o grupo controle tende a ter registros subestimados da exposição de interesse. Exemplificando: em uma coorte retrospectiva de associação entre enfisema pulmonar e tabagismo, é pouco provável que pacientes não tabagistas tenham sido investigados (e, consequentemente, detectados) para o diagnóstico de enfisema. Logo, o tamanho de efeito para o grupo de casos tende a ser superestimado. Em suma, um tamanho amostral grande o suficiente não é capaz, mesmo com controle estatístico, de corrigir erros inerentes ao delineamento em questão.
E por fim, estudos com grande tamanho amostral são facilmente mal interpretados pelos defensores do uso do valor p, como referência estatística, pois estudos grandes podem detectar significância estatística mesmo quando há pequenas diferenças no tamanho de efeito (às vezes chamado de significância clínica). Por exemplo, intervenções que são obviamente muito superiores ao grupo controle, como fornecer antibiótico para meningite por pneumococo, precisam de poucos participantes para detectar uma significância estatística (visto que o tamanho de efeito é grande). É provável que com poucas dezenas de participantes já seja possível de detectar o óbvio benefício do uso de antibiótico para esse grupo. Entretanto, para intervenções duvidosas, com risco relativo pequeno, serão necessários muito mais participantes para que seja possível a obtenção de significância estatística entre os grupos.
Consequentemente, estudo grande não é, necessariamente, sinônimo de estudo bom. Pode ser excelente em determinadas circunstâncias, mas pode ser uma grande pegadinha. Pela minha experiência pessoal, vejo inúmeros estudos sendo publicados tentando corrigir os erros inerentes ao método através da estatística (com suas regressões múltiplas, modelos estatísticos complexos, numerosos métodos “validados” de imputação de resultados, entre outros). Entretanto, a beleza intelectual do método científico, que confere validade aos estudos, são as amostragens criativas, a curiosidade inovadora, a avaliação de critérios de causalidade, todos esses conceitos que não são simplesmente corrigidos pelo tamanho amostral.
Comments