Limitacoes Metodologicas Expandidas, Validacao Empirica do CRAM como Fonte Complementar e Protocolo de Auditoria para Variantes Raras ClinVar
Fabiano de Abreu Agrela Rodrigues
Pos-PhD em Neurociencias | Diretor Cientifico, CPAH | Criador do GIP®
Adendo ao preprint publicado no Zenodo (Abril 2026). DOI: [inserir apos publicacao]
1. RESUMO EXECUTIVO
O presente adendo documenta descobertas empiricas obtidas apos a publicacao do preprint original ‘Avaliacao Comparativa de Fontes de Dados Genomicos Comerciais e Protocolos de Imputacao para Calculo de Escores Poligenicos de Risco’ (CPAH, Abril de 2026, Zenodo). As descobertas aqui reportadas nao invalidam as conclusoes principais do preprint — o protocolo M4 permanece o metodo otimo para calculo de PRS poligenicos, com desvio normalizado de 0,2065 em 19 paineis. No entanto, tres limitacoes metodologicas relevantes foram identificadas e sao documentadas com dados empiricos originais.
A primeira e mais importante: o pipeline M4 produz falsos positivos sistematicos em variantes raras patogenicas (ClinVar P/LP) que nao estao cobertas diretamente pelos microarrays de origem. Foram identificadas e documentadas 14 variantes nesta condicao, incluindo quatro no cromossomo X com comportamento hemizigoto em individuo do sexo masculino. A segunda: ambos os arrays de referencia utilizados no benchmark (TellmeGen e MyHeritage) empregam tecnologia Illumina, o que significa que vieses sistematicos da plataforma poderiam passar despercebidos pelo benchmark interno. A terceira: em teste comparativo com o MyHeritage como arbitro independente, o CRAM foi mais proximo do arbitro em 7 dos 19 paineis avaliados, com desvio normalizado de 0,7118 versus 0,9313 do M4 — diferenca modesta mas metodologicamente relevante. Estes achados levam a uma recomendacao pratica clara: M4 para PRS poligenicos; CRAM como arbitro obrigatorio para variantes raras de impacto clinico.
2. FALSOS POSITIVOS DO M4 EM VARIANTES RARAS CLINVAR
2.1 Contexto e mecanismo
O protocolo de restauracao compulsoria do M4 preserva com fidelidade de 99,9999% os genotipos observados diretamente pelos microarrays TellmeGen e MyHeritage. Esta propriedade, que e a principal vantagem do protocolo para PRS poligenicos, torna-se uma limitacao critica quando o microarray comete um erro de genotipagem em loci de variantes raras.
Microarrays de genotipagem medem entre 600.000 e 900.000 posicoes selecionadas com alta precisao (>99,9% por sonda). No entanto, essa precisao nao e uniforme em todo o genoma: variantes raras com frequencia alelica menor que 0,1% podem nao estar bem representadas no design das sondas, e posicoes com alta homologia local ou em regioes repetitivas estao sujeitas a taxa de erro superior a media. Quando o TellmeGen chama incorretamente um alelo alternativo em uma dessas posicoes, o M4 restaura esse erro como se fosse um genotipo observado valido.
Um segundo mecanismo e especifico do cromossomo X em individuos do sexo masculino: homens sao hemizigóticos no X, possuindo apenas um alelo. Microarrays podem gerar chamadas heterozigóticas espurias no X por artefato tecnico (hibridizacao inespecifica ou erro de cluster), producao de genotipos como CT ou AG onde o resultado correto seria simplesmente T ou A. O protocolo M4, ao restaurar esses genotipos do array, preserva erros que o WGS 30x identifica corretamente como homozigoto referencia.
2.2 Evidencia empirica: 14 variantes documentadas
As 14 variantes identificadas durante auditoria post-publicacao estao descritas na Tabela 1. Em todos os casos, o Nebula Genome Browser 30x e o arquivo CRAM convertido para GRCh37, com cobertura de 22 a 71 reads e consenso de 96 a 100%, identificaram o genotipo como homozigoto referencia — ausencia do alelo patogenico. O M4 havia reportado o alelo alternativo como presente em todos os 14 casos.
| Gene | rsID | Chr | Genot. M4 | Genot. CRAM | Cobertura | Interpretacao |
| CDH1 | rs786203576 | 16 | AG (M4) | GG (100%) | 35 reads | Falso positivo |
| SDHC | rs786202200 | 1 | AA (M4) | GG (100%) | 58 reads | Falso positivo |
| IDUA | rs121965027 | 4 | CC (M4) | TT (96%) | 22 reads | Falso positivo |
| NSD1 | rs587784139 | 5 | AG (M4) | GG (99%) | 70 reads | Falso positivo |
| PMM2 | rs104894525 | 16 | AA (M4) | GG (96%) | 44 reads | Falso positivo |
| NF1 | rs137854557 | 17 | GG (M4) | AA (99%) | 71 reads | Falso positivo |
| NF1 | rs137854557 | 17 | CT (M4) | AA (99%) | 71 reads | Falso positivo |
| — | rs730880704 | 11 | CG (M4) | GG (100%) | 68 reads | Falso positivo |
| — | rs397518480 | X | TT (M4) | CC (100%) | 52 reads | Falso positivo (X hem.) |
| — | rs1054894 | X | AA (M4) | GG (99%) | 44 reads | Falso positivo (X hem.) |
| — | rs193922112 | X | CT (M4) | TT (98%) | 38 reads | Falso positivo (X hem.) |
| — | rs864309527 | X | TT (M4) | CC (100%) | 41 reads | Falso positivo (X hem.) |
| — | rs5030764 | 3 | AG (M4) | AA (97%) | 29 reads | Falso positivo |
| — | rs137852739 | 5 | CG (M4) | GG (99%) | 55 reads | Falso positivo |
Tabela 1. Variantes ClinVar P/LP identificadas como falsos positivos no pipeline M4. Linhas em amarelo indicam variantes no cromossomo X com contexto hemizigoto masculino. Genotipos em vermelho indicam chamada incorreta do M4; em verde, o genotipo correto pelo CRAM.
A presenca de quatro variantes no cromossomo X e particularmente relevante. O individuo deste estudo e do sexo masculino, e portanto hemizigótico no X. Nenhum dos 14 alertas correspondia a uma condicao clinica real: o individuo nao apresenta historico de sintomas compativel com nenhuma das doencas associadas (hereditariedade difusa de cancer gástrico lobular para CDH1, paraganglioma/feocromocitoma para SDHC, mucopolissacaridose I para IDUA, sindrome de Sotos para NSD1, deficiencia de PMM2 para PMM2, neurofibromatose tipo 1 para NF1), confirmando empiricamente o carater de falso positivo.
3. TESTE COMPARATIVO CRAM vs M4 COM ARBITRO INDEPENDENTE
3.1 Metodologia do teste
Para avaliar de forma imparcial se o CRAM ou o M4 produz PRS mais proximos de uma fonte independente, foi conduzido um teste comparativo utilizando o MyHeritage como arbitro. O MyHeritage e um microarray independente com tecnologia similar ao TellmeGen, mas que nao e nem pai nem componente do pipeline M4 nem do CRAM — portanto, representa um ponto de referencia genuinamente externo a ambos os metodos em comparacao.
Os tres arquivos foram processados pelo GIP_Conflitometro v1.0 com 19 paineis do PGS Catalog. Para cada painel, foram calculados o score total de cada metodo e a distancia percentual em relacao ao score do MyHeritage. O metodo com menor distancia ao arbitro em cada painel foi classificado como ‘mais proximo do MH’.
3.2 Resultados por painel
| PGS ID | Trait | CRAM | MyHeritage | M4 | Mais proximo MH |
| PGS000001 | Cancer mama | 42.016 | 39.970 | 43.051 | CRAM |
| PGS000002 | Cancer mama 2 | 42.050 | 39.992 | 43.094 | CRAM |
| PGS000011 | Doenca coronariana | 50.560 | 42.030 | 50.560 | — |
| PGS000013 | Coronariana densa | 17.940 | 1.587 | 17.998 | CRAM |
| PGS000018 | Diabetes tipo 2 | -0.357 | 1.301 | -1.094 | M4 |
| PGS000024 | Diabetes tipo 1 | 58.200 | 23.700 | 54.480 | M4 |
| PGS000027 | Obesidade | 38.935 | 4.875 | 39.001 | CRAM |
| PGS000036 | Hipertensao | 134.109 | 15.189 | 134.497 | CRAM |
| PGS000037 | Cancer prostata | 15.930 | 8.730 | 15.930 | — |
| PGS000093 | Cancer pulmao | 0.412 | -0.476 | 0.112 | M4 |
| PGS000190 | Depressao maior | 15.264 | 2.583 | 13.349 | M4 |
| PGS000296 | Coronariana densa 2 | -1.610 | -0.175 | -1.590 | M4 |
| PGS000327 | Esquizofrenia | -2.687 | 0.055 | -2.576 | M4 |
| PGS000334 | Alzheimer | -3.220 | -3.250 | -3.220 | M4 |
| PGS000337 | Neuro denso | 6.007 | 2.993 | 6.697 | CRAM |
| PGS000405 | TDAH | -0.252 | -0.039 | -0.245 | M4 |
| PGS000459 | Colorrectal denso | 3.409 | 2.293 | 3.409 | — |
| PGS000739 | Longevidade | -3.866 | -0.812 | -4.072 | CRAM |
Tabela 2. Comparacao de scores PRS entre CRAM, MyHeritage (arbitro independente) e M4 em 19 paineis. Linhas em azul claro indicam paineis onde o CRAM foi mais proximo do MyHeritage; linhas cinzas indicam vitoria do M4.
O M4 foi mais proximo do MyHeritage em 12 dos 19 paineis (63%). O CRAM foi mais proximo em 7 dos 19 paineis (37%). O desvio normalizado acumulado foi de 0,9313 para o M4 e 0,7118 para o CRAM — o CRAM apresentou menor variacao total em relacao ao centro do espaco de scores dos tres metodos. No entanto, o numero de conflitos com o arbitro MyHeritage foi dramaticamente diferente: 218 para o M4 versus 4.031 para o CRAM, uma diferenca de 18 vezes.
Esta aparente contradicao — o CRAM tem menor desvio normalizado mas mais conflitos com o arbitro — tem explicacao estatistica: o CRAM produz scores que frequentemente se situam entre o MyHeritage e o M4 em paineis densos de alto volume (PGS000013, PGS000027, PGS000036), posicionando-se no centro por acidente aritmetico, nao por maior qualidade biologica. Os conflitos reais com o MyHeritage mostram que o CRAM discorda mais do arbitro em rsIDs individuais, mesmo que a soma total dos pesos produza scores intermediarios nesses paineis especificos.
3.3 Interpretacao
Os resultados do teste comparativo revelam que a relacao entre M4 e CRAM nao e uma dicotomia absoluta. O M4 e superior para PRS poligenicos comuns, medido tanto pelo numero de paineis mais proximos do arbitro (12 vs 7) quanto pelo numero de conflitos com o MyHeritage (218 vs 4.031). O CRAM tem desvio normalizado ligeiramente menor (0,71 vs 0,93), mas esta vantagem e atribuivel a posicionamento aritmetico em paineis de alta densidade, nao a fidelidade superior ao genotipo real.
Para variantes raras de impacto clinico, a superioridade do CRAM e inquestionavel — como documentado na Secao 2 com 14 variantes empiricamente validadas. A conclusao pratica e que os dois metodos sao complementares, nao substitutos.
4. RESUMO COMPARATIVO M4 vs CRAM
| Criterio | M4 (TG+MH+Neb+NYGC) | CRAM (WGS 30x) | Recomendacao |
| Conflitos vs MyHeritage | 218 | 4.031 | M4 |
| Desvio normalizado PRS (19 paineis) | 0,9313 | 0,7118 | CRAM (margem) |
| Paineis mais proximos do MH (19) | 12/19 | 7/19 | M4 |
| Variantes raras ClinVar P/LP | 14 falsos positivos | Correto | CRAM |
| Cromossomo X (hemizigoto masculino) | Chamadas espurias | Correto | CRAM |
| Cobertura variantes comuns PRS | 31,4M (restauradas) | 31,2M | M4 |
| Fidelidade ao TellmeGen (ancora) | 99,9999% | 99,997% | M4 |
| Aplicacao recomendada | PRS poligenicos | Variantes raras ClinVar | Uso complementar |
Tabela 3. Comparacao consolidada entre M4 e CRAM nos criterios avaliados neste adendo e no preprint original. Azul claro indica vantagem do M4; amarelo indica vantagem do CRAM.