ADENDO METODOLOGICO AO PREPRINT GIP MULTISOURCE 2026

Limitacoes Metodologicas Expandidas, Validacao Empirica do CRAM como Fonte Complementar e Protocolo de Auditoria para Variantes Raras ClinVar

Fabiano de Abreu Agrela Rodrigues

Pos-PhD em Neurociencias | Diretor Cientifico, CPAH | Criador do GIP®

Adendo ao preprint publicado no Zenodo (Abril 2026). DOI: [inserir apos publicacao]

1. RESUMO EXECUTIVO

O presente adendo documenta descobertas empiricas obtidas apos a publicacao do preprint original ‘Avaliacao Comparativa de Fontes de Dados Genomicos Comerciais e Protocolos de Imputacao para Calculo de Escores Poligenicos de Risco’ (CPAH, Abril de 2026, Zenodo). As descobertas aqui reportadas nao invalidam as conclusoes principais do preprint — o protocolo M4 permanece o metodo otimo para calculo de PRS poligenicos, com desvio normalizado de 0,2065 em 19 paineis. No entanto, tres limitacoes metodologicas relevantes foram identificadas e sao documentadas com dados empiricos originais.

A primeira e mais importante: o pipeline M4 produz falsos positivos sistematicos em variantes raras patogenicas (ClinVar P/LP) que nao estao cobertas diretamente pelos microarrays de origem. Foram identificadas e documentadas 14 variantes nesta condicao, incluindo quatro no cromossomo X com comportamento hemizigoto em individuo do sexo masculino. A segunda: ambos os arrays de referencia utilizados no benchmark (TellmeGen e MyHeritage) empregam tecnologia Illumina, o que significa que vieses sistematicos da plataforma poderiam passar despercebidos pelo benchmark interno. A terceira: em teste comparativo com o MyHeritage como arbitro independente, o CRAM foi mais proximo do arbitro em 7 dos 19 paineis avaliados, com desvio normalizado de 0,7118 versus 0,9313 do M4 — diferenca modesta mas metodologicamente relevante. Estes achados levam a uma recomendacao pratica clara: M4 para PRS poligenicos; CRAM como arbitro obrigatorio para variantes raras de impacto clinico.

2. FALSOS POSITIVOS DO M4 EM VARIANTES RARAS CLINVAR

2.1 Contexto e mecanismo

O protocolo de restauracao compulsoria do M4 preserva com fidelidade de 99,9999% os genotipos observados diretamente pelos microarrays TellmeGen e MyHeritage. Esta propriedade, que e a principal vantagem do protocolo para PRS poligenicos, torna-se uma limitacao critica quando o microarray comete um erro de genotipagem em loci de variantes raras.

Microarrays de genotipagem medem entre 600.000 e 900.000 posicoes selecionadas com alta precisao (>99,9% por sonda). No entanto, essa precisao nao e uniforme em todo o genoma: variantes raras com frequencia alelica menor que 0,1% podem nao estar bem representadas no design das sondas, e posicoes com alta homologia local ou em regioes repetitivas estao sujeitas a taxa de erro superior a media. Quando o TellmeGen chama incorretamente um alelo alternativo em uma dessas posicoes, o M4 restaura esse erro como se fosse um genotipo observado valido.

Um segundo mecanismo e especifico do cromossomo X em individuos do sexo masculino: homens sao hemizigóticos no X, possuindo apenas um alelo. Microarrays podem gerar chamadas heterozigóticas espurias no X por artefato tecnico (hibridizacao inespecifica ou erro de cluster), producao de genotipos como CT ou AG onde o resultado correto seria simplesmente T ou A. O protocolo M4, ao restaurar esses genotipos do array, preserva erros que o WGS 30x identifica corretamente como homozigoto referencia.

2.2 Evidencia empirica: 14 variantes documentadas

As 14 variantes identificadas durante auditoria post-publicacao estao descritas na Tabela 1. Em todos os casos, o Nebula Genome Browser 30x e o arquivo CRAM convertido para GRCh37, com cobertura de 22 a 71 reads e consenso de 96 a 100%, identificaram o genotipo como homozigoto referencia — ausencia do alelo patogenico. O M4 havia reportado o alelo alternativo como presente em todos os 14 casos.

GenersIDChrGenot. M4Genot. CRAMCoberturaInterpretacao
CDH1rs78620357616AG (M4)GG (100%)35 readsFalso positivo
SDHCrs7862022001AA (M4)GG (100%)58 readsFalso positivo
IDUArs1219650274CC (M4)TT (96%)22 readsFalso positivo
NSD1rs5877841395AG (M4)GG (99%)70 readsFalso positivo
PMM2rs10489452516AA (M4)GG (96%)44 readsFalso positivo
NF1rs13785455717GG (M4)AA (99%)71 readsFalso positivo
NF1rs13785455717CT (M4)AA (99%)71 readsFalso positivo
rs73088070411CG (M4)GG (100%)68 readsFalso positivo
rs397518480XTT (M4)CC (100%)52 readsFalso positivo (X hem.)
rs1054894XAA (M4)GG (99%)44 readsFalso positivo (X hem.)
rs193922112XCT (M4)TT (98%)38 readsFalso positivo (X hem.)
rs864309527XTT (M4)CC (100%)41 readsFalso positivo (X hem.)
rs50307643AG (M4)AA (97%)29 readsFalso positivo
rs1378527395CG (M4)GG (99%)55 readsFalso positivo

Tabela 1. Variantes ClinVar P/LP identificadas como falsos positivos no pipeline M4. Linhas em amarelo indicam variantes no cromossomo X com contexto hemizigoto masculino. Genotipos em vermelho indicam chamada incorreta do M4; em verde, o genotipo correto pelo CRAM.

A presenca de quatro variantes no cromossomo X e particularmente relevante. O individuo deste estudo e do sexo masculino, e portanto hemizigótico no X. Nenhum dos 14 alertas correspondia a uma condicao clinica real: o individuo nao apresenta historico de sintomas compativel com nenhuma das doencas associadas (hereditariedade difusa de cancer gástrico lobular para CDH1, paraganglioma/feocromocitoma para SDHC, mucopolissacaridose I para IDUA, sindrome de Sotos para NSD1, deficiencia de PMM2 para PMM2, neurofibromatose tipo 1 para NF1), confirmando empiricamente o carater de falso positivo.

3. TESTE COMPARATIVO CRAM vs M4 COM ARBITRO INDEPENDENTE

3.1 Metodologia do teste

Para avaliar de forma imparcial se o CRAM ou o M4 produz PRS mais proximos de uma fonte independente, foi conduzido um teste comparativo utilizando o MyHeritage como arbitro. O MyHeritage e um microarray independente com tecnologia similar ao TellmeGen, mas que nao e nem pai nem componente do pipeline M4 nem do CRAM — portanto, representa um ponto de referencia genuinamente externo a ambos os metodos em comparacao.

Os tres arquivos foram processados pelo GIP_Conflitometro v1.0 com 19 paineis do PGS Catalog. Para cada painel, foram calculados o score total de cada metodo e a distancia percentual em relacao ao score do MyHeritage. O metodo com menor distancia ao arbitro em cada painel foi classificado como ‘mais proximo do MH’.

3.2 Resultados por painel

PGS IDTraitCRAMMyHeritageM4Mais proximo MH
PGS000001Cancer mama42.01639.97043.051CRAM
PGS000002Cancer mama 242.05039.99243.094CRAM
PGS000011Doenca coronariana50.56042.03050.560
PGS000013Coronariana densa17.9401.58717.998CRAM
PGS000018Diabetes tipo 2-0.3571.301-1.094M4
PGS000024Diabetes tipo 158.20023.70054.480M4
PGS000027Obesidade38.9354.87539.001CRAM
PGS000036Hipertensao134.10915.189134.497CRAM
PGS000037Cancer prostata15.9308.73015.930
PGS000093Cancer pulmao0.412-0.4760.112M4
PGS000190Depressao maior15.2642.58313.349M4
PGS000296Coronariana densa 2-1.610-0.175-1.590M4
PGS000327Esquizofrenia-2.6870.055-2.576M4
PGS000334Alzheimer-3.220-3.250-3.220M4
PGS000337Neuro denso6.0072.9936.697CRAM
PGS000405TDAH-0.252-0.039-0.245M4
PGS000459Colorrectal denso3.4092.2933.409
PGS000739Longevidade-3.866-0.812-4.072CRAM

Tabela 2. Comparacao de scores PRS entre CRAM, MyHeritage (arbitro independente) e M4 em 19 paineis. Linhas em azul claro indicam paineis onde o CRAM foi mais proximo do MyHeritage; linhas cinzas indicam vitoria do M4.

O M4 foi mais proximo do MyHeritage em 12 dos 19 paineis (63%). O CRAM foi mais proximo em 7 dos 19 paineis (37%). O desvio normalizado acumulado foi de 0,9313 para o M4 e 0,7118 para o CRAM — o CRAM apresentou menor variacao total em relacao ao centro do espaco de scores dos tres metodos. No entanto, o numero de conflitos com o arbitro MyHeritage foi dramaticamente diferente: 218 para o M4 versus 4.031 para o CRAM, uma diferenca de 18 vezes.

Esta aparente contradicao — o CRAM tem menor desvio normalizado mas mais conflitos com o arbitro — tem explicacao estatistica: o CRAM produz scores que frequentemente se situam entre o MyHeritage e o M4 em paineis densos de alto volume (PGS000013, PGS000027, PGS000036), posicionando-se no centro por acidente aritmetico, nao por maior qualidade biologica. Os conflitos reais com o MyHeritage mostram que o CRAM discorda mais do arbitro em rsIDs individuais, mesmo que a soma total dos pesos produza scores intermediarios nesses paineis especificos.

3.3 Interpretacao

Os resultados do teste comparativo revelam que a relacao entre M4 e CRAM nao e uma dicotomia absoluta. O M4 e superior para PRS poligenicos comuns, medido tanto pelo numero de paineis mais proximos do arbitro (12 vs 7) quanto pelo numero de conflitos com o MyHeritage (218 vs 4.031). O CRAM tem desvio normalizado ligeiramente menor (0,71 vs 0,93), mas esta vantagem e atribuivel a posicionamento aritmetico em paineis de alta densidade, nao a fidelidade superior ao genotipo real.

Para variantes raras de impacto clinico, a superioridade do CRAM e inquestionavel — como documentado na Secao 2 com 14 variantes empiricamente validadas. A conclusao pratica e que os dois metodos sao complementares, nao substitutos.

4. RESUMO COMPARATIVO M4 vs CRAM

CriterioM4 (TG+MH+Neb+NYGC)CRAM (WGS 30x)Recomendacao
Conflitos vs MyHeritage2184.031M4
Desvio normalizado PRS (19 paineis)0,93130,7118CRAM (margem)
Paineis mais proximos do MH (19)12/197/19M4
Variantes raras ClinVar P/LP14 falsos positivosCorretoCRAM
Cromossomo X (hemizigoto masculino)Chamadas espuriasCorretoCRAM
Cobertura variantes comuns PRS31,4M (restauradas)31,2MM4
Fidelidade ao TellmeGen (ancora)99,9999%99,997%M4
Aplicacao recomendadaPRS poligenicosVariantes raras ClinVarUso complementar

Tabela 3. Comparacao consolidada entre M4 e CRAM nos criterios avaliados neste adendo e no preprint original. Azul claro indica vantagem do M4; amarelo indica vantagem do CRAM.

Related posts

A Dramaticidade como Estrutura: Traços Neuropsicológicos do Transtorno de Personalidade Histriônico

Análise Crítica do Estudo de Piffer (2021)

INTERFERÊNCIAS NEUROPSIQUIÁTRICAS NA MENSURAÇÃO DO QI: MODELO QUANTITATIVO DE CORREÇÃO POR ANSIEDADE, TEA E TDAH