Resumo
A imputação genotípica é uma técnica estatística que utiliza referências populacionais para inferir genótipos de variantes ausentes em um dado de genotipagem. Neste artigo, descrevo em detalhes como a imputação interpreta chamadas originais, preserva ou ajusta genótipos existentes e preenche lacunas em SNPs não genotipados, usando como exemplo uma região do gene HERC2. Notei isso enquanto revisava protocolos de imputação esta semana.
1. Introdução
Em estudos genômicos, os chips de genotipagem costumam medir apenas um subconjunto de SNPs. A imputação permite “preencher” variantes não observadas diretamente, aumentando a densidade de marcadores para análises de associação e mapeamento de haplótipos. Porém, há dúvidas sobre até que ponto o processo pode alterar chamadas originais, que são tidas como “verdadeiras” pelo laboratório.
2. Fundamentos da Imputação
Entrada (calls originais)
Cada posição genotipada (e.g. SNP “presente”) traz cromossomo, posição, alelos (REF/ALT) e genótipo (GT: 0/0, 0/1, 1/1).
Exemplo:
#CHROM POS ID REF ALT FORMAT GT
chr15 28365618 rs12913832 A G GT 0/0
Painel de Referência
Contém milhares de indivíduos com genótipos densos (e.g. 1000 Genomes).
Permite identificar padrões de haplótipos (seqüências de alelos) que ocorrem em bloco.
Modelo Estatístico
A imputação aplica um modelo de Markov oculto (HMM) que inclui:
Erro genotípico (err): probabilidade de que uma chamada seja equivocada (ex.: 0,1 %).
Recombinação: mapeada por um arquivo genético (centiMorgans).
O algoritmo monta haplótipos combinando seus dados e o painel, estimando a sequência que maximiza a verossimilhança conjunta.
3. Preservação vs. Ajuste de Genótipos Originais
Embora a imputação parta dos calls originais, ela não os considera absolutas. Se, em um bloco haplotípico, o genótipo medido for muito improvável, o modelo pode “corrigir” esse call:
Modelo de Erro
Mesmo GTs existentes são ponderados por uma taxa de erro interna.
Concordância de Haplótipos
O algoritmo busca a combinação de alelos (inclusive nos SNPs originais) que se encaixe melhor no padrão populacional.
Como evitar alterações indesejadas
Definir err=0 força a imputação a manter calls originais e só preencher ausências.
Restauração pós-imputação: restaurar GTs do VCF medido sobre o imputado, para garantir que apenas posições faltantes sejam preenchidas.
4. Exemplo Real: Região HERC2 (Cor dos Olhos)
SNP Status População¹ Seu chip Imputação
rs12913832 Presente 40 % A/A, 45 % A/G, 15 % G/G A/A A/A (mantido)
rs1129038 Ausente T/T em 90 % dos haplótipos A/A em rs12913832 – T/T imputado
¹ Padrões observados no painel 1000 Genomes.
O call A/A em rs12913832 é compatível com o haplótipo “A/A+T/T” e, portanto, mantido.
O SNP ausente rs1129038 é inferido como T/T (1/1) por coocorrer em bloco com rs12913832 = A/A na população.
5. Conclusão
A imputação genotípica enxerga seus dados originais como observações sujeitas a ruído estatístico e pode, em teoria, corrigir chamadas improváveis. Para publicações e aplicações clínicas, recomenda-se preservar os genótipos medidos, restaurando-os após a etapa de imputação. Assim, garante-se que apenas variantes genuinamente ausentes sejam preenchidas, mantendo a fidedignidade dos dados originais.