Métricas para avaliação de montagens de genomas

Escrito por matheus
  •  
  •  
  •  
  •  
  •   
  •  
  •  
  •  

O crescente número de iniciativas visando o sequenciamento dos genomas de diferentes organismos tornou necessário o desenvolvimento de métricas para avaliar a qualidade dos dados gerados. Essas métricas são
usadas para avaliar a contiguidade das montagens dos genomas e a qualidade da anotação dos genes.

As estatísticas descritivas básicas usadas na avaliação das montagens dos genomas incluem a contagem do número de scaffolds obtidos, o somatório do tamanho dos scaffolds e o cálculo do tamanho médio dos scaffolds. Além dessas, as métricas N50, NG50, L50 e LG50 são usadas para avaliar a contiguidade das montagens. As medidas N50 e NG50
correspondem ao tamanho do menor scaffold que faz parte do conjunto de sequências que representam o tamanho total da montagem obtida e o tamanho esperado do genoma sequenciado, respectivamente. As medidas L50 e LG50 correspondem ao número de scaffolds que fazem parte dos conjuntos N50 e NG50, respectivamente. Assim, quanto maior os valores de N50/NG50 e menor os valores de L50/LG5, menor será a fragmentação do genoma montado e maior será a sua contiguidade. Todas essas estatísticas podem ser calculadas usando softwares como o Assembly-Stats
[https://github.com/sanger-pathogens/assembly-stats] e o QUAST [https://quast.sourceforge.net/quast].

A qualidade da anotação dos genes geralmente é avaliada por meio de comparações com conjuntos de genes ortólogos que são compartilhados entre grupos de espécies.O software BUSCO (Benchmarking Universal Single-
Copy Orthologs) [https://gitlab.com/ezlab/busco] fornece uma métrica da completude do conjunto de genes anotados em um genoma e considera, como referência, o conjunto de genes ortólogos esperados para um
determinado grupo taxonômico.


  •  
  •  
  •  
  •  
  •   
  •  
  •  
  •  

Artigos Relacionados