Los errores, que son frecuentes en estos estudios, repercuten en mayor medida en los referidos a poblaciones microbianas

Un nuevo algoritmo permite detectar los errores en la secuenciación masiva de ácidos nucleicos

.

Científicos del Centro de Astrobiología (CSIC-INTA) y del Centro Nacional de Biotecnología (CNB, CSIC) han desarrollado un nuevo algoritmo que permite filtrar, con mucha precisión, las secuencias erróneas en estudios de secuenciación masiva de ácidos nucleicos. El algoritmo PBF –Poisson Binomial Filtering, llamado así porque utiliza la distribución binomial de Poisson para detectar y filtrar los datos inexactos en la secuenciación–, minimiza el problema en las lecturas de nucleótidos mediante el cálculo de la distribución de probabilidad de errores de una secuencia a partir de sus parámetros de calidad.

.

Fuente: UCC-CAB

Con la secuenciación se consigue leer la información contenida en las moléculas de ADN o ARN, es decir, se obtiene la lista de bases (adenina, citosina, guanina, timina/uracilo) que compone el segmento leído. Gracias a las actuales plataformas de secuenciación masiva, se pueden producir millones de lecturas en poco tiempo y por un bajo coste, lo cual ha supuesto una revolución en diversos campos de la biología. Sin embargo, algunas de estas lecturas pueden contener errores de secuenciación que comprometerían los resultados obtenidos en estas plataformas, lo cual llevaría a interpretaciones imprecisas.

Cuando los errores alcanzan, al menos, el 3% en toda una secuencia leída que se suponía de una misma especie, aparecen las “especies fantasmas” 

Los errores, que son frecuentes en estos estudios, repercuten en mayor medida en los referidos a poblaciones microbianas. Cuando los errores alcanzan, al menos, el 3% en toda una secuencia leída, que se suponía de una misma especie, aparecen lo que el investigador principal, Fernando Puente Sánchez, llama “especies fantasmas”. Por tanto, se produce una sobreestimación muy acusada de la diversidad microbiana presente en la muestra. “Se trata de un problema que se aprecia sobre todo en la secuenciación masiva, porque al haber muchas más secuencias, el número total de errores también es mayor”, comenta el científico.

Precisamente, Puente Sánchez necesitaba analizar poblaciones microbianas para su tesis y los errores que surgían de la secuenciación lo llevaron a desarrollar este estudio, que comenzó hace dos años, para identificarlos. “Al hacer el análisis, el secuenciador te indica cuánto ‘se fía’ de cada base analizada. El algoritmo utiliza esa información para descartar las secuencias que tengan más probabilidad de contener errores, y obtener así un resultado más preciso”, asegura el investigador.

.

Validación del método

El método se validó con 37 conjuntos de datos públicos de secuenciación masiva de comunidades microbianas artificiales y ambientales, con las plataformas de secuenciación 454-Roche, Illumina MiSeq y IonTorrentPGM. Los resultados obtenidos con este nuevo algoritmo se compararon con los obtenidos con otros métodos al uso, como los incluidos en las distribuciones de software mothur, QIIME y USEARCH, tres referentes en el campo de la ecología microbiana.

El algoritmo PBF descarta sustancialmente menos lecturas que sus predecesores, pero produce representaciones más fidedignas, tanto cuantitativa como cualitativamente, de la verdadera diversidad microbiana presente en las muestras estudiadas. Además, el algoritmo produce resultados óptimos para todas las plataformas de secuenciación existentes y requiere de poca potencia de cálculo, siendo posible ejecutarlo en ordenadores de sobremesa, incluso sobre conjuntos de datos de gran tamaño.

Asimismo, el algoritmo PBF está diseñado para que sea fácil de integrar en los protocolos de análisis de datos ya existentes. Esto ha llevado a su adopción temprana por proveedores de pipelines de análisis integrado, como LotuS. Por todas estas razones, los autores confían en que el uso de su método se extienda rápidamente en el campo de la ecología microbiana.

.

.

Share