Alineamiento gráfico de secuencias a través de programación paralela: un enfoque desde la era postgenómica

Graphical alignment of sequences through parallel programming: an approach from the post-genomic era

Contenido principal del artículo

Johan Sebastian Piña Duran
Simón Orozco Arias
Romain Guyot
Reinel Tabares Soto
Nicolás Tobón Orozco
Mariana Sofía Candamil Cortés

Resumen

Un alineamiento gráfico o “dot plot” es un método de representación visual del análisis de datos genómicos, comúnmente utilizado para comparar la similitud de dos secuencias biológicas. El programa DOTTER desarrollado en 1995, es la herramienta más utilizada para este tipo de tareas. El mayor problema de este software radica en el elevado tiempo de ejecución para datos genómicos de gran escala. GEPARD (2007), realiza alineamientos más rápidos para secuencias más grandes que DOTTER, logrando reducir de esta forma el tiempo de ejecución del alineamiento de un cromosoma contra él mismo, de 382 años con DOTTER a 61 minutos con GEPARD, aunque con un nivel de detalle bajo debido a que utiliza un método de aproximaciones. En este artículo se propone una estrategia que trabaja sobre múltiples procesadores para realizar alineamientos a nivel genómico en menor tiempo de ejecución que GEPARD, logrando aceleraciones hasta de 27,9 veces utilizando 64 procesadores respecto al valor nominal. La estrategia permite la identificación de reorganizaciones cromosómicas, elementos repetitivos, comparación entre genomas de distintas especies y la medición de forma gráfica de la calidad de ensamblaje de secuencias genómicas rápidamente.

Descargas

Los datos de descargas todavía no están disponibles.

Detalles del artículo

Biografía del autor/a (VER)

Johan Sebastian Piña Duran, Universidad Autónoma de Manizales

Estudiante de pregrado en ingeniería biomédica y electrónica, perteneciente al semillero de Bioinformática e inteligencia artificial de la universidad Autónoma de Manizales.

Simón Orozco Arias, Universidad Autónoma de Manizales

Ingeniero de sistemas, estudiante de doctorado en ingeniería, docente del departamento de ciencias computacionales de la universidad Autónoma de Manizales

Romain Guyot, University Montpellier

PhD. en genética de plantas. Investigador de la universidad autónoma de manizales e investigador del CIRAD en Francia

Reinel Tabares Soto, Universidad Autónoma de Manizales

Ingeniero electrónico y de sistemas. Magister en automatización industrial. Estudiante del doctorado en ingeniería, Docente de la universidad Autónoma de Manizales y coordinador del programa de ingeniería electrónica.

Nicolás Tobón Orozco, Universidad Autónoma de Manizales

Estudiante de pregrado en ingeniería biomédica y electrónica, perteneciente al semillero de Bioinformática e inteligencia artificial de la universidad Autónoma de Manizales.

Mariana Sofía Candamil Cortés, Universidad Autónoma de Manizales

Estudiante de pregrado en ingeniería biomédica y electrónica, perteneciente al semillero de Bioinformática e inteligencia artificial de la universidad Autónoma de Manizales.

Referencias (VER)

O. Lecompte, J. D. Thompson, F. Plewniak, J.-C. Thierry, and O. Poch, “Multiple alignment of complete sequences (MACS) in the post-genomic era,” Gene, vol. 270, no. 1, pp. 17–30, 2001.

N. M. Luscombe, D. Greenbaum, and M. Gerstein, “A Proposed Definition and Overview of the Field,” Methods Inf. Med., vol. 40, no. 4, pp. 346–358, 2001.

S. P. Holmes and D. Gusfield, “Algorithms on Strings, Trees, and Sequences: Computer Science and Computational Biology,” J. Am. Stat. Assoc., vol. 94, no. 447, p. 989, 1999.

W. Chen, B. Liao, and W. Li, “Use of image texture analysis to find DNA sequence similarities,” J. Theor. Biol., vol. 455, pp. 1–6, 2018.

B. Liao and T.-M. Wang, “New 2D graphical representation of DNA sequences,” J. Comput. Chem., vol. 25, no. 11, pp. 1364–1368, 2004.

T. F. Smith and M. S. Waterman, “Identification of common molecular subsequences,” J. Mol. Biol., vol. 147, no. 1, pp. 195–197, 1981.

S. B. Needleman and C. D. Wunsch, “A general method applicable to the search for similarities in the amino acid sequence of two proteins,” J. Mol. Biol., vol. 48, no. 3, pp. 443–453, 1970.

A. L. Delcher, S. Kasif, R. D. Fleischmann, J. Peterson, O. White, and S. L. Salzberg, “Alignment of whole genomes,” Nucleic Acids Res., vol. 27, no. 11, pp. 2369–2376, 1999.

E. L. L. Sonnhammer and R. Durbin, “A dot-matrix program with dynamic threshold control suited for genomic DNA and protein sequence analysis (Reprinted from Gene Combis, vol 167, pg GC1-GC10, 1996),” Gene, vol. 167, no. 1–2, pp. Gc1–Gc10, 1995.

J. Krumsiek, R. Arnold, and T. Rattei, “Gepard: A rapid and sensitive tool for creating dotplots on genome scale,” Bioinformatics, vol. 23, no. 8, pp. 1026–1028, 2007.

S. Orozco-Arias, R. Tabares-Soto, D. Ceballos, and R. Guyot, “Parallel Programming in Biological Sciences, Taking Advantage of Supercomputing in Genomics,” in Advances in Computing, 2017, pp. 627–643.

D. Milone, A. Azar, and H. Rufiner, “Supercomputadoras basadas en ‘clusters’ de PCs,” Rev. Cienc., pp. 173–208, 2002.

S. F. Altschul, W. Gish, W. Miller, E. W. Myers, and D. J. Lipman, “Basic local alignment search tool,” J. Mol. Biol., vol. 215, no. 3, pp. 403–410, 1990.

S. Orozco Arias et al., “Inpactor, Integrated and Parallel Analyzer and Classifier of LTR Retrotransposons and Its Application for Pineapple LTR Retrotransposons Diversity and Dynamics,” Biology (Basel)., vol. 7, p. 32, 2018.

B. Langmead and S. L. Salzberg, “Fast gapped-read alignment with Bowtie 2,” Nat. Methods, vol. 9, no. 4, pp. 357–359, 2012.

G. Van Rossum and F. L. Drake Jr, Python reference manual. Centrum voor Wiskunde en Informatica Amsterdam, 1995.

S. Schwartz et al., “Human-mouse alignments with BLASTZ.,” Genome Res., vol. 13, no. 1, pp. 103–107, 2003.

S. Hicks, D. A. Wheeler, S. E. Plon, and M. Kimmel, “Prediction of missense mutation functionality depends on both the algorithm and sequence alignment employed,” Hum. Mutat., vol. 32, no. 6, pp. 661–668, 2011.

G. L. Johanning et al., “Expression of human endogenous retrovirus-K is strongly associated with the basal-like breast cancer phenotype,” Sci. Rep., vol. 7, no. February, pp. 1–11, 2017.

S. van der Walt, S. C. Colbert, and G. Varoquaux, “The NumPy Array: A Structure for Efficient Numerical Computation,” Comput. Sci. Eng., vol. 13, no. 2, pp. 22–30, 2011.

J. D. Hunter, “Matplotlib: A 2D Graphics Environment,” Comput. Sci. Eng., vol. 9, no. 3, pp. 90–95, May 2007.

M. Hattori et al., “The DNA sequence of human chromosome 21 - supplement table,” Nature, vol. 405, no. May, p. 7118, 2000.

M. Jette, A. Yoo, and M. Grondona, “SLURM: Simple linux utility for resource management,” in LECTURE NOTES IN COMPUTER SCIENCE, 2003.

H. Carroll, P. Ridge, M. Clement, and Q. Snell, “Effects of gap open and gap extension penalties,” Proc. Third …, pp. 1–5, 2006.

J. L. Wegrzyn et al., “Unique features of the loblolly pine (Pinus taeda L.) megagenome revealed through sequence annotation,” Genetics, vol. 196, no. 3, pp. 891–909, 2014.