Для цитирования:
Твердохлебов В. А., Карякин Д. А. Классификация и распознавание структур генетических последовательностей // Известия Саратовского университета. Новая серия. Серия: Математика. Механика. Информатика. 2019. Т. 19, вып. 3. С. 338-350. DOI: 10.18500/1816-9791-2019-19-3-338-350, EDN: VQJQOM
Классификация и распознавание структур генетических последовательностей
Для решения проблемы определения связей свойств организмов со свойствами соответствующих им генетических последовательностей в статье рассматривается метод классификации последовательностей и распознавание принадлежности исследуемой последовательности конкретному классу. Впервые предлагается классификация последовательностей на основе числовых показателей рекуррентных и Z-рекуррентных форм, определяющих структуры функциональных связей элементов последовательностей. Для числовых показателей рекуррентных и Z-рекуррентных форм вводится классификация, которая распространяется на классификацию генетических последовательностей. Каждому рассматриваемому в задаче распознавания классу последовательностей, имеющему содержательную интерпретацию в приложениях, сопоставляется числовая характеристика, обобщающая числовые показатели рекуррентной или Z-рекуррентной формы, определяющих структуру последовательностей класса. При распознавании полученная числовая характеристика класса сравнивается с числовой характеристикой рекуррентной или Z-рекуррентной формы, соответствующей исследуемой генетической последовательности. При классификации последовательностей на основе числовых показателей рекуррентной и Z-рекуррентной форм, определяющих структуры функциональных связей элементов в последовательностях, причинно-следственные связи в генетических последовательностях, заменяются формальными функциональными зависимостями между элементами последовательностей. Задача распознавания рассматривается в двух формах: в форме принадлежности последовательности заданному конкретному классу последовательностей и в форме определения, какому из заданных классов последовательностей принадлежит исследуемая последовательность. Основные математические трудности при решении указанных задач распознавания связаны с определением рекуррентных и Z-рекуррентных форм, по числовым показателям которых исследуемая последовательность и классы последовательностей различаются. Для преодоления этих трудностей разработан спектр числовых показателей рекуррентных и Z-рекуррентных форм, с использованием которого рекуррентно и Z-рекуррентно определены последовательности. Классификация и распознавание иллюстрируются примером, в котором рассматриваются три класса генетических кодов организмов, каждый из которых представлен пятью генетическими последовательностями. Для уточнения и расширения классификации последовательностей и повышения эффективности методов распознавания вводится Z-рекуррентное определение последовательностей.
- Твердохлебов В. А. Геометрическая форма автоматных отображений, рекуррентное и Z-рекуррентное определение последовательностей // Изв. Сарат. ун-та. Нов. сер. Сер. Математика. Механика. Информатика. 2016. Т. 16, вып. 2. С. 232–241. DOI: https://doi.org/10.18500/1816-9791-2016-16-2-232-241
- Твердохлебов В. А. Z-рекуррентное определение последовательностей в задачах контроля и диагностирования процессов в системах // Докл. Акад. воен. наук. 2016. № 2 (70). С. 43–47.
- Карякин Д. А. Анализ генетических кодов по показателям сложности взаиморасположения нуклеотидов // Компьютерные науки и информационные технологии : материалы междунар. науч. конф. Саратов : ИЦ «Наука», 2016. C. 190–193.
- Льюин Б. Гены. M. : БИНОМ, Лаборатория знаний, 2011. 896 c.
- Уотсон Д. Двойная спираль. Воспоминания об открытии структуры ДНК. М. : Мир, 1969. 152 c.
- Hogeweg P. The Roots of Bioinformatics in Theoretical Biology // PLoS. Computational Biology. 2011. Vol. 7, iss. 3. Art. ID e1002021. DOI: https://doi.org/10.1371/journal.pcbi.1002021
- Wattam A. R., Abraham D., Dalay O., Disz T. L., Driscoll T., Gabbard J. L., Gillespie J. J., Gough R., Hix D., Kenyon R., Machi D., Mao C., Nordberg E. K., Olson R., Overbeek R., Pusch G. D., Shukla M., Schulman J., Stevens R. L., Sullivan D. E., Vonstein V., Warren A., Will R., Wilson M. J., Yoo H. S., Zhang C., Zhang Y., Sobral B. W. PATRIC, the bacterial bioinformatics database and analysis resource // Nucleic Acids Res. 2014. Vol. 42, iss. D1. P. D581–D591. DOI: https://doi.org/10.1093/nar/gkt1099
- Barnett D. W., Garrison E. K., Quinlan A. R., Stromberg M. P., Marth G. T. BamTools: a C++ API and toolkit for analyzing and managing BAM files // Bioinformatics. 2011. Vol. 27, iss. 12. P. 1691–1692. DOI: https://doi.org/10.1093/bioinformatics/btr174
- Plieskatt J., Rinaldi G., Brindley P. J., Jia X., Potriquet J., Bethony J., Mulvenna J. Bioclojure: a functional library for the manipulation of biological sequences // Bioinformatics. 2014. Vol. 30, iss. 17. P. 2537–2539. DOI: https://doi.org/10.1093/bioinformatics/btu311
- Goto N., Prins P., Nakao M., Bonnal R., Aerts J., Katayama T. BioRuby: bioinformatics software for the Ruby programming language // Bioinformatics. 2010. Vol. 26, iss. 20. P. 2617–2619. DOI: https://doi.org/10.1093/bioinformatics/btq475
- de Brevern A. G., Meyniel J. P., Fairhead C., Neuveglise C., Malpertuy A. ´ Trends in IT Innovation to Build a Next Generation Bioinformatics Solution to Manage and Analyse Biological Big Data Produced by NGS Technologies // BioMed Research International. Vol. 2015. Article ID 904541, 15 p. DOI: http://dx.doi.org/10.1155/2015/904541
- Schuster S. C. Next-generation sequencing transforms today’s biology // Nature Methods. 2008. Vol. 5, iss. 1. P. 16–18. DOI: https://doi.org/10.1038/nmeth1156
- Сингер М., Берг П. Гены и геномы. М. : Мир, 1998. 391 с.
- Berg J. M., Tymoczko J. L., Stryer L. DNA, RNA, and the Flow of Genetic Information // Berg J. M., Tymoczko J. L., Stryer L. Biochemistry. 5th ed. N. Y. : W. H. Freeman and Company, 2002. 1515 p.
- NCBI Genome List. URL: http://www.ncbi.nlm.nih.gov/genome/browse/ (дата обращения: 18.12.2017).
- 1146 просмотров