Известия Саратовского университета. Новая серия.

Серия Математика. Механика. Информатика

ISSN 1816-9791 (Print)
ISSN 2541-9005 (Online)


Для цитирования:

Твердохлебов В. А., Карякин Д. А. Классификация и распознавание структур генетических последовательностей // Известия Саратовского университета. Новая серия. Серия : Математика. Механика. Информатика. 2019. Т. 19, вып. 3. С. 338-350. DOI: 10.18500/1816-9791-2019-19-3-338-350, EDN: VQJQOM

Статья опубликована на условиях лицензии Creative Commons Attribution 4.0 International (CC-BY 4.0).
Опубликована онлайн: 
31.08.2019
Полный текст:
(downloads: 199)
Язык публикации: 
русский
Рубрика: 
Тип статьи: 
Научная статья
УДК: 
501.1
EDN: 
VQJQOM

Классификация и распознавание структур генетических последовательностей

Авторы: 
Твердохлебов Владимир Александрович, Саратовский национальный исследовательский государственный университет имени Н. Г. Чернышевского
Карякин Денис Алексеевич, Саратовский национальный исследовательский государственный университет имени Н. Г. Чернышевского
Аннотация: 

Для решения проблемы определения связей свойств организмов со свойствами соответствующих им генетических последовательностей в статье рассматривается метод классификации последовательностей и распознавание принадлежности исследуемой последовательности конкретному классу. Впервые предлагается классификация последовательностей на основе числовых показателей рекуррентных и Z-рекуррентных форм, определяющих структуры функциональных связей элементов последовательностей. Для числовых показателей рекуррентных и Z-рекуррентных форм вводится классификация, которая распространяется на классификацию генетических последовательностей. Каждому рассматриваемому в задаче распознавания классу последовательностей, имеющему содержательную интерпретацию в приложениях, сопоставляется числовая характеристика, обобщающая числовые показатели рекуррентной или Z-рекуррентной формы, определяющих структуру последовательностей класса. При распознавании полученная числовая характеристика класса сравнивается с числовой характеристикой рекуррентной или Z-рекуррентной формы, соответствующей исследуемой генетической последовательности. При классификации последовательностей на основе числовых показателей рекуррентной и Z-рекуррентной форм, определяющих структуры функциональных связей элементов в последовательностях, причинно-следственные связи в генетических последовательностях, заменяются формальными функциональными зависимостями между элементами последовательностей. Задача распознавания рассматривается в двух формах: в форме принадлежности последовательности заданному конкретному классу последовательностей и в форме определения, какому из заданных классов последовательностей принадлежит исследуемая последовательность. Основные математические трудности при решении указанных задач распознавания связаны с определением рекуррентных и Z-рекуррентных форм, по числовым показателям которых исследуемая последовательность и классы последовательностей различаются. Для преодоления этих трудностей разработан спектр числовых показателей рекуррентных и Z-рекуррентных форм, с использованием которого рекуррентно и Z-рекуррентно определены последовательности. Классификация и распознавание иллюстрируются примером, в котором рассматриваются три класса генетических кодов организмов, каждый из которых представлен пятью генетическими последовательностями. Для уточнения и расширения классификации последовательностей и повышения эффективности методов распознавания вводится Z-рекуррентное определение последовательностей.

Список источников: 
  1. Твердохлебов В. А. Геометрическая форма автоматных отображений, рекуррентное и Z-рекуррентное определение последовательностей // Изв. Сарат. ун-та. Нов. сер. Сер. Математика. Механика. Информатика. 2016. Т. 16, вып. 2. С. 232–241. DOI: https://doi.org/10.18500/1816-9791-2016-16-2-232-241
  2. Твердохлебов В. А. Z-рекуррентное определение последовательностей в задачах контроля и диагностирования процессов в системах // Докл. Акад. воен. наук. 2016. № 2 (70). С. 43–47.
  3. Карякин Д. А. Анализ генетических кодов по показателям сложности взаиморасположения нуклеотидов // Компьютерные науки и информационные технологии : материалы междунар. науч. конф. Саратов : ИЦ «Наука», 2016. C. 190–193.
  4. Льюин Б. Гены. M. : БИНОМ, Лаборатория знаний, 2011. 896 c.
  5. Уотсон Д. Двойная спираль. Воспоминания об открытии структуры ДНК. М. : Мир, 1969. 152 c.
  6. Hogeweg P. The Roots of Bioinformatics in Theoretical Biology // PLoS. Computational Biology. 2011. Vol. 7, iss. 3. Art. ID e1002021. DOI: https://doi.org/10.1371/journal.pcbi.1002021
  7. Wattam A. R., Abraham D., Dalay O., Disz T. L., Driscoll T., Gabbard J. L., Gillespie J. J., Gough R., Hix D., Kenyon R., Machi D., Mao C., Nordberg E. K., Olson R., Overbeek R., Pusch G. D., Shukla M., Schulman J., Stevens R. L., Sullivan D. E., Vonstein V., Warren A., Will R., Wilson M. J., Yoo H. S., Zhang C., Zhang Y., Sobral B. W. PATRIC, the bacterial bioinformatics database and analysis resource // Nucleic Acids Res. 2014. Vol. 42, iss. D1. P. D581–D591. DOI: https://doi.org/10.1093/nar/gkt1099
  8. Barnett D. W., Garrison E. K., Quinlan A. R., Stromberg M. P., Marth G. T. BamTools: a C++ API and toolkit for analyzing and managing BAM files // Bioinformatics. 2011. Vol. 27, iss. 12. P. 1691–1692. DOI: https://doi.org/10.1093/bioinformatics/btr174
  9. Plieskatt J., Rinaldi G., Brindley P. J., Jia X., Potriquet J., Bethony J., Mulvenna J. Bioclojure: a functional library for the manipulation of biological sequences // Bioinformatics. 2014. Vol. 30, iss. 17. P. 2537–2539. DOI: https://doi.org/10.1093/bioinformatics/btu311
  10. Goto N., Prins P., Nakao M., Bonnal R., Aerts J., Katayama T. BioRuby: bioinformatics software for the Ruby programming language // Bioinformatics. 2010. Vol. 26, iss. 20. P. 2617–2619. DOI: https://doi.org/10.1093/bioinformatics/btq475
  11. de Brevern A. G., Meyniel J. P., Fairhead C., Neuveglise C., Malpertuy A. ´ Trends in IT Innovation to Build a Next Generation Bioinformatics Solution to Manage and Analyse Biological Big Data Produced by NGS Technologies // BioMed Research International. Vol. 2015. Article ID 904541, 15 p. DOI: http://dx.doi.org/10.1155/2015/904541
  12. Schuster S. C. Next-generation sequencing transforms today’s biology // Nature Methods. 2008. Vol. 5, iss. 1. P. 16–18. DOI: https://doi.org/10.1038/nmeth1156
  13. Сингер М., Берг П. Гены и геномы. М. : Мир, 1998. 391 с.
  14. Berg J. M., Tymoczko J. L., Stryer L. DNA, RNA, and the Flow of Genetic Information // Berg J. M., Tymoczko J. L., Stryer L. Biochemistry. 5th ed. N. Y. : W. H. Freeman and Company, 2002. 1515 p.
  15. NCBI Genome List. URL: http://www.ncbi.nlm.nih.gov/genome/browse/ (дата обращения: 18.12.2017).
Поступила в редакцию: 
12.04.2018
Принята к публикации: 
22.02.2019
Опубликована: 
31.08.2019