Одним из крупнейших достижений науки последних лет является технология получения информации о тысячах индивидуальных клеток, извлеченных из организма. Это так называемые «омики» отдельных клеток (геномика, эпигеномика, транскриптомика, протеомика), которые дают нам геномы тысяч индивидуальных клеток, состояния и активности различных генов в них, а также наличие различных протеинов в этих клетках
Данные о каждой клетке удобно представить в виде точки в очень многомерном пространстве. В результате новой технологии ученые всего мира получают тысячи точек (клеток) в пространстве огромной размерности.
Исследование, базирующееся на таких методах анализа данных, как топологический и геометрический анализ, «топологические грамматики», «метод главных графов», «аппроксимация данных» и другие, является важным элементом новой (и огромной по вложениям и количеству игроков) технологии получения данных о живых организмах. Эти данные открывают колоссальные и еще неполностью осознанные возможности для развития биологии и персонализированной медицины.
Идея ветвящегося времени развития позволяет преобразовать получаемые горы данных к более понятному, читаемому и интерпретируемому виду. Представляется, что каждая клетка лежит на некоторой траектории развития. Эти траектории могут ветвиться там, где клетка в своем развитии делает выбор одного варианта будущего из нескольких возможных. Геометрически эти траектории развития с точками бифуркации на них представляют собой ветвящееся время развития.
Новая технология извлечения этого ветвящегося времени из данных была разработана большой международной командой исследователей, включающей 15 ученых из шести стран: США, Китая, Франции, Италии, Великобритании и России.
Сложные деревья строятся с использованием грамматик элементарных преобразований. На каждом шаге базового алгоритма выбирается именно то элементарное преобразование, которое дает наибольший выигрыш в качестве аппроксимации данных.
Метод топологических грамматик для обработки сложных данных общей природы был предложен еще в 2007 г. профессором Александром Горбанем (Великобритания, в настоящее время руководит выполнением мегагранта в ННГУ им. Н. И. Лобачевского) и его учеником Андреем Зиновьевым (Франция, в настоящее время сотрудничает с ННГУ им. Н. И. Лобачевского в выполнении мегагранта).
«Понятие ветвящегося времени (или, как часто говорят, псевдовремени) возникает в биологии таким образом: клетки и события, с ними происходящие, размещаются вдоль некоторого графа (или, более формально, одномерного континуума, так как граф — дискретный объект). Этот ветвящийся континуум играет в анализе событий развития и дифференцировки ту же роль, что и линейное время в других областях (шкала для размещения событий). Никакой мистики или модификации физического времени. Ну вот ввели люди такое понятие и многие им пользуются. Удобно. А топология этой шкалы извлекается из анализа данных. Потом данные картируются на этой шкале», — объясняет Александр Горбань.
Этот метод изучался в рамках широкого международного сотрудничества и был использован для создания специализированного программного продукта STREAM, строящего ветвящееся время клеточного развития из данных «омик» инивидуальных клеток.
«Представьте себе, еще сравнительно недавно мы с восторгом и ощущением чуда узнали о расшифровке генома человека. А новая технология позволяет определить состояния и активности генов и другие важные данные одновременно для десятков тысяч клеток, взятых из организма. Для каждой из них — индивидуально, а не по средним значениям. Это дает важнейшую информацию о развитии индивидуального организма и зарождении в нем различных болезней, например, рака. Но данные эти надо прочитать, расшифровать и извлечь из них полезную информацию. Мы предоставляем такое средство для работы с этими данными и извлечения из них важной информации», — анализирует Александр Горбань.