б. Данные b1, b2, b3, b4 и b5 смоделируйте без молекулярных часов.
5.3.6. Сгенерируйте с использованием 2-параметической модели Кимуры последовательности c1, c2, c3, c4, c5 и сохраните их в seqdata.mat.
а. Даже не зная заранее, какая именно модель была использована, как сравнение некоторых из этих последовательностей поможет определить, что именно 2-параметрическое расстояние Кимуры было бы хорошим выбором для моделирования этих последовательностей?
б. Постройте дерево методом присоединения соседей, используя значение расстояния вычисляемого 2-параметрическим методом Кимуры.
в. Соответствует ли полученное дерево гипотезе молекулярных часов хотя бы приближенно? Обоснуйте свою точку зрения.
5.3.7. Сохраните последовательности d1, d2, d3, d4, d5 и d6 в файл seqdata.mat.
а. Выберите формулу расстояния для использования на этих последовательностях и объясните, почему сделанный выбор оптимален.
б. Постройте дерево методом присоединения соседей из имеющихся данных.
в. Один из этих 6 таксонов является внешней группой, которая была включена для того, чтобы получить корневое дерево на оставшихся 5. Какая именно из них является внешней группой? Нарисуйте корневое метрическое дерево, относящее к оставшимся таксонам.
5.4. Построение дерева методом максимальной экономии
Одним из критических недостатков дистанционных методов построения дерева заключается в том, что, поскольку они начинаются со сведения полных данных о последовательности ДНК к набору попарных расстояний между таксонами, то они могут не использовать всю информацию об исходных последовательностях.
Метод максимальной экономии предполагает несколько иной подход к построению дерева, использующий целые последовательности. Среди всех возможных деревьев, которые могут связывать таксоны, он ищет то, которое потребовало бы наименьшего количества возможных мутаций. Чтобы оценить количество мутаций никогда не вычисляются расстояния, а вместо этого рассматривается, как мутации происходят в имеющихся последовательностях на каждом отдельном участке.
Общий план таков: для данного дерева каким-то образом подсчитывается наименьшее количество мутаций, которое потребовалось бы, если бы последовательности возникли от общего предка в соответствии с этим деревом. Это число называется скупой оценкой дерева. Далее одно за другим рассматриваются все деревья, которые могут связать интересующие таксоны, и вычисляется оценку экономии для каждого из них. Затем выбирается дерево, которое имеет наименьшую оценку экономии. Это дерево, самое экономное, является тем, которое метод считает оптимальным для имеющихся данных о мутирующей последовательности.
В качестве первого шага реализации намеченного плана понадобится найти способ вычисления оценки экономии для определенного дерева и последовательностей. Предположим, что смотрим на один участок в ДНК для каждого из таксонов и видим, например,
: A, : T, : T, : G, : A.Если представить, что они были связаны деревом, показанным на рисунке 5.18, то можно пройти обратно