TÓM TẮT LUẬN VĂN
Cây sinh loài mô tả lịch sử tiến hóa của một nhóm các loài với những đặc tính khác nhau nhưng cùng có mối quan hệ họ hàng với nhau và cùng hình thành từ một tổ tiên chung trong quá khứ. Đặc tính của mỗi loài được chúng ta quan tâm ở đây tương ứng với các bộ gen. Gen là các chuỗi DNA được bao gồm từ các kí tự A, G, C và T hợp thành. Cây sinh loài là một cây mà các nút lá (taxa) của nó có thể là các vật sống hiện tại ngày nay, các nút trong của cây đó là các tổ tiên của các nút lá. Tái cấu trúc cây sinh loài chính là tìm những gen phù hợp nhất để đưa vào các nút tổ tiên hoặc là đưa ra một cây sinh loài phù hợp nhất để giải thích quá trình tiến hoá.
Tuy nhiên, việc nghiên cứu cây sinh loài cho nhiều hướng tiếp cận. Mỗi phương pháp có những ưu điểm và khuyết điểm của nó. Phương pháp ước lượng hợp lý cực đại được chọn ở đây là phương pháp phức tạp nhất nhưng lại là phương pháp cho kết quả tin cậy nhất. Công cụ chính sử dụng trong phương pháp này là Đại số thống kê và Đại số máy tính. Đó là những lãnh vực phát triển mạnh mẽ trong những năm gần đây.
Thống kê là ngành khoa học phân tích dữ liệu. Đối với các chuỗi DNA thì thống kê sẽ xây dựng những mô hình quá trình phát sinh dữ liệu. Đưa ra những kết luận chung về quá trình phát sinh đó. Mô hình thống kê là nguyên tắc cơ bản đối với các gen. Đại số thống kê làm sáng tỏ cho những ý tưởng trọng tâm về phân tích dữ liệu rời rạc nói riêng và phân tích chuỗi sinh học nói riêng.
Ước lượng hợp lý cực đại (Maximum Likelihood Estimation – MLE) được công thức hoá trong Xác suất cổ điển, nó có tính chất của một ước lượng tốt. Phương pháp MLE đánh giá những tham số của một mô hình thối lui. MLE dẫn đến việc giải quyết là làm cực đại tích của những đa thức.
Đại số máy tính là một lãnh vực mới, nó cung cấp những nền tảng để giải bài toán MLE trên máy tính.
Đề tài này tập trung vào việc nghiên cứu mô hình xác suất thống kê trên cây sinh loài từ những dữ liệu là các gen của sinh vật sống. Sau đó sử dụng những nền tảng toán học, đại số máy tính để giải quyết bài toán hợp lý cực đại của mô hình xác suất trên. Mục tiêu cuối cùng là tìm một cây sinh loài thích hợp nhất để giải thích sự tiến hoá. Những kết quả của luận văn đã làm như sau:
Về phương pháp: Chọn phương pháp đáng tin cậy nhất là phương pháp ước lượng hợp lý cực đại cho mô hình hóa bài toán. Giải phương trình hợp lý bằng phương pháp tính toán đại số để tìm kết quả chính xác.
Về tính toán: Viết một chương trình để mô hình hóa ước lượng hợp lý cực đại trên cây sinh loài và chạy tìm nghiệm phương trình hợp lý trên một số cây sinh loài nhỏ 3 và 4 taxa ở một số mô hình.