THÔNG TIN VỀ LUẬN ÁN
– Tên luận án: Tóm Tắt Tự Động Văn Bản Trên Tập Dữ Liệu Lớn
– Ngành: Hệ thống thông tin
– Mã số: 9480104
– Họ tên nghiên cứu sinh: Nguyễn Tí Hon
– Khóa: 2020
– Người hướng dẫn khoa học: PGS.TS. Đỗ Thanh Nghị
– Cơ sở đào tạo: Đại học Cần Thơ
1. Tóm tắt nội dung luận án
Tóm tắt tự động văn bản là mảng nghiên cứu cốt lõi trong xử lý ngôn ngữ tự nhiên. Hai hướng tiếp cận chính trong các nghiên cứu về tóm tắt tự động văn bản là tóm tắt rút trích và tóm tắt tóm lược. Trong đó, bản tóm tắt đơn văn bản là một bản tóm tắt của một văn bản; bản tóm tắt đa văn bản là một bản tóm tắt của tập hợp các văn bản. Tóm tắt tự động văn bản là lĩnh vực nghiên cứu sôi động, thu hút nhiều sự quan tâm của cộng đồng khoa học. Dẫn tới sự xuất hiện số lượng đáng kể các tập dữ liệu thực nghiệm Tiếng Anh. Tuy nhiên, các nghiên cứu thực nghiệm trên các tập dữ liệu Tiếng Việt chỉ mới ở giai đoạn bắt đầu. Hầu hết trong số ít các nghiên cứu đó tập trung vào tóm tắt rút trích cho đa văn bản; hoặc tóm tắt tóm lược cho đơn văn bản. Bên cạnh đó, các tập dữ liệu thực nghiệm tóm tắt văn bản Tiếng Việt hiện chưa thật sự phong phú.
Trong thời đại bùng nổ thông tin, lượng dữ liệu văn bản Tiếng Việt trên Internet ngày càng nhiều. Đây là cơ hội rất tốt để nghiên cứu tóm tắt tự động văn bản, thực nghiệm trên các tập dữ liệu Tiếng Việt. Do đó, luận án thực hiện thu thập, xây dựng tập dữ liệu lớn văn bản Tiếng Việt. Nghiên cứu, đề xuất các mô hình tóm tắt tự động có hiệu quả thực thi nhanh cho tập dữ liệu lớn đồng thời đảm bảo chất lượng bản tóm tắt tương đương với các mô hình hiện đại. Góp phần làm dồi dào thêm các nghiên cứu về tóm tắt tự động văn bản Tiếng Việt, đồng thời làm tiền đề cho các nghiên cứu sau này. Các đóng góp chính của luận án bao gồm một tập dữ liệu lớn cho thực nghiệm tóm tắt tự động văn bản Tiếng Việt, bốn mô hình tóm tắt đơn văn bản hiệu suất cao về mặt thời gian và chất lượng bản tóm tắt xấp xỉ các mô hình hiện đại. Ba trong bốn mô hình được đề xuất là tóm tắt rút trích và mô hình còn lại là tóm tắt tóm lược.
Trước tiên, luận án xây dựng tập dữ liệu thực nghiệm VNText bằng cách thu thập, trích lọc bài viết từ các trang thông tin điện tử Tiếng Việt, lên đến hơn một triệu văn bản. Sau đó luận án, đánh giá kết quả tóm tắt tập VNText trên ba mô hình tóm tắt có kiến trúc sequence-to-sequence dựa trên mạng LSTM và mạng Transformers, làm số liệu baseline để so sánh với các mô hình được nghiên cứu đề xuất trong luận án.