Luận án Nghiên cứu phương pháp nâng cao độ chính xác phát hiện và nhận dạng tiếng Việt trong ảnh căn cước công dân và ảnh ngoại cảnh Lưu

Luận án Nghiên cứu phương pháp nâng cao độ chính xác phát hiện và nhận dạng tiếng Việt trong ảnh căn cước công dân và ảnh ngoại cảnh

Danh mục: , , Người đăng: Minh Tính Nhà xuất bản: Tác giả: Ngôn ngữ: Tiếng Việt, Tiếng Anh Định dạng: , Lượt xem: 16 lượt Lượt tải: 0 lượt
Tài liệu, tư liệu này được sưu tầm từ nhiều nguồn và được chia sẻ lại với mục đích tham khảo, các bạn đọc nghiên cứu và muốn trích lục lại nội dung xin hãy liên hệ Tác giả, bản quyền và nội dung tài liệu thuộc về Tác Giả & Cơ sở Giáo dục, Xin cảm ơn !

Nội dung

THÔNG TIN NHỮNG ĐÓNG GÓP MỚI VỀ MẶT HỌC THUẬT VÀ LÝ LUẬN CỦA LUẬN ÁN

Tên luận án: Nghiên cứu phương pháp nâng cao độ chính xác phát hiện và nhận dạng tiếng Việt trong ảnh căn cước công dân và ảnh ngoại cảnh.

Chuyên ngành: Khoa học máy tính

Mã số: 9480101

Nghiên cứu sinh : Huỳnh Văn Huy

Khóa : 2017

Cơ sở đào tạo: Trường Đại học Lạc Hồng

Người hướng dẫn khoa học: PGS. TS. Ngô Quốc Tạo; TS. Nguyễn Thị Thanh Tân

Những đóng góp mới của luận án về khoa học và thực tiễn:

Về mặt khoa học:

a) Đóng góp mới về nắn chỉnh ảnh: Luận án đã đề xuất một giải pháp hiệu quả để phát hiện đối tượng là ảnh căn cước công dân và nắn chỉnh vùng ảnh quan tâm bị biến dạng trên ảnh đầu vào bằng cách tích hợp mô hình PP-Yolo và phương pháp chỉnh sửa phối cảnh. Ưu điểm của phương pháp này là khả năng phát hiện, trích xuất và chỉnh sửa chính xác các vùng quan tâm từ ảnh đầu vào có cấu trúc phức tạp. Phương pháp đã góp phần nâng cao độ chính xác của việc phát hiện và nhận dạng văn bản tiếng Việt trên ảnh ngoại cảnh. Đóng góp này được công bố tại công trình [CT4] của Nghiên cứu sinh.

b) Đóng góp mới về phát hiện văn bản tiếng Việt trong ảnh ngoại cảnh: Luận án đã đề xuất một phương pháp để nâng cao độ chính xác phát hiện văn bản trong ảnh ngoại cảnh dựa trên ý tưởng sử dụng các kiến trúc mạng học sâu để học các thuộc tính hình học khác nhau nhằm tái tạo lại biểu diễn đa giác của các vùng văn bản. Thuật toán đạt độ chính xác cao, ít bị ảnh hưởng bởi nhiễu hay hướng của văn bản và nó có khả năng thích nghi, giải quyết tốt đối với văn bản có hình dạng bất kỳ kể cả văn bản cong. Đóng góp này đã được công bố tại công trình [CT1] và [CT2] của Nghiên cứu sinh.

c) Đóng góp mới về nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh: Luận án đã đề xuất một phương pháp hiệu quả để nhận dạng văn bản tiếng Việt trong ảnh ngoại cảnh. Bài toán được giải quyết theo hướng tiếp cận nhận dạng chuỗi ký tự. Trong đó, quy trình nhận dạng mỗi ảnh chuỗi ký tự đầu vào được chia thành 03 luồng chính: Nhận dạng chuỗi ký tự từ hình ảnh; Xử lý ngữ cảnh, dự đoán xác suất; Hợp nhất và hiệu chỉnh lỗi. Sự nổi bật trong hướng tiếp cận của tác giả là cơ chế tích hợp thông tin ngữ cảnh nhiều mức để tăng độ chính xác của từng khâu xử lý trong công đoạn nhận dạng. Trong luồng nhận dạng chuỗi ký tự từ hình ảnh, tác giả đã sử dụng cơ chế tập trung vị trí để xác định được mức độ ảnh hưởng của một ký tự tới các ký tự khác trong cùng chuỗi, từ đó cho phép tập trung vào các phần tử quan trọng liên quan đến phần tử đang xét dựa trên vị trí và ý nghĩa của chúng trong chuỗi. Trong luồng xử lý thông tin ngữ cảnh, tác giả đã xây dựng và huấn luyện mô hình ngôn ngữ tiếng Việt hai chiều mức ký tự nhằm dự đoán được xác suất của mỗi ký tự so với các ký tự phía trước và phía sau nó trong chuỗi. Điều này cho phép giảm thiểu tác động của nhiễu đến khả năng tự hiệu chỉnh lỗi của thuật toán. Cơ chế kết hợp và hợp nhất các đặc trưng hình ảnh và đặc trưng ngôn ngữ để lựa chọn kết quả dự đoán và cung cấp trở lại để huấn luyện mô hình ngôn ngữ cũng là một điểm cải tiến đáng kể trong hướng tiếp cận này. Đóng góp này được công bố tại công trình [CT3] của

Nghiên cứu sinh. Về mặt thực tiễn:

Luận án đã xây dựng được tập dữ liệu VNSceneText. Đây là tập ảnh ngoại cảnh có chứa văn bản chưa từng có trước đây, do tác giả tự thu trực tiếp trên đường phố khu vực tỉnh Bà Rịa – Vũng Tàu và thành phố Hồ Chí Minh trong điều kiện hoàn toàn tự nhiên bằng các thiết bị Smart Phone (Iphone 7, Iphone 12, Oppo Reno 8). Tập dữ liệu bao gồm tổng số 3000 ảnh, trong đó 2400 ảnh dùng cho training và 600 ảnh dùng cho testing. Văn bản trong tập dữ liệu này rất đa dạng về chủng loại (ảnh chụp từ biển quảng cáo, biển chỉ dẫn giao thông, tên đường phố, biển hiệu trên các tòa nhà, phương tiện giao thông và ảnh chụp từ nhiều loại văn bản trên các chất liệu khác như được đúc, được vẽ). VNSceneText là tập dữ liệu quan trọng làm cơ sở để thực nghiệm và so sánh đối với các tập dữ liệu đã có trước đó như VinText, Total-Text, ICDAR 2015. Quá trình thực nghiệm tác giả đã thực hiện việc đồng bộ các kỹ thuật ở các công đoạn trong pha học mẫu bao gồm cơ chế tập trung ngữ cảnh và nâng cao các kỹ thuật làm giàu tập dữ liệu huấn luyện.

Tải tài liệu

1.

Luận án Nghiên cứu phương pháp nâng cao độ chính xác phát hiện và nhận dạng tiếng Việt trong ảnh căn cước công dân và ảnh ngoại cảnh

.zip
7.37 MB

Có thể bạn quan tâm