Xây dựng hệ thống tóm tắt văn bản bằng mô hình LSTM SEQ2SEQ with ATTENTION : Khoá luận tốt nghiệp

Năm xuất bản
2024
Tác giả
Nguyễn, Ngọc Trường
Nhan đề tạp chí
ISSN
Nhan đề tập
Nhà xuất bản
Trường Đại học Nguyễn Tất Thành (Khoa Công nghệ thông tin)
Tóm tắt
Xây dựng mô hình LSTM Seq2Seq with Attention để thực hiện tóm tắt văn bản bằng nội dung Tiếng Việt. Thu thập dữ liệu, tiền xử lý dữ liệu, huấn luyện mô hình bằng bộ dataset chứa các file Text Document theo chủ đề tin tức, gồm 7 chủ đề như (Chính trị xã hội, Đời sống, Kinh doanh, Pháp luật, Sức khỏe, Thế giới, Thể thao). Sử dụng việc tính điểm độ quan trong của câu bởi TF-IDF loại bỏ từ “stop-word” và áp dụng word2vec (Tiếng việt). Phát triển hệ thống trên giao diện người dùng (GUI) bằng PyQt5 cũng như tích hợp lên web sử dụng framework ‘Flask’.Hệ thống tóm tắt có tích hợp việc đánh giá kết quả sau khi tóm tắt bằng BLEU Score để cho ra thang điểm thấp hay cao. Xử lý tính toán được số từ đã giảm bao nhiều phần trăm giữa kết quả tóm tắt và văn bản gốc. Người dùng sẽ có thể tùy chỉnh được số câu tóm tắt mong muốn, để cho ra kết quả tóm tắt dài hay ngắn tùy ý bởi người dùng.
Mô tả
66 tr.
Từ khóa chủ đề
Mô hình LSTM SEq2Seq with Attention , Tóm tắt văn bản , Hệ thống
Trích dẫn
Bộ sưu tập