Chuyển đổi giọng nói thành văn bản bằng mô hình Transformer : Khoá luận tốt nghiệp
Năm xuất bản
2024
Tác giả
Từ, Minh Cường
Nhan đề tạp chí
ISSN
Nhan đề tập
Nhà xuất bản
Trường Đại học Nguyễn Tất Thành (Khoa Công nghệ thông tin)
Tóm tắt
Xây dựng một hệ thống nhận diện giọng nói có khả năng chuyển đổi âm thanh thành văn bản chính xác cho hai ngôn ngữ tiếng Việt và tiếng Anh, đồng thời hỗ trợ lưu trữ các bản ghi âm đã được xử lý và lịch sử nhận diện. Phát triển một ứng dụng chuyển đổi giọng nói thành văn bản: Xây dựng hệ thống nhận diện giọng nói với độ chính xác cao cho tiếng Việt và tiếng Anh, dựa trên mô hình mã nguồn mở Wav2Vec2. Xử lý và tối ưu hóa tín hiệu âm thanh đầu vào: Áp dụng các kỹ thuật giảm nhiễu và loại bỏ khoảng lặng để cải thiện chất lượng âm thanh,nâng cao độ chính xác của kết quả nhận diện. Lưu trữ và quản lý dữ liệu nhận diện: Tích hợp MongoDB làm cơ sở dữ liệu để lưu trữ các bản ghi âm và lịch sử nhận diện, giúp người dùng dễ dàng truy cập và theo dõi các bản ghi đã thực hiện. Cung cấp giao diện người dùng thân thiện: Phát triển giao diện web sử dụng Django, giúp người dùng dễ dàng ghi âm trực tiếp, tải file âm thanh, chọn ngôn ngữ và xem kết quả nhận diện.
Mô tả
69 tr.
Từ khóa chủ đề
Mô hình Transformer , Giọng nói , Văn bản