Chuyển đổi giọng nói thành văn bản bằng mô hình Transformer : Khoá luận tốt nghiệp

Từ, Minh Cường

Chuyển đổi giọng nói thành văn bản bằng mô hình Transformer : Khoá luận tốt nghiệp

Tệp tin

01_TuMinhCuong_MoDau.pdf(190.05 KB)

02_TuMinhCuong_MucLuc.pdf(123.05 KB)

03_TuMinhCuong_DanhMuc.pdf(116.89 KB)

04_TuMinhCuong_NoiDung.pdf(2.3 MB)

05_TuMinhCuong_TaiLieuThamKhao.pdf(119.07 KB)

Năm xuất bản

2024

Tác giả

Từ, Minh Cường

Nhà xuất bản

Trường Đại học Nguyễn Tất Thành (Khoa Công nghệ thông tin)

Tóm tắt

Xây dựng một hệ thống nhận diện giọng nói có khả năng chuyển đổi âm thanh thành văn bản chính xác cho hai ngôn ngữ tiếng Việt và tiếng Anh, đồng thời hỗ trợ lưu trữ các bản ghi âm đã được xử lý và lịch sử nhận diện. Phát triển một ứng dụng chuyển đổi giọng nói thành văn bản: Xây dựng hệ thống nhận diện giọng nói với độ chính xác cao cho tiếng Việt và tiếng Anh, dựa trên mô hình mã nguồn mở Wav2Vec2. Xử lý và tối ưu hóa tín hiệu âm thanh đầu vào: Áp dụng các kỹ thuật giảm nhiễu và loại bỏ khoảng lặng để cải thiện chất lượng âm thanh,nâng cao độ chính xác của kết quả nhận diện. Lưu trữ và quản lý dữ liệu nhận diện: Tích hợp MongoDB làm cơ sở dữ liệu để lưu trữ các bản ghi âm và lịch sử nhận diện, giúp người dùng dễ dàng truy cập và theo dõi các bản ghi đã thực hiện. Cung cấp giao diện người dùng thân thiện: Phát triển giao diện web sử dụng Django, giúp người dùng dễ dàng ghi âm trực tiếp, tải file âm thanh, chọn ngôn ngữ và xem kết quả nhận diện.

Mô tả

69 tr.

Từ khóa chủ đề

Mô hình Transformer , Giọng nói , Văn bản

URL

https://repository.ntt.edu.vn/handle/298300331/1383

Bộ sưu tập

Bachelor Theses

Hiển thị chi tiết