Báo cáo Nghiên cứu giải pháp giảm nhiễu phi tuyến trong miền wavelet nhằm nâng cao chất lượng tiếng nói
Bạn đang xem 20 trang mẫu của tài liệu "Báo cáo Nghiên cứu giải pháp giảm nhiễu phi tuyến trong miền wavelet nhằm nâng cao chất lượng tiếng nói", để tải tài liệu gốc về máy bạn click vào nút DOWNLOAD ở trên
Tài liệu đính kèm:
- bao_cao_nghien_cuu_giai_phap_giam_nhieu_phi_tuyen_trong_mien.pdf
Nội dung text: Báo cáo Nghiên cứu giải pháp giảm nhiễu phi tuyến trong miền wavelet nhằm nâng cao chất lượng tiếng nói
- ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU PHI TUYẾN TRONG MIỀN WAVELET NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Mã số: T2016-07-05 Chủ nhiệm đề tài: ThS. Dương Ngọc Pháp Đà Nẵng, 12/2016
- ĐẠI HỌC ĐÀ NẴNG TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ CẤP CƠ SỞ NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU PHI TUYẾN TRONG MIỀN WAVELET NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Mã số: T2016-07-05 Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài Đà Nẵng, 12/2016
- MỤC LỤC MỤC LỤC DANH MỤC HÌNH VẼ 1 DANH MỤC BẢNG BIỂU 3 DANH MỤC TỪ VIẾT TẮT 4 THÔNG TIN KẾT QUẢ NGHIÊN CỨU 6 MỞ ĐẦU 8 I. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI TRONG VÀ NGOÀI NƯỚC 8 1. NGOÀI NƯỚC 8 2. TRONG NƯỚC 8 II. TÍNH CẤP THIẾT CỦA ĐỀ TÀI 8 III. MỤC TIÊU CỦA ĐỀ TÀI 9 IV. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 9 1. ĐỐI TƯỢNG NGHIÊN CỨU 9 2. PHẠM VI NGHIÊN CỨU 9 V. NỘI DUNG NGHIÊN CỨU 9 CHƯƠNG 1:TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 10 1.1. GIỚI THIỆU CHƯƠNG 10 1.2. TỔNG QUAN VỀ PHÂN TÍCH TÍN HIỆU TIẾNG NÓI 10 1.2.1. Đặc điểm ngôn ngữ học của tiếng nói 10 1.2.2. Xử lý tiếng nói 10 1.3. NHIỄU 15 1.4. NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI 17 1.5. CÁC KỸ THUẬT GIẢM NHIỄU 18 1.5.1. Các thuật toán trừ phổ 19 1.5.2. Sử dụng bộ lọc Wiener 19 1.5.3. Hàm nén nhiễu dựa trên ước lượng MMSE 19 1.6. ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI 20 1.6.1. Phương pháp đánh giá chủ quan 20 1.6.2. Phương pháp đánh giá khách quan 23 1.7. KẾT LUẬN CHƯƠNG 26 CHƯƠNG 2:CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG MIỀN WAVELET 27 2.1. GIỚI THIỆU CHƯƠNG 27 2.2. PHÉP BIẾN ĐỔI WAVELET 27 i
- MỤC LỤC 2.3. MÔ HÌNH NHIỄU CỘNG TRONG MIỀN WAVELET 29 2.4. KỸ THUẬT CHỌN NGƯỠNG 29 2.5. HÀM NÉN NHIỄU 30 2.6. THUẬT TOÁN GIẢM NHIỄU DÙNG PHƯƠNG PHÁP LỌC WAVELET CÓ TÍNH CẢM QUAN PSWF 32 2.6.1. Ánh xạ ngưỡng giác quan 32 2.6.2. Kỹ thuật lọc percentile thích nghi 33 2.6.3. Trọng số hóa trong miền thời gian và tần số 34 2.6.4. Hàm nén nhiễu thích nghi 35 2.7. KẾT LUẬN CHƯƠNG 36 CHƯƠNG 3:THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ 37 3.1. GIỚI THIỆU CHƯƠNG 37 3.2. CƠ SỞ DỮ LIỆU 37 3.3. KẾT QUẢ ĐÁNH GIÁ VÀ PHÂN TÍCH 38 3.3.1. Kết quả đánh giá theo phương pháp LLR 39 3.3.2. Đánh giá hiệu quả nén nhiễu trên các môi trường nhiễu khác nhau 42 3.3.3. Hiệu quả các hàm nén nhiễu theo các phương pháp đánh giá khác nhau . 46 3.3.4. Kết quả phương pháp đánh giá cảm quan PESQ cho các môi trường nhiễu (Babble, Car, White, Train, Street) 52 3.3.5. Kết quả đánh giá CEP-PESQ-WSS-SNRseg với các thuật toán nén nhiễu 55 3.4. KẾT LUẬN CHƯƠNG 60 KẾT LUẬN 61 KIẾN NGHỊ 61 ii
- DANH MỤC HÌNH VẼ DANH MỤC HÌNH VẼ Hình 1.1: Dạng sóng của tín hiệu âm thanh trong miền thời gian 11 Hình 1.2: Tín hiệu tiếng nói được thu từ hai micro khác nhau [1]. 11 Hình 1.3: Tín hiệu tiếng nói từ hai người khác nhau [1]. 11 Hình 1.4: Tín hiệu tiếng nói do một người nói tại hai thời điểm khác nhau [1]. 12 Hình 1.5: Dạng sóng và công suất phổ tín hiệu tiếng nói theo thời gian 12 Hình 1.6: Đường bao phổ tín hiệu tiếng nói do hai người nói khác nhau 13 Hình 1.7: Dạng sóng và ảnh phổ của các tín hiệu tiếng nói: sạch, bị nhiễu và tín hiệu đã được tăng cường 13 Hình 1.8: Kỹ thuật phân khung [1]. 14 Hình 1.9: a) Biên độ và b) Trung bình phổ biên độ nhiễu xe (Car) 15 Hình 1.10: a) Biên độ và b) Trung bình phổ biên độ nhiễu đường phố (Street) 16 Hình 1.11: a) Biên độ và b) Trung bình phổ biên độ nhiễu nhà hàng (Restaurant) 16 Hình 1.12: Mô hình nhiễu cộng 17 Hình 1.13: Sơ đồ khối tổng quát thuật toán giảm nhiễu 17 Hình 2.1: Miền phân tích của phép biến đổi Wavelet 28 Hình 2.2: Cấu trúc cây phân chia gói 29 Hình 2.3: Đặc tuyến hàm nén nhiễu ngưỡng cứng trong miền Wavelet [16]. 31 Hình 2.4: Đặc tuyến hàm nén nhiễu ngưỡng mềm trong miền Wavelet [16]. 31 Hình 2.5: Sơ đồ của thuật toán PSWF [14]. 32 Hình 2.6: Mô tả cách lấy percentile q để xác định ngưỡng thích nghi cho từng kênh Wavelet [14]. 34 Hình 2.7: Đặc tuyến hàm nén nhiễu thích nghi trong miền Wavelet [16]. 36 Hình 3.1: Đáp ứng tần số của bộ lọc IRS 37 Hình 3.2: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn đám đông (Bable). 39 Hình 3.3: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn ôtô (Car). 40 Hình 3.4: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu trắng (White). 40 Hình 3.5: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tàu hỏa (Train). 41 Hình 3.6: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu đường phố (Street). 41 Hình 3.7: Kết quả đánh giá hàm nén ngưỡng cứng cho 5 môi trường nhiễu. 42 Hình 3.8: Kết quả đánh giá hàm nén ngưỡng mềm cho 5 môi trường nhiễu. 43 Trang 1
- DANH MỤC HÌNH VẼ Hình 3.9: Kết quả đánh giá hàm nén Wavelet Shrinking cho 5 môi trường nhiễu. 43 Hình 3.10: Kết quả đánh giá thuật toán LogMMSE-PF cho 5 môi trường nhiễu. 44 Hình 3.11: Kết quả đánh giá thuật toán NSS-PF cho 5 môi trường nhiễu. 44 Hình 3.12: Kết quả đánh giá thuật toán MMSE-PF cho 5 môi trường nhiễu. 45 Hình 3.13: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán HardThreshold-PF. 46 Hình 3.14: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán SoftThreshold-PF. 47 Hình 3.15: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán Shrinking-PF. 48 Hình 3.16: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán LogMMSE-PF. 49 Hình 3.17: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán NSS-PF. 50 Hình 3.18: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán MMSE-PF. 51 Hình 3.19: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn đám đông 52 Hình 3.20: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn ôtô. 52 Hình 3.21: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu trắng. 53 Hình 3.22: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn tàu hỏa. 53 Hình 3.23: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn đường phố. 54 Hình 3.24: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu đám đông. 55 Hình 3.25: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu ôtô. 56 Hình 3.26: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu trắng. 57 Hình 3.27: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tàu hỏa. 58 Hình 3.28: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu đường phố. 59 Trang 2
- DANH MỤC BẢNG BIỂU DANH MỤC BẢNG BIỂU Bảng 1.1: Đánh giá liên quan đến tất cả các trật tự thuận và nghịch trong sắp xếp của tín hiệu cần đánh giá và tín hiệu mẫu cũng như tất cả những kết hợp có thể giữa các tín hiệu mẫu 21 Bảng 1.2: Thang đánh giá DCR 22 Bảng 1.3: Thang đánh giá CCR 22 Bảng 1.4: Thang đánh giá MOS 23 Bảng 2.1: Ánh xạ giữa các CWS và các gói Wavelet 33 Trang 3
- DANH MỤC TỪ VIẾT TẮT DANH MỤC TỪ VIẾT TẮT Từ viết tắt Tiếng Anh Tiếng Việt Đánh giá theo giá trị ACR Absolute Categories Rating tuyệt đối CCR Compison Category Rating Đánh giá bằng cách so sánh CEP Cepstrum Distance Khoảng cách Cepstrum DCR Degradation Category Rating Đánh giá suy giảm chất lượng DFT Discrete Fourier Transform Phép biến đổi Fourier rời rạc DWT Discrete Wavelet Transform Phép biến đổi Wavelet rời rạc FFT Fast Fourier Transform Phép biến đổi Fourier nhanh FRs Frames Số khung HardThr Hard-Threshold Ngưỡng cứng Phép biến đổi ngược Fourier IDFT Inverse Discrete Fourier Transform rời rạc Phép biến đổi ngược Wavelet IDWT Discrete Wavelet Transform rời rạc Institute of Electrical and IEEE Viện kỹ nghệ Điện và Điện tử Electronics Engineers Hệ thống tham chiếu trung IRS Intermediate Reference System gian International Telecommunications Hiệp hội tiêu chuẩn viễn ITU-T Union-Telecomunication thông quốc tế LLR Log Likelihood Ratio Logrithm Minium Mean-Squed Sai lệch trung bình bình LogMMSE Error phương tối thiểu-Logarit LPC Linear Predictive Coding Mã hóa dự đoán tuyến tính Sai lệch trung bình bình MMSE Minimum Mean Sque Error phương tối thiểu MOS Mean Opinion Scores MSS Magnitude Spectral Subtraction Trừ phổ biên độ NOIZEUS Noisy Speech Corpus NSS Non-line Spectral Subtraction Trừ phổ phi tuyến. OE Objective Evaluation Đánh giá khách quan PDF Probability Density Function Hàm mật độ xác suất PESQ Perceptual Evaluation of Speech Đánh giá cảm quan chất Trang 4
- DANH MỤC TỪ VIẾT TẮT Quality lượng thoại PSD Power Spectral Density Mật độ phổ công suất Đo đạc cảm quan chất lượng PSQM Perceptual speech quality measure thoại PSS Power Spectral Subtraction Trừ phổ công suất Perceptually Statistical Wavelet Bộ lọc Wavelet thống kê có PSWF Filter tính cảm quan SE Subjective Evaluation Đánh giá chủ quan SE Speech Enhancement Tăng cường tiếng nói SegSNR Segmental Signal-to-Noise Ratio SNR trên từng khung SNR Signal-to-noise ratio Tỷ số tín hiệu trên nhiễu SoftThr Soft-Threshold Ngưỡng mềm SS Spectral Subtraction Phương pháp trừ phổ. Phép biến đổi Fourier thời STFT Short Time Fourier Transform gian ngắn TD Time Domain Miền thời gian UT Universal Threshold Ngưỡng toàn cục Thăm dò sự hoạt động của VAD Voice Activity Detection tiếng nói WF Wiener Filter Bộ lọc Wiener WPD Wavelet Packet Decomposition Phân tích gói Wavelet WPR Wavelet Packet Reconstruction Khôi phục gói Wavelet WSS Weighted Spectral Slope Độ dốc phổ được trọng số hóa Trang 5
- THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐẠI HỌC ĐÀ NẴNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG CĐ CÔNG NGHỆ THÔNG TIN Độc lập – Tự do – Hạnh phúc THÔNG TIN KẾT QUẢ NGHIÊN CỨU 1. Thông tin chung: - Tên đề tài: NGHIÊN CỨU GIẢI PHÁP GIẢM NHIỄU PHI TUYẾN TRONG MIỀN WAVELET NHẰM NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI - Mã số: T2016-07-05 - Chủ nhiệm: DƯƠNG NGỌC PHÁP - Thành viên tham gia: không - Cơ quan chủ trì: Trường Cao đẳng Công nghệ thông tin – Đại học Đà Nẵng - Thời gian thực hiện: từ ngày 01/01/2016 đến ngày 31/12/2016 2. Mục tiêu: - Nghiên cứu các phép biến đổi và mô hình nhiễu cộng tác động lên tín hiệu tiếng nói trong miền Wavelet. - Nghiên cứu cách xác định ngưỡng và các kỹ thuật nén nhiễu trong miền Wavelet. - Kết quả mô phỏng, đánh giá sẽ so sánh giữa các kỹ thuật giảm nhiễu khác nhau. 3. Tính mới và sáng tạo: - Tín hiệu tiếng nói được biểu diễn trong miền Wavelet khai thác được đầy đủ các đặc điểm về thời gian và tần số cho phép phân tích chi tiết và chính xác các đặc điểm vật lý của tín hiệu, là kỹ thuật được nghiên cứu và ứng dụng rộng rãi trong thời gian gần đây trong lĩnh vực xử lí tín hiệu (giảm nhiễu, nén, ). - Trong đề tài, tác giả nghiên cứu điều chỉnh nhằm tối ưu các thông số của các thuật toán giảm nhiễu trong miền Wavelet, qua đó đưa ra những đánh giá và phân tích để so sánh hiệu quả giảm nhiễu giữa các thuật toán khác nhau. 4. Tóm tắt kết quả nghiên cứu: - Trình bày tổng quan về lĩnh vực xử lí tiếng nói, nâng cao chất lượng tiếng nói và tình hình nghiên cứu các giải pháp giảm nhiễu. - Ứng dụng các phép biến đổi trong miền Wavelet để xây dựng các thuật toán giảm nhiễu cho tín hiệu tiếng nói. - Sử dụng công cụ lập trình để thực hiện giảm nhiễu trong miền Wavelet với các kỹ thuật: hàm nén nhiễu ngưỡng cứng (hard-thresholding), hàm nén nhiễu ngưỡng mềm (soft-thresholding) và hàm nén nhiễu dùng phương pháp lọc Trang 6
- THÔNG TIN KẾT QUẢ NGHIÊN CỨU Wavelet thống kê có tính cảm quan (PSWF) với nhiều mức nhiễu và trong các môi trường nhiễu khác nhau. - Tiến hành tổng hợp và so sánh, đánh giá hiệu quả giảm nhiễu giữa các thuật toán khác nhau đã phát triển trong các miền biến đổi (thời gian, tần số, wavelet) để đề xuất lựa chọn cho các mô hình xử lí tiếng nói. 5. Tên sản phẩm: - Báo cáo tổng kết đề tài; - Bài báo đăng trên kỷ yếu hội thảo cấp trường. 6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: - Về mặt giáo dục - đào tạo: phục vụ công tác giảng dạy, nghiên cứu. - Về mặt khoa học: đóng góp đáng kể của đề tài là trình bày các kỹ thuật giảm nhiễu trong miền Wavelet và thực hiện tối ưu các tham số, qua đó so sánh đánh giá hiệu quả giảm nhiễu nâng cao chất lượng tiếng nói với các thuật toán đã nghiên cứu trước đó. - Về sản phẩm ứng dụng: ứng dụng thuật toán trong việc xây dựng phần mềm giảm nhiễu nâng cao chất lượng tiếng nói. 7. Hình ảnh, sơ đồ minh họa chính: - LLR - babble 1.6 HardThr-PF 1.4 SoftThr-PF Shrinking-UT-PF LogMMSE-PF 1.2 NSS-PF MMSE-PF 1 LLR 0.8 0.6 0.4 0 5 10 15 SNR Hình 0.1: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn đám đông (Bable). Đà Nẵng, ngày 10 tháng 12 năm 2016 Cơ quan chủ trì Chủ nhiệm đề tài Dương Ngọc Pháp Trang 7
- MỞ ĐẦU MỞ ĐẦU I. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC ĐỀ TÀI TRONG VÀ NGOÀI NƯỚC 1. Ngoài nước Với sự phát triển nhanh chóng của Internet và công nghệ truyền thông đa phương tiện, sự phát triển và tích hợp các kỹ thuật xử lý tiếng nói cũng như ứng dụng của tiếng nói như nhận dạng, mã hóa vào trong các sản phẩm và hệ thống truyền thông ngày càng giúp nâng cao chức năng, tính tiện nghi và hiệu suất của các ứng dụng đa phương tiện, các sản phẩm dân dụng, các hệ thống truyền thông và Internet. Tuy nhiên, việc triển khai các ứng dụng trong môi trường thực tế lại gặp phải trở ngại lớn nhất là tác động của nhiễu môi trường làm giảm đáng kể chất lượng tín hiệu thu được, và gián tiếp làm suy giảm hiệu suất của các hệ thống và ứng dụng. Hiện nay, vẫn chưa có thuật toán khử nhiễu nào được công nhận chính thức như là chuẩn quốc tế bởi ITU-T. Hiện tại chỉ có một tập hợp các quy định về quá trình tiền xử lý khử nhiễu được đề xuất cho bộ mã hóa ETSI/3GPP đa tốc độ thích nghi (Adaptive Multi-Rate Codec). Hầu hết các thuật toán được thực hiện trong miền tần số và đôi khi kết hợp với mô hình thính giác của con người. 2. Trong nước Nhiều đề tài đã thực hiện tập trung nghiên cứu các giải pháp giảm nhiễu trong miền thời gian, miền tần số và đã cho các kết quả giảm nhiễu gồm kỹ thuật giảm nhiễu dựa trên thuật toán trừ phổ (SS), kỹ thuật giảm nhiễu với ước lượng MMSE, kỹ thuật giảm nhiễu sử dụng bộ lọc Wiener (WF). Một số đề tài đã đề cập sử dụng kỹ thuật nén nhiễu trong miền Wavelet ứng dụng trong các khối tiền xử lí của hệ thống nhận dạng tiếng nói tự động. II. TÍNH CẤP THIẾT CỦA ĐỀ TÀI Các thuật toán giảm nhiễu đóng vai trò quan trọng thực hiện tiền xử lí trong các hệ thống xử lí tiếng nói. Trong thời gian gần đây, một số kết quả nghiên cứu cho thấy hiệu quả cao của các thuật toán khử nhiễu triển khai trong miền Wavelet. Đề tài này sẽ tập trung nghiên cứu các kỹ thuật giảm nhiễu trong miền Wavelet, đồng thời thực hiện mô phỏng để đánh giá hiệu quả giảm nhiễu của các thuật toán đó. Kết quả giảm nhiễu sử dụng các thuật toán giảm nhiễu thực hiện trong miền Wavelet với các thông số hiệu chỉnh tối ưu sẽ được so sánh, đánh giá với các thuật toán trong các miền thời gian, tần số đã được nghiên cứu, qua đó đưa ra góc nhìn đầy đủ về việc lựa chọn các giải pháp thực hiện giảm nhiễu cho tín hiệu tiếng nói. Trang 8
- MỞ ĐẦU III. MỤC TIÊU CỦA ĐỀ TÀI - Nghiên cứu các phép biến đổi và mô hình nhiễu cộng tác động lên tín hiệu tiếng nói trong miền Wavelet. - Nghiên cứu cách xác định ngưỡng và các kỹ thuật nén nhiễu trong miền Wavelet. - Kết quả mô phỏng, thí nghiệm sẽ được so sánh với các kỹ thuật giảm nhiễu khác. IV. ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 1. Đối tượng nghiên cứu - Mô hình âm học, đặc điểm tiếng nói, đặc tính của nhiễu. - Các phép biến đổi trong miền Wavelet. - Các thuật toán nén nhiễu trong miền Wavelet. - Ngôn ngữ Matlab thực hiện thuật toán. - Các phương pháp đánh giá tín hiệu tiếng nói. 2. Phạm vi nghiên cứu - Các đặc điểm của tín hiệu tiếng nói. - Các phép biến đổi trong miền Wavelet. - Các kỹ thuật giảm nhiễu cho tín hiệu tiếng nói thực hiện trong miền Wavelet. - Đánh giá so sánh các kỹ thuật giảm nhiễu. V. NỘI DUNG NGHIÊN CỨU 1. Trình bày tổng quan về xử lí tiếng nói và tình hình nghiên cứu các giải pháp giảm nhiễu. 2. Các phép biến đổi trong miền Wavelet: mô hình nhiễu, kỹ thuật chọn ngưỡng. 3. Thực hiện giảm nhiễu trong miền Wavelet với các kỹ thuật: hàm nén nhiễu ngưỡng cứng (hard-thresholding), hàm nén nhiễu ngưỡng mềm (soft- thresholding) và hàm nén nhiễu dùng phương pháp lọc Wavelet thống kê có tính cảm quan (PSWF). 4. Mô phỏng kết quả với ngôn ngữ Matlab. So sánh với các phương pháp khác, đánh giá kết quả mô phỏng và so sánh. Trang 9
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 1.1. GIỚI THIỆU CHƯƠNG Chương này trình bày tổng quan về các cơ sở phân tích tiếng nói và giới thiệu về các hướng nghiên cứu, xử lý để cải thiện chất lượng tín hiệu tiếng nói thông qua kỹ thuật giảm nhiễu. Đặc tính nhiễu và các kỹ thuật giảm nhiễu trong các miền thời gian và tần số sẽ được trình bày vắn tắt để làm cơ sở cho việc tổ chức so sánh, đánh giá ở chương 3 của đề tài. Phần cuối chương 1 cung cấp các quy trình, giải pháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của các thuật toán nâng cao chất lượng tiếng nói. 1.2. TỔNG QUAN VỀ PHÂN TÍCH TÍN HIỆU TIẾNG NÓI 1.2.1. Đặc điểm ngôn ngữ học của tiếng nói Tiếng nói là tín hiệu sóng âm để diễn đạt và truyền tải thông tin. Thông tin được thông báo bằng tiếng nói về bản chất là rời rạc, có thể biểu diễn bởi việc gán các phần tử ở một tập hợp hữu hạn các ký hiệu. Các ký hiệu mà mỗi âm có thể được phân loại ra gọi là các âm vị (phoneme). Mỗi ngôn ngữ có tập hợp các âm vị riêng của nó, có khoảng từ 30 đến 50 âm vị. Ví dụ, tiếng Anh có thể biểu diễn bằng khoảng 42 âm vị, tiếng Việt khoảng 33 âm vị. 1.2.2. Xử lý tiếng nói a. Phân loại tiếng nói Tiếng nói được chia thành 3 loại cơ bản như sau [1]: . Âm hữu thanh: Là âm khi phát ra thì có thanh, chẳng hạn như chúng ta nói “i”, “a”, hay “o”. Trong âm hữu thanh, không khí đi ra khỏi phổi bị ngắt một cách nhanh chóng bởi sự đóng mở tuần hoàn của những dây thanh âm. . Âm vô thanh: Là âm khi tạo ra tiếng thì dây thanh không rung hoặc rung đôi chút tạo ra giọng như giọng thở, ví dụ như “h”, “p” hay “th”. Tạo ra do sự hỗn loạn khi luồng không khí đi qua chỗ hẹp. . Âm bật: Để phát ra âm bật, đầu tiên bộ máy phát âm phải đóng kín tạo nên một áp suất, sau đó không khí được giải phóng một cách đột ngột, ví dụ như “ch”, “t”. b. Biểu diễn tín hiệu tiếng nói Có 3 phương pháp biểu diễn tín hiệu tiếng nói cơ bản là: - Biểu diễn dưới dạng sóng theo thời gian. - Biểu diễn trong miền tần số: phổ của tín hiệu tiếng nói - Biểu diễn trong không gian 3 chiều (ảnh phổ- spectrogram) Dạng sóng theo thời gian Trang 10
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI Hình 1.1: Dạng sóng của tín hiệu âm thanh trong miền thời gian Time(s) Time(s) Hình 1.2: Tín hiệu tiếng nói được thu từ hai micro khác nhau [1]. . . Time(s) . . Time(s) Hình 1.3: Tín hiệu tiếng nói từ hai người khác nhau [1]. Trang 11
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI . . Hình 1.4: Tín hiệu tiếng nói do một người nói tại hai thời điểm khác nhau [1]. Âm thanh được lưu trữ theo định dạng thông dụng trong máy tính là *.WAV với các tần số lấy mẫu thường gặp là: 8000Hz, 10000Hz, 11025Hz, 16000Hz, 22050Hz, 32000Hz, 44100Hz. Độ phân giải hay còn gọi là số bít trên mỗi mẫu là 8 hoặc 16 bít và số kênh là 1 (Mono) hoặc 2 (Stereo). Như vậy, dữ liệu lưu trữ của tín hiệu âm thanh sẽ khác nhau tuỳ theo máy thu thanh, thời điểm phát âm hay người phát âm, điều này được thể hiện rõ nét trong các hình 1.1, hình 1.2, hình 1.3 và hình 1.4. Phổ tín hiệu tiếng nói Dải tần số của tín hiệu âm thanh nằm trong khoảng tần số từ 0Hz đến 20KHz, tuy nhiên phần lớn công suất nằm trong dải tần số từ 0,3KHz đến 3,4KHz. Hình 1.5: Dạng sóng và công suất phổ tín hiệu tiếng nói theo thời gian Hình 1.5 và hình 1.6 cho ta thấy đường bao phổ của tín hiệu tiếng nói, công suất phổ tập trung trong dải tần từ 0,1KHz đến 3,5KHz. Hai người nói khác nhau cho thấy đường bao phổ cũng khác nhau. Trang 12
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI Hình 1.6: Đường bao phổ tín hiệu tiếng nói do hai người nói khác nhau Ảnh phổ (Spectrogram) Bên cạnh việc biểu diễn tín hiệu tiếng nói bằng dạng sóng tín hiệu, phổ công suất hay đường bao phổ, tín hiệu tiếng nói còn được biểu diễn trong không gian ba chiều gọi là ảnh phổ như hình 1.7. Quan sát ảnh phổ ta thu nhận được các thông tin như phổ công suất, phân bố tần số, formant.v.v. Hình 1.7: Dạng sóng và ảnh phổ của các tín hiệu tiếng nói: sạch, bị nhiễu và tín hiệu đã được tăng cường c. Các hướng xử lý tiếng nói Dựa trên kết quả nghiên cứu về đặc điểm của tín hiệu tiếng nói, các công cụ toán học được áp dụng để hiện thực các kỹ thuật xử lý tín hiệu tiếng nói. Các hướng nghiên cứu xử lý tiếng nói có thể được phân chia như sau: . Nhận dạng tiếng nói: phân tích và xử lý về mặt nội dung ngôn ngữ của tín hiệu tiếng nói. Mục đích là để chuyển nội dung của tiếng nói thành văn bản. Trang 13
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI . Nhận dạng người nói: mục đích là để xác định và thẩm định danh tính của người nói từ tín hiệu giọng nói của người đó. . Tăng cường chất lượng tiếng nói: nhằm cải thiện chất lượng và tăng tính hiểu được của tín hiệu tiếng nói bị nhiễu (ví dụ: giảm nhiễu ồn của tín hiệu tiếng nói, giảm hoặc khử tiếng vọng trong kỹ thuật điện thoại .v.v). . Mã hóa tiếng nói: nhằm thực hiện nén dữ liệu tiếng nói để giảm dung lượng lưu trữ hay tiết kiệm băng thông truyền dẫn (ví dụ như trong thể thức truyền tiếng nói qua internet VoIP). Ngoài ra, việc mã hóa dữ liệu tiếng nói cũng nhằm mục đích bảo mật thông tin tiếng nói được truyền đi. . Tổng hợp tiếng nói: là kỹ thuật tạo ra tiếng nói nhân tạo từ văn bản nhập vào. Tiếng nói được tạo ra nên có chất lượng giống tiếng nói tự nhiên. . Phân tích giọng nói: được ứng dụng chủ yếu trong y học, nhằm phát hiện ra khuyết tật hay vấn đề của dây thanh âm, thanh quản.v.v. . Định vị nguồn âm thanh: xử lý tín hiệu tiếng nói để xác định vị trí của nguồn phát ra âm thanh (có thể là loa, người nói, hướng nói. v.v.). d. Kỹ thuật phân khung tín hiệu tiếng nói Bên cạnh phương pháp xử lý tín hiệu tiếng nói cho từng mẫu (sample) nhận được, tín hiệu tiếng nói thường được xử lý trên từng khung (frame/segment) với chiều dài khung thường khoảng từ 10ms đến 30ms và khoảng lệch các khung thường bằng 40% - 60% chiều dài khung. Hình 1.8: Kỹ thuật phân khung [1]. Kỹ thuật phân khung tín hiệu (framing) được thực hiện bằng cách nhân tín hiệu ngõ vào với hàm cửa sổ trượt. Trong lý thuyết phân tích tín hiệu, rất nhiều thuật toán và phép biến đổi yêu cầu tính chất thống kê của tín hiệu không thay đổi hay ổn định theo thời gian (stationary). Chẳng hạn trong phân tích phổ của tín hiệu dùng biến đổi Trang 14
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI Fourier, tính chất stationary được yêu cầu để sự ước lượng phổ có độ chính xác cao. Trong thực tế yêu cầu này rất khó thỏa mãn đối với hầu hết các tín hiệu có trong ứng dụng thực tế. Như đã đề cập, việc phân tích tín hiệu tiếng nói không thể đơn giản chỉ bằng phân tích một khung tín hiệu đơn lẻ mà phải bằng các phân tích của các khung tín hiệu liên tiếp. Thực tế, để tránh mất thông tin, các khung tín hiệu thường được lấy bao trùm nhau như biểu diễn trong hình 1.8. Nói một cách khác, hai khung cách nhau có chung ít nhất M>0 mẫu. Các hàm cửa sổ phổ biến thường hay được sử dụng là: hàm cửa sổ chữ nhật (rectangular window), hàm cửa sổ Hanning, và hàm cửa sổ Hamming. 1.3. NHIỄU Nhiễu tồn tại mọi nơi, ví dụ nhiễu trên đường phố (Street: phương tiện giao thông, công trường đang thi công), nhiễu trong xe hơi (Car: tiếng ồn động cơ, gió), nhiễu trong văn phòng (Office: tiếng ồn quạt máy tính để bàn, máy điều hòa không khí), nhiễu trong nhà hàng (Restaurant: tiếng xì xào), Đặc tính khác của các kiểu nhiễu khác nhau là giản đồ phổ tín hiệu, liên quan đến sự phân bố năng lượng nhiễu trong miền tần số. Ví dụ, năng lượng chính của nhiễu gió tập trung ở dải tần số thấp, thường là dưới 500Hz. Ví dụ minh họa về các loại nhiễu được trình bày ở hình 1.9, hình 1.10 và hình 1.11 về so sánh biên độ và phổ biên độ của các loại nhiễu xe (Car), nhiễu đường phố (Street) và nhiều nhà hàng (Restaurant). a) b) Hình 1.9: a) Biên độ và b) Trung bình phổ biên độ nhiễu xe (Car) Trang 15
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI a) b) Hình 1.10: a) Biên độ và b) Trung bình phổ biên độ nhiễu đường phố (Street) a) b) Hình 1.11: a) Biên độ và b) Trung bình phổ biên độ nhiễu nhà hàng (Restaurant) Trong 3 nguồn nhiễu được ví dụ ở trên, nhiễu trong xe hơi (Car) có mật độ phổ phẳng, được xem là ổn định theo thời gian trong khi nhiễu tiếng ồn đường phố (Street) và nhiễu trong nhà hàng (Restaurant) có mật độ không đồng đều theo thời gian. Như đã đề cập từ đầu thì đề tài này chỉ giới hạn giải pháp giảm nhiễu cho tín hiệu tiếng nói đơn kênh bị suy hao do cơ chế tác động nhiễu cộng âm học (additive acoustic Trang 16
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI noise). Như trình bày ở hình 1.12, tín hiệu tiếng nói bị nhiễu y(n) nhận được tại microphone thực chất được tạo ra từ một nguồn tín hiệu tiếng nói sạch x(n) cộng với nhiễu nền v(n). (푛) (푛) Noise ̂(푛) reduction 푣(푛) Hình 1.12: Mô hình nhiễu cộng Với giả thiết tín hiệu x(n) và v(n) là không tương quan, bài toán đặt ra ở đây là thiết kế bộ giảm nhiễu (noise reduction) để tái tạo tín hiệu tiếng nói tại ngõ ra x̂(n) có chất lượng gần giống với tín hiệu gốc x(n) nhất. 1.4. NÂNG CAO CHẤT LƯỢNG TIẾNG NÓI Nâng cao chất lượng tiếng nói là việc cải thiện (tăng cường) các khía cạnh nhận thức của tiếng nói bị tác động bởi nhiễu môi trường với sự hỗ trợ của các công cụ xử lý tín hiệu. Trên cơ sở đó yêu cầu xây dựng các kỹ thuật giảm nhiễu có khả năng giảm các mức nhiễu khác nhau nhằm nâng cao chất lượng tiếng nói mô tả như ở hình 1.7. Sơ đồ khối của thuật toán giảm nhiễu được trình bày như trong hình 1.13. Trong mô hình cải thiện chất lượng tín hiệu tiếng nói bị nhiễu này tín hiệu ngõ vào đầu tiên được phân tích thành các khung ngắn (frames) có cấu trúc ổn định. Tiếp theo đó sẽ thực hiện phép biến đổi Fourier nhanh (FFT) hoặc phép biến đổi Wavelet rời rạc (DWT) được áp dụng để có thể biểu diễn và khai thác đặc tính của tín hiệu và nhiễu hiệu quả hơn trong miền biến đổi, đồng thời giúp cho việc áp dụng các kỹ thuật ước lượng nhiễu tương ứng trong mỗi miền đạt độ chính xác cao hơn. (푛) Y(n) Phân tích tín FFT/ Hàm xử lý IFFT/ Xếp hiệu thành các chồng và DWT giảm nhiễu IDWT cộng frame Tín hiệu Tín hiệu bị sạch nhiễu Ước lượng nhiễu Hình 1.13: Sơ đồ khối tổng quát thuật toán giảm nhiễu Dựa trên kỹ thuật giảm nhiễu với mức nhiễu đã được ước lượng, các khung tín hiệu sau khi được giảm nhiễu trong miền tần số hoặc miền Wavelet sẽ được biến đổi ngược lại (IDFT/IDWT) qua miền thời gian trước khi được tổng hợp lại bằng phương Trang 17
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI pháp cộng xếp chồng (overlap and adding) ghép khung để khôi phục tín hiệu tiếng nói tại ngõ ra. Có 4 hướng nghiên cứu chính để thiết kế các quy luật giảm nhiễu: - Dựa trên tính tuần hoàn (periodicity) của tín hiệu tiếng nói. - Dựa trên việc mô phỏng mô hình thính giác (auditory model). - Sử dụng các bộ ước lượng tuyến tính tối ưu (linear estimators). - Dựa trên mô hình thống kê (statistical models) sử dụng các phương pháp ước lượng phi tuyến tối ưu (non-linear estimators). Trong đề tài này xây dựng thuật toán giảm nhiễu dựa trên mô hình thống kê với các bộ ước lượng phi tuyến tối ưu. 1.5. CÁC KỸ THUẬT GIẢM NHIỄU Như vậy, từ các yêu cầu trình bày ở trên thì nhiều thuật toán với mục đích giảm nhiễu nâng cao chất lượng tiếng nói ra đời. Những thuật toán này có thể được chia thành ba nhóm chính: - Các thuật toán trừ phổ: là phương pháp khôi phục công suất hay biên bộ phổ của tín hiệu tiếng nói bị tác động bởi nhiễu cộng. Khi đó thuật toán sẽ có nhiệm vụ ước lượng phổ nhiễu trung bình khi vắng mặt tiếng nói và thực hiện trừ nhiễu khỏi tín hiệu tiếng nói bị nhiễu. - Các thuật toán dựa trên mô hình thống kê: nguyên lý của các kỹ thuật này dựa trên nền tảng ước lượng thống kê. Với các thông số đo lường được biểu diễn bằng các hệ số biến đổi Fourier của tín hiệu tiếng nói bị nhiễu để đưa ra các ước lượng tuyến tính (hoặc phi tuyến) các thông số của tín hiệu tiếng nói sạch. - Các thuật toán không gian con: không giống như các thuật toán ở trên, các thuật toán không gian con có nguồn gốc dựa vào lý thuyết đại số tuyến tính. Cụ thể, các thuật toán này dựa trên nguyên lý tín hiệu sạch có thể bị giới hạn trong không gian con của không gian Euclidean. Trên thực tế thì các thuật toán giảm nhiễu chỉ có thể cải thiện được một phần chất lượng của tiếng nói. Nó có thể làm giảm được nhiễu nền trong tiếng nói nhưng nó sẽ làm gia tăng thêm độ méo của tín hiệu tiếng nói, chính điều này làm giảm đi tính dễ nghe của tiếng nói. Do đó, việc thiết kế một thuật toán giảm nhiễu phải đảm bảo yêu cầu là giảm được nhiễu và không được gây ra méo trong sự cảm nhận tín hiệu tiếng nói. Trong phần này của sẽ trình bày ngắn gọn các kết quả nghiên cứu của các thuật toán giảm nhiễu trong miền thời gian và tần số nhằm làm cơ sở đánh giá và so sánh với các phương pháp giảm nhiễu trong miền Wavelet là nội dung chính được trình bày tiếp tục ở chương 2. Trang 18
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI 1.5.1. Các thuật toán trừ phổ Trừ phổ (SS) là thuật toán được đề xuất sớm nhất trong các thuật toán được sử dụng để giảm nhiễu trong tín hiệu [3] ở miền tần số bao gồm trừ phổ biên độ và trừ phổ công suất. Nó dựa trên một nguyên tắc cơ bản là thừa nhận sự có mặt của nhiễu, phổ của tiếng nói sạch được ước lượng bằng cách trừ đi phổ của nhiễu với phổ của tiếng nói đã bị nhiễu. Phổ của nhiễu có thể được ước lượng, cập nhật trong nhiều chu kỳ khi không có mặt của tín hiệu. Sự thừa nhận đó chỉ được thực hiện đối với nhiễu không đổi hoặc có tốc độ xử lý biến đổi chậm, và khi đó phổ của nhiễu sẽ không thay đổi đáng kể giữa các khoảng thời gian cập nhật. Việc tăng cường tín hiệu đạt được bằng cách tính IDFT (biến đổi Fourier rời rạc ngược) của phổ tín hiệu đã được ước lượng có sử dụng pha của tín hiệu có nhiễu. Thuật toán này là một phép tính ước lượng đơn giản vì nó chỉ gồm biến đổi DFT thuận và DFT ngược. Trong thực tế các loại nhiễu có tính chất thống kê biến động rất phức tạp trong cả miền thời gian lẫn miền tần số. Do đó, phổ nhiễu được ước lượng có thể không chính xác. Một nhược điểm khác của phương pháp trừ phổ là pha tín hiệu sau khi tăng cường được thay bằng pha của tín hiệu bị nhiễu ban đầu do đó có thể ảnh hưởng đến tính dễ nghe nhưng không ảnh nhiều đến chất lượng của tín hiệu. 1.5.2. Sử dụng bộ lọc Wiener Bộ lọc Wiener do Norbert Wiener nghiên cứu và đề xuất năm 1949 với mục đích ban đầu ứng dụng để xử lý trong miền thời gian liên tục. Bộ lọc Wiener được phát triển mở rộng để xử lý trong miền thời gian rời rạc, một trong những ứng dụng phổ biến nhất của bộ lọc Wiener là xử lý tín hiệu số. Nguyên lý của bộ lọc Wiener kinh điển là tìm ra tập các hệ số bộ lọc w tối ưu để có được sai lệch e(n) = x(n) - x̂(n) là nhỏ nhất khi biết tín hiệu ngõ vào y(n) = x(n) + d(n), trong đó d(n) là nhiễu môi trường và không tương quan với tín hiệu mong muốn x(n). Bộ lọc Wiener có thể là bộlọc FIR hoặc IIR, nhưng trong thực tế thường dùng bộ lọc FIR do tính ổn định và dễ đánh giá. Trong vấn đề giảm nhiễu nâng cao chất lượng tín hiệu tiếng nói bị nhiễu y(n) = x(n) + d(n), bộ lọc Wiener được ứng dụng để phục hồi tín hiệu tăng cường x(n) [4]. 1.5.3. Hàm nén nhiễu dựa trên ước lượng MMSE a. Ước lượng phổ MMSE Các kết quả nghiên cứu chỉ ra rằng phổ biên độ trong từng đoạn ngắn (short-time spectral amplitude) tác động mạnh đến chất lượng và tính dễ hiểu của tiếng nói. Vì vậy một vài tác giả đã đưa ra những phương pháp tối ưu phi tuyến để có phổ biên độ cải thiện từ phổ biên độ nhiễu nhận được. Trang 19
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI Ước lượng phi tuyến MMSE yêu cầu sự hiểu biết (thông tin) về hàm mật độ xác suất các hệ số DFT của nhiễu và tiếng nói. Tuy nhiên việc đánh giá chính xác là rất khó bởi tín hiệu tiếng nói và nhiễu đều không ổn định. Vì vậy, Ephraim và Malah đã đưa ra một mô hình thống kê dựa trên giả thuyết [5]: - Các thành phần phổ (DFT coefficients) là độc lập thống kê và tuân theo phân bố Gauss (biên độ phổ thì tuân theo phân bố Rayleigh). - Ước lượng phổ của tiếng nói có được với hàm mật độ xác suất PSD biết trước. - Nhiễu cộng tuân theo phân bố Gauss với hàm mật độ xác suất PSD biết trước. b. Ước lượng phổ Log-MMSE Ước lượng tối ưu MMSE dựa trên sai số bình phương trung bình giữa biên độ thật và biên độ ước lượng, phương pháp này dễ thực hiện về mặt toán học, tuy nhiên nó không thật sự mang lại sự cải thiện đáng kể chất lượng tín hiệu được tăng cường. Lý do là tín hiệu tiếng nói có khá nhiều thành phần biên độ thấp nhưng đóng vai trò quan trọng đến chất lượng và tính dễ hiểu. Do đó, nên sử dụng phép đo lường mà khuếch đại các thành phần biên độ nhỏ này. Trong đề xuất [5], Ephraim và Malah đưa ra phương pháp ước lượng dựa trên sai lệch bình phương trung bình của log phổ biên độ. c. Ước lượng phổ MMSE cải tiến Thuật toán được Israel Cohen đề xuất năm 2004 [7] sử dụng phép biến đổi Fourier thời gian ngắn (STFT) với hàm độ lợi được tính theo hàm tích phân của năng lượng tín hiệu bị nhiễu đầu vào. 1.6. ĐÁNH GIÁ CHẤT LƯỢNG TIẾNG NÓI Có rất nhiều thuật toán nâng cao chất lượng tiếng nói, nhưng làm thế nào để đánh giá đúng hiệu quả của chúng? Phần này cung cấp các phương pháp đánh giá khác nhau được sử dụng để đánh giá hiệu quả của các thuật toán nâng cao chất lượng tiếng nói. Đánh giá chất lượng có thể thực hiện bằng cách sử dụng phương pháp đánh giá theo cảm nhận của người nghe theo một thang đo đã được xác định trước được gọi là đánh giá chủ quan (SE – Subjective Evaluation) hoặc đánh giá khác dựa trên phép đo các thuộc tính và tham số của tín hiệu gọi là đánh giá khách quan (OE – Objective Evaluation) [8]. 1.6.1. Phương pháp đánh giá chủ quan Theo phương pháp này có hai mảng chính để thực hiện đánh giá chất lượng tiếng nói: các phương pháp dựa trên sự ưa thích giữa các mẫu âm thanh có liên hệ với nhau Trang 20
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI (đánh giá tương đối) và các phương pháp dựa trên việc cho điểm đối với chất lượng của tín hiệu âm thanh được nghe (đánh giá tuyệt đối) [9]. a. Phương pháp đánh giá tương đối Được xem là một trong những phương pháp đánh giá theo cặp tín hiệu sớm nhất. Theo đó mỗi tín hiệu cần đánh giá, với cường độ khác nhau và được cộng với các mức nhiễu khác nhau, được đưa qua một hệ thống gồm các bộ lọc giới hạn dải thông mô phỏng theo các đặc tính của một hệ thống truyền tín hiệu thoại tương tự. Người nghe sẽ nghe một cặp tín hiệu và chọn mẫu tín hiệu ưa thích hơn. Phương pháp này phức tạp và tốn thời gian do sự kết hợp một lượng lớn các cường độ và mức nhiễu. Do đó một số biến thể của phương pháp này sẽ làm giảm độ phức tạp. Một phương pháp được IEEE khuyến cáo là sử dụng 5 loại tín hiệu thoại đã bị làm méo làm tín hiệu so sánh. Các loại tín hiệu này được đề cập trong bảng [1.1]. Bảng 1.1: Đánh giá liên quan đến tất cả các trật tự thuận và nghịch trong sắp xếp của tín hiệu cần đánh giá và tín hiệu mẫu cũng như tất cả những kết hợp có thể giữa các tín hiệu mẫu System Signal Discription A High-Defility speech(clean) B Speech band-pass-filtered (800-3000 Hz) C Speech low-pass-filtered (3000 Hz) and combined with low-pass- filtered white noise (500Hz). Peak SNR 10dB D Speech combined with reverberant echo. Delay of first echo 150ms E Speech peak cliped , then band-pass-filtered (300-2000Hz) Phương pháp DCR Một phương pháp đánh giá tương đối đơn giản hơn để đánh giá chất lượng của các hệ thống viễn thông là nghe một cặp tín hiệu, tín hiệu đầu là tín hiệu tham chiếu, tín hiệu thứ hai là tín hiệu đánh giá. Người nghe sẽ nghe và đánh giá độ suy giảm chất lượng của tín hiệu cần đánh giá so với tín hiệu tham chiếu dựa trên thang điểm như trong bảng [1.2]. Phương pháp này gọi là DCR, do chỉ thực hiện phép đo độ suy giảm của tín hiệu thử so với tín hiệu tham chiếu nên phụ thuộc rất nhiều vào tín hiệu tham chiếu. Đánh giá DCR thường nhạy với khác biệt nhỏ trong chất lượng âm thanh nên thích hợp cho đánh giá các hệ thống băng rộng. Trang 21
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI Bảng 1.2: Thang đánh giá DCR Cấp độ Độ suy giảm (Degradation) 1 Rất khó chịu (Very annoying) 2 Khó chịu (Annoying) 3 Hơi khó chịu (Sightly annoying) Có nghe sự suy giảm nhưng không khó chịu (Audible but not 4 annoying) 5 Không nghe thấy sự suy giảm (Inaudible) Phương pháp CCR Phương pháp DCR tuy cho thấy được tín hiệu nào được yêu thích hơn nhưng lại không cho thấy được mức độ yêu thích. Đánh giá CCR được xây dựng để đánh giá mức độ yêu thích của người nghe đối với mẫu tín hiệu theo thang điểm như trong bảng [1.3]. Mức 0 cho biết không có khác biệt, mức 1 là có khác biệt nhỏ, mức 2 là lớn và mức 3 là khác biệt rất lớn. Dấu “+” và ‘-’ chỉ sự khác biệt mang tính tốt hay xấu hơn so với tín hiệu mẫu . Bảng 1.3: Thang đánh giá CCR Rating Quality of Speech 3 Tốt hơn nhiều (Much better) 2 Tốt hơn (Better) 1 Hơi tốt hơn (Slightly Better) 0 Giống nhau (About the Same) -1 Hơi xấu hơn (Slightly Worse) -2 Xấu hơn (Worse) -3 Xấu hơn nhiều (Much Worse) Phương pháp đánh giá tương đối cho thấy được mức độ yêu thích của người nghe đối với một mẫu tín hiệu so với với một mẫu khác, tuy nhiên lại không chỉ ra nguyên nhân sự lựa chọn của họ. Một nhược điểm khác của đánh giá tương đối là tín hiệu tham chiếu không phải lúc nào cũng được suy giảm trong phạm vi lớn mà chỉ được suy giảm ở một mức giới hạn nên có khuynh hướng khiến cho hầu hết các tín hiệu cần đánh giá hoặc là đều được thích hơn so với tín hiệu tham chiếu, hoặc đều không được thích hơn so với tín hiệu tham chiếu, làm phân cực kết quả đánh giá chất lượng. Một khuyết điểm nữa là do đánh giá tương đối phải liên quan đến tín hiệu tham chiếu nên để có thể so sánh kết quả từ hai phòng thí nghiệm khác nhau thì hai phòng thí nghiệm này cần phải cùng thực hiện với một tập tín hiệu tham chiếu giống nhau . Trang 22
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI Các khuyết điểm trên được giải quyết bằng phép đánh giá tuyệt đối, trong đó người nghe sẽ đánh giá tổng quan chất lượng mà không cần so sánh với tín hiệu khác. b. Phương pháp đánh giá tuyệt đối Mean Opinion Scores MOS là một trong những phương pháp đánh giá tuyệt đối phổ biến được khuyến cáo bởi ITU cũng như Ủy ban IEEE về các phương pháp đánh giá chủ quan. Trong phương pháp này, người nghe sẽ đánh giá chất lượng của tín hiệu thông qua thang đánh giá 5 điểm như trong bảng [1.4]. Kết quả đánh giá sẽ được lấy trung bình trên tổng số người nghe . Quá trình đánh giá MOS gồm 2 giai đoạn: huấn luyện và đánh giá. Trong giai đoạn huấn luyện, người nghe sẽ được nghe một tập các tín hiệu tham chiếu có chất lượng cao, thấp cũng như các mức trung bình để người nghe làm quen. Quá trình này rất quan trọng và đảm bảo sẽ đồng nhất cảm quan của tất cả mọi người với nhau, hay nói cách khác, nó đảm bảo một tín hiệu được xem là “rất tốt” với người này thì những người khác cũng xem là “rất tốt” . Trong giai đoạn đánh giá này, người nghe sẽ nghe mẫu tín hiệu và đánh giá theo thang điểm như trong bảng [1.4]. Bảng 1.4: Thang đánh giá MOS Chất lượng thoại Số điểm Mức độ suy giảm (Quality of the (Score) (Level of Distortion) Speech) 5 Tuyệt vời (Excellent) Không thể nhận thấy (Imperceptible) Hơi nhận thấy nhưng không gây khó chịu 4 Tốt (Good) (Just perceptible, but not annoying) Có thể nhận thấy và chỉ hơi gây khó chịu 3 Khá tốt (Fair) (Perceptible and slight annoying) Khó chịu nhưng không quá để mức phải 2 Xấu (Poor) chú ý (Annoying but not Objectionable) Rất khó chịu và làm phải chú ý đến 1 Quá xấu (Bad) (Very annoying and Objectionable) 1.6.2. Phương pháp đánh giá khách quan Đánh giá khách quan là phương pháp đánh giá chất lượng dựa trên các phép đo thuộc tính của tín hiệu. Trong phạm vi đề tài lựa chọn các phương pháp đánh giá khách quan thực hiện đánh giá chất lượng tiếng nói qua các tiêu chí đánh giá bao gồm: Trang 23
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI - Segmental Signal-to-Noise Ratio (SegSNR) - Log Likelihood Ratio (LLR) - Cepstrum Distance (CEP) - Perceptual Evaluation of Speech Quanlity (PESQ) - Weighted Spectral Slope (WSS) a. Đo tỷ số tín hiệu trên nhiễu trên từng khung (SegSNR) Đo tỷ số tín hiệu trên nhiễu (SNR) trên từng khung trong miền thời gian là một trong những phương pháp đánh giá về mặt toán đơn giản nhất. Để phương pháp này có hiệu quả thì điều quan trọng là tín hiệu gốc và tín hiệu đã qua xử lý phải trong cùng miền thời gian và độ lệch pha hiện tại phải được hiệu chỉnh chính xác. SegSNR được xác định như sau [10] : Nm N 1 2 10 M 1 x (n) SegSNR lg n Nm m 0 Nm N 1 (1.1) M (x(n) xˆ(n))2 n Nm Trong đó x(n): tín hiệu gốc (tín hiệu sạch) x̂(n): tín hiệu đã được tăng cường N: chiều dài khung (thường được chọn từ 15-20ms) M: số khung của tín hiệu Một cách xác định SegSNR khác được đề xuất bởi Richds trong đó hàm log có thay đổi so với công thức 1.1 [10]. Nm N 1 2 10 M 1 x (n) SegSNR lg 1 n Nm R m 0 Nm N 1 (1.2) M (x(n) xˆ(n))2 n Nm Đo SNR cho từng khung có thể được mở rộng trong miền tần số: K B .lg F 2 (m, j)/(F(m, j) Fˆ(m, j))2 10 M 1 j 1 j fwSegSNR . R m 0 K (1.3) M B j 1 j Trong đó Bj : Trọng số tại dải tần số thứ j K : Số dải tần M : Tổng số khung tín hiệu F(m,j) : Dãy tín hiệu gốc qua bộ lọc đã được khuếch đại tại dải lần thứ j và khung thứ m F(m,j): Dãy tín hiệu đã được tăng cường qua lọc khuếch đại ở cùng một dải tần với F(m,j) Trang 24
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI Ưu điểm chính của việc sử dụng SegSNR trên miền tần số thay vì miền thời gian tăng thêm tính linh động của việc phân bố trọng số của phổ khác nhau cho những dải tần khác nhau. b. Phương pháp đo LLR Là một trong ba phương pháp đo khoảng cách phổ dựa trên LPC [13]. Phép đo Log Likelihood Ratio (LLR) được xác định theo công thức: ̅ ̂ 푅 ̅ ̂ 퐿퐿푅( , ̅ ) = lg (1.4) 푅 T ax 1, ax (1), ax (2), , ax (p): hệ số LPC của tín hiệu sạch T axˆ 1, axˆ (1), axˆ (2), , axˆ (p): hệ số của tín hiệu đã được tăng cường chất lượng. Rx là (p+1)*(p+1) ma trận tự tương quan (Toeplitz) của tín hiệu sạch. Biểu thức trên được viết lại trong miền tần số như sau [10]: 2 Ax () Axˆ () d (a ,aˆ ) lg 1 d LLR x x A () x (1.5) ̅ Ax(ω) và Ax(ω) lần lượt là phổ của và ̅ ̂ . c. Phương pháp đo CEP Khoảng cách cepstrum CEP [11] cung cấp ước lượng khoảng cách phổ trong miền logarit. Các hệ số cepstrum có thể được tính đệ quy từ các hệ số LPC {am} theo biểu thức sau: = + ∑ −1 ( ) 1≤m≤p (1.6) =1 − Trong đó p là bậc của phân tích LPC. Phép đo khách quan dựa trên hệ số cepstrum được tính như sau: 10 2 ( ⃗ , ⃗ ) = √2 ∑ [ ( ) − ( )] (1.7) 푃 푙표 10 =1 Với ⃗ , ⃗ lần lượt là vectơ hệ số cepstrum của tín hiệu sạch và tín hiệu được cải thiện. d. Phương pháp đánh giá cảm quan chất lượng thoại PESQ Trong tất cả các phương pháp đánh giá thì PESQ là phương pháp phức tạp nhất và được khuyến nghị bởi ITU-T P.862 [12] để nhận biết chất lượng tiếng nói băng tần hẹp 3,2kHz. Quá trình thực hiện phép đo PESQ được biểu diễn như sau: tín hiệu gốc và tín hiệu bị suy giảm trước hết được cân bằng (level-equalized) theo một mức độ nghe chuẩn (standard listening level), và được lọc bởi bộ lọc với đáp ứng tương tự như mẫu Trang 25
- Chương 1: TỔNG QUAN VỀ XỬ LÝ TIẾNG NÓI điện thoại cầm tay (telephone handset). Tín hiệu sau đó được sắp xếp đúng theo thứ tự độ trễ theo thời gian, sau đó được xử lý thông qua một hàm biến đổi âm thanh (auditory transform) tương tự như trong BSD để có được phổ loudness spectra. PESQ được tính bởi công thức: PESQ a0 a1dsym a2dasym Với 0 = 4.5, 1 = 0.1, 2 = 0.0309 [10]. PESQ là một trong những phương pháp đánh giá khách quan phức tạp nhưng đáng tín cậy và có độ tương quan khá cao so với đánh giá chủ quan. e. Phương pháp đo WSS Phương pháp đánh giá WSS (Weighted Spectral Slope) này được tính bởi dốc phổ đầu tiên được tìm thấy của mỗi dải phổ. Xét Cx(k) là phổ dải tới hạn của tín hiệu sạch và Cxˆ (k) là của tín hiệu tăng cường, xét trong đơn vị dB. Phương trình sai phân bậc nhất được dùng để tính độ dốc phổ được cho như sau: 푆 ( ) = ( + 1) − ( ) 푆 ̅ ( ) = ̅ ( + 1) − ̅ ( ) (1.8) Với 푆 ( ) và 푆 ̅ ( ) lần lượt biểu diễn cho độ dốc dải tần thứ k của tín hiệu sạch và tín hiệu tăng cường. Phép đo WSS tính cho mỗi khung của tín hiệu thoại: ̅ 퐿 ̅ 2 푊푆 ( , ̂) = ∑ =1 푊( )[푆 ( ) − 푆 ̂( )] (1.10) với L là số lượng dải tới hạn. WSS là phương pháp đánh giá khá hấp dẫn bởi vì nó chỉ chú ý tới vị trí đỉnh phổ và ít nhạy cảm với các đỉnh xung quanh cũng như các chi tiết của phổ ở các vùng thấp. 1.7. KẾT LUẬN CHƯƠNG Chương này giới thiệu về các hướng xử lý tín hiệu thoại, trình bày các mô hình cơ bản trong việc biểu diễn tiếng nói. Nội dung chương cũng tìm hiểu các kỹ thuật khác nhau để đánh giá tính hiệu quả của các thuật toán nâng cao chất lượng tiếng nói. Đánh giá dựa trên cơ sở chất lượng và tính dễ hiểu của tiếng nói, có thể được chia thành hai mảng là đánh giá chủ quan và đánh giá khách quan. Trang 26
- Chương 2: CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG MIỀN WAVELET Chương 2: CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG MIỀN WAVELET 2.1. GIỚI THIỆU CHƯƠNG Chương này trình bày các kỹ thuật giảm nhiễu trong miền Wavelet với các hàm nén nhiễu ngưỡng cứng, ngưỡng mềm và hàm nén tối ưu. Trong đó tập trung phân tích việc kết hợp kĩ thuật ước lượng nhiễu cảm quan và phân tích gói Wavelet vào thuật toán lọc Wavelet thống kê có tính cảm quan Perceptually Statistical Wavelet Filter (PSWF) như đề xuất [14]. 2.2. PHÉP BIẾN ĐỔI WAVELET Năm 1975, Morlet, J., phát triển phương pháp đa phân giải (multiresolution) trong đó sử dụng một xung dao động, được hiểu là một “wavelet” cho thay đổi kích thước và so sánh với tín hiệu ở từng đoạn riêng biệt. Kỹ thuật này bắt đầu với sóng nhỏ (wavelet) chứa các dao động tần số khá thấp, sóng nhỏ này được so sánh với tín hiệu phân tích để có một bức tranh toàn cục của tín hiệu ở độ phân giải thô. Sau đó sóng nhỏ được nén lại để nâng cao dần tần số dao động. Quá trình này gọi là làm thay đổi tỉ lệ (scale) phân tích; khi thực hiện tiếp bước so sánh, tín hiệu sẽ được phân tích chi tiết ở các độ phân giải cao hơn, giúp phát hiện các thành phần biến thiên nhanh còn ẩn bên trong tín hiệu. Gọi f(x) là tín hiệu ban đầu, phép biến đổi wavelet của f(x) sử dụng hàm wavelet ψ0 được biểu diễn: 1 +∞ ∗ − 푊(푠, ) = ∫ ( ). 휓0 ( ) (2.1) √푠 −∞ 푠 Trong đó: - W(s,b) là hệ số biến đổi Wavelet của f(x), với s là tỉ lệ (nghịch đảo của tần số) và b là dịch chuyển đặc trưng vị trí. ∗ - 휓0( ) là hàm liên hiệp phức của Wavelet 휓0( ) được gọi là hàm wavelet phân tích. Phương trình (2.1) cho thấy, phép biến đổi Wavelet là một ánh xạ chuyển từ hàm một biến f(x) thành hàm W(s,b) phụ thuộc 2 biến số là biến tỉ lệ s và biến dịch chuyển b. Hệ số chuẩn hóa 1/(√s) đảm bảo cho sự chuẩn hóa sóng wavelet với các tỉ lệ phân tích s khác nhau . Phép biến đổi Wavelet có tính linh động cao so với phép biến đổi Fourier (sử dụng duy nhất hàm mũ) vì không nhất thiết phải sử dụng một hàm wavelet cố định, mà có thể lựa chọn các hàm wavelet khác nhau trong họ hàm wavelet sao cho thích hợp Trang 27
- Chương 2: CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG MIỀN WAVELET với yêu cầu (hình dạng của wavelet phù hợp với tín hiệu cần phân tích) để kết quả phân tích tốt nhất. Hiện nay người ta đã xây dựng được khoảng vài chục các họ hàm wavelet khác nhau nhằm áp dụng cho nhiều mục đích phân tích đa dạng. Biểu thức (2.1) có thể được viết lại dưới dạng tích nội (inner product) như sau: W(s, b) = 〈f(x), ψ0(s,b)(x)〉 (2.2) Trong đó: 1 x−b ψ0(s,b)(x) = ψ0 ( ) (2.3) √s s Hình 2.1: Miền phân tích của phép biến đổi Wavelet Ý tưởng của phân tích đa phân giải là sử dụng các kỹ thuật lọc số trong quá trình phân tích. Trong đó, mỗi một tín hiệu được phân tích thành hai thành phần: thành phần xấp xỉ A (Approximation) “tương ứng với thành phần tần số thấp” và thành phần chi tiết D (Detail) “tương ứng thành phần tần số cao” thông qua bộ lọc thông thấp và thông cao. Trong đó bộ lọc thông cao sử dụng hàm wavelet Ψ(x) và bộ lọc thông thấp sử dụng hàm tỉ lệ (scaling function) Φ(x). Mối quan hệ giữa hàm tỉ lệ và hàm wavelet được cho bởi: N−1 Φ(x) = ∑k=0 ck. Φ(2x − k) (2.4) N−1 k Ψ(x) = ∑k=0 (−1) ck. Φ(2x + k − N + 1) (2.5) Các phép lọc được tiến hành với nhiều tầng (level) khác nhau. Để khối lượng tính toán không tăng, khi qua mỗi bộ lọc, tín hiệu được giảm mẫu xuống 2 lần. Ứng với mỗi tầng, tín hiệu có độ phân giải khác nhau. Do đó, phép biến đổi wavelet rời rạc được gọi là phân tích đa phân giải (MRA). Biểu thức của phép lọc được cho bởi: yhigh(n) = ∑n s(n). g(2k − n) (2.6) ylow(n) = ∑n s(n). h(2k − n) (2.7) Trong đó, s(n) là tín hiệu, h(n) là đáp ứng xung của bộ lọc thông thấp tương ứng với hàm tỉ lệ Φ(x) và g(n) là đáp ứng xung của bộ lọc thông cao tương ứng với hàm wavelet Ψ(x). Hai bộ lọc này liên hệ với nhau theo hệ thức: h(N − 1 − n) = (−1)ng(n) (3.8) Phân tích đa phân giải là phép biến đổi trung tâm của tất cả các phép xây dựng nên hàm cơ sở Wavelet. Về lý thuyết quá trình phân tích đa mức có thể lặp lại mãi mãi Trang 28
- Chương 2: CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG MIỀN WAVELET nhưng trong thực tế, sự phân tích có thể chỉ thực hiện cho đến khi có được tín hiệu chi tiết phù hợp chất lượng của tín hiệu cần phân tích (tùy thuộc vào từng ứng dụng cụ thể). Phép biến đổi Wavelet có độ phân giải thời gian tốt ở tần số cao, độ phân giải tần số tốt ở tần số thấp. Vì vậy thích hợp với việc phân tích các tín hiệu gồm các thành phần tần số cao có thời gian tồn tại ngắn và các thành phần tần số thấp có thời gian tồn tại dài. 2.3. MÔ HÌNH NHIỄU CỘNG TRONG MIỀN WAVELET Do tính chất tuyến tính của biến đổi Wavelet rời rạc DWT (Discrete Wavelet Transform), mô hình nhiễu cộng trong miền tần số cũng đúng trong miền Wavelet: 푌 ,푖(푛) = ,푖(푛) + ,푖(푛), trong đó, 푌 ,푖(푛) = ,푖(푛) và ,푖(푛) mô tả các chuỗi hệ số gói Wavelet của các tín hiệu bị nhiễu, tín hiệu sạch và tín hiệu nhiễu tương ứng được tính tại tỷ lệ thứ m cho frame thứ i (k = 1, 2, 3, 2 ). Trong nghiên cứu này ứng dụng phân tích gói Wavelet nhị phân WPD (Wavelet Packet Decomposition) thực hiện tại tỷ lệ phân tích m = 7 [2]. Hình vẽ 2.2 mô tả cấu trúc phân chia gói Wavelet. Hình 2.2: Cấu trúc cây phân chia gói 2.4. KỸ THUẬT CHỌN NGƯỠNG Giải pháp khử nhiễu Wavelet được xem như là phương pháp ước lượng thống kê không có tham số [2]. Nguyên lý thực hiện dựa trên việc định ngưỡng hoặc nén các hệ số Wavelet mà giá trị của chúng thấp hơn ngưỡng nhiễu. Việc chọn ngưỡng sẽ tác động đến sự làm trơn hoặc làm cho khớp với tín hiệu được khử nhiễu. Cụ thể là ngưỡng giá trị nhỏ sẽ dẫn đến sự khử nhiễu nhẹ và hệ quả là nhiễu còn tồn đọng nhiều sau xử lý. Ngược lại ngưỡng với giá trị lớn hơn sẽ nén nhiều hệ số Wavelet dẫn đến làm trơn tín hiệu nhưng cũng đồng thời làm suy hao các thành phần unvoiced (ví dụ âm /s/) của tiếng nói và gây méo tín hiệu tiếng nói sau khi khử nhiễu. Trong công bố [15] đã đề xuất công thức tính ngưỡng nhiễu toàn cục UT (Universal Threshold) dựa Trang 29
- Chương 2: CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG MIỀN WAVELET trên nguyên tắc tối thiểu hóa hàm rủi ro (risk function) giữa tín hiệu sạch mong muốn và tín hiệu được khử nhiễu: 2 2 E R(T) E E X k (n) E X k (n) E X k (n) E X k (n) (2.9) Trong đó E{.} là toán tử trung bình thống kê, X k (n) là hệ số wavelet đã được cải thiện. Với giả thiết về tính trực giao của biến đổi Wavelet và phân bố nhiễu với phương sai 2 , ngưỡng UT tỷ lệ thuận với độ lệch chuẩn và chiều dài N của chuỗi hệ số Wavelet. Để ước lượng tốt nhiễu màu, UT được tính toán cho mỗi gói Wavelet độc lập tại mỗi khung tín hiệu như sau: MAD T k,i 2log N (2.10) k,i k,i MAD 1 Trong đó k,i Median(Y (n)) là ước lượng bền vững của độ lệch 0.6745 k,i chuẩn bằng cách tính độ lệch trung bình tuyệt đối (MAD: median absolute deviation) của chuỗi các hệ số. 2.5. HÀM NÉN NHIỄU Kỹ thuật khử nhiễu trong miền wavelet xuất phát từ nguyên tắc: mỗi hệ số wavelet đóng góp vào mức nhiễu với phương sai là 2 , nhưng chỉ có một vài hệ số wavelet ảnh hưởng tới tín hiệu [15]. Điều này cho phép thay thế các hệ số nhiễu bằng zero. Các hàm ngưỡng cứng (hard-thresholding) và ngưỡng mềm (soft-thresholding) là các hàm khử nhiễu khá đơn giản nhưng chưa tối ưu. Các hình vẽ 2.3 và 2.4 mô tả mối quan hệ giữa ngõ vào và ngõ ra của đặc tuyến hàm nén nhiễu ngưỡng cứng và ngưỡng mềm trong miền Wavelet. Hàm nén hard-threshold GH(T) nén tất cả các hệ số wavelet nhỏ hơn ngưỡng nhiễu về tối thiểu trong khi những hệ số còn lại thì không tác động gì. 푌 (푛) , 푖 |푌 (푛)| > (푛) = ( , 푌) = { (2.11) 0 , 푖 |푌 (푛)| ≤ Với hàm nén ngưỡng mềm được đề xuất trong [15], những điểm gián đoạn trong đặc tuyến ngõ ra của hàm nén ngưỡng cứng được loại bỏ bằng cách nén các hệ số wavelet hơn mức ngưỡng 1 giá trị bằng chính giá trị ngưỡng T được ước lượng. 푠 푛(푌 (푛))(|푌 (푛)| − ) , 푖 |푌 (푛)| > 푆 푆 (푛) = ( , 푌) = { (2.12) 0 , 푖 |푌 (푛)| ≤ Trang 30
- Chương 2: CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG MIỀN WAVELET Hình 2.3: Đặc tuyến hàm nén nhiễu ngưỡng cứng trong miền Wavelet [16]. Hình 2.4: Đặc tuyến hàm nén nhiễu ngưỡng mềm trong miền Wavelet [16]. Hàm nén ngưỡng mềm dù đã cải thiện nhưng vẫn chưa đạt tối ưu vì quy luật nén tuyệt đối các hệ số dưới ngưỡng về 0, nó có thể phá hủy những hệ số wavelet của tín hiệu tiếng nói vô thanh, do sự tương tự của tiếng nói vô thanh và một số mức nhiễu. Trang 31
- Chương 2: CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG MIỀN WAVELET Hàm nén ngưỡng cứng dẫn đến phương sai lớn hơn vì tính chất không liên tục của hàm gain, trong khi ngưỡng mềm thì dẫn đến mức độ dịch chuyển lớn hơn do tất cả những hệ số nào lớn hơn ngưỡng đều giảm đi một lượng bằng giá trị ngưỡng T. 2.6. THUẬT TOÁN GIẢM NHIỄU DÙNG PHƯƠNG PHÁP LỌC WAVELET CÓ TÍNH CẢM QUAN PSWF Trong nghiên cứu này phát triển phương pháp giảm nhiễu Wavelet dùng thuật toán phân tích gói Wavelet WPD (Wavelet Packet Decomposition) bởi thuật toán lọc Wavelet thống kê có tính cảm quan PSWF (Perceptually Statistical Wavelet Filter) với sơ đồ khối như hình 3.5. Hình 2.5: Sơ đồ của thuật toán PSWF [14]. Cho mỗi khung tiếng nói, thay vì sử dụng trực tiếp các giá trị ngưỡng toàn cục của tất cả các kênh tiếng nói thu được bởi phép phân tích gói, hàm ánh xạ ngưỡng sẽ tích hợp 128 mức ngưỡng toàn cục vào 17 giá rị ngưỡng tương ứng với 17 băng con thứ yếu (CWS) của mô hình tâm lý âm học để tính các mức ngưỡng nhiễu cảm quan. Sau đó tiến hành lọc percentile thống kê và sử dụng các trọng số thích nghi để tiến hành ước lượng các ngưỡng nhiễu cho các băng con tương ứng một cách thích nghi. Cuối cùng, bộ ánh xạ ngược được thực hiện để cung cấp cho hàm độ lợi nén các ngưỡng nhiễu các hệ số Wavelet đã được ước lượng của tất cả 128 kênh. Các mẫu tiếng nói được khôi phục bởi phép khôi phục gói Wavelet (WPR). 2.6.1. Ánh xạ ngưỡng giác quan Để nâng cao sự chính xác khi ước lượng nhiễu, một giải pháp được đề xuất là ước lượng ngưỡng nhiễu cảm quan. Thay vì sử dụng tất cả các ngưỡng UT ước lượng từ tất cả gói Wavelet, hàm ánh xạ ngưỡng tích hợp 128 giá trị UT thành 17 ngưỡng Trang 32
- Chương 2: CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG MIỀN WAVELET giác quan tương ứng với 17 CWS của mô hình tâm lý âm học (psychoacoustic model). Tùy theo đặc tính của tần số trung tâm và CWS tương ứng, có xấp xỉ 17 CWS cho băng thông tín hiệu 4kHz (băng thông của tín hiệu tiếng nói được xem xét trong nghiên cứu này). Bảng 2.1: Ánh xạ giữa các CWS và các gói Wavelet CWS Gói Wavelet Băng thông Ngưỡng nhiễu cảm quan Pj,i của mỗi CWS j, tại frame thứ i được ước lượng: 1 Cu j P T , with j 1,2, ,17 (2.13) j,i Cu Cl 1 k,i j j k Cl j Trong đó Cl j Cu j là thứ tự của các gói Wavelet. Với module ánh xạ này, độ phức tạp của hệ thống được giảm xuống đáng kể do chỉ phải thực hiện lọc percentile thích nghi và hàm trọng số miền thời gian-tần số (được trình bày trong phần tiếp theo) trên 17 CWS như được trình bày trong bảng 2.1. 2.6.2. Kỹ thuật lọc percentile thích nghi Do các ngưỡng UT tính theo (2.13) được ước lượng cục bộ tại mỗi gói Wavelet tại mỗi frame thứ i, đặc điểm động thay đổi theo thời gian của tiếng nói và nhiễu đã không được xem xét đến. Phương pháp này ứng dụng thuật toán lọc percentile thống kê để dò tìm mức nhiễu động tại mỗi khung tiếng nói. Trang 33
- Chương 2: CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG MIỀN WAVELET Hình 2.6: Mô tả cách lấy percentile q để xác định ngưỡng thích nghi cho từng kênh Wavelet [14]. Cơ sở của kỹ thuật này dựa trên quan sát thật là thông tin thoại không luôn xuất hiện tại tất cả kênh tần số cùng một lúc, kể cả trong khoảng chỉ có tín hiệu thoại. Do đó, mức nhiễu tại mỗi kênh có thể được ước lượng bởi percentile thứ q trong một khoảng thời gian ngắn (bộ đệm dài 1 giây) của tín hiệu như sau: - Sắp xếp các giá trị ngưỡng nhiễu cảm quan Pj,i từ Nf frames của bộ đệm thứ p theo giá trị tăng dần để có được Pj,i' với i' 1 N f ~ - Xác định ngưỡng nhiễu thích nghi k,i bằng cách lấy percentile thứ q như sau: (p) P qN j j,i' i' f . Hình 2.6 mô tả cách lấy percentile q để xác định ngưỡng thích nghi cho từng kênh Wavelet. Trong nghiên cứu này hệ số percentile được chọn là q = 0.2 cho ra kết quả ước lượng nhiễu khá tốt. 2.6.3. Trọng số hóa trong miền thời gian và tần số Với giả thiết rằng nhiễu không thể bị thay đổi quá nhanh so với tín hiệu tiếng ~ nói, ngưỡng nhiễu k,i lại được tiếp tục làm trơn bởi mô hình đệ quy bậc 1: ~ ~ j,i (p) j,i 1 (p 1) (1 ) (2.14) j,i Do ngưỡng UT không xem xét đến sự tương quan giữa các hệ số Wavelet ở các gói khác nhau nên chúng tôi thiết kế thêm hàm trọng số miền tần số n j,i (p) để Trang 34
- Chương 2: CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG MIỀN WAVELET tăng cường độ nén cho các ngưỡng j lớn và qua đó giảm bớt nhiễu. Đồng thời, một hàm trọng số miền thời gian j,i (p) được xây dựng để bám chính xác hơn thông tin thoại và nhiễu. Các frame với ngưỡng Pj,i nhỏ hơn có thể là kết quả ước lượng của nhiễu nên sẽ được nén mạnh hơn và ngược lại: ~ ~ ~ ~ b1 b2 j,i (p) (P (p)) ( j,i (p)) j,i (p) ((a P ) c )((a P ) c ) j,i (p)(2.15) j,i j,i j,i 1 j,i 1 2 j,i 2 Các hằng số được chọn lựa để đạt được hiệu suất khử nhiễu hiệu quả nhất. 2.6.4. Hàm nén nhiễu thích nghi Thuật toán sử dụng một hàm wavelet nén nhiễu được cải tiến mà về bản chất chính là hàm cứng được làm trơn theo cơ sở luật µ. Quy tắc nén được thể hiện bởi hàm ước lượng sau (posteriori function) của tỷ số tín hiệu trên ngưỡng được phân đoạn trước k,i như sau: 1, if k,i 1 k ,i H k,i (1 ) 1 (2.16) sgn Y (p) k,i , if 1 k,i k,i k,i k,i Yk, i ( p) Ở đây k, i và thông số thích nghi k, i được định nghĩa [9]: k, i ~ max | Yk,i (p) | k,i p k,i exp ~ ~ (2.17) max{k,i } k,i i Trong đó, phần mũ exp tự thích nghi với chính nó bởi ngưỡng nhiễu được làm ~ trơn và chuẩn hóa k,i với hằng số độ dốc 5.8. Hình 2.7 mô tả mối quan hệ giữa ngõ vào và ngõ ra của đặc tuyến hàm nén nhiễu thích nghi trong miền Wavelet. Kỹ thuật nén theo luật µ biểu diễn một sự thỏa hiệp giữa ngưỡng cứng và ngưỡng mềm. Trong khi hàm ngưỡng cứng có phương sai lớn hơn nhưng bias nhỏ hơn thì hàm ngưỡng mềm có bias lớn hơn và phương sai nhỏ hơn. Nói cách khác, ngưỡng cứng có xu hướng giữ dạng gốc của tín hiệu, còn ngưỡng mềm có xu hướng làm mịn tín hiệu hơn [5]. Một ưu điểm lớn của nén luật µ so với các luật khác là nó không thiết lập tất cả hoặc một phần của các hệ số wavelet, mà trị tuyệt đối của các hệ số này đều thấp dưới ngưỡng, về bằng 0 như được thực hiện bởi ngưỡng cứng hoặc mềm. Trang 35
- Chương 2: CÁC PHƯƠNG PHÁP GIẢM NHIỄU TÍN HIỆU TIẾNG NÓI TRONG MIỀN WAVELET Hình 2.7: Đặc tuyến hàm nén nhiễu thích nghi trong miền Wavelet [16]. 2.7. KẾT LUẬN CHƯƠNG Giải pháp khử nhiễu Wavelet thực hiện theo phương pháp ước lượng thống kê, thực hiện dựa trên việc định ngưỡng nhiễu và thực hiện nén các hệ số Wavelet có giá trị thấp hơn ngưỡng nhiễu bằng các hàm nén cứng, mềm và hàm nén cải tiến. Ước lượng ngưỡng nhiễu cảm quan được thực hiện cho 17 ngưỡng giác quan tương ứng mô hình tâm lý âm học giúp quá trình xử lý hiệu quả hơn. Thuật toán giảm nhiễu Wavelet thống kê có tính cảm quan PSWF được nghiên cứu trong chương này Hàm nén Wavelet được cải tiến về bản chất là hàm cứng đã được làm trơn theo cơ sở luật µ được tích hợp trong thuật toán này. Trang 36
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ 3.1. GIỚI THIỆU CHƯƠNG Dựa vào lý thuyết đã nghiên cứu trong các chương 1 và 2, chương này trình bày các quá trình và kết quả thực hiện giảm nhiễu tín hiệu tiếng nói. Song song quá trình thực hiện giảm nhiễu là các thuật toán đánh giá khách quan chất lượng tín hiệu trên cơ sở dữ liệu đã được xử lý bằng ngôn ngữ Matlab. Trên cơ sở các kết quả đánh giá, phần cuối chương tập trung phân tích hiệu quả các thuật toán giảm nhiễu đã thực hiện trên các môi trường nhiễu khác nhau từ đó đề xuất giải pháp điều chỉnh, cải tiến nhằm nâng cao hiệu quả các thuật toán. 3.2. CƠ SỞ DỮ LIỆU Cơ sở dữ liệu đánh giá ban đầu được lấy từ thư viện NOIZEUS [17] gồm 30 câu thoại được ghi âm trong phòng thí nghiệm theo chuẩn của IEEE là tín hiệu thoại sạch. Mỗi câu dài trung bình khoảng 2s. Các tín hiệu thoại này được cộng nhiễu vào với các SNR khác nhau. Như vậy đã có sẵn tín hiệu sạch và tín hiệu bị nhiễu theo chuẩn chung đã được công bố và cung cấp rộng rãi. Đáp ứng tần số của thiết bị thu cả tiếng nói và nhiễu được biểu diễn như ở hình 3.1, gọi là bộ lọc IRS sử dụng theo chuẩn của ITU-T. Hình 3.1: Đáp ứng tần số của bộ lọc IRS Có năm loại nhiễu được chọn để nghiên cứu trong đề tài là nhiễu ô tô (car noise), nhiễu đám đông (babble), nhiễu trắng (white), nhiễu từ tàu hỏa (train) và nhiễu giao thông đường phố (street). Đây là năm loại nhiễu thông thường dễ bắt gặp nhất trong môi trường thực tế mà đặc biệt là các thiết bị di động cầm tay, bên cạnh Trang 37
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ đó cả năm loại nhiễu đều có những đặc trưng riêng để qua đó kiểm tra được tác động của thuật toán nén nhiễu. Nhiễu trắng có công suất phổ đều, biến động chậm, khoảng phổ tương đối hẹp và ổn định, nhiễu đám đông có dải phổ trải rộng trong toàn bộ băng tầng tín hiệu tiếng nói và nhiễu ô tô vừa có khoảng phổ rộng lại luôn luôn biến động, không có độ ổn định cao. Tất cả các môi trường nhiễu trên được cộng với các mức SNR 0dB, 5dB, 10dB, 15dB. Áp dụng phương pháp ước lượng nhiễu dùng bộ lọc Percentile, tiến hành các thuật toán nén nhiễu đã được nghiên cứu :trong miền tần số gồm thuật toán trừ phổ phi tuyến NSS-PF (Non Linear Spectral Subtraction) [3], thuật toán ước lượng LogMMSE-PF (Logrithm Minium Mean-Squared Error) [6], và thuật toán MMSE- PF cải tiến [7]; trong miền Wavelet gồm hàm nén cứng (HardThr-PF), hàm nén mềm (SoftThr-PF) và hàm nén tối ưu Optimal Shrinkage (Shrinking-PF) [14]. Quá trình thực hiện các thuật toán ban đầu dựa trên 30 câu mẫu sạch sau đó được cộng các nguồn nhiễu khác nhau là CAR, BABLE, WHITE, TRAIN và STREET ở bốn mức SNR khác nhau là 0dB, 5dB, 10dB và 15dB. Như vậy ta đã có được cơ sở dữ liệu ban đầu với 600 mẫu tiếng nói đã được cộng nhiễu. Trên cơ sở của 600 mẫu này sẽ cho xử lý qua 3 thuật toán nén nhiễu trong miền tần số là NSS, MMSE và LogMMSE và 3 thuật toán nén nhiễu trong miền Wavelet là thuật toán nén ngưỡng cứng (HardThr), hàm nén ngưỡng mềm (SoftThr), hàm nén Smooth Shriking, với phương pháp ước lượng nhiễu dùng bộ lọc Percentile Filter (PF). Kết quả là thu được một cơ sở dữ liệu mới là 3600 mẫu tiếng nói đã được xử lý nén nhiễu. Như vậy đã xây dựng được một cơ sở dữ liệu lớn, đa dạng bao trùm được các đặc trưng cơ bản của nhiễu cộng với 3600 mẫu âm thanh khác nhau. 3.3. KẾT QUẢ ĐÁNH GIÁ VÀ PHÂN TÍCH Việc đánh giá khách quan chất lượng tín hiệu tiếng nói sẽ được tiến hành trên một cơ sở dữ liệu rất lớn với tổng cộng là 4230 (3600 + 600 + 30) mẫu câu thoại. Mỗi câu trung bình khoảng 2s tương ứng tổng thời gian dữ liệu được nghiên cứu đánh giá là khoảng 8460s, nội dung các câu đều có sự cân bằng về mặt ngữ âm nên có thể thấy được sự tác động của thuật toán lên tất cả các âm vị có thể có trong tín hiệu thoại. Các phương pháp đánh giá khách quan được lựa chọn để thực hiện đánh giá chất lượng tín hiệu tiếng nói bao gồm: - Log Likelihood Ratio (LLR) Trang 38
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ - Segmental Signal-to-Noise Ratio (SegSNR) - Cepstrum Distance (CEP) - Perceptual Evaluation of Speech Quanlity (PESQ) - Weighted Spectral Slope (WSS) Quá trình đánh giá thực hiện đo lường 6 chỉ số như trên trong 5 môi trường nhiễu WHITE- CAR- BABLE- TRAIN- STREET tại 4 mức SNR khác nhau 0dB, 5dB, 10dB, 15dB. Quy trình được thiết kế thực hiện tính các chỉ số trên dựa trên cơ sở dữ liệu gồm 3600 câu thoại đã được xử lý giảm nhiễu so với 600 câu thoại đã được cộng nhiễu ban đầu. Sau đó sẽ tiến hành tính giá trị trung bình của các chỉ số trên trên cơ sở 30 câu ứng với 4 mức SNR trong 5 môi trường nhiễu. Kết quả tạo ra ma trận [4x30] cho mỗi chỉ số trong mỗi môi trường nhiễu khác nhau. Mỗi một ma trận [4x30] sẽ cho ra kết quả giá trị trung bình với độ lệch chuẩn. 3.3.1. Kết quả đánh giá theo phương pháp LLR Nhiễu tiếng nói đám đông (Babble) - LLR - babble 1.6 HardThr-PF 1.4 SoftThr-PF Shrinking-UT-PF LogMMSE-PF 1.2 NSS-PF MMSE-PF 1 LLR 0.8 0.6 0.4 0 5 10 15 SNR Hình 3.2: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn đám đông (Bable). Trang 39
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Nhiễu tiếng ồn xe ôtô (Car) - LLR - car 1.6 HardThr-PF SoftThr-PF 1.4 Shrinking-UT-PF LogMMSE-PF 1.2 NSS-PF MMSE-PF 1 LLR 0.8 0.6 0.4 0 5 10 15 SNR Hình 3.3: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tiếng ồn ôtô (Car). Nhiễu trắng (White) - LLR - white 1.8 1.6 HardThr-PF SoftThr-PF 1.4 Shrinking-UT-PF LogMMSE-PF 1.2 NSS-PF MMSE-PF LLR 1 0.8 0.6 0.4 -5 0 5 10 15 20 SNR Hình 3.4: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu trắng (White). Trang 40
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Nhiễu tàu hỏa (Train) - LLR - train 1.6 HardThr-PF 1.4 SoftThr-PF Shrinking-UT-PF 1.2 LogMMSE-PF NSS-PF MMSE-PF 1 LLR 0.8 0.6 0.4 0 5 10 15 SNR Hình 3.5: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu tàu hỏa (Train). Nhiễu tiếng ồn đường phố (Street) - LLR - street 1.6 HardThr-PF SoftThr-PF 1.4 Shrinking-UT-PF LogMMSE-PF 1.2 NSS-PF MMSE-PF 1 LLR 0.8 0.6 0.4 0 5 10 15 SNR Hình 3.6: Kết quả đánh giá LLR của 6 thuật toán tăng cường chất lượng tiếng nói với loại nhiễu đường phố (Street). Trang 41
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Từ kết quả đánh giá trên ta thấy hầu hết các mẫu âm thoại ở môi trường nhiễu tiếng ồn ôtô cho chỉ số LLR thấp trong dải biến thiên hẹp từ 0.3dB đến 0.8dB trong khi với các loại nhiễu đám đông và nhiễu trắng thì chỉ số này biến thiên rộng hơn từ 0.2dB đến 1.5dB. Với loại nhiễu có tính ổn định cao như nhiễu trắng, các thuật toán đều cho ra kết quả tốt hơn hẳn. Trong số 6 thuật toán sử dụng để tăng cường chất lượng tiếng nói, các chỉ số LLR chỉ ra rằng lọc nhiễu dùng các thuật toán trong miền Wavelet cho kết quả tốt hơn các thuật toán khác. Nhằm đánh giá tổng quan hơn tính hiệu quả của các phương pháp giảm nhiễu trong miền tần số và miền Wavelet, tiếp theo sẽ thực hiện đánh giá chất lượng thoại trên các môi trường nhiễu khác nhau. 3.3.2. Đánh giá hiệu quả nén nhiễu trên các môi trường nhiễu khác nhau Trong số các đánh giá khách quan, đánh giá PESQ và SegSNR được IEEE khuyến cáo do có độ ổn định và tin cậy cao [8]. Do đó, PESQ và SegSNR đã được ứng dụng khá rộng rãi trong các nghiên cứu đánh giá chất lượng tiếng nói. Trong phần này, đề tài tập trung phân tích các kết quả đánh giá PESQ ứng với các thuật toán đã nghiên cứu tương ứng trong các môi trường nhiễu khác nhau. Thuật toán HardThreshold-PF Hình 3.7: Kết quả đánh giá hàm nén ngưỡng cứng cho 5 môi trường nhiễu. Trang 42
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Thuật toán SoftThreshold-PF Hình 3.8: Kết quả đánh giá hàm nén ngưỡng mềm cho 5 môi trường nhiễu. Thuật toán Shrinking-PF Hình 3.9: Kết quả đánh giá hàm nén Wavelet Shrinking cho 5 môi trường nhiễu. Trang 43
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Thuật toán LogMMSE-PF Hình 3.10: Kết quả đánh giá thuật toán LogMMSE-PF cho 5 môi trường nhiễu. Thuật toán NSS-PF Hình 3.11: Kết quả đánh giá thuật toán NSS-PF cho 5 môi trường nhiễu. Trang 44
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Thuật toán MMSE-PF Hình 3.12: Kết quả đánh giá thuật toán MMSE-PF cho 5 môi trường nhiễu. Các kết quả đánh giá cho thấy, đa số các thuật toán đều cho đáp ứng thấp trong môi trường nhiễu của tàu hỏa và giao thông đường phố. Ngược lại với loại nhiễu ôtô và nhiễu trắng thì kết quả đạt được cao hơn. Thuật toán MMSE-PF và các hàm nén wavelet cho mức xử lý khá tốt ở các mức nhiễu thấp (0dB, 5dB). Đánh giá theo chỉ số PESQ sẽ cho kết quả khá tin cậy trong việc duy trì tính dễ hiểu của tín hiệu tiếng nói, đây là tiêu chí rất quan trọng trong các hệ thống nhận dạng giọng nói và người nói. Để có những phân tích tương quan hơn giữa các phương pháp đánh giá, phần tiếp theo thực hiện đánh giá so sánh chất lượng giảm nhiễu của các thuật toán theo các phương pháp đánh giá CEP, PESQ, WSS và SNRseg. Trang 45
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ 3.3.3. Hiệu quả các hàm nén nhiễu theo các phương pháp đánh giá khác nhau Thuật toán nén HardThreshold-PF Hình 3.13: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán HardThreshold-PF. Trang 46
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Thuật toán nén SoftThreshold-PF Hình 3.14: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán SoftThreshold-PF. Trang 47
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Thuật toán nén Shrinking-PF Hình 3.15: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán Shrinking-PF. Trang 48
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Thuật toán nén LogMMSE-PF Hình 3.16: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán LogMMSE-PF. Trang 49
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Thuật toán nén NSS-PF Hình 3.17: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán NSS-PF. Trang 50
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Thuật toán nén MMSE-PF Hình 3.18: Kết quả đánh giá theo các chỉ số CEP, PESQ, WSS, SNRseg cho thuật toán MMSE-PF. Trang 51
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Kết quả đánh giá cho thấy thuật toán Shrinking-PF và MMSE-PF cho chất lượng xử lý khá tốt với hầu hết các phép đánh giá khác nhau. Ở phương pháp đánh giá PESQ cho kết quả khá cao với các thuật toán nén Shrinking-PF và MMSE-PF trong dải giá trị từ 0.3dB đến 0.8dB. Kết quả xử lý của các thuật toán khá tương đồng nhau theo các phép đánh giá, đặc biệt phương pháp PESQ và SNRseg có mức độ tin cậy cao. 3.3.4. Kết quả phương pháp đánh giá cảm quan PESQ cho các môi trường nhiễu (Babble, Car, White, Train, Street). Nhiễu tiếng ồn đám đông (Babble) -PESQ-babble 3.2 3 2.8 2.6 2.4 PESQ 2.2 2 NoisySignal HardThr-PF 1.8 SoftThr-PF Shrinking-UT-PF LogMMSE-PF 1.6 NSS-PF MMSE-PF 1.4 0 5 10 15 SNR Hình 3.19: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn đám đông. Nhiễu tiếng ồn ôtô (Car) -PESQ-car 3.2 3 2.8 2.6 2.4 PESQ 2.2 NoisySignal 2 HardThr-PF SoftThr-PF 1.8 Shrinking-UT-PF LogMMSE-PF 1.6 NSS-PF MMSE-PF 1.4 0 5 10 15 SNR Hình 3.20: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn ôtô. Trang 52
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Nhiễu trắng (White) -PESQ-white 3.2 3 2.8 2.6 2.4 2.2 PESQ 2 NoisySignal HardThr-PF 1.8 SoftThr-PF Shrinking-UT-PF 1.6 LogMMSE-PF NSS-PF 1.4 MMSE-PF 0 5 10 15 SNR Hình 3.21: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu trắng. Nhiễu tiếng ồn tàu hỏa (Train) -PESQ-train 3 2.8 2.6 2.4 2.2 PESQ 2 NoisySignal HardThr-PF 1.8 SoftThr-PF Shrinking-UT-PF 1.6 LogMMSE-PF NSS-PF 1.4 MMSE-PF 0 5 10 15 SNR Hình 3.22: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn tàu hỏa. Trang 53
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Nhiễu tiếng ồn đường phố (Street) -PESQ-street 3 2.8 2.6 2.4 2.2 PESQ 2 NoisySignal 1.8 HardThr-PF SoftThr-PF 1.6 Shrinking-UT-PF LogMMSE-PF 1.4 NSS-PF MMSE-PF 0 5 10 15 SNR Hình 3.23: Kết quả phương pháp đánh giá PESQ của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tiếng ồn đường phố. Kết quả đánh giá theo phương pháp PESQ cho thấy các thuật toán cho kết quả xử lý khá thấp trong môi trường nhiễu đám đông và nhiễu đường phố, ngược lại mức đáp ứng khá hơn đối với nhiễu ô tô và nhiễu trắng, đặc biệt thuật toán Shrinking-UT- PF và MMSE-PF ở mức nhiễu cao (0dB, 5dB). Thuật toán HardThr và SoftThr cho khả năng xử lý chưa cao theo chỉ số đánh giá này. Trang 54
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ 3.3.5. Kết quả đánh giá CEP-PESQ-WSS-SNRseg với các thuật toán nén nhiễu Nhiễu tiếng ồn đám đông (Babble) -CEP-babble -PESQ-babble 8 3 2.8 7 2.6 6 2.4 2.2 5 CEP PESQ 2 4 1.8 1.6 3 1.4 2 0 5 10 15 20 0 5 10 15 20 SNR SNR -WSS-babble SNRsegbabble 160 Noisy Signal 8 HardThr-PF 140 SoftThr-PF 6 Shrinking-UT-PF 120 LogMMSE-PF 4 NSS-PF 100 MMSE-PF 2 WSS 80 SNRseg 0 60 -2 40 -4 20 -6 0 5 10 15 20 0 5 10 15 20 SNR SNR Hình 3.24: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu đám đông. Trang 55
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Nhiễu tiếng ồn ôtô (Car) -CEP-car -PESQ-car 8 3.5 7 3 6 2.5 5 CEP PESQ 2 4 1.5 3 2 1 0 5 10 15 20 0 5 10 15 20 SNR SNR -WSS-car SNRsegcar 140 Noisy Signal 8 HardThr-PF 120 SoftThr-PF 6 Shrinking-UT-PF 100 LogMMSE-PF 4 NSS-PF 2 80 MMSE-PF WSS SNRseg 0 60 -2 40 -4 20 -6 0 5 10 15 20 0 5 10 15 20 SNR SNR Hình 3.25: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu ôtô. Trang 56
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Nhiễu trắng (White) -CEP-white -PESQ-white 9 3.5 8.5 3 8 7.5 2.5 7 CEP PESQ 6.5 2 6 1.5 5.5 5 1 0 5 10 15 20 0 5 10 15 20 SNR SNR -WSS-white SNRsegwhite 140 8 120 6 100 4 2 80 Noisy Signal WSS HardThr-PF SNRseg 0 SoftThr-PF 60 -2 Shrinking-UT-PF LogMMSE-PF 40 -4 NSS-PF MMSE-PF 20 -6 0 5 10 15 20 0 5 10 15 20 SNR SNR Hình 3.26: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu trắng. Trang 57
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Nhiễu tàu hỏa (Train) -CEP-train -PESQ-train 8 3 7 2.5 6 2 CEP 5 PESQ 1.5 4 3 1 0 5 10 15 20 0 5 10 15 20 SNR SNR -WSS-train SNRsegtrain 140 Noisy Signal 8 HardThr-PF 120 SoftThr-PF 6 Shrinking-UT-PF 100 LogMMSE-PF 4 NSS-PF 2 80 MMSE-PF WSS SNRseg 0 60 -2 40 -4 20 -6 0 5 10 15 20 0 5 10 15 20 SNR SNR Hình 3.27: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu tàu hỏa. Trang 58
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Nhiễu đường phố (Street) -CEP-street -PESQ-street 8 3 7 2.5 6 5 2 CEP PESQ 4 1.5 3 2 1 0 5 10 15 20 0 5 10 15 20 SNR SNR -WSS-street SNRsegstreet 160 Noisy Signal 8 140 HardThr-PF SoftThr-PF 6 120 Shrinking-UT-PF 4 LogMMSE-PF 100 NSS-PF 2 MMSE-PF WSS 80 SNRseg 0 60 -2 40 -4 20 -6 0 5 10 15 20 0 5 10 15 20 SNR SNR Hình 3.28: Kết quả đánh giá CEP, PESQ, WSS, SNRseg của 6 thuật toán tăng cường chất lượng tiếng nói với nhiễu đường phố. Trang 59
- Chương 3: THỰC HIỆN GIẢM NHIỄU VÀ ĐÁNH GIÁ KẾT QUẢ Từ các kết quả đánh giá trên nhận thấy: - Các kết quả sau xử lý nén nhiễu nhìn chung cho chỉ số đánh giá tốt hơn so với chưa xử lý. Các đánh giá PESQ và SegSNR cho các chỉ số chất lượng tương đối khả quan, nhất là trong môi trường nhiễu xe hơi và nhiễu trắng. Tuy nhiên với các phương pháp đánh giá CEP và WSS chỉ ra chất lượng thoại đôi khi khá kém trong các môi trường nhiễu xấu. Các phép đánh giá dựa trên việc phân tích phổ tín hiệu, các thuật toán thực hiện giảm nhiễu càng mạnh thì sự can thiệp vào phổ tín hiệu hữu ích càng nhiều hơn và cũng làm mất đi một phần tín hiệu mang thông tin nên các chỉ số đánh giá sẽ thấp hơn những thuật toán giảm nhiễu kém như HardThr, SoftThr. Kết quả xử lý với các nhiễu đám đông, nhiễu đường phố cho chất lượng kém hơn so với nhiễu trắng vì đặc điểm các nhiễu này có sự tương quan lớn với tín hiệu tiếng nói. - Với các mức nhiễu lớn (SNR=0dB, 5dB) thì phương pháp MMSE-PF tỏ ra có ưu điểm vượt trội, khả năng nén khiễu tốt hơn các phương pháp còn lại. 3.4. KẾT LUẬN CHƯƠNG Qua quan sát, phân tích và đánh giá các kết quả đạt được cho một số kết quả nhận xét sau: - Trong số năm môi trường tạo nhiễu để nghiên cứu, các kết quả đánh giá cho thấy ở nhiễu trắng có công suất nhiễu ổn định nên hiệu quả nén nhiễu cao nhất, ngược lại trong các môi trường khác như nhiễu đám đông hay nhiễu tiếng ồn giao thông do không có được độ ổn định cao, phổ nhiễu biến thiên rộng nên hiệu quả nén nhiễu không cao. - Trong số các đánh giá đã nghiên cứu, hai chỉ số đánh giá khách quan là PESQ và SegSNR cho kết quả tương đồng trong tất cả các môi trường nhiễu và cả các thuật toán nén nhiễu. Đây là hai trong số năm đánh giá có mức tương quan cao với cảm nhận nghe thử chủ quan nên cho khả năng tin cậy và độ ổn định cao nhất. - Trong các thuật toán giảm nhiễu được nghiên cứu trong miền tần số, thuật toán MMSE-PF cho kết quả khả quan nhất, và nhóm các thuật toán trong miền Wavelet cho khả năng giảm nhiễu tốt hơn, kết quả này cũng hoàn toàn tương đồng với phương pháp đánh giá chủ quan bằng việc nghe các mẫu tín hiệu đã xử lý. Trong tất cả các môi trường gây nhiễu thì môi trường nhiễu trắng cho kết quả nén nhiễu tốt nhất do công suất nhiễu trải rộng và có độ ổn định cao thuận tiện cho việc cập nhật và xử lý. Trang 60
- KẾT LUẬN VÀ KIẾN NGHỊ KẾT LUẬN Đề tài đã trình bày kết quả nghiên cứu và các đề xuất giải pháp mới để nâng cao chất lượng tiếng nói dựa trên các phương pháp ước lượng và khử nhiễu phi tuyến tối ưu trong miền wavelet. Nội dung đề tài đã nghiên cứu các phương pháp nén nhiễu trong miền wavelet với các hàm nén ngưỡng cứng, ngưỡng mềm và thuật toán dùng giải pháp lọc Wavelet thống kê có tính cảm quan PSWF sử dụng kỹ thuật ước lượng nhiễu Percentile Filter (PF). Bên cạnh đó, thuật toán ước lượng nhiễu PF cũng được tích hợp vào bên trong các hàm nén nhiễu để phát triển các thuật toán khác là NSS, logMMSE, MMSE cải tiến. Tập hợp cơ sở dữ liệu tín hiệu tiếng nói được nghiên cứu gồm 600 mẫu âm thoại đã được cộng nhiễu tại 4 mức SNR khác nhau trong 5 loại môi trường nhiễu. Nhóm các thuật toán được phân tích và so sánh thông qua kết quả đánh giá trực tiếp chất lượng tín hiệu bằng các phương pháp đánh giá khách quan với 5 thông số đánh giá khác nhau là CEP, LLR, WSS, PESQ, và SNRseg. Kết quả phân tích và đánh giá chỉ ra rằng: - Trong nhóm các thuật toán nén nhiễu trong miền tần số, thuật toán MMSE-PF cho hiệu quả nén nhiễu cao nhất. Trong nhóm các thuật toán nén nhiễu miền Wavelet, thuật toán Shrinking-PF cho kết quả xử lý tốt hơn, khả năng nén nhiễu cao hơn, tín hiệu sau xử lý ít bị phá hủy, và vẫn đảm bảo tính dễ nghe của tín hiệu. Kết quả trên hoàn toàn tương đồng sau khi nghe thử các mẫu tín hiệu đã xử lý. - Trong số các môi trường gây nhiễu khác nhau, nguồn nhiễu trắng cho hiệu quả nén nhiễu tốt nhất do có phổ nhiễu tương đối hẹp và công suất nhiễu ổn định. Các nguồn nhiễu có độ biến động lớn, phổ nhiễu rộng như nhiễu đường phố, nhiễu đám đông thì hiệu quả nén nhiễu thấp hơn. - Trong số các phương pháp đánh giá đã tìm hiểu, phép đánh giá PESQ và SNRseg cho kết quả đáng tin cậy hơn, tương đồng cao với cảm nhận nghe chủ quan. KIẾN NGHỊ Từ kết quả đạt được, tác giả kiến nghị các hướng nghiên cứu tiếp theo như sau: - Nghiên cứu cải tiến các giải pháp giảm nhiễu tối ưu hơn trong miền Wavelet và so sánh với các thuật toán xử lý trong miền tần số nhằm đánh giá hiệu quả cải thiện chất lượng tiếng nói cho người nghe. Trang 61
- KẾT LUẬN VÀ KIẾN NGHỊ - Thực hiện các đánh giá chủ quan cũng như tìm được sự tương đồng của các đánh giá khách quan so với đánh giá chủ quan, đưa ra các phương pháp đánh giá kết quả tin cậy. - Hiện thực các thuật toán giảm nhiễu trên các thiết bị phần cứng chuyên dụng như KIT DSP, FPGA và đánh giá lại hiệu quả của toàn bộ hệ thống. Trang 62
- TÀI LIỆU THAM KHẢO TÀI LIỆU THAM KHẢO Tiếng Việt: [1]. Ph ạm Văn Sự, Lê Xuân Thành, “Giáo trình xử lý tiếng nói”, Học viện công nghệ bưu chính viễn thông. [2]. Ph ạm Văn Tuấn, Hoàng Lê Uyên Thục, “Giải pháp giảm nhiễu trong miền Wavelet để nâng cao hiệu suất nhận dạng tiếng nói tự động”. Tạp chí Khoa học và Công nghệ, Đại học Đà Nẵng, số 4(39).2010. Tiếng Anh: [3]. Boll, S.F., “Suppression of acoustic noise in speech using spectral subtraction”, IEEE Trans, Acoust. Speech Signal Process.,27(2), 113-120, 1979. [4]. Lim, Jae S., and Alan V. Oppenheim. “Enhancement and bandwidth compression of noisy speech.” Proceedings of the IEEE 67.12 (1979): 1586- 1604. [5]. Ephraim, Yariv, and David Malah. “Speech enhancement using optimal non- linear spectral amplitude estimation.” Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'83 Vol. 8. IEEE, 1983. [6]. Ephraim, Yariv, and David Malah. “Speech enhancement using a minimum mean-square error log-spectral amplitude estimator”. Acoustics, Speech and Signal Processing, IEEE Transactions on 33.2 (1985): 443-445. [7]. Cohen, Israel. “Speech enhancement using a noncausal a priori SNR estimator.” IEEE signal processing letters 11.9 (2004): 725-728. [8]. Hu, Yi, and Philipos C. Loizou. “Evaluation of objective quality measures for speech enhancement”. Audio, Speech, and Language Processing, IEEE Transactions on 16.1 (2008): 229-238. [9]. Hu, Yi, and Philipos C. Loizou. “Subjective comparison of speech enhancement algorithms”. Acoustics, Speech and Signal Processing, 2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on. Vol. 1. IEEE, 2006. [10]. Philipos C. Loizou. “Speech enhancement: theory and practice”. CRC press, 2013. [11]. Hansen, John HL, and Bryan L. Pellom. “An effective quality evaluation protocol for speech enhancement algorithms”. ICSLP. Vol. 7. 1998. iii
- TÀI LIỆU THAM KHẢO [12]. Recommendation, I. T. U. T. “Perceptual evaluation of speech quality (PESQ), an objective method for end-to-end speech quality assessment of narrowband telephone networks and speech codecs”. ITU-T Recommendation (2001): 862. [13]. Klatt, Dennis. “Prediction of perceived phonetic distance from critical-band spectra: A first step”. Acoustics, Speech, and Signal Processing, IEEE International Conference on ICASSP'82 Vol. 7. IEEE, 1982. [14]. Pham T.V., Gernot Kubin, Erhard Rank, “Robust Speech Recognition Using Adaptive Noise Threshold Estimation And Wavelet Shrinkage”, Proc. IEEE ICCE, Hoi An, Vietnam, 04-06 Feb., 2008. [15]. Donoho, David L. “De-noising by soft-thresholding.” IEEE transactions on information theory 41.3 (1995): 613-627. [16]. Pham T.V., and Gernot Kubin. “WPD-based noise suppression using nonlinearly weighted threshold quantile estimation and optimal wavelet shrinking.” Ninth European Conference on Speech Communication and Technology. 2005. Trang Web: [17]. Philipos C. Loizou. “NOIZEUS: A noisy speech corpus for evaluation of speech enhancement algorithms” truy cập lần cuối 10/12/2016. iv