Sebastien Rousseau

WHISPER

Cách mạng hoá nhận dạng giọng nói thời gian thực trên macOS với OpenAI Whisper

Tăng tốc bằng Metal Performance Shaders trên Apple Silicon

4 min read
Banner for: Cách mạng hoá nhận dạng giọng nói thời gian thực trên macOS với OpenAI Whisper

Whisper trên macOS.class="img-fluid clearfix"

TL;DR. Một hệ thống phiên âm giọng nói thành văn bản thời gian thực tận dụng OpenAI Whisper và tăng tốc GPU Metal Performance Shaders trên macOS để đạt được độ trễ dưới một giây, 8-12x tốc độ thời gian thực trên M1 Max.

Điểm chính

  • Cách tiếp cận. Mô hình Whisper được chuyển sang Metal cho tăng tốc GPU trên Apple Silicon.
  • Kết quả. 8-12x thời gian thực trên M1 Max; độ trễ dưới một giây cho phiên âm trực tiếp.
  • Trường hợp sử dụng. Ghi chú họp, phụ đề trực tiếp, hỗ trợ tiếp cận.
  • Hạn chế. Đòi hỏi Apple Silicon (M1+); không có sẵn trên Intel Mac.

Bối cảnh

Whisper trên thiết bị

OpenAI Whisper là một mô hình ASR (nhận dạng giọng nói tự động) mã nguồn mở chất lượng cao. Chạy nó cục bộ thay vì gọi API mang lại các lợi ích về quyền riêng tư và độ trễ.

Tăng tốc Metal

Khai thác Apple Silicon

Apple Silicon (chip M1, M2, M3) tích hợp GPU mạnh mẽ. Metal Performance Shaders (MPS) là API tăng tốc GPU của Apple, được tối ưu hoá cho các phép toán tensor.

Bằng cách chuyển các phép toán Whisper sang MPS:

Hiệu suất đo được

Kết quả M1 Max

Pipeline thời gian thực

Kiến trúc

  1. Bắt âm thanh qua AVAudioEngine với độ trễ thấp.
  2. Cửa sổ trượt thêm các đoạn âm thanh vào bộ đệm vòng.
  3. Suy luận liên tục mỗi 500ms trên cửa sổ 1 giây gần đây.
  4. Xử lý hậu kỳ loại bỏ trùng lặp giữa các cửa sổ chồng chéo.
  5. Đầu ra đến giao diện người dùng hoặc bộ xử lý hạ nguồn.

Trường hợp sử dụng

Trên thiết bị

Quyền riêng tư

Mọi xử lý xảy ra trên thiết bị. Âm thanh không bao giờ rời khỏi máy Mac. Đối với các trường hợp sử dụng nhạy cảm (cuộc gọi luật sư, cuộc họp hội đồng quản trị), đây là một lợi thế đáng kể so với các giải pháp đám mây.

Hạn chế

Triển vọng

Bài báo nghiên cứu

Tôi đã xuất bản một bài báo nghiên cứu chi tiết các tối ưu hoá ở mức thấp (Papers ›).

Kết luận

Whisper + Metal trên Apple Silicon mở khoá nhận dạng giọng nói thời gian thực cấp doanh nghiệp trên thiết bị tiêu dùng. Đối với các trường hợp sử dụng quan tâm về quyền riêng tư, đây là một sự thay thế hấp dẫn cho các API đám mây.

Cập nhật lần cuối .

Đăng lại bài viết này

Sao chép định dạng cho Medium

# Cách mạng hoá nhận dạng giọng nói thời gian thực trên macOS với OpenAI Whisper — Sebastien Rousseau

> Originally published at [https://sebastienrousseau.com/vi/2024-03-12-cach-mang-nhan-dien-giong-noi-thoi-gian-thuc-tren-macos-voi-whisper/](https://sebastienrousseau.com/vi/2024-03-12-cach-mang-nhan-dien-giong-noi-thoi-gian-thuc-tren-macos-voi-whisper/)

Một hệ thống nhận dạng giọng nói thời gian thực trên macOS sử dụng OpenAI Whisper và Metal Performance Shaders để đạt độ trễ dưới một giây.

Read the full article on sebastienrousseau.com: https://sebastienrousseau.com/vi/2024-03-12-cach-mang-nhan-dien-giong-noi-thoi-gian-thuc-tren-macos-voi-whisper/

Sao chép định dạng cho Mastodon

Cách mạng hoá nhận dạng giọng nói thời gian thực trên macOS với OpenAI Whisper — Sebastien Rousseau

Một hệ thống nhận dạng giọng nói thời gian thực trên macOS sử dụng OpenAI Whisper và Metal Performance Shaders để đạt độ trễ dưới một giây.

https://sebastienrousseau.com/vi/2024-03-12-cach-mang-nhan-dien-giong-noi-thoi-gian-thuc-tren-macos-voi-whisper/

Sao chép định dạng cho LinkedIn

Cách mạng hoá nhận dạng giọng nói thời gian thực trên macOS với OpenAI Whisper — Sebastien Rousseau

Một hệ thống nhận dạng giọng nói thời gian thực trên macOS sử dụng OpenAI Whisper và Metal Performance Shaders để đạt độ trễ dưới một giây.

Đây là những điểm chiến lược quan trọng:

- Bối cảnh. OpenAI Whisper là một mô hình ASR (nhận dạng giọng nói tự động) mã nguồn mở chất lượng cao.
- Tăng tốc Metal. Apple Silicon (chip M1, M2, M3) tích hợp GPU mạnh mẽ.
- Hiệu suất đo được. 1.
- Pipeline thời gian thực. 1.

Tổ chức của bạn tiếp cận như thế nào với những thách thức được nêu trong bài viết này?

→ https://sebastienrousseau.com/vi/2024-03-12-cach-mang-nhan-dien-giong-noi-thoi-gian-thuc-tren-macos-voi-whisper/

#Whisper #Macos #Metal #AppleSilicon #NhậnDạngGiọngNói

Sebastien Rousseau | CC-BY-4.0
Trích dẫn bài này

Cách mạng hoá nhận dạng giọng nói thời gian thực trên macOS với OpenAI Whisper — Sebastien Rousseau

Một hệ thống nhận dạng giọng nói thời gian thực trên macOS sử dụng OpenAI Whisper và Metal Performance Shaders để đạt độ trễ dưới một giây.

BibTeX

@online{rousseau2024cách,
  author  = {Rousseau, Sebastien},
  title   = {{Cách mạng hoá nhận dạng giọng nói thời gian thực trên macOS với OpenAI Whisper — Sebastien Rousseau}},
  year    = {2024},
  url     = {https://sebastienrousseau.com/vi/2024-03-12-cach-mang-nhan-dien-giong-noi-thoi-gian-thuc-tren-macos-voi-whisper/},
  urldate = {2024}
}

RIS

TY  - GEN
AU  - Rousseau, Sebastien
TI  - Cách mạng hoá nhận dạng giọng nói thời gian thực trên macOS với OpenAI Whisper — Sebastien Rousseau
PY  - 2024
UR  - https://sebastienrousseau.com/vi/2024-03-12-cach-mang-nhan-dien-giong-noi-thoi-gian-thuc-tren-macos-voi-whisper/
ER  -

Vancouver

Rousseau S. Cách mạng hoá nhận dạng giọng nói thời gian thực trên macOS với OpenAI Whisper — Sebastien Rousseau. sebastienrousseau.com. 2024 Mar 12. Available from: https://sebastienrousseau.com/vi/2024-03-12-cach-mang-nhan-dien-giong-noi-thoi-gian-thuc-tren-macos-voi-whisper/

Chicago

Rousseau, Sebastien. "Cách mạng hoá nhận dạng giọng nói thời gian thực trên macOS với OpenAI Whisper — Sebastien Rousseau." sebastienrousseau.com. March 12, 2024. https://sebastienrousseau.com/vi/2024-03-12-cach-mang-nhan-dien-giong-noi-thoi-gian-thuc-tren-macos-voi-whisper/.

APA

Rousseau, S. (2024, March 12). Cách mạng hoá nhận dạng giọng nói thời gian thực trên macOS với OpenAI Whisper — Sebastien Rousseau. sebastienrousseau.com. https://sebastienrousseau.com/vi/2024-03-12-cach-mang-nhan-dien-giong-noi-thoi-gian-thuc-tren-macos-voi-whisper/

Đăng lại bài này

Cách mạng hoá nhận dạng giọng nói thời gian thực trên macOS với OpenAI Whisper — Sebastien Rousseau

Một hệ thống nhận dạng giọng nói thời gian thực trên macOS sử dụng OpenAI Whisper và Metal Performance Shaders để đạt độ trễ dưới một giây.

Bài viết này được cấp phép theo Creative Commons Attribution 4.0 International. Đăng lại yêu cầu ghi nguồn đến URL chính tắc.

Cách mạng hoá nhận dạng giọng nói thời gian thực trên macOS với OpenAI Whisper — Sebastien Rousseau

Một hệ thống nhận dạng giọng nói thời gian thực trên macOS sử dụng OpenAI Whisper và Metal Performance Shaders để đạt độ trễ dưới một giây.

Originally published at https://sebastienrousseau.com/vi/2024-03-12-cach-mang-nhan-dien-giong-noi-thoi-gian-thuc-tren-macos-voi-whisper/ by Sebastien Rousseau.
Licensed under CC-BY-4.0.