Àpilẹ̀kọ yìí ṣe àgbéyẹ̀wò ìwé ìwádìí kan tí ó ṣe àwárí bí a ṣe le darapọ̀ OpenAI Whisper mọ́ Metal Performance Shaders (MPS) lórí macOS, láti pèsè ọ̀nà tuntun sí ìmọ̀ ọ̀rọ̀ àsọyé ní àkókò gidi. OpenAI Whisper jẹ́ aṣáájú model fún automatic speech recognition (ASR) tí a ti kọ́ lórí àwọn dataset nla ti ohun (audio) oríṣiríṣi, ó sì ní agbára láti túmọ̀ ọ̀rọ̀ àsọyé ní àwọn èdè púpọ̀. Ìdarapọ̀ ti neural network architecture ti Whisper àti GPU acceleration ti MPS ń jẹ́ kí iyára àti déédéé túbọ̀ sunwọ̀n sí i fún ìṣiṣẹ́ ọ̀rọ̀ lórí ẹ̀rọ (on-device speech processing), mímú kí àṣírí àti ìrọ̀rùn oníṣe pọ̀ sí i nígbà tí ó ń ṣí àwọn ọ̀nà tuntun sílẹ̀ fún àwọn olùgbéjáde ohun-èlò láti ṣọpọ̀ àwọn agbára speech-to-text ní àkókò gidi tààrà lórí àwọn ohun-èlò macOS.
Ìfáàrà
Ìmọ̀ ẹ̀rọ ọ̀rọ̀ àsọyé (speech recognition) ń ṣe ipa pàtàkì nínú rírọ̀rùn oríṣiríṣi ohun-èlò, láti mímú kí àyè gbígbà (accessibility) sunwọ̀n sí i sí mímú kí ìbáṣepọ̀ oníṣe yára sí i. Lílépa ASR tí ó ní high-fidelity àti low-latency ti jẹ́ iṣẹ́ fún àwọn cloud server tí ó lágbára tẹ́lẹ̀, èyí tí ó ń mú àwọn ìpèníjà wá ní ti àyè gbígbà, àṣírí, àti latency. Síbẹ̀síbẹ̀, ìwádìí tuntun kan ti mú ojútùú ìyípadà wá: ìṣọpọ̀ OpenAI Whisper pẹ̀lú GPU acceleration tí Metal Performance Shaders (MPS) ń pèsè lórí macOS. Ìṣọpọ̀ yìí jẹ́ ìlọsíwájú pàtàkì nínú àwọn agbára speech recognition lórí ẹ̀rọ, ó sì bá tẹnumọ́ tó ń pọ̀ sí i lórí àṣírí oníṣe àti ààbò data mu.
Metal Performance Shaders (MPS) jẹ́ ìmọ̀ ẹ̀rọ kan tí Apple gbéjáde tí ó ń jẹ́ kí GPU computation tí ó ní iṣẹ́ gíga ṣeé ṣe lórí àwọn ẹ̀rọ macOS. Ó ń jẹ́ kí àwọn olùgbéjáde lo agbára GPU fún parallel processing, èyí tí ó ń mú ìlọsíwájú iyára pàtàkì wá nínú àwọn iṣẹ́ ìṣírò oríṣiríṣi, títí kan machine learning àti computer vision.
.class="m-10 w-100"
1. Ìdàgbàsókè Ìmọ̀ Ọ̀rọ̀ Àsọyé lórí macOS
Ìdàgbàsókè ìmọ̀ ọ̀rọ̀ àsọyé lórí àwọn ẹ̀rọ macOS ti jẹ́ ohun tí ìlọsíwájú nínú àwọn neural network model àti àwọn ìmọ̀ ẹ̀rọ hardware acceleration ń darí. Àwọn ètò speech recognition àtijọ́ sábà máa ń ní àwọn ìpèníjà nínú déédéé, latency, àti ìṣẹ́-ìṣírò, pàtàkì jù lọ nígbà tí wọ́n bá ń ṣe àmúlò àwọn ohùn (accents) ọ̀tọ̀ọ̀tọ̀, ariwo abẹ́lẹ̀ (background noise), àti àwọn ipò ìgbóhùnsílẹ̀ tí kò dọ́gba. Ìgbéjáde OpenAI Whisper ti ṣètò ìlànà tuntun fún speech recognition tí ó fìdímúlẹ̀ tí ó sì péye kọjá ọ̀pọ̀lọpọ̀ èdè àti èdè-àdúgbò (dialects), èyí tí ó ń pèsè ojútùú tí ó tọ́ fún àwọn ohun-èlò àkókò gidi.
.class="m-10 w-100"
2. Lílò OpenAI Whisper àti Metal Performance Shaders
Ìwé ìwádìí náà ṣí ọ̀nà tuntun kan payá nípa títẹpọ̀ àwọn agbára gíga ti OpenAI Whisper mọ́ ìṣírò iṣẹ́ gíga ti MPS lórí macOS. Ìṣọpọ̀ yìí ṣeé ṣe nípa títọ́jú model Whisper láti ṣiṣẹ́ lórí GPU nípa lílo framework MPS, èyí tí ó ń jẹ́ kí parallel processing tí ó múnádóko ṣeé ṣe. Àwọn olùwádìí ti lo àwọn ọgbọ́n bíi model quantization àti pruning láti dín ìwọ̀n model àti àwọn ohun tí ìṣírò ń béèrè kù nígbà tí wọ́n sì ń pa déédéé gíga mọ́. Nípa lílo agbára parallel processing ti GPU, ètò yìí ń ṣàṣeyọrí ìlọsíwájú iyára tí ó tàkàsà, pẹ̀lú iyára transcription tí ó yára ní ẹ̀rìn 8 sí 12 ju àkókò gidi lọ fún àwọn ọ̀rọ̀ àsọyé àbájáde. Èyí ń mú kí ìrírí oníṣe sunwọ̀n sí i nípa dídín àkókò ìdúró kù, ó sì ń jẹ́ kí ọ̀pọ̀lọpọ̀ àwọn ohun-èlò àkókò gidi ṣeé ṣe, láti live captioning sí àwọn ètò ibaraenisọrọ tí ohùn ń darí (interactive voice-controlled systems).
.class="m-10 w-100"
3. Àwọn Àbájáde fún Àwọn Oníṣe àti Àwọn Olùgbéjáde
Ìṣọpọ̀ Whisper àti MPS lórí macOS ní àbájáde pàtàkì fún àwọn oníṣe àti àwọn olùgbéjáde ohun-èlò. Fún àwọn oníṣe, ó ń pèsè ìrírí tó sunwọ̀n sí i nínú speech recognition ní àkókò gidi, tí ń fúnni ní transcription tó fẹ́rẹ̀ẹ́ jẹ́ lẹ́sẹ̀kẹsẹ̀ pẹ̀lú déédéé gíga nígbà tí ó ń pa àṣírí àti ààbò mọ́ ti ìṣiṣẹ́ lórí ẹ̀rọ. Ìmọ̀ ẹ̀rọ yìí le ṣiṣẹ́ nínú oríṣiríṣi àwọn ipò ayé gidi, gẹ́gẹ́ bí àwọn ohun-èlò tí ohùn ń darí fún home automation, àwọn iṣẹ́ transcription ní àkókò gidi fún àwọn ìpàdé àti ìdánilẹ́kọ̀ọ́, àti àwọn ohun-èlò àyè gbígbà (accessibility) fún àwọn oníṣe tí wọ́n ní ìṣòro gbígbọ́ràn. Àwọn olùgbéjáde gba àyè sí toolkit kan láti ṣọpọ̀ iṣẹ́ speech-to-text mọ́ àwọn ohun-èlò wọn, pẹ̀lú àwọn ànfààní àfikún ti ṣíṣe-kárí-owó agbára (energy efficiency) àti ìṣọpọ̀ Python tó dára.
.class="m-10 w-100"
4. Mímú Ìtẹ́wọ́gbà àti Àtúnsọ̀tun Dúró
Àwòrán modular àti ìmúṣẹ Python ti ètò yìí ń rọ̀rùn láti ṣọpọ̀ mọ́ àwọn ohun-èlò tí ó wà tẹ́lẹ̀, ó sì ń dín ìdènà kù fún àwọn olùgbéjáde tí ń wá láti ṣọpọ̀ àwọn agbára speech recognition mọ́ iṣẹ́ wọn. Síbẹ̀síbẹ̀, àwọn olùgbéjáde le bá àwọn ìpèníjà pàdé ní ti model customization àti àbójútó sí àwọn ipò lílo pàtó, àti títọ́jú iṣẹ́ fún oríṣiríṣi ìdásílẹ̀ hardware. Ìwé ìwádìí náà ń pèsè ìtọ́nisọ́nà lórí bí a ṣe le yanjú àwọn ìpèníjà wọ̀nyí, gẹ́gẹ́ bí fine-tuning model lórí data tó súnmọ́ ohun tí a fẹ́ lò àti ìmúṣẹ àwọn ọgbọ́n dynamic resource allocation. Lọ́wọ́ kejì, ètò voice activity detection tó múnádóko nínú lílo agbára, tí ó ń ṣàṣeyọrí 94% precision àti 96% recall, ń rí i dájú pé àwọn ohun-èlò ń ṣiṣẹ́ kíákíá àti lẹ́sẹ̀kẹsẹ̀ láìsí pé wọ́n ń gba agbára ẹ̀rọ ràdọ̀ràdọ̀. Ìṣọpọ̀ àwọn nǹkan yìí ní agbára láti mú ìtẹ́wọ́gbà pọ̀ sí i láàárín àwọn olùgbéjáde, ó sì ń ru àtúnsọ̀tun síwájú sí i nínú pápá speech recognition ní àkókò gidi.
.class="m-10 w-100"
Ìparí
Ìṣọpọ̀ OpenAI Whisper àti Metal Performance Shaders lórí macOS jẹ́ ìlọsíwájú pàtàkì nínú ìmọ̀ ẹ̀rọ speech recognition ní àkókò gidi. Nípa títọ́jú iyára, déédéé, àti iṣẹ́ tó gbéṣẹ́, àtúnsọ̀tun yìí ń mú kí ìrírí oníṣe sunwọ̀n sí i, ó sì ń ṣí àwọn ọ̀nà tuntun sílẹ̀ fún ìdàgbàsókè ohun-èlò. Ìwádìí yìí ń ṣàfikún sí ìlọsíwájú ti ìmọ̀ ẹ̀rọ AI tí ó ń lọ lọ́wọ́, ó sì ní agbára láti gbin ìmísí fún àwọn ìlọsíwájú síwájú sí i nínú on-device speech processing kọjá oríṣiríṣi àwọn platform. Bí ìmọ̀ ẹ̀rọ yìí ṣe ń tẹ̀síwájú láti dàgbà, ó ní agbára láti yí ọ̀nà tí àwọn oníṣe ń gbà bá àwọn ẹ̀rọ wọn sọ̀rọ̀ padà, mímú kí ìbáraẹnisọrọ oni-nọmba túbọ̀ rọrùn ati láwọn àyè gbígbà.
Wọlé sí Ìwé Ìwádìí Náà
.class="card bg-light p-3 me-3 w-100" Láti kọ́ ẹ̀kọ́ púpọ̀ sí i nípa ìṣọpọ̀ OpenAI Whisper àti Metal Performance Shaders lórí macOS fún speech recognition ní àkókò gidi, a gba àwọn òǹkàwé níyànjú láti wọlé sí gbogbo ìwé ìwádìí náà. Ìwé náà ń pèsè àwọn kúlẹ̀kúlẹ̀ ìmọ̀ ẹ̀rọ tó jinlẹ̀, àwọn àbájáde àyẹ̀wò (experimental results), àti àwọn òye síwájú sí i nípa àwọn ohun-èlò tí ó le wà àti àwọn ìtọ́sọ́nà ọjọ́ iwájú ti ìmọ̀ ẹ̀rọ yìí. Nípa bíbẹ gbogbo ìwé ìwádìí náà wò, àwọn òǹkàwé yóò ní òye kíkún nípa methodology, implementation, àti àwọn àbájáde ti ọ̀nà tuntun yìí sí speech recognition ní àkókò gidi lórí àwọn ẹ̀rọ macOS. Ka Gbogbo Ìwé Náà Lónìí! ❯
Àyẹ̀wò kẹhìn .
---Àyẹ̀wò àkọ́kọ́ .
Tẹ àpilẹ̀kọ yìí jáde lẹ́ẹ̀kan sí i
Daakọ ọ̀nà fún Medium
# Ìdánimọ̀ Ọ̀rọ̀ Kíákíá ní Àkókò-Gidi lórí macOS: OpenAI Whisper — Sebastien Rousseau > Originally published at [https://sebastienrousseau.com/yo/2024-03-12-revolutionising-real-time-speech-recognition-on-macos-with-openai-whisper/](https://sebastienrousseau.com/yo/2024-03-12-revolutionising-real-time-speech-recognition-on-macos-with-openai-whisper/) Ṣayẹwo bí OpenAI Whisper àti Metal Performance Shaders ṣe ń yí ìmọ̀ ọ̀rọ̀ àsọyé padà ní àkókò gidi lórí macOS, tí ń pèsè iyára àti déédéé tí kò ní ẹlẹgbẹ́. Read the full article on sebastienrousseau.com: https://sebastienrousseau.com/yo/2024-03-12-revolutionising-real-time-speech-recognition-on-macos-with-openai-whisper/
Daakọ ọ̀nà fún Mastodon
Ìdánimọ̀ Ọ̀rọ̀ Kíákíá ní Àkókò-Gidi lórí macOS: OpenAI Whisper — Sebastien Rousseau Ṣayẹwo bí OpenAI Whisper àti Metal Performance Shaders ṣe ń yí ìmọ̀ ọ̀rọ̀ àsọyé padà ní àkókò gidi lórí macOS, tí ń pèsè iyára àti déédéé tí kò ní ẹlẹgbẹ́. https://sebastienrousseau.com/yo/2024-03-12-revolutionising-real-time-speech-recognition-on-macos-with-openai-whisper/
Daakọ tí a ṣe ìtọ́nà fún LinkedIn
Ìdánimọ̀ Ọ̀rọ̀ Kíákíá ní Àkókò-Gidi lórí macOS: OpenAI Whisper — Sebastien Rousseau Ṣayẹwo bí OpenAI Whisper àti Metal Performance Shaders ṣe ń yí ìmọ̀ ọ̀rọ̀ àsọyé padà ní àkókò gidi lórí macOS, tí ń pèsè iyára àti déédéé tí kò ní ẹlẹgbẹ́. Èyí ni àwọn èrò àgbékalẹ̀ pàtàkì: - Ìfáàrà. Ìmọ̀ ẹ̀rọ ọ̀rọ̀ àsọyé (speech recognition) ń ṣe ipa pàtàkì nínú rírọ̀rùn oríṣiríṣi ohun-èlò, láti mímú kí àyè gbígbà (accessibility) sunwọ̀n sí i sí mímú kí ìbáṣepọ̀ oníṣe yára sí i. - Ìparí. Ìṣọpọ̀ OpenAI Whisper àti Metal Performance Shaders lórí macOS jẹ́ ìlọsíwájú pàtàkì nínú ìmọ̀ ẹ̀rọ speech recognition ní àkókò gidi. - 1. Ìdàgbàsókè Ìmọ̀ Ọ̀rọ̀ Àsọyé lórí macOS. Ìdàgbàsókè ìmọ̀ ọ̀rọ̀ àsọyé lórí àwọn ẹ̀rọ macOS ti jẹ́ ohun tí ìlọsíwájú nínú àwọn neural network model àti àwọn ìmọ̀ ẹ̀rọ hardware acceleration ń darí. - 2. Lílò OpenAI Whisper àti Metal Performance Shaders. Ìwé ìwádìí náà ṣí ọ̀nà tuntun kan payá nípa títẹpọ̀ àwọn agbára gíga ti OpenAI Whisper mọ́ ìṣírò iṣẹ́ gíga ti MPS lórí macOS. Kí ni ọ̀nà àgbékalẹ̀ ilé-iṣẹ́ yín sí àwọn ìpèníjà tí a sọ nínú àpilẹ̀kọ yìí? → https://sebastienrousseau.com/yo/2024-03-12-revolutionising-real-time-speech-recognition-on-macos-with-openai-whisper/ #OpenaiWhisper #MetalPerformanceShaders #Ìmọ̀Ọ̀rọ̀ÀsọyéMacos #Ìtúmọ̀ÀsọyéNíÀkókòGidi #ÌwàríIṣẹ́Ohun Sebastien Rousseau | CC-BY-4.0
Tọka àpilẹkọ yìí
Ìdánimọ̀ Ọ̀rọ̀ Kíákíá ní Àkókò-Gidi lórí macOS: OpenAI Whisper — Sebastien Rousseau
Ṣayẹwo bí OpenAI Whisper àti Metal Performance Shaders ṣe ń yí ìmọ̀ ọ̀rọ̀ àsọyé padà ní àkókò gidi lórí macOS, tí ń pèsè iyára àti déédéé tí kò ní ẹlẹgbẹ́.
BibTeX
@online{rousseau2024ìdánimọ,
author = {Rousseau, Sebastien},
title = {{Ìdánimọ̀ Ọ̀rọ̀ Kíákíá ní Àkókò-Gidi lórí macOS: OpenAI Whisper — Sebastien Rousseau}},
year = {2024},
url = {https://sebastienrousseau.com/yo/2024-03-12-revolutionising-real-time-speech-recognition-on-macos-with-openai-whisper/},
urldate = {2024}
}RIS
TY - GEN AU - Rousseau, Sebastien TI - Ìdánimọ̀ Ọ̀rọ̀ Kíákíá ní Àkókò-Gidi lórí macOS: OpenAI Whisper — Sebastien Rousseau PY - 2024 UR - https://sebastienrousseau.com/yo/2024-03-12-revolutionising-real-time-speech-recognition-on-macos-with-openai-whisper/ ER -
Vancouver
Rousseau S. Ìdánimọ̀ Ọ̀rọ̀ Kíákíá ní Àkókò-Gidi lórí macOS: OpenAI Whisper — Sebastien Rousseau. sebastienrousseau.com. 2024 Mar 12. Available from: https://sebastienrousseau.com/yo/2024-03-12-revolutionising-real-time-speech-recognition-on-macos-with-openai-whisper/
Chicago
Rousseau, Sebastien. "Ìdánimọ̀ Ọ̀rọ̀ Kíákíá ní Àkókò-Gidi lórí macOS: OpenAI Whisper — Sebastien Rousseau." sebastienrousseau.com. March 12, 2024. https://sebastienrousseau.com/yo/2024-03-12-revolutionising-real-time-speech-recognition-on-macos-with-openai-whisper/.
APA
Rousseau, S. (2024, March 12). Ìdánimọ̀ Ọ̀rọ̀ Kíákíá ní Àkókò-Gidi lórí macOS: OpenAI Whisper — Sebastien Rousseau. sebastienrousseau.com. https://sebastienrousseau.com/yo/2024-03-12-revolutionising-real-time-speech-recognition-on-macos-with-openai-whisper/
Tun àpilẹkọ yìí jade
Ìdánimọ̀ Ọ̀rọ̀ Kíákíá ní Àkókò-Gidi lórí macOS: OpenAI Whisper — Sebastien Rousseau
Ṣayẹwo bí OpenAI Whisper àti Metal Performance Shaders ṣe ń yí ìmọ̀ ọ̀rọ̀ àsọyé padà ní àkókò gidi lórí macOS, tí ń pèsè iyára àti déédéé tí kò ní ẹlẹgbẹ́.
A ti fun àpilẹkọ yìí ni iwe-ẹri labẹ Creative Commons Attribution 4.0 International. Atunjade nilo idanimọ si URL akọkọ.
Ìdánimọ̀ Ọ̀rọ̀ Kíákíá ní Àkókò-Gidi lórí macOS: OpenAI Whisper — Sebastien Rousseau Ṣayẹwo bí OpenAI Whisper àti Metal Performance Shaders ṣe ń yí ìmọ̀ ọ̀rọ̀ àsọyé padà ní àkókò gidi lórí macOS, tí ń pèsè iyára àti déédéé tí kò ní ẹlẹgbẹ́. Originally published at https://sebastienrousseau.com/yo/2024-03-12-revolutionising-real-time-speech-recognition-on-macos-with-openai-whisper/ by Sebastien Rousseau. Licensed under CC-BY-4.0.
