8 月 16 日消息,多媒體框架 FFmpeg 開發(fā)團隊發(fā)文,預(yù)熱 FFmpeg 8.0 版本新增一項名為 Whisper 的音頻過濾器,該功能整合了 OpenAI 的 Whisper 語音識別模型,通過內(nèi)建過濾器機制,可以自動將視頻背景音頻內(nèi)容識別轉(zhuǎn)換為文字描述,并輸出為字幕或結(jié)構(gòu)化數(shù)據(jù)。
據(jù)介紹,Whisper 過濾器的實現(xiàn)依賴 whisper.cpp 庫,用戶需要先在系統(tǒng)中安裝并啟用對應(yīng)支持庫,并在編譯時通過“--enable-whisper”選項激活功能。相應(yīng)過濾器支持純文本 TXT、SRT、JSON 等輸出模式,同時可以通過 HTTP 等協(xié)議直接將輸出內(nèi)容傳輸?shù)狡渌到y(tǒng)。如果未指定輸出位置,轉(zhuǎn)錄結(jié)果將作為元數(shù)據(jù)附加在音頻幀上,供后續(xù)處理或分析使用。
官方強調(diào),該過濾器提供了隊列參數(shù),用戶可以設(shè)置累積多少音頻數(shù)據(jù)再進(jìn)行識別,默認(rèn)值約為 3 秒,如果將時間設(shè)置更長,識別準(zhǔn)確率則更高 / 處理頻率更低,適合批處理工作場景;如果將時間設(shè)置更短,則可降低過濾器處理延遲,適合對重要音頻內(nèi)容進(jìn)行具體分析和微調(diào)。
此外,Whisper 過濾器也支持 GPU 加速,結(jié)合 FFmpeg 本身的多線程處理,在高性能環(huán)境下能顯著提升轉(zhuǎn)錄速度。同時它還支持“Silero 語音活動檢測(VAD)”功能,能在長音頻流中自動切片語音片段,從而進(jìn)一步提升識別效率和段落準(zhǔn)確度。
本文鏈接:http://m.rrqrq.com/showinfo-119-177650-0.html視頻背景音自動轉(zhuǎn)為文字描述:多媒體框架 FFmpeg 8.0 引入 OpenAI Whisper 音頻 AI 模型
聲明:本網(wǎng)頁內(nèi)容旨在傳播知識,若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系,我們將在第一時間刪除處理。郵件:2376512515@qq.com
上一篇: Win11 10 微軟商店更新:用戶已無法徹底關(guān)閉應(yīng)用自動更新,僅允許暫停最長五周
下一篇: Win11 Dev Beta 預(yù)覽版 26xxx.5751 發(fā)布:文件資源管理器右鍵菜單 UI 調(diào)整、系統(tǒng)托盤新懸停動畫