當(dāng)前位置：首頁 > 科技 > 知識百科

視頻背景音自動轉(zhuǎn)為文字描述：多媒體框架 FFmpeg 8.0 引入 OpenAI Whisper 音頻 AI 模型

來源：責(zé)編：時間：2025-08-18 12:07:40 120觀看

導(dǎo)讀 8 月 16 日消息，多媒體框架 FFmpeg 開發(fā)團隊發(fā)文，預(yù)熱 FFmpeg 8.0 版本新增一項名為 Whisper 的音頻過濾器，該功能整合了 OpenAI 的 Whisper 語音識別模型，通過內(nèi)建過濾器機制，可以自動將視頻背景音頻內(nèi)容識別轉(zhuǎn)換

8 月 16 日消息，多媒體框架 FFmpeg 開發(fā)團隊發(fā)文，預(yù)熱 FFmpeg 8.0 版本新增一項名為 Whisper 的音頻過濾器，該功能整合了 OpenAI 的 Whisper 語音識別模型，通過內(nèi)建過濾器機制，可以自動將視頻背景音頻內(nèi)容識別轉(zhuǎn)換為文字描述，并輸出為字幕或結(jié)構(gòu)化數(shù)據(jù)。

據(jù)介紹，Whisper 過濾器的實現(xiàn)依賴 whisper.cpp 庫，用戶需要先在系統(tǒng)中安裝并啟用對應(yīng)支持庫，并在編譯時通過“--enable-whisper”選項激活功能。相應(yīng)過濾器支持純文本 TXT、SRT、JSON 等輸出模式，同時可以通過 HTTP 等協(xié)議直接將輸出內(nèi)容傳輸?shù)狡渌到y(tǒng)。如果未指定輸出位置，轉(zhuǎn)錄結(jié)果將作為元數(shù)據(jù)附加在音頻幀上，供后續(xù)處理或分析使用。

官方強調(diào)，該過濾器提供了隊列參數(shù)，用戶可以設(shè)置累積多少音頻數(shù)據(jù)再進(jìn)行識別，默認(rèn)值約為 3 秒，如果將時間設(shè)置更長，識別準(zhǔn)確率則更高 / 處理頻率更低，適合批處理工作場景；如果將時間設(shè)置更短，則可降低過濾器處理延遲，適合對重要音頻內(nèi)容進(jìn)行具體分析和微調(diào)。

此外，Whisper 過濾器也支持 GPU 加速，結(jié)合 FFmpeg 本身的多線程處理，在高性能環(huán)境下能顯著提升轉(zhuǎn)錄速度。同時它還支持“Silero 語音活動檢測（VAD）”功能，能在長音頻流中自動切片語音片段，從而進(jìn)一步提升識別效率和段落準(zhǔn)確度。

本文鏈接：http://m.rrqrq.com/showinfo-119-177650-0.html視頻背景音自動轉(zhuǎn)為文字描述：多媒體框架 FFmpeg 8.0 引入 OpenAI Whisper 音頻 AI 模型

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權(quán)等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com

上一篇： Win11 10 微軟商店更新：用戶已無法徹底關(guān)閉應(yīng)用自動更新，僅允許暫停最長五周

下一篇： Win11 Dev Beta 預(yù)覽版 26xxx.5751 發(fā)布：文件資源管理器右鍵菜單 UI 調(diào)整、系統(tǒng)托盤新懸停動畫

標(biāo)簽：

熱門焦點

19個 JavaScript 單行代碼技巧，讓你看起來像個專業(yè)人士

今天這篇文章跟大家分享18個JS單行代碼，你只需花幾分鐘時間，即可幫助您了解一些您可能不知道的 JS 知識，如果您已經(jīng)知道了，就當(dāng)作復(fù)習(xí)一下，古人云，溫故而知新嘛。現(xiàn)在，我們就開始今
使用Webdriver-manager解決瀏覽器與驅(qū)動不匹配所帶來自動化無法執(zhí)行的問題

1、前言在我們使用 Selenium 進(jìn)行 UI 自動化測試時，常常會因為瀏覽器驅(qū)動與瀏覽器版本不匹配，而導(dǎo)致自動化測試無法執(zhí)行，需要手動去下載對應(yīng)的驅(qū)動版本，并替換原有的驅(qū)動，可能還
一條抖音4億人圍觀 ! 這家MCN比無憂傳媒還野

作者：Hiu 來源：互聯(lián)網(wǎng)品牌官01 擦邊少女空降熱搜，幕后推手曝光被網(wǎng)友譽為“純欲天花板”的女網(wǎng)紅井川里予，近期因為一組哥特風(fēng)照片登上熱搜，引發(fā)了一場互聯(lián)網(wǎng)世界關(guān)于
支持aptX Lossless無損傳輸 iQOO TWS 1賽道版發(fā)布限時優(yōu)惠價369元

2023年7月4日，“無損音質(zhì)，聲動人心”iQOO TWS 1正式發(fā)布，支持aptX Lossless無損傳輸，限時優(yōu)惠價369元。iQOO TWS 1耳機率先支持端到端aptX Lossless無
超級標(biāo)準(zhǔn)版旗艦！iQOO 11S全球首發(fā)iQOO超算獨顯芯片

上半年已接近尾聲，截至目前各大品牌旗下的頂級旗艦都已悉數(shù)亮相，而下半年即將推出的頂級旗艦已經(jīng)成為了數(shù)碼圈爆料的主流，其中就包括全新的iQOO 11S系
3699元！iQOO Neo8 Pro頂配版今日首銷：1TB UFS 4.0同價位唯一

5月23日，iQOO推出了全新的iQOO Neo8系列，包含iQOO Neo8和iQOO Neo8 Pro兩個版本，其中標(biāo)準(zhǔn)版搭載高通驍龍8+，而Pro版更是首發(fā)搭載了聯(lián)發(fā)科天璣9200+旗艦
聯(lián)想YOGA 16s 2022筆記本將要推出，屏幕支持觸控功能

聯(lián)想此前宣布，將于11月2日19:30召開聯(lián)想秋季輕薄新品發(fā)布會，推出聯(lián)想 YOGA 16s 2022 筆記本等新品。官方稱，YOGA 16s 2022 筆記本將搭載 16 英寸屏幕，并且是一
蘋果140W USB-C充電器：采用氮化鎵技術(shù)

據(jù)10 月 30 日 9to5 Mac 消息報道，當(dāng)蘋果推出新的 MacBook Pro 2021 時，該公司還推出了新的 140W USB-C 充電器，附贈在 MacBook Pro 16 英寸機型的盒子里，也支
世界人工智能大會國際日開幕式活動在世博展覽館開啟

30日上午，世界人工智能大會國際日開幕式活動在世博展覽館開啟，聚集國際城市代表、重量級院士專家、國際創(chuàng)新企業(yè)代表，共同打造人工智能交流平臺。上海市副市

国产精品嫩草99av在线_一区在线视频观看_欧美高清一区_欧美日韩国产一区_99精品欧美一区二区三区_久久大香伊蕉在人线观看热2_一色屋精品视频在线观看网站_在线亚洲国产精品网站_亚洲区一区二区三区_你懂的视频一区二区

視頻背景音自動轉(zhuǎn)為文字描述：多媒體框架 FFmpeg 8.0 引入 OpenAI Whisper 音頻 AI 模型

19個 JavaScript 單行代碼技巧，讓你看起來像個專業(yè)人士

使用Webdriver-manager解決瀏覽器與驅(qū)動不匹配所帶來自動化無法執(zhí)行的問題

一條抖音4億人圍觀 ! 這家MCN比無憂傳媒還野

支持aptX Lossless無損傳輸 iQOO TWS 1賽道版發(fā)布限時優(yōu)惠價369元

超級標(biāo)準(zhǔn)版旗艦！iQOO 11S全球首發(fā)iQOO超算獨顯芯片

3699元！iQOO Neo8 Pro頂配版今日首銷：1TB UFS 4.0同價位唯一

聯(lián)想YOGA 16s 2022筆記本將要推出，屏幕支持觸控功能

蘋果140W USB-C充電器：采用氮化鎵技術(shù)

世界人工智能大會國際日開幕式活動在世博展覽館開啟

最新推薦

猜你喜歡

熱門推薦

相關(guān)資訊