CMU Sphinx 是一款開源、免費的智能語音識別軟件。它可以用于多種不同的場合。語音轉錄、字幕、語言翻譯、聲音搜索和語言學習等等,也因為它是開源的,它允許研究人員和開發人員建立語音識別系統。歡迎免費下載!
CMU Sphinx有哪些功能
語音識別
音頻轉錄
標題對齊
IVR
文字轉語音
CMU Sphinx怎么用
建立語言模型
有幾種類型的模型描述語言識別——關鍵字列表,語法和統計語言模型,語音的統計語言模型。 你可以選擇任何解碼方式根據您的需求,你甚至可以在運行時模式之間切換。
關鍵字列表
Pocketsphinx支持關鍵字定位模式,您可以指定要查找關鍵字列表。 這種模式的優點是,你可以指定一個閾值為每個關鍵字,關鍵字可以連續語音中發現。 所有其他模式將試圖從語法檢測的話即使你使用的話,沒有語法。 關鍵字列表看起來像這樣:
oh mighty computer /1e-40/
hello world /1e-30/
other phrase /1e-20/
閾值必須指定每一個短語。 等較短的短語可以使用較小的閾值1 e 1,必須更大更長時間閾值。 假警報閾值必須調整平衡,錯過了檢測,調整閾值的最佳方法是使用一個預先錄制的音頻文件。
最好的精度最好有短語3 - 4音節。 太短的短語很容易混淆。
關鍵字列表支持pocketsphinx,而不是sphinx4。
語法
語法描述非常簡單類型的命令和控制的語言,和他們通常是手寫或自動生成的代碼。 語法通常沒有詞序列的概率,但一些元素可能重。 語法可以創建JSGF格式和通常有擴展。 克或.jsgf。
語法允許精確指定可能的輸入,例如,某些詞可能只重復兩到三次。 然而,這種嚴格可能是有害的,如果用戶不小心跳過的話語法要求。 在這種情況下整個識別將會失敗。 因此最好使語法更放松,而不是短語的袋子單詞列表允許任意的順序。 避免與許多非常復雜的語法規則和情況下,它只是減緩識別器,可以使用簡單的規則。 在過去的語法需要大量的努力調整,正確分配變異等等。 大的VXML咨詢行業。
語言模型
統計語言模型描述更復雜的語言。 它們包含概率的詞和詞的組合。 這些概率估計的樣本數據,并自動有一些靈活性。 例如,每個詞匯的組合是可能的,雖然這樣的組合的概率可能有所不同。 例如,如果你創建統計語言模型從一個單詞列表,它將仍然允許解碼詞組合盡管它可能不是你的意圖。 總的來說,統計語言模型推薦自由輸入,用戶可以說任何一個自然語言和他們需要工程工作比語法,你只是列出可能的句子。 例如,您可能數字列表“二十”和“三十三”和統計語言模型將允許“三十”有一定概率。
總的來說,現代語音識別接口往往更自然,避免指揮控制的上一代風格。 因此大多數界面設計師喜歡自然語言識別與統計語言模型比傳統的VXML語法。
設計主題的VUI接口你可能感興趣的書如下: 最好是一個很好的機比壞人:語音識別和其他外來用戶界面由布魯斯Balentine Jetsonian時代的《暮光之城》
有很多方法可以建立統計語言模型。 當您的數據集很大,有使用CMU語言建模工具包。 小模型時,您可以使用一個在線快速web服務。 當你需要特定的選項或者你只是想用你最喜歡的工具包構建ARPA模型,您可以使用它。
語言模型可以存儲和加載在三個不同的格式文本 ARPA 格式,二進制格式本和二進制DMP格式。 ARPA格式需要更多空間,可以編輯它。 ARPA文件 .lm 擴展。 二進制格式需要大大減少空間和更快的加載。 二進制文件 .lm.bin 擴展。 也可以在格式之間進行轉換。 DMP格式是過時的,不推薦。
建立一個語法
語法通常是手工編寫JSGF格式:
#JSGF V1.0;
/**
* JSGF Grammar for Hello World example
*/
grammar hello;
public <greet> = (good morning | hello) ( bhiksha | evandro | paul | philip | rita | will );
- PC官方版
- 安卓官方手機版
- IOS官方手機版