語音識別轉寫引擎 PM-54459GCY軟件(V3.017)
語音識別服務軟件是人工智能技術開發(fā),面向各行業(yè)客戶提供的一款語音轉寫產品。該產品為客戶提供整套語音轉寫方案,幫助客戶快速將音頻轉換為文本。產品針對長語音場景做了多項核心技術優(yōu)化,在遠場、噪音環(huán)境下的識別率大幅提升,技術業(yè)界領先。產品提供異步文件轉寫、實時語音轉寫兩個核心功能,滿足客戶的不同需求。錄音文件識別,支持客戶將音頻文件上傳識別成文字;實時語音識別,支持客戶上傳音頻流,獲得識別后的文字流結果。
產品特點
1.實時長語音識別:基于深度卷積神經網絡架構,通過 WebSocket 協議,建立應用與語音識別引擎的長鏈接,對不限時長的音頻流作實時識別,可以做到“邊說話邊同步輸出文字”的效果,內置智能斷句,可提供每句話開始結束時間,適用于實時直播字幕、實時會議記錄、實時法庭庭審等場景。
2.語音識別準確率:標準普通話轉寫準確率≥98.5%。(轉寫的準確率與普通話標準程度和發(fā)音清晰度有關)
3.語音識別速度:依托語音轉寫技術,實時語音轉寫速度≤200毫秒。
4.一句話識別:支持對時長較短(60 秒以內)的語音進行識別,非實時的返回識別結果,返回結果延遲小于5秒。
5.支持多種音頻編解碼格式:目前實時語音轉寫支持pcm格式音頻編解碼算法。非實時轉寫支持mp3、wav、wma、mp4、avi、pcm、m4a等格式音頻。目前音頻采樣率僅支持16K和8K。
6.文本后處理:語音轉寫私有云支持對識別結果語句智能預測其對話語境,提供智能斷句和標點符號的預測,同時也支持數字規(guī)整和替換列表能力。
7.錄音文件轉寫:錄音文件轉寫,通過 http[s]協議調用識別服務,將長段音頻錄音(5小時以內)轉寫成文本數據,可用于采訪錄音轉寫、庭審數據錄入、會議記錄總結、呼叫中心錄音質檢等場景,支持錄音分片上傳、說話人角色分離、自定義熱詞和敏感詞配置等功能。
8.軟件識別語言僅支持中文普通話。
9.可懂度高:提供口語順滑、熱詞、敏感詞檢測、數字規(guī)整、智能標點預測、智能分段等功能,有效提升文稿可讀性和可懂度。
10.支持150路并發(fā)
網站內容僅供參考,本公司保留最終解釋權!