自動語音識別

自動語音識別技術(Automatic Speech Recognition)是一種將人的語音轉(zhuǎn)換為文本的技術。語音識別是一個多學科交叉的領域,它與聲學、語音學、語言學、數(shù)字信號處理理論、信息論、計算機科學等眾多學科緊密相連。由于語音信號的多樣性和復雜性,語音識別系統(tǒng)只能在一定的限制條件下獲得滿意的性能,或者說只能應用于某些特定的場合。

自動語音識別基本信息

中文名稱 自動語音識別 外文名稱 Automatic Speech Recognition
俗????稱 語音聽寫機 簡????稱 ASR
別????稱 語音識別或計算機語音識別

自動語音識別造價信息

市場價 信息價 詢價
材料名稱 規(guī)格/型號 市場價
(除稅)
工程建議價
(除稅)
行情 品牌 單位 稅率 供應商 報價日期
語音識別模塊 1.語音識別輸入;2.語音識別轉(zhuǎn)寫;3.語音實體標注核查. 查看價格 查看價格

13% 河南大邦安防工程有限公司
語音識別模塊 YZS-MultiModing-0001 查看價格 查看價格

云知聲

13% 中軟國際科技服務有限公司
訊飛語音識別系統(tǒng) 功能參數(shù):1.實時語音轉(zhuǎn)寫:是對音頻流做實時語音識別,可以做到"邊說話邊同步輸出文字"的效果.會話初始化成功之后便可持續(xù)的調(diào)用接口,向服務發(fā) 查看價格 查看價格

13% 廣州市銳豐音響科技股份有限公司
語音對講 高檔鋁合金面板,防護等級IPX5. 查看價格 查看價格

世邦 XC-9137AV

13% 煙臺華東電子軟件技術有限公司
自動扶梯 自動扶梯;傾斜角度30°;提升高度5.3m;梯級寬度:1000mm 查看價格 查看價格

蒂森克虜伯

13% 廣西歐日電梯有限公司
自動扶梯 自動扶梯;傾斜角度30°;提升高度5.3m;梯級寬度:1000mm 查看價格 查看價格

日立

13% 廣西歐日電梯有限公司
自動扶梯 自動扶梯KS-SBF,0.5m/s,30°,4.8m提升高度,梯級寬度1000mm,水平梯級2級 查看價格 查看價格

三菱

13% 廣西歐日電梯服務集團有限公司
自動扶梯 自動扶梯KS-SBF,0.5m/s,30°,4.5m提升高度,梯級寬度1000mm,水平梯級2級 查看價格 查看價格

三菱

13% 廣西歐日電梯服務集團有限公司
材料名稱 規(guī)格/型號 除稅
信息價
含稅
信息價
行情 品牌 單位 稅率 地區(qū)/時間
自動送絲機 查看價格 查看價格

臺班 韶關市2010年8月信息價
自動式鏟運機 斗容量10m3 查看價格 查看價格

臺班 廣州市2008年2季度信息價
自動式鏟運機 斗容量12m3 查看價格 查看價格

臺班 廣州市2008年2季度信息價
自動式鏟運機 斗容量16m3 查看價格 查看價格

臺班 廣州市2008年2季度信息價
自動式鏟運機 斗容量7m3 查看價格 查看價格

臺班 廣州市2007年3季度信息價
自動式鏟運機 斗容量16m3 查看價格 查看價格

臺班 廣州市2007年3季度信息價
自動式鏟運機 斗容量10m3 查看價格 查看價格

臺班 廣州市2007年9月信息價
自動式鏟運機 斗容量12m3 查看價格 查看價格

臺班 廣州市2007年9月信息價
材料名稱 規(guī)格/需求量 報價數(shù) 最新報價
(元)
供應商 報價地區(qū) 最新報價時間
語音識別服務引擎 訊飛智元語音轉(zhuǎn)寫引擎系統(tǒng)V1.0|7路 1 查看價格 天地偉業(yè)技術有限公司 四川  成都市 2020-08-28
語音轉(zhuǎn)寫識別系統(tǒng) 語音轉(zhuǎn)寫識別系統(tǒng)可實現(xiàn)對普通話連續(xù)語音的實時轉(zhuǎn)寫,并提供對已轉(zhuǎn)寫文字的后處理及字音同步對齊能力;包含實時轉(zhuǎn)寫、歷史音頻轉(zhuǎn)寫、會議信息管理三大核心功能,可實現(xiàn)對實時會議語音及導入錄音的轉(zhuǎn)寫功能,并提|1套 3 查看價格 深圳立通電子有限公司 公司 廣東  深圳市 2021-12-06
IVR自動語音系統(tǒng)搬遷 IVR自動語音系統(tǒng)搬遷|1.00項 1 查看價格 廣州市熹尚科技設備有限公司 全國   2019-12-20
IVR自動語音系統(tǒng)搬遷 IVR自動語音系統(tǒng)搬遷|1.00項 1 查看價格 廣州曹易智能科技有限公司 全國   2019-12-30
語音識別服務軟件 1.實時語音轉(zhuǎn)寫:是對音頻流做實時語音識別,可以做到"邊說話邊同步輸出文字"的效果.2.語音識別準確率:普通話準確率最高可達98%(清晰普通話中文語音實時轉(zhuǎn)寫效果). 3.支持多種音頻編解碼格式|2套 2 查看價格 廣州市銳豐音響科技股份有限公司 廣東   2022-08-08
語音識別服務軟件 1.實時語音轉(zhuǎn)寫:是對音頻流做實時語音識別,可以做到"邊說話邊同步輸出文字"的效果.2.語音識別準確率:普通話準確率最高可達98%(清晰普通話中文語音實時轉(zhuǎn)寫效果). 3.支持多種音頻編解碼格式|1套 2 查看價格 廣州市銳豐音響科技股份有限公司 廣東   2022-08-08
語音識別系統(tǒng) 功能指標:1. 能夠針對非實時錄音文件進行離線音頻轉(zhuǎn)寫.2、支持http協(xié)議端口以及websocket協(xié)議端口3、支持個性化熱詞加載使用4、支持音頻壓縮性能指標:1.、普通話音頻轉(zhuǎn)寫識別率不小于85%.2、1小時錄音轉(zhuǎn)寫不大于15分鐘|1套 3 查看價格 深圳市華拓科技有限公司 全國   2021-09-23
語音識別主機(含軟件) 語音識別系統(tǒng)主機是多路音頻采集設備,音頻輸入輸出可192K/24bit采樣,內(nèi)嵌ARM-A9構架核心系統(tǒng)板對采集的音頻數(shù)據(jù)進行處理(數(shù)字采集包含16K/16Bit采樣數(shù)據(jù)格式),并將處理后的音頻|1臺 3 查看價格 深圳訊豪信息技術有限公司 廣東  陽江市 2022-03-09

自動語音識別常見問題

  • 語音識別電燈開關怎么制作?

    首先制作簡易開關,用兩個貼片相互錯開,按下相連即可,可以簡單參考一下,你們家里的開關,看看原理;其次,你可以把導線連載電極上,讓燈泡連接在導線上不就可以了嗎。這些你都可以參考一下實物,簡單分析一下即可...

  • 語音識別電燈開關怎么制作?

    這個只要在聲控開關的基礎上加一個語音芯片(要定做你的“亮電燈”和“關電燈”的語音芯片),再用一個識別電路與你聲音進行比對相同時輸出控制信號.這還要有一個聲控取樣電路,就是模數(shù)轉(zhuǎn)電路.元件不多,但要調(diào)試...

  • 語音識別開關價格大概是多少?

    智能語音控制開關在目前在中國也有十多年,家庭安防,智能家電,自動窗簾,智能終端,空中控制,智能照明,集中控制,家電控制,電腦遙控器,智能開關,無線控制,安防系統(tǒng),智能家居,智能空調(diào),智能插座,電器控制...

自動語音識別文獻

基于B/S結(jié)構的語音識別考試系統(tǒng)設計與實現(xiàn) 基于B/S結(jié)構的語音識別考試系統(tǒng)設計與實現(xiàn)

格式:pdf

大?。?span id="qr9fo99" class="single-tag-height">349KB

頁數(shù): 1頁

評分: 4.3

隨著高等職業(yè)教育和網(wǎng)絡技術的快速發(fā)展,傳統(tǒng)的C/S結(jié)構的考試系統(tǒng)已不能滿足使用需求,運用B/S結(jié)構設計一套語音識別考試系統(tǒng)體現(xiàn)了許多優(yōu)勢。本文以齊齊哈爾工程學院考試系統(tǒng)為背景,描述了采用B/S結(jié)構模式設計系統(tǒng)的模塊、數(shù)據(jù)流圖,使用ASP語言設計技術搭建系統(tǒng)平臺,讓學生、教師、管理員三類用戶隨時注冊和登錄,在不同的用戶界面實現(xiàn)不同的系統(tǒng)功能。

立即下載
電梯語音識別外招串行通信板設計 電梯語音識別外招串行通信板設計

格式:pdf

大小:349KB

頁數(shù): 5頁

評分: 4.7

通過語音識別技術在電梯系統(tǒng)的應用研究,文章提出一種具有語音識別功能的電梯外招串行通信板的設計,其以STM32作為主控制芯片,結(jié)合LD3320語音識別集成芯片,加入軟硬件抗干擾設計,應用于電梯各層門廳外招系統(tǒng)中,能夠通過語音方式實現(xiàn)呼梯。經(jīng)過實踐測試,系統(tǒng)工作穩(wěn)定,實時性良好,通信信號穩(wěn)定。在安靜環(huán)境下,呼梯識別率約達90%;在嘈雜環(huán)境中,呼梯識別率還有待進一步提高。

立即下載

TTS就是Text To Speech,文本轉(zhuǎn)語音,文本朗讀,差不多是一個意思。在語音系統(tǒng)開發(fā)中經(jīng)常要用到。

目前市場上的TTS很多,實現(xiàn)方式也各式各樣,有的很昂貴,如科大訊飛,據(jù)說當初得到863計劃的資助,有很高的技術;有的相對便宜,如捷通華聲, InfoTalk;也有免費的,如微軟的TTS產(chǎn)品。

相對于ASR(Automatic Speech Recognition,自動語音識別)來說,實現(xiàn)一個TTS產(chǎn)品所需要的技術難度不算大,在我看來也就是個力氣活。

要是讓我們來做一個能夠把漢語句子朗讀出來的TTS,我們會怎么做呢?

有一種最簡單的TTS,就是把每個字都念出來,你會問,豈不要錄制6千多個漢字的語音?幸運的是,漢語的音節(jié)很少,很多同音字。我們最多只是需要錄制: 聲母數(shù)×韻母數(shù)×4,(其實不是每個讀音都有4聲),這樣算來,最多只需要錄制幾百個語音就可以了。

在合成的時候需要一張漢字對應拼音的對照表,漢字拼音輸入法也依賴這張表,可以在網(wǎng)上找到,不過通常沒有4聲音調(diào),大不了自己加上,呵呵,要不怎么說是力氣活呢。

這樣做出來的TTS效果也還可以,特別是朗讀一些沒有特別含義的如姓名,家庭住址,股票代碼等漢語句子,聽起來足夠清晰。這要歸功于我們偉大的母語通常都是單音節(jié),從古代的時候開始,每個漢字就有一個詞,表達一個意思。而且漢字不同于英語,英語里面很多連讀,音調(diào)節(jié)奏變化很大,漢字就簡單多了。

當然,你仍然要處理一些細節(jié),比如多音字,把"銀行"讀成"yin xing"就不對了;再比如,標點符號的處理,數(shù)字、字母的處理,這些問題對于寫過很多程序的你,當然不難了。

國內(nèi)的一些語音板卡帶的TTS,不管是賣錢的還是免費的,大體都是這樣做出來的,也就是這樣的效果。

如果要把TTS的效果弄好一點,再來點力氣活,把基本的詞錄制成語音,如常見的兩字詞,四字成語等,再做個詞庫和語音庫的對照表,每次需要合成時到詞庫里面找。這樣以詞為單位,比以字為單位,效果自然是好多了。當然,這里面還是有個技術,就是分詞的技術,要把復雜的句子斷成合理的詞序列,也有點技術。這也要怪新文化那些先驅(qū)們,當初倡導白話文,引進西文的橫排格式、標點符號的時候,沒有引進西文中的空格分詞。不過即使分詞算法那么不高效,不那么準確,也問題不大,如前面所說,漢字是單音節(jié)詞,把聲音合起來,大體上不會有錯。

當然,科大訊飛的力氣活又干的多了些,據(jù)說已經(jīng)進化到以常用句子為單位來錄音了,大家可以想像,這要耗費更多的力氣,換來更好的效果。

至于增加一些銜接處的"詞料",弄一些修飾性的音調(diào),我認為是無關緊要的,對整體的效果改進不是太大。

市面上商品化TTS一般還支持粵語,請個粵語播音員錄音,把上面的力氣活重做一遍就是了。

再說句題外話,很多人覺得錄音最好找電臺、電視臺的播音員,其實找個你周圍的女同事來錄制,只要吐字清晰就可以了。在某種情況下,尋常聲音比字正腔圓的新聞聯(lián)播來得可愛。

再來說說文本的標識,對于復雜文本,某些內(nèi)容程序沒有辦法處理,需要標識出來。比如,單純的數(shù)字"128",是應該念成"一百二十八"還是"一二八"?解決辦法通常是加入XML標注,如微軟的TTS:"<context ID = "number_cardinal">128</context>"念成"一百二十八","<context ID = "number_digit">128</context>"將念成"一二八"。TTS引擎可以去解釋這些標注。遺憾的是,語音XML標注并沒有形成大家都完全認可的標準,基本上是各自一套。

再說說TTS應用編程,微軟的TTS編程接口叫SAPI,是COM接口,開發(fā)起來還是有點麻煩,還好MSDN的網(wǎng)站上資料很全面。微軟的TTS雖然免費,但其中文角色目前是個男聲,聲音略嫌混濁,感覺不爽。

國內(nèi)一般的廠家提供API調(diào)用接口,相對比較簡單,可以方便地嵌入應用程序中去。

商品化的TTS還有個并發(fā)許可限制,就是限制同時合成的并發(fā)線程數(shù),我覺得這個限制用處不大。無論哪種TTS,都可以將文本文件轉(zhuǎn)換成語音文件,供語音卡播放。大部分應用句子比較短小,一般不會超過100個漢字,合成的時間是非常短的,弄個線程專門負責合成,其它應用向該線程請求就是了,萬一句子很長,把它分解成多個短句子就是了,播放的速度總是比合成的速度慢。

也很多應用是脫機合成,沒有實時性要求,就更不必買多個許可了。

更多情況下,我們甚至沒有必要購買TTS,比如語音開發(fā)中常見的費用催繳,撥通后播放:"尊敬的客戶,您本月的費用是:212元",前面部分對所有客戶都一樣,錄一個語音文件就是了,而數(shù)字的合成是很簡單的,你只要錄制好10個數(shù)字語音,再加上十,百,千,萬,再加上金錢的單位"元"。

科大訊飛股份有限公司語音合成技術

語音合成和語音識別技術是實現(xiàn)人機語音通信,建立一個有聽和講能力的口語系統(tǒng)所必需的兩項關鍵技術。使電腦具有類似于人一樣的說話能力,是當今時代信息產(chǎn)業(yè)的重要競爭市場。和語音識別相比,語音合成的技術相對說來要成熟一些,并已開始向產(chǎn)業(yè)化方向成功邁進,大規(guī)模應用指日可待。

科大訊飛股份有限公司語音識別技術

自動語音識別技術(Auto Speech Recognize,簡稱ASR)所要解決的問題是讓計算機能夠“聽懂”人類的語音,將語音中包含的文字信息“提取”出來。ASR技術在“能聽會說”的智能計算機系統(tǒng)中扮演著重要角色,相當于給計算機系統(tǒng)安裝上“耳朵”,使其具備“能聽”的功能,進而實現(xiàn)信息時代利用“語音”這一最自然、最便捷的手段進行人機通信和交互。

科大訊飛股份有限公司語音評測技術

語音評測技術,又稱計算機輔助語言學習(Computer Assisted Language Learning)技術,是一種通過機器自動對發(fā)音進行評分、檢錯并給出矯正指導的技術。語音評測技術是智能語音處理領域的一項研究前沿,同時又因為能顯著提高受眾對語言(口語)學習的興趣、效率和效果而有著廣闊的應用前景。

科大訊飛股份有限公司自然語言

自然語言是幾千年來人們生活、工作、學習中必不可少的元素,而計算機是20世紀最偉大的發(fā)明之一,如何利用計算機對人類掌握的自然語言進行處理、甚至理解,使計算機具備人類的聽說讀寫能力,一直是國內(nèi)外研究機構非常關注和積極開展的研究工作。

科大訊飛股份有限公司面對面翻譯

“面對面翻譯”是訊飛輸入法升級的新增功能。該功能支持中英、中俄、中日、中韓四種對話翻譯模式,并配備有真人發(fā)音,中文用戶通過它可以直接與外國友人面對面交流。

科大訊飛股份有限公司文字掃描識別

文字掃描識別是訊飛輸入法新上線的又一功能。該功能可通過拍照和上傳已有圖片實現(xiàn)。但是受限于文字特別是藝術字體文字的顏色及陰影等變量的干擾,該功能尚不能實現(xiàn)較高的識別率。

科大訊飛股份有限公司方言識別

方言識別是科大訊飛在AI能力開發(fā)上獨具特色的“賣點”,支持22種方言,其中粵語、四川話、東北話、河南話等方言的識別率均已超過90%。

語音答疑:

建造師答疑提供語音提問服務,將問題通過語音清晰表述,系統(tǒng)將進行自動語音識別,分析問題性質(zhì),分類篩選,找到最適合的答疑老師,及時給出最準確的深度解析。

拍照答疑:

建造師答疑提供拍照提問服務,將問題及復雜公式通過手機拍照上傳,即可將問題送達分析系統(tǒng)或指定答疑名師,用極簡的操作步驟完成疑問的解答。

最直白的解析:

解析作為對問題的解答與分析,需要通俗易懂,對深入的問題進行通俗的解答,用最直白和形象的語言,力求清晰詮釋誤解點,建造師答疑應用通過答疑團隊對問題的深入討論和探究,從提問的角度出發(fā),完全站在問題發(fā)生點解決問題,做到透徹明了。

疑難知識點,名師舉例解答:

對于晦澀難懂的知識點,通過一個經(jīng)典案例,進行透徹解析,讓死的知識點活起來,賦予每一個知識點生命,從枯燥的學習過程中解放出來,讓學習過程變的更有樂趣,生動鮮活。

經(jīng)典問題,精彩解析,大家推選:

基于用戶的不斷篩選,實時更新問題及解析推選榜單,大家共同推選和預測本年度最有可能在考試中遇到的問題。

熱播視頻解析推送,只推重點:

熱播視頻是根據(jù)歷年來考試中容易犯錯的問題,制作的視頻解析,通過對必考點、易錯點、重難點的講解,將碎片時間合理運用,視頻長度1-3分鐘,從繁雜的工作中抽空學習,已經(jīng)是更多用戶迫不得已的選擇。

自動語音識別相關推薦
  • 相關百科
  • 相關知識
  • 相關專欄