自動語音識別技術(Automatic Speech Recognition)是一種將人的語音轉(zhuǎn)換為文本的技術。語音識別是一個多學科交叉的領域,它與聲學、語音學、語言學、數(shù)字信號處理理論、信息論、計算機科學等眾多學科緊密相連。由于語音信號的多樣性和復雜性,語音識別系統(tǒng)只能在一定的限制條件下獲得滿意的性能,或者說只能應用于某些特定的場合。
中文名稱 | 自動語音識別 | 外文名稱 | Automatic Speech Recognition |
---|---|---|---|
俗????稱 | 語音聽寫機 | 簡????稱 | ASR |
別????稱 | 語音識別或計算機語音識別 |
首先制作簡易開關,用兩個貼片相互錯開,按下相連即可,可以簡單參考一下,你們家里的開關,看看原理;其次,你可以把導線連載電極上,讓燈泡連接在導線上不就可以了嗎。這些你都可以參考一下實物,簡單分析一下即可...
這個只要在聲控開關的基礎上加一個語音芯片(要定做你的“亮電燈”和“關電燈”的語音芯片),再用一個識別電路與你聲音進行比對相同時輸出控制信號.這還要有一個聲控取樣電路,就是模數(shù)轉(zhuǎn)電路.元件不多,但要調(diào)試...
智能語音控制開關在目前在中國也有十多年,家庭安防,智能家電,自動窗簾,智能終端,空中控制,智能照明,集中控制,家電控制,電腦遙控器,智能開關,無線控制,安防系統(tǒng),智能家居,智能空調(diào),智能插座,電器控制...
格式:pdf
大?。?span id="qr9fo99" class="single-tag-height">349KB
頁數(shù): 1頁
評分: 4.3
隨著高等職業(yè)教育和網(wǎng)絡技術的快速發(fā)展,傳統(tǒng)的C/S結(jié)構的考試系統(tǒng)已不能滿足使用需求,運用B/S結(jié)構設計一套語音識別考試系統(tǒng)體現(xiàn)了許多優(yōu)勢。本文以齊齊哈爾工程學院考試系統(tǒng)為背景,描述了采用B/S結(jié)構模式設計系統(tǒng)的模塊、數(shù)據(jù)流圖,使用ASP語言設計技術搭建系統(tǒng)平臺,讓學生、教師、管理員三類用戶隨時注冊和登錄,在不同的用戶界面實現(xiàn)不同的系統(tǒng)功能。
格式:pdf
大小:349KB
頁數(shù): 5頁
評分: 4.7
通過語音識別技術在電梯系統(tǒng)的應用研究,文章提出一種具有語音識別功能的電梯外招串行通信板的設計,其以STM32作為主控制芯片,結(jié)合LD3320語音識別集成芯片,加入軟硬件抗干擾設計,應用于電梯各層門廳外招系統(tǒng)中,能夠通過語音方式實現(xiàn)呼梯。經(jīng)過實踐測試,系統(tǒng)工作穩(wěn)定,實時性良好,通信信號穩(wěn)定。在安靜環(huán)境下,呼梯識別率約達90%;在嘈雜環(huán)境中,呼梯識別率還有待進一步提高。
TTS就是Text To Speech,文本轉(zhuǎn)語音,文本朗讀,差不多是一個意思。在語音系統(tǒng)開發(fā)中經(jīng)常要用到。
目前市場上的TTS很多,實現(xiàn)方式也各式各樣,有的很昂貴,如科大訊飛,據(jù)說當初得到863計劃的資助,有很高的技術;有的相對便宜,如捷通華聲, InfoTalk;也有免費的,如微軟的TTS產(chǎn)品。
相對于ASR(Automatic Speech Recognition,自動語音識別)來說,實現(xiàn)一個TTS產(chǎn)品所需要的技術難度不算大,在我看來也就是個力氣活。
要是讓我們來做一個能夠把漢語句子朗讀出來的TTS,我們會怎么做呢?
有一種最簡單的TTS,就是把每個字都念出來,你會問,豈不要錄制6千多個漢字的語音?幸運的是,漢語的音節(jié)很少,很多同音字。我們最多只是需要錄制: 聲母數(shù)×韻母數(shù)×4,(其實不是每個讀音都有4聲),這樣算來,最多只需要錄制幾百個語音就可以了。
在合成的時候需要一張漢字對應拼音的對照表,漢字拼音輸入法也依賴這張表,可以在網(wǎng)上找到,不過通常沒有4聲音調(diào),大不了自己加上,呵呵,要不怎么說是力氣活呢。
這樣做出來的TTS效果也還可以,特別是朗讀一些沒有特別含義的如姓名,家庭住址,股票代碼等漢語句子,聽起來足夠清晰。這要歸功于我們偉大的母語通常都是單音節(jié),從古代的時候開始,每個漢字就有一個詞,表達一個意思。而且漢字不同于英語,英語里面很多連讀,音調(diào)節(jié)奏變化很大,漢字就簡單多了。
當然,你仍然要處理一些細節(jié),比如多音字,把"銀行"讀成"yin xing"就不對了;再比如,標點符號的處理,數(shù)字、字母的處理,這些問題對于寫過很多程序的你,當然不難了。
國內(nèi)的一些語音板卡帶的TTS,不管是賣錢的還是免費的,大體都是這樣做出來的,也就是這樣的效果。
如果要把TTS的效果弄好一點,再來點力氣活,把基本的詞錄制成語音,如常見的兩字詞,四字成語等,再做個詞庫和語音庫的對照表,每次需要合成時到詞庫里面找。這樣以詞為單位,比以字為單位,效果自然是好多了。當然,這里面還是有個技術,就是分詞的技術,要把復雜的句子斷成合理的詞序列,也有點技術。這也要怪新文化那些先驅(qū)們,當初倡導白話文,引進西文的橫排格式、標點符號的時候,沒有引進西文中的空格分詞。不過即使分詞算法那么不高效,不那么準確,也問題不大,如前面所說,漢字是單音節(jié)詞,把聲音合起來,大體上不會有錯。
當然,科大訊飛的力氣活又干的多了些,據(jù)說已經(jīng)進化到以常用句子為單位來錄音了,大家可以想像,這要耗費更多的力氣,換來更好的效果。
至于增加一些銜接處的"詞料",弄一些修飾性的音調(diào),我認為是無關緊要的,對整體的效果改進不是太大。
市面上商品化TTS一般還支持粵語,請個粵語播音員錄音,把上面的力氣活重做一遍就是了。
再說句題外話,很多人覺得錄音最好找電臺、電視臺的播音員,其實找個你周圍的女同事來錄制,只要吐字清晰就可以了。在某種情況下,尋常聲音比字正腔圓的新聞聯(lián)播來得可愛。
再來說說文本的標識,對于復雜文本,某些內(nèi)容程序沒有辦法處理,需要標識出來。比如,單純的數(shù)字"128",是應該念成"一百二十八"還是"一二八"?解決辦法通常是加入XML標注,如微軟的TTS:"<context ID = "number_cardinal">128</context>"念成"一百二十八","<context ID = "number_digit">128</context>"將念成"一二八"。TTS引擎可以去解釋這些標注。遺憾的是,語音XML標注并沒有形成大家都完全認可的標準,基本上是各自一套。
再說說TTS應用編程,微軟的TTS編程接口叫SAPI,是COM接口,開發(fā)起來還是有點麻煩,還好MSDN的網(wǎng)站上資料很全面。微軟的TTS雖然免費,但其中文角色目前是個男聲,聲音略嫌混濁,感覺不爽。
國內(nèi)一般的廠家提供API調(diào)用接口,相對比較簡單,可以方便地嵌入應用程序中去。
商品化的TTS還有個并發(fā)許可限制,就是限制同時合成的并發(fā)線程數(shù),我覺得這個限制用處不大。無論哪種TTS,都可以將文本文件轉(zhuǎn)換成語音文件,供語音卡播放。大部分應用句子比較短小,一般不會超過100個漢字,合成的時間是非常短的,弄個線程專門負責合成,其它應用向該線程請求就是了,萬一句子很長,把它分解成多個短句子就是了,播放的速度總是比合成的速度慢。
也很多應用是脫機合成,沒有實時性要求,就更不必買多個許可了。
更多情況下,我們甚至沒有必要購買TTS,比如語音開發(fā)中常見的費用催繳,撥通后播放:"尊敬的客戶,您本月的費用是:212元",前面部分對所有客戶都一樣,錄一個語音文件就是了,而數(shù)字的合成是很簡單的,你只要錄制好10個數(shù)字語音,再加上十,百,千,萬,再加上金錢的單位"元"。
語音合成和語音識別技術是實現(xiàn)人機語音通信,建立一個有聽和講能力的口語系統(tǒng)所必需的兩項關鍵技術。使電腦具有類似于人一樣的說話能力,是當今時代信息產(chǎn)業(yè)的重要競爭市場。和語音識別相比,語音合成的技術相對說來要成熟一些,并已開始向產(chǎn)業(yè)化方向成功邁進,大規(guī)模應用指日可待。
自動語音識別技術(Auto Speech Recognize,簡稱ASR)所要解決的問題是讓計算機能夠“聽懂”人類的語音,將語音中包含的文字信息“提取”出來。ASR技術在“能聽會說”的智能計算機系統(tǒng)中扮演著重要角色,相當于給計算機系統(tǒng)安裝上“耳朵”,使其具備“能聽”的功能,進而實現(xiàn)信息時代利用“語音”這一最自然、最便捷的手段進行人機通信和交互。
語音評測技術,又稱計算機輔助語言學習(Computer Assisted Language Learning)技術,是一種通過機器自動對發(fā)音進行評分、檢錯并給出矯正指導的技術。語音評測技術是智能語音處理領域的一項研究前沿,同時又因為能顯著提高受眾對語言(口語)學習的興趣、效率和效果而有著廣闊的應用前景。
自然語言是幾千年來人們生活、工作、學習中必不可少的元素,而計算機是20世紀最偉大的發(fā)明之一,如何利用計算機對人類掌握的自然語言進行處理、甚至理解,使計算機具備人類的聽說讀寫能力,一直是國內(nèi)外研究機構非常關注和積極開展的研究工作。
“面對面翻譯”是訊飛輸入法升級的新增功能。該功能支持中英、中俄、中日、中韓四種對話翻譯模式,并配備有真人發(fā)音,中文用戶通過它可以直接與外國友人面對面交流。
文字掃描識別是訊飛輸入法新上線的又一功能。該功能可通過拍照和上傳已有圖片實現(xiàn)。但是受限于文字特別是藝術字體文字的顏色及陰影等變量的干擾,該功能尚不能實現(xiàn)較高的識別率。
方言識別是科大訊飛在AI能力開發(fā)上獨具特色的“賣點”,支持22種方言,其中粵語、四川話、東北話、河南話等方言的識別率均已超過90%。
語音答疑:
建造師答疑提供語音提問服務,將問題通過語音清晰表述,系統(tǒng)將進行自動語音識別,分析問題性質(zhì),分類篩選,找到最適合的答疑老師,及時給出最準確的深度解析。
拍照答疑:
建造師答疑提供拍照提問服務,將問題及復雜公式通過手機拍照上傳,即可將問題送達分析系統(tǒng)或指定答疑名師,用極簡的操作步驟完成疑問的解答。
最直白的解析:
解析作為對問題的解答與分析,需要通俗易懂,對深入的問題進行通俗的解答,用最直白和形象的語言,力求清晰詮釋誤解點,建造師答疑應用通過答疑團隊對問題的深入討論和探究,從提問的角度出發(fā),完全站在問題發(fā)生點解決問題,做到透徹明了。
疑難知識點,名師舉例解答:
對于晦澀難懂的知識點,通過一個經(jīng)典案例,進行透徹解析,讓死的知識點活起來,賦予每一個知識點生命,從枯燥的學習過程中解放出來,讓學習過程變的更有樂趣,生動鮮活。
經(jīng)典問題,精彩解析,大家推選:
基于用戶的不斷篩選,實時更新問題及解析推選榜單,大家共同推選和預測本年度最有可能在考試中遇到的問題。
熱播視頻解析推送,只推重點:
熱播視頻是根據(jù)歷年來考試中容易犯錯的問題,制作的視頻解析,通過對必考點、易錯點、重難點的講解,將碎片時間合理運用,視頻長度1-3分鐘,從繁雜的工作中抽空學習,已經(jīng)是更多用戶迫不得已的選擇。