智能語音處理教學與實踐實訓箱,可以開展語音信號的采集與播放、語音編解碼、回聲消除、語音信號降噪、語音變速變調、語音識別、語音合成、智能對話等智能語音處理課程教學與實踐。且具有智能語音系統相關知識產權。
該實訓箱是一款軟硬件一體的人工智能教學與開發實踐端側設備,并配套相關教學實踐資源。預裝Linux操作系統和深度學習框架、智能語音處理SDK,實驗箱配有高清顯示屏、4Mic陣列、USB聲卡、無線鍵鼠等外設設備,且具有CANS機構認可的產品檢驗報告。
1、邊緣計算開發平臺配置:
CPU:采用四核ARM Cortex-A57 MPcore處理器;GPU:采用Maxwell設計架構,提供128個CUDA核心,內存與存儲:4 GB LPDDR4@1600 MHz,16 GB eMMC;以太網:支持10/100/1000 BASE-T自適應;顯示接口:支持HDMI 2.0 或DSI (1x2) 2;硬件資源:3個UART、2個SPI、2個IIS、4 個IIC、1個x1/2/4 PCIE、1個USB 3.0、3個USB 2.0;耳麥接口;I2S:
2、麥克風陣列:
核心處理器:采用Andes D1088 內核,其AI/DSP 加速模塊 MVA 支持多種 Neural Network 算子和向量運算,深度適配科大訊飛AI算法,算力可達 128GTOPS,多種環境下測試后的綜合喚醒率95%,綜合識別率93%。。
麥克風:6個以上,采用平面式分布結構,可實現360度等效拾音,喚醒分辨率為1度。用戶可以使用麥克風陣列獲取原始和降噪音頻,獲取喚醒角度,主麥編號;也可以設置主麥編號,多組RGB燈光,可顯示聲源方位,支持軟件點亮和關閉。
(1)選場拾音:
前端采用科大訊飛雙麥克風陣列算法,能夠實現 360 度遠場 5m 用戶拾音,搭載人聲自動增益,根據用戶音量自適應調節節,保證降噪后音頻整體聽感一致。
(2)回聲酒除:
支轉在用戶交互過程中,設備在播強內容或音樂時,用戶可項醒中斷播報進程進行下一輪交可,讓交互體驗更加自然。
(3)語音播報:
語音播報指用戶喚醒設備以及說出命令詞,設備進行對應的回復播報響應,或是主動的提示語,語音播報目的是在用戶發出語音指令或者合適的場景通過播報回復來反饋用戶。
(4)離線命令:
用戶在設備喚醒狀態下,說出指定范圍內的命令詞(指令),語音模塊接收到信息后,根據命令詞內容進行相關處理。或者將內存信息傳輸上位機進行相關處理。
(5)外設通訊:
模塊接收麥克風的輸入進行處理,通過USB或 UART與其他設備通信。
(6)環境降噪:
廣泛適用于家居,車載、辦會室等場景的環境降噪,降噪的同時最大程度保留人聲信息
3、顯示屏:
17寸液晶顯示屏:HDMI接口,分辨率1440*900,
4、嵌入式傳感器模塊:
智能傳感采集設備遠端:CORTEX-M3內核,3.2寸TFT觸摸顯示屏,無線模塊:兼容雙排直列接口,標配BTmesh,可選WIFI/ZigBee/LORA等,通訊協議:傳感層支持Modbus。
(1)智能安防感知單元:
紅外對射、煙霧、酒精等模塊
(2)智能家居環境感知單元:
溫濕度、光照等模塊
(3)智能停車聯動單元:
超聲波測距、紅外熱釋電模塊
(4)執行器控制單元:
LED燈、門禁鎖、繼電器、ETC舵機、蜂鳴器。
(5)BTmesh模塊
支持TmallGenie的mesh組網應用,點對點通信、支持中繼,適合485設備總線,無線傳感器應用,Buletooth模組也通過了TmallGenie的認證。支持:單火/零火開關/智能開關,遙控器,智能燈泡等應用。
Operating Frequency:2.4GHz;Buletooth;
Standard:BLE 4.2 / 5.0 core specification;
Host Interface:UART。
(6)智能聲控音箱
產品類型 智能音箱 揚聲器 內置4Ω揚聲器 輸出功率 3W 麥克風 支持,2個 產品功能 語音識別控制功能,自定義喚醒詞,通話 無線 Wifi;其它參數 處理器 MTK MT8516 系統 系統:AliGenie語音助手。
5、輔助配件
無線鍵鼠,獨立開模泡棉包裹,底部支持配線,配件收納。
1、配套軟件
Linux OS:Ubuntu18.04,Kernel 4.4;嵌入式深度學習框架:支持Caffe/TensorFlow/Pytorch/MxNet/ONNX/Darknet等訓練框架模型直接部署,支持層融合、量化等網絡性能優化策略,提供統一API(C/Python/JNI)接口,提供擴展接口自定義算子;高性能異構計算庫HCL:HCL.NN加速嵌入式平臺神經網絡推理運算,HCL.Vision具備常用的圖像處理、計算機視覺、模式識別的算子與算法,提供異構調度硬件加速芯片圖像處理,HCL.Audio具備常用的音頻信號前后處理算子,支持FFT/IFFT、MFCC等信號處理方式。視頻編解碼API:硬解碼H264/H265 4K@30fps/60fps,硬編碼H264 1080p@30fps;智能語音處理演示Demo:語音變速降噪、語音識別、語音合成、多輪語音對話。
2、配套資源
128G U盤:配套教材電子版與源代碼,包含語音前處理,語音合成,語音識別,自然語言處理等內容;智能語音處理演示Demo與源代碼;使用說明書,包含套件組成、安裝說明、演示Demo操作說明
3、自然語音部分實驗
語音前處理、語音合成
語音識別、自然語言處理
4、智能語音處理
麥克風陣列部分實驗
聲源定位實驗
音頻可視化實驗
語音識別實驗。