Rokid Glasses AR+AI眼鏡自去年11月面世以來,憑借戒指輕觸控制提詞翻頁(yè)的創(chuàng)新交互方式吸引了廣泛關(guān)注。然而,隨著用戶深入使用,一些痛點(diǎn)逐漸顯現(xiàn),如手動(dòng)操作分散注意力、翻頁(yè)節(jié)奏固定僵化以及演講者對(duì)提詞器的過度依賴等。
為了解決這些痛點(diǎn),Rokid研發(fā)團(tuán)隊(duì)近日宣布提交了一項(xiàng)名為“一種基于智能算法的提詞器功能”的專利。該專利旨在通過智能算法,根據(jù)演講者的語(yǔ)速和節(jié)奏自動(dòng)匹配文稿,實(shí)現(xiàn)語(yǔ)言表達(dá)與文稿滾動(dòng)的無縫同步。
傳統(tǒng)提詞器的交互方式主要包括手動(dòng)觸控、物理遙控器和固定定時(shí)滾動(dòng)三種。這些方式雖然在特定場(chǎng)景下有效,但局限性也日益凸顯。例如,人工交互需要演講者在表達(dá)內(nèi)容與控制設(shè)備間頻繁切換注意力,這不僅消耗精力,還可能因滑動(dòng)眼鏡等動(dòng)作被觀眾誤讀為緊張或不自信的肢體語(yǔ)言。而固定節(jié)奏的定時(shí)滾動(dòng)模式雖然解放了雙手,卻往往與演講者的語(yǔ)速脫節(jié),導(dǎo)致文字滾動(dòng)與演講內(nèi)容錯(cuò)位,引發(fā)認(rèn)知混亂。
Rokid的新專利則通過三項(xiàng)核心技術(shù)構(gòu)建了智能提詞系統(tǒng),首先是多模態(tài)語(yǔ)音識(shí)別引擎系統(tǒng)。該系統(tǒng)采用端到端的深度神經(jīng)網(wǎng)絡(luò)模型,能夠?qū)崟r(shí)解析演講者的語(yǔ)音內(nèi)容,不僅支持普通話,還兼容多種方言,滿足多語(yǔ)言場(chǎng)景需求。在45分貝背景噪音下,該系統(tǒng)仍能保持98%的識(shí)別準(zhǔn)確率。它還能精準(zhǔn)捕捉重復(fù)朗讀、跳躍式朗讀等非常規(guī)表達(dá),智能判斷演講者的意圖并調(diào)整文稿位置。
其次是動(dòng)態(tài)語(yǔ)速適配算法。該算法構(gòu)建了“語(yǔ)速-文本密度”的動(dòng)態(tài)映射模型,能夠?qū)崟r(shí)追蹤演講者的語(yǔ)速數(shù)據(jù),每0.5秒更新一次,覆蓋80-200字/分鐘的寬泛區(qū)間,滿足99%的演講場(chǎng)景需求。同時(shí),它還具備彈性緩沖機(jī)制,當(dāng)檢測(cè)到5秒以上停頓時(shí),系統(tǒng)會(huì)自動(dòng)暫停并標(biāo)記當(dāng)前位置,恢復(fù)時(shí)通過上下文語(yǔ)義分析定位正確段落。
最后是多場(chǎng)景演講匹配算法。該算法結(jié)合了精準(zhǔn)匹配和模糊匹配兩種模式,滿足演講場(chǎng)景的全方位交互需求。精準(zhǔn)匹配算法能夠確保演講者無論是跳詞還是漏字,都能精準(zhǔn)地匹配到正在閱讀的語(yǔ)句。而模糊匹配算法則適用于演講者脫稿即興發(fā)揮或與觀眾無稿交流時(shí),此時(shí)匹配算法會(huì)暫停,不影響演講者的節(jié)奏。當(dāng)演講者回到演講稿中時(shí),匹配算法會(huì)立即識(shí)別并繼續(xù)精準(zhǔn)匹配。
Rokid的新專利不僅解決了傳統(tǒng)提詞器的痛點(diǎn),還通過智能算法提升了演講的流暢度和觀眾的體驗(yàn)。未來,隨著該專利技術(shù)的進(jìn)一步推廣和應(yīng)用,相信將為演講者帶來更加便捷、高效的演講體驗(yàn)。