11月8日,以“MORE,近你所想”為主題的2022 vivo開發(fā)者大會(huì)正式開幕,在次日舉辦的人工智能專場(chǎng)上,vivo AI團(tuán)隊(duì)通過(guò)計(jì)算攝影、文檔圖像處理、語(yǔ)音技術(shù)、語(yǔ)義技術(shù)、機(jī)器翻譯、計(jì)算加速平臺(tái)、開放平臺(tái)AI專區(qū)等多方面具體案例,介紹了vivo近兩年來(lái)在人工智能領(lǐng)域所做的探索和實(shí)踐。
(資料圖片)
在人工智能領(lǐng)域,vivo從用戶需求出發(fā),不斷創(chuàng)新,致力于實(shí)現(xiàn)“1001個(gè)便利”。生活中,當(dāng)你沉醉于一首動(dòng)聽的音樂卻苦于不知道歌曲名稱時(shí),AI可以幫你聽歌識(shí)曲;當(dāng)你看英文視頻卻發(fā)現(xiàn)聽不懂時(shí),AI可以給你提供字幕翻譯;當(dāng)你想拍出好的照片卻看不懂相機(jī)的一堆參數(shù)時(shí),AI計(jì)算攝影可以自動(dòng)幫你把場(chǎng)景色彩還原的更準(zhǔn)確,把食物的色澤拍得更鮮艷;工作中,當(dāng)你需要掃描文件并進(jìn)行修改發(fā)送時(shí),AI可以幫你去除燈光下的手指陰影和屏幕上的摩爾紋,并可以將拍下來(lái)的圖片轉(zhuǎn)化成可編輯的電子文檔,讓你信息處理更高效;我們希望持續(xù)通過(guò)AI能力為用戶帶來(lái)無(wú)處不在的驚喜和激動(dòng)人心的體驗(yàn)。
vivo AI算法中心高級(jí)總監(jiān) 陳曉昕演講-1001個(gè)便利
此外在人文關(guān)懷方面,經(jīng)過(guò)不懈的研發(fā)創(chuàng)新,實(shí)現(xiàn)了手語(yǔ)到文本再到語(yǔ)音的流暢互譯,推出了手機(jī)行業(yè)首個(gè)具備手語(yǔ)識(shí)別能力的虛擬人。目前的算法已經(jīng)可以識(shí)別1200個(gè)手語(yǔ)詞匯,準(zhǔn)確率在80%以上,已經(jīng)達(dá)到漢語(yǔ)四級(jí)的理解水平,同時(shí)在手語(yǔ)表達(dá)方面,目前覆蓋了國(guó)家手語(yǔ)通用詞典超過(guò)8000個(gè)詞匯。AI手語(yǔ)虛擬人既能流利的通過(guò)手語(yǔ)進(jìn)行表達(dá),還能快速識(shí)別手語(yǔ)看懂手語(yǔ),幫助聽障人士更便捷地獲取信息,更高效地與人溝通。
AI計(jì)算攝影,為用戶帶來(lái)自然色彩極致還原的驚喜
在2020年底,vivo就與蔡司開啟了全球影像戰(zhàn)略合作。今年,vivo聯(lián)合蔡司團(tuán)隊(duì)進(jìn)一步探討和制定忠于人眼所見的自然色彩理念。 在今年發(fā)布的X80系列上,vivo推出了全新升級(jí)的蔡司自然色彩2.0,可以更準(zhǔn)確的還原真實(shí)自然色彩,提升大面積深色和淺色等困難場(chǎng)景下曝光和白平衡準(zhǔn)確率。蔡司自然色彩2.0底層使用了最新的兩項(xiàng)AI計(jì)算攝影技術(shù)突破:智能白加黑減和智能白平衡技術(shù)。
vivo AI視覺應(yīng)用組總監(jiān) 冉龍金演講——AI計(jì)算攝影
通過(guò)智能白加黑減技術(shù),vivo在行業(yè)內(nèi)首次解決了大面積深色和淺色場(chǎng)景下曝光不準(zhǔn)確的問(wèn)題。在拍服飾、寵物、雪景等困難場(chǎng)景下,曝光準(zhǔn)確率相對(duì)于原有方法,提升了16%。
而智能白平衡技術(shù)則主要解決拍美食、拍花、拍寵物等場(chǎng)景下偏色的問(wèn)題。vivo根據(jù)亞洲人色彩恒常性的視覺特點(diǎn),以及拍攝場(chǎng)景的特點(diǎn)構(gòu)建了豐富的色彩數(shù)據(jù)集。再通過(guò)人工智能模型實(shí)際學(xué)習(xí)人眼看到的色彩,從而獲得更準(zhǔn)確的白平衡參數(shù)。相對(duì)于原有方法,在拍美食、拍花、拍寵物等場(chǎng)景下,色彩精準(zhǔn)度提升13%。
AI文檔圖像處理與識(shí)別,讓辦公學(xué)習(xí)更加高效
為了幫助用戶更清晰的記錄好文檔,同時(shí)更快捷的提取文檔內(nèi)容,vivo基于AI文檔圖像處理與識(shí)別技術(shù),打造了包括文檔掃描、證件掃描、文字提取、表格識(shí)別、口算批改、去手寫等一些列解決方案,并將陸續(xù)在相機(jī)、相冊(cè)、智慧視覺、琥珀掃描等產(chǎn)品中進(jìn)行落地,為用戶在辦公和學(xué)習(xí)等相關(guān)場(chǎng)景提供一個(gè)個(gè)小便利。
vivo AI視覺理解組總監(jiān) 文亞飛演講——琥珀掃描
來(lái)自vivo AI 團(tuán)隊(duì)的文亞飛在演講中表示:“vivo的AI文檔圖像處理與識(shí)別解決方案源自兩個(gè)核心算法引擎——文檔圖像處理引擎和OCR文字識(shí)別引擎?!逼渲形臋n圖像處理引擎可以對(duì)文檔主體進(jìn)行精準(zhǔn)的自動(dòng)裁剪和矯正,同時(shí)通過(guò)超清修復(fù)算法對(duì)文檔的陰影、折痕、摩爾紋等進(jìn)行自動(dòng)去除,一鍵將紙質(zhì)文檔還原成高清文檔圖片。而最新的OCR文字識(shí)別引擎則在視覺模型的基礎(chǔ)上疊加語(yǔ)言模型融合識(shí)別,同時(shí)通過(guò)一系列模型壓縮和計(jì)算加速手段,不僅讓文字識(shí)別更快更準(zhǔn),同時(shí)實(shí)現(xiàn)算法運(yùn)行在本地,更好的保障了用戶的數(shù)據(jù)隱私安全。
AI語(yǔ)音技術(shù),架起情感交流的橋梁
除了在視覺方面為用戶打造的便利,vivo還通過(guò)AI語(yǔ)音技術(shù),進(jìn)一步幫助用戶解放雙手和雙眼。
vivo的AI語(yǔ)音技術(shù)體現(xiàn)在兩方面,首先是語(yǔ)音合成技術(shù)?;谧匝械膫€(gè)性化語(yǔ)音合成系統(tǒng),vivo持續(xù)地研發(fā)出了豐富多元的合成聲音,不但提供了清新、甜美、穩(wěn)重等多種不同的音色,同時(shí)還支持對(duì)話、新聞、小說(shuō)等不同場(chǎng)景下的朗讀風(fēng)格,實(shí)現(xiàn)了音色、風(fēng)格以及情感三種元素的自由組合。經(jīng)歷多年技術(shù)的沉淀,vivo發(fā)表了頂會(huì)論文8篇,獲取兩項(xiàng)國(guó)際賽事第一名,同時(shí)Jovi語(yǔ)音助手和屏幕朗讀的語(yǔ)音合成技術(shù)還獲得了通信院和泰爾實(shí)驗(yàn)室認(rèn)證。
vivo AI語(yǔ)音中心總監(jiān) 陳彬彬演講——AI語(yǔ)音技術(shù)
其次是語(yǔ)音識(shí)別技術(shù),經(jīng)過(guò)多年的發(fā)展和迭代,vivo語(yǔ)音識(shí)別技術(shù)目前效果得到了比較大的進(jìn)步。來(lái)自vivo AI語(yǔ)音中心的陳彬彬說(shuō):“vivo通過(guò)端到端建模、AI降噪以及場(chǎng)景化語(yǔ)言模型等方式,克服了口音、噪音和專業(yè)領(lǐng)域等導(dǎo)致的識(shí)別錯(cuò)誤,極大提升了語(yǔ)音識(shí)別的準(zhǔn)確性?!?/p>
機(jī)器翻譯,讓溝通沒有障礙
面對(duì)日益豐富的國(guó)際交流和文化碰撞,vivo通過(guò)科技創(chuàng)新助力用戶突破語(yǔ)言障礙,讓用戶生活更加高效便利。AI雙語(yǔ)字幕讓愛看電影愛追劇的朋友隨心所欲地看生肉,還支持中外雙語(yǔ)字幕對(duì)照展示,學(xué)生群體上網(wǎng)課也不用愁。另外,vivo手機(jī)內(nèi)置的系統(tǒng)級(jí)應(yīng)用翻譯機(jī)支持二十多個(gè)主流語(yǔ)種的流暢互譯,同時(shí)vivo還推出了Jovi輸入法快捷翻譯、識(shí)屏翻譯、拍照翻譯等多項(xiàng)功能,幫助用戶克服語(yǔ)言溝通的障礙。
vivo 針對(duì)翻譯的重點(diǎn)人群、高頻場(chǎng)景、便捷入口均設(shè)計(jì)了產(chǎn)品方案,助力高效解決翻譯需求。” 來(lái)自vivo機(jī)器翻譯團(tuán)隊(duì)的李方圓在演講中闡述。
vivo AI機(jī)器翻譯組高級(jí)經(jīng)理 李方圓演講
vivo在針對(duì)文本、圖片、聲音三種內(nèi)容形態(tài)均研發(fā)了算法能力。在圖片翻譯技術(shù)上,攻克落合并和圖片文字涂抹兩大技術(shù)難點(diǎn),提升了圖片翻譯的質(zhì)量和排版的美觀度。在語(yǔ)音翻譯技術(shù)方面,vivo聚焦優(yōu)化流式場(chǎng)景下的語(yǔ)音翻譯效果,持續(xù)優(yōu)化模型對(duì)ASR噪音的魯棒性,在翻譯質(zhì)量、穩(wěn)定性、翻譯延時(shí)三者之間取得平衡。
經(jīng)歷2年多的沉淀,vivo的機(jī)器翻譯團(tuán)隊(duì)在今年的全國(guó)機(jī)器翻譯大賽上斬獲漢英翻譯、中日英多語(yǔ)言翻譯2項(xiàng)冠軍,并且還在英漢、藏漢、中泰、泰中4個(gè)賽道上獲得亞軍。
Jovi輸入法Pro,最大限度保護(hù)用戶隱私
面對(duì)由輸入法引發(fā)的用戶隱私泄露問(wèn)題,vivo首次推出了完全自研的Jovi輸入法Pro,以實(shí)際行動(dòng)筑牢數(shù)據(jù)安全、隱私保護(hù)與守法合規(guī)的企業(yè)紅線。
vivo AI算法中心高級(jí)總監(jiān) 陳曉昕演講——Jovi輸入法Pro
Jovi輸入法Pro提供了本地模式,輸入法可以實(shí)現(xiàn)完全本地運(yùn)行,無(wú)需用戶進(jìn)行聯(lián)網(wǎng)授權(quán),保證了用戶的個(gè)人信息和數(shù)據(jù)只保存在本地。為了實(shí)現(xiàn)Jovi輸入法的本地模式,vivo對(duì)拼音、語(yǔ)音、手寫三大輸入法內(nèi)核進(jìn)行了全面優(yōu)化升級(jí),通過(guò)知識(shí)蒸餾、模型壓縮、計(jì)算加速等手段實(shí)現(xiàn)了算法在多個(gè)維度的均衡,提供安全、高效的輸入體驗(yàn)。
Jovi語(yǔ)音助手,化身便捷、溫暖的“貼心小管家”
作為vivo手機(jī)的智能生活助理,Jovi語(yǔ)音助手受到了越來(lái)越多的用戶喜愛。經(jīng)過(guò)四年多的優(yōu)化提升,Jovi語(yǔ)音助手在工信部組織的第一期人工智能產(chǎn)業(yè)創(chuàng)新重點(diǎn)任務(wù)揭榜工作中,在“智能語(yǔ)音交互系統(tǒng)”領(lǐng)域拔得頭籌,榮譽(yù)揭榜?!霸谑謾C(jī)端日活已經(jīng)超過(guò)1000萬(wàn),每個(gè)月小v會(huì)和用戶產(chǎn)生18億次對(duì)話,回答2億個(gè)問(wèn)題。” 杜乃喬在演講中說(shuō)。
vivo AI應(yīng)用中心高級(jí)總監(jiān) 杜乃喬演講——Jovi語(yǔ)音助手
自推出以來(lái),vivo一直圍繞著便利的技能、豐富的知識(shí)、貼心的閑聊三個(gè)方向來(lái)提升Jovi語(yǔ)音助手。據(jù)悉,目前Jovi語(yǔ)音助手已經(jīng)支持超過(guò)100個(gè)場(chǎng)景垂類,超過(guò)600種用戶請(qǐng)求意圖,很好地滿足用戶在快捷操作、信息獲取、情感陪伴方面的需求。
VCAP異構(gòu)計(jì)算加速,打造極致AI應(yīng)用體驗(yàn)
基于應(yīng)用場(chǎng)景,算法,硬件的發(fā)展,AI業(yè)務(wù)端側(cè)化面臨多元化的挑戰(zhàn),為了應(yīng)對(duì)AI業(yè)務(wù)多元化挑戰(zhàn),vivo建設(shè)了VCAP異構(gòu)計(jì)算加速平臺(tái),為開發(fā)者提供全鏈路AI算法端側(cè)化解決方案。VCAP持續(xù)追求全能力、跨平臺(tái)、高性能的目標(biāo),全面支持視覺、語(yǔ)音、自然語(yǔ)言處理、推薦各領(lǐng)域業(yè)務(wù)落地。目前,VCAP異構(gòu)計(jì)算加速平臺(tái)沉淀7種XPU器件加速能力,支持超過(guò)60種算法、80種算子?;赩CAP平臺(tái)能力,vivo支持典型影像、視頻、語(yǔ)音場(chǎng)景業(yè)務(wù)落地,為用戶打造更為極致的AI應(yīng)用體驗(yàn)。
“我們希望借助于VCAP開放能力,能攜手更多行業(yè)開發(fā)者為用戶打造更多的AI應(yīng)用產(chǎn)品!” 來(lái)自vivo AI團(tuán)隊(duì)的魯晶說(shuō)道。
vivo AI系統(tǒng)平臺(tái)組高級(jí)經(jīng)理 魯晶演講
攜手開發(fā)者,為用戶打造1001個(gè)便利
今年vivo開發(fā)平臺(tái) AI專區(qū)在算法、數(shù)據(jù)、算力強(qiáng)大的技術(shù)底座上,開放了云端兩個(gè)方向的能力,包含Jovi服務(wù)平臺(tái)、AI算法平臺(tái)、內(nèi)容理解平臺(tái)、Jovikit、VCAP計(jì)算加速平臺(tái)。
以Jovi服務(wù)平臺(tái)為例,vivo通過(guò)AI賦能、服務(wù)找人的形式進(jìn)行智能精準(zhǔn)的投放,投放后,會(huì)有億級(jí)流量場(chǎng)景進(jìn)行分發(fā)。對(duì)開發(fā)者來(lái)說(shuō),用更低的流量成本就可以獲得更高的曝光機(jī)會(huì)和更優(yōu)的轉(zhuǎn)化質(zhì)量。在用戶層面,用戶獲取服務(wù)成本低,免安裝,有更多入口直達(dá)多樣服務(wù)。
vivo AI平臺(tái)產(chǎn)品組高級(jí)經(jīng)理 劉詩(shī)韻演講
進(jìn)入開發(fā)者平臺(tái)-AI專區(qū)https://developers.vivo.com/AI 。注冊(cè)成為開發(fā)者后,只需簡(jiǎn)單幾個(gè)步驟就能完成接入。通過(guò)這些開放的能力,攜手開發(fā)者,為用戶在多種場(chǎng)景方方面面打造1001便利。
關(guān)注特殊用戶群體,手機(jī)行業(yè)首發(fā)手語(yǔ)識(shí)別虛擬人,AI讓科技更有溫度
人文之悅一直是 vivo的品牌主張,在關(guān)注普通用戶的同時(shí),vivo對(duì)于特殊用戶群體的關(guān)懷也未曾缺位。據(jù)介紹,在今年召開的第四屆科技無(wú)障礙發(fā)展大會(huì)上,vivo榮獲了“2022可及信息無(wú)障礙優(yōu)秀案例”,成為唯一的獲獎(jiǎng)手機(jī)品牌。
vivo AI算法中心高級(jí)總監(jiān) 陳曉昕演講——關(guān)注特殊用戶群體
通過(guò)聲音識(shí)別、vivo聽說(shuō)、無(wú)障礙通話等一系列AI無(wú)障礙功能創(chuàng)新以及無(wú)障礙設(shè)備捐贈(zèng)等方式,vivo力求為聽障人群搭建起無(wú)障礙溝通的橋梁。同時(shí),vivo整合領(lǐng)先的AI技術(shù)能力,實(shí)現(xiàn)手語(yǔ)到文本再到語(yǔ)音的流暢互譯,推出了手機(jī)行業(yè)首個(gè)具備手語(yǔ)識(shí)別能力的虛擬人。而面對(duì)視障人士,vivo也將上線vivo看見和vivo讀譜兩大視覺輔助功能,幫助視障用戶更好地融入社會(huì)。
2017年,vivo開始組建AI全球研究院,旨在幫助所有消費(fèi)者享受科技帶來(lái)的美好生活。截至目前,在vivo手機(jī)的100多個(gè)系統(tǒng)模塊中,目前已經(jīng)有超過(guò)60%的模塊中搭載了AI能力,在用戶看得見和看不見的地方發(fā)揮著作用,提供便利,創(chuàng)造驚喜。
vivo希望依托OriginOS能力,以用戶使用手機(jī)的重要場(chǎng)景為載體,通過(guò)AI技術(shù)與場(chǎng)景的深度結(jié)合,致力于打造1001個(gè)便利,為用戶提供無(wú)處不在的驚喜與方便。
推薦閱讀