“AI視頻通話”產(chǎn)品化的三條路
本文介紹了AI產(chǎn)品經(jīng)理在AI時(shí)代面臨的挑戰(zhàn),探討了AI視頻通話技術(shù)的產(chǎn)品化和商業(yè)化路徑,以及如何將AI技術(shù)轉(zhuǎn)化為實(shí)際可用的產(chǎn)品。
“做AI產(chǎn)品經(jīng)理太難了?!苯谀X極體的同事參加了一場(chǎng)開發(fā)者大會(huì),一位產(chǎn)品經(jīng)理向我們坦言:“AI時(shí)代,做產(chǎn)品的方法論沒變,但以往熟悉的東西幾乎都被清零了。”
用戶需求被清零了,大模型到底能用來做什么,用戶自己是不清楚的,需求是空白的,需求調(diào)研、產(chǎn)品定義,就要花費(fèi)好幾個(gè)月的時(shí)間。
好不容易定義好了,基礎(chǔ)模型的一個(gè)更新,就有可能將前期所做的工作、功能規(guī)劃等推倒重來。
“比如GPT-4o出現(xiàn)之后,語音對(duì)話的能力是我們完全意想不到的,就又得把產(chǎn)品開發(fā)過程再來一遍……”
而縱觀一年多來推陳出新的數(shù)百個(gè)大模型,GPT-4o可以說是產(chǎn)品化程度非常高的一個(gè)了。
比如OpenAI發(fā)布會(huì)上展示的“AI視頻通話”,使用戶與AI進(jìn)行實(shí)時(shí)的、跟真人對(duì)話一樣自然的視頻交流。國內(nèi)模型廠商也很快推出了類似的AI視頻通話功能,不少媒體和用戶都表示“體驗(yàn)炸裂”。
但半年時(shí)間過去,發(fā)現(xiàn)在最初的震驚與新鮮感過后,在真正的軟件生態(tài)里,還是沒有看到“AI視頻通話”被大規(guī)模、高頻率地用起來,更別提激活用戶的付費(fèi)欲望了。為什么會(huì)這樣?
我們就從“AI視頻通話”說開去,聊聊AI產(chǎn)品化、商業(yè)化到底要經(jīng)過哪些磨礪。
01 AI視頻通話,一座有待打磨的原礦
鉆石原礦被開采出來,其實(shí)并不璀璨奪目,是經(jīng)由工匠們的切割打磨,被鑲嵌成鉆石首飾,包裝為“愛情象征”,才走進(jìn)大眾消費(fèi)市場(chǎng),價(jià)值實(shí)現(xiàn)了百倍千倍攀升。
類GPT-4o大模型就類似于原礦,作為“交互天花板”,潛在商業(yè)價(jià)值很大,但必須經(jīng)過產(chǎn)品化的精細(xì)打磨與包裝,才能被大眾用戶廣泛接受,實(shí)現(xiàn)其真正的價(jià)值和應(yīng)用潛力。
而基于類GPT-4o所誕生的“AI視頻通話”,雖然向產(chǎn)品化邁進(jìn)了一步,但依然屬于原型的基礎(chǔ)能力。
盡管OpenAI、智譜等模廠已經(jīng)針對(duì)“AI視頻通話”這一應(yīng)用,打磨了諸如響應(yīng)速度、具體用例等產(chǎn)品側(cè)的細(xì)節(jié),并融入到ChatGPT、智譜清言APP等產(chǎn)品當(dāng)中。但作為一種軟件應(yīng)用來說,這種與通用場(chǎng)景相結(jié)合的落地模式,還是比較粗陋。
首先,需求過于寬泛。
AI視頻通話,技術(shù)上相當(dāng)于讓AI擁有“眼睛”和“嘴”,具備察言觀色、跟真人對(duì)話的能力。這很容易就讓人想到AI陪伴,人與AI談天說地、談情說愛。
直接將AI視頻通話能力嫁接在聊天機(jī)器人上,本質(zhì)依然是AI聊天,能力升級(jí),但無法解決chatbot商業(yè)價(jià)值低的核心問題。
AI視頻聊天,用戶容錯(cuò)率高,不在乎AI偶爾犯錯(cuò)或出現(xiàn)幻覺,這也意味著對(duì)基礎(chǔ)模型能力要求不嚴(yán)苛,無法在技術(shù)層面拉開差距。曾經(jīng)的智能音箱大戰(zhàn)、智能助手紅海,也會(huì)在AI視頻聊天領(lǐng)域出現(xiàn),并且由于聊天并不能幫助用戶完成具體任務(wù)或解決問題,用戶還得自己琢磨在視頻里跟AI聊什么,沒一會(huì)兒就只能跟AI面面相覷,難以帶來確定性的產(chǎn)品滿足和持久粘性,新鮮感過后就會(huì)流失。
而一些直接用途,想要普遍應(yīng)用,也有大量細(xì)節(jié)仍待填充。
比如基于AI視頻通話的無障礙功能,是一個(gè)非常直接的落地場(chǎng)景。AI視頻通話,可以將設(shè)備攝像頭作為“眼睛”,幫助人去理解物理世界,這對(duì)視障人群豈不是很友好?
但實(shí)際上,大模型APP的視頻通話功能,是無法直接被視障人群用起來的,還有大量的產(chǎn)品細(xì)節(jié)需要考慮。比如我們?cè)w驗(yàn)過實(shí)時(shí)圖像識(shí)別,AI只能認(rèn)出“面前有兩張卡”,但哪張是公交卡,哪張是銀行卡,是無法準(zhǔn)確識(shí)別的,這就需要基于視障群體出行接觸的高頻物體,進(jìn)行針對(duì)性地精調(diào)。
而且,在飛機(jī)、高鐵、地鐵等弱網(wǎng)、無網(wǎng)環(huán)境下,也要保證視障人群與AI視頻通話的實(shí)時(shí)性,就需要純端側(cè)運(yùn)行的多模態(tài)大模型,將模型做小、計(jì)算效率做高。
產(chǎn)品設(shè)計(jì)層面,還有大量的細(xì)節(jié),還等待著填充,才能轉(zhuǎn)化為用戶可以方便使用的產(chǎn)品和服務(wù)。
可以看到,沒有更細(xì)致的產(chǎn)品化,盡管“AI視頻通話”這一基礎(chǔ)能力很厲害,卻不知道能用來干什么,很可能導(dǎo)致技術(shù)找不到市場(chǎng),倒在了產(chǎn)品化變現(xiàn)的黎明到來之前。
這個(gè)“至暗時(shí)刻”會(huì)發(fā)生嗎?
欣慰的是,我們發(fā)現(xiàn) “AI視頻通話”能力,已經(jīng)開始向行業(yè)輸送了,意味著這座AI基礎(chǔ)能力的“原礦”,終于開始被打磨成晶光四射的鉆石。
我們就從“原礦”流向的應(yīng)用領(lǐng)域,來分享幾個(gè)“AI視頻通話”的產(chǎn)品化方向。
02 方向一:+智能體手機(jī)=擬人化生活管家
大模型怎么落地?智能體是方向。
智能體怎么服務(wù)?+AI視頻通話事半功倍。
如今,手機(jī)軟件承載著我們?nèi)粘5慕^大多數(shù)服務(wù),在各個(gè)應(yīng)用中來回跳轉(zhuǎn)、操作是非常繁瑣的。
今年以來,榮耀、vivo等廠商都在基于智能體打造一系列創(chuàng)新功能體驗(yàn),比如“一句話點(diǎn)奶茶”“一句話訂餐廳”等。用戶只需要向手機(jī)助手發(fā)出指令,手機(jī)智能體會(huì)自動(dòng)理解需求、拆解任務(wù)步驟、調(diào)取相關(guān)功能,一站到底地完成任務(wù)。
Agent手機(jī)就很好地解決了數(shù)字服務(wù)鏈路長、操作繁瑣的問題,但新的問題又來了,那就是智能體還需要“看得懂”“能交流”。
舉個(gè)例子,在外賣小程序下單時(shí),遇到廣告是常態(tài),這時(shí)候需要智能體agent執(zhí)行準(zhǔn)確的操作,比如“點(diǎn)擊關(guān)閉”“跳過”等,來推進(jìn)到下一步。如果智能體無法識(shí)別相關(guān)內(nèi)容,必須用戶自己動(dòng)手操作,那整個(gè)鏈路就被打斷了,用戶體驗(yàn)會(huì)非常不好。有跟智能助手通過文字prompt交流的功夫,用戶自己就能點(diǎn)開程序完成下單了。
Agent手機(jī)+視頻通話,就能用戶體驗(yàn)更進(jìn)一步。
比起打字的繁瑣、語音尷尬癥,在人機(jī)對(duì)話時(shí),像跟真人面對(duì)面交流一樣,通過語音對(duì)話完成下單,更符合直覺,也更有被服務(wù)的舒適感。對(duì)話之后,大模型對(duì)視頻畫面進(jìn)行實(shí)時(shí)分析,指導(dǎo)智能體來自動(dòng)執(zhí)行,整個(gè)體驗(yàn)會(huì)從頭到尾絲滑無感。
目前,國內(nèi)終端廠商在端側(cè)智能體方面走得是更快的。腦極體在VDC 2024大會(huì)上了解到,藍(lán)河操作系統(tǒng)增添了視覺感知能力,讓系統(tǒng)像人類一樣“聽得懂”“看得清”。智能體能夠模擬人類的智能,助力操作系統(tǒng)像人一樣進(jìn)行溝通、執(zhí)行智能任務(wù)。
如果說,智能體可以讓人成為數(shù)字服務(wù)的最小參與者,那么在智能體手機(jī)中打磨的AI視頻通話,則讓人機(jī)交互朝著更理想、更符合直覺的體驗(yàn)靠近,讓數(shù)字生活管家走進(jìn)現(xiàn)實(shí)。
03 方向二:+垂直行業(yè)軟件=虛擬行業(yè)專家
將AI視頻通話功能集成到垂直應(yīng)用軟件中,可以變成擬人化的垂域?qū)<?,提供更專業(yè)的服務(wù),解決更具體的問題,從而激活用戶的付費(fèi)意愿和模型API經(jīng)濟(jì)。
目前,OpenAI為GPT-4o預(yù)設(shè)了十幾個(gè)場(chǎng)景,清言視頻通話API上線智譜開放平臺(tái)時(shí),也列出了智能硬件(VR眼鏡)、教育培訓(xùn)AI私教、文旅場(chǎng)景AI向?qū)?、具身智能等落地方向。通過將AI視頻通話API開放出來,鼓勵(lì)開發(fā)者在產(chǎn)品中集成“AI視頻通話”功能。
9月24日,多鄰國(Duolingo)在第六屆全球分享大會(huì)上,推出了 AI 視頻通話(Video Call)。Duolingo Max 用戶可以與多鄰國的角色 Lily(拽姐)進(jìn)行視頻通話,進(jìn)行個(gè)性化的互動(dòng)練習(xí)。在對(duì)話中,AI會(huì)根據(jù)用戶的語言水平靈活調(diào)整內(nèi)容。
學(xué)習(xí)語言最難的就是高頻使用環(huán)境和開口說話的心理障礙,通過AI視頻通話提供實(shí)時(shí)的對(duì)話機(jī)會(huì),可以讓小白初學(xué)者也能自信開口,進(jìn)行有效聯(lián)系。據(jù)說,多鄰國的這一新功能接入了OpenAI的高級(jí)語音API功能。
國內(nèi)頭部社交軟件Soul,也上線了AI聊天機(jī)器人“AI茍蛋”,可以主動(dòng)跟用戶找話題,并且年底將開啟AI陪聊機(jī)器人的視頻通話服務(wù)。不同于泛泛聊天,Soul主打的是靈魂交友,平臺(tái)用戶傾向于開展深層交流,探討深度話題,尋求心靈共鳴。
在這種較為成熟的社區(qū)氛圍下,用戶在使用AI視頻通話的預(yù)期、內(nèi)容也是較為明確的,不會(huì)出現(xiàn)不知道聊什么的情況。
各行各業(yè)都存在大量需要互動(dòng)的場(chǎng)景,可以跟“AI視頻通話”相結(jié)合提供擬人化體驗(yàn)。但用戶能否由此對(duì)應(yīng)用和AI視頻通話產(chǎn)生黏性,還需要行業(yè)伙伴把使用門檻降到最低,這不僅需要行業(yè)擁有產(chǎn)品開發(fā)的能力與意愿,能夠洞察缺口與機(jī)遇,也需要模廠的生態(tài)支持。
04 方向三:+硬件=有溫度的情感共同體
從哆啦A夢(mèng)到阿童木、賈維斯、Her,這些讓人類感覺友好溫暖的AI,都是擬人化的。也許說明,我們更愿意跟更像人類的AI打交道,而不是冰冷無形的機(jī)器。
一位智能機(jī)器從業(yè)者告訴我們,一開始設(shè)計(jì)的新車只有虛擬的語音助手,用戶上車之后覺得跟空氣說話很尷尬,激活率不高,所以設(shè)計(jì)了一個(gè)帶有屏幕的車載控件,可以跟車主打招呼、有表情,車主很喜歡跟它對(duì)話,逢年過節(jié)還會(huì)為它買各種裝飾物,把它當(dāng)作用車場(chǎng)景中的家庭一員。
從這個(gè)思路看,AI視頻通話其實(shí)可以被加入各種硬件當(dāng)中,與用戶展開真人一般的對(duì)話,從而成為情感共同體,由此衍生的商業(yè)空間也非常充裕。
透過AI視頻通話,相信大家能夠感受到,無論是AI企業(yè)或普通大眾,對(duì)于AI產(chǎn)品化的需求越來越實(shí)質(zhì)。
模型技術(shù)只是能力,是原型,而遠(yuǎn)不到普遍可用的階段。唯有通過產(chǎn)品化的細(xì)致打磨,AI這座商業(yè)富礦,才能真正顯露出鉆石般的光芒。
本文由人人都是產(chǎn)品經(jīng)理作者【腦極體】,微信公眾號(hào):【腦極體】,原創(chuàng)/授權(quán) 發(fā)布于人人都是產(chǎn)品經(jīng)理,未經(jīng)許可,禁止轉(zhuǎn)載。
題圖來自Unsplash,基于 CC0 協(xié)議。
AI產(chǎn)品經(jīng)理的工作確實(shí)不容易,需要緊跟技術(shù)發(fā)展的步伐,不斷探索和創(chuàng)新。文章提到的AI視頻通話技術(shù),雖然前景廣闊,但要真正實(shí)現(xiàn)產(chǎn)品化和商業(yè)化,還需要克服很多挑戰(zhàn)。希望AI技術(shù)能帶來更多有趣和實(shí)用的產(chǎn)品!