陳沛/文 谷歌的AI筆記產(chǎn)品NotebookLM最近新增了處理音頻視頻文件的功能。隨后,這次產(chǎn)品更新獲得了前OpenAI創(chuàng)始團(tuán)隊成員Andrej Karpathy關(guān)注,認(rèn)為它給人一種當(dāng)年ChatGPT出現(xiàn)的相似感,可能會開啟新的AI模型產(chǎn)品形態(tài)。
NotebookLM的實際體驗更適合科研學(xué)習(xí)場景
NotebookLM是谷歌實驗室(Google Labs)此前已經(jīng)推出的AI筆記產(chǎn)品。主要功能是用戶上傳PDF等格式的文檔,或者直接輸入谷歌在線文檔、在線幻燈片、網(wǎng)頁等網(wǎng)址,然后通過AI進(jìn)行內(nèi)容總結(jié)。用戶可以自行提問,讓AI針對上傳的文檔或輸入的在線文檔內(nèi)容進(jìn)行回答。
而這次最新更新是增加了多模態(tài)輸入功能。用戶在以上輸入功能的基礎(chǔ)上,現(xiàn)在可以上傳MP3音頻文件,或者直接輸入YouTube在線視頻的網(wǎng)址。
在輸出方面,NotebookLM的主要亮點(diǎn)是可以把輸入文檔直接輸出成兩人對話聊天的音頻文件,目前僅支持英語音頻。此外,NotebookLM還提供了常見的AI內(nèi)容總結(jié)模板,例如摘要、學(xué)習(xí)指南、簡報、知識問答等,同時繼續(xù)支持用戶自行提問。
因此,從我實際使用體驗來看,NotebookLM更適合的是科研學(xué)習(xí)場景。例如學(xué)生可以上傳上課錄音快速總結(jié)知識點(diǎn)、研究者可以把論文轉(zhuǎn)成聽書文件對外宣傳、老師可以根據(jù)在線教學(xué)視頻生成知識點(diǎn)和考題等。
NoteBookLM的多模態(tài)新功能其實并非首創(chuàng)
NoteBookLM這次更新的多模態(tài)新功能其實并非首次出現(xiàn)。在谷歌實驗室的其它產(chǎn)品中已經(jīng)出現(xiàn)過YouTube在線視頻總結(jié)功能,而不久前的Google Illuminate產(chǎn)品也發(fā)布過將PDF學(xué)術(shù)文檔轉(zhuǎn)成兩人對話音頻文件的功能。
特別是在NoteBookLM此次更新多模態(tài)功能后不久,新加坡政府科技局(GovTech)的Gabriel Chua很快在HuggingFace上推出了開源版Open NoteBookLM,使用了開源模型Llama 3.1-405B和文本轉(zhuǎn)語音框架MeloTTS,實現(xiàn)了將PDF轉(zhuǎn)成對話音頻文件的核心功能,而且在生成音頻的語言風(fēng)格和時長方面提供了更多選項,且能夠支持中、英、法、日、韓、意等多種語言。
盡管在我實際使用開源版Open NoteBookLM的過程中,發(fā)現(xiàn)它的生成結(jié)果并沒有谷歌NoteBookLM那么穩(wěn)定,且排隊等待時間長達(dá)5至10分鐘。但Open NoteBookLM的快速出現(xiàn)至少可以佐證,多模態(tài)新功能是很快能被開源界所追上的。
NoteBookLM啟示了AI應(yīng)用的新路線
既然在功能層面的獨(dú)創(chuàng)性不足,那為什么NoteBookLM這次更新還會引發(fā)諸多業(yè)界關(guān)注,甚至與當(dāng)年ChatGPT的出現(xiàn)相提并論?這或許是因為NoteBookLM可能會啟發(fā)AI應(yīng)用的新路線。
自從ChatGPT出現(xiàn)以來,后續(xù)多數(shù)生成式AI都以聊天作為主要的產(chǎn)品形式。久而久之,這種對話問答形式出現(xiàn)的信息引用來源不準(zhǔn)、生成內(nèi)容“AI味太重”、問答結(jié)果難以核實等問題,也開始影響用戶體驗。
而NoteBookLM自一開始的定位就是AI筆記產(chǎn)品,由用戶提供想進(jìn)一步了解的知識來源,NoteBookLM回歸AI助手的角色,甚至不需要用戶漫無目的地聊天輸入,就能準(zhǔn)確高效地整理和組織各種形式的知識內(nèi)容。
在這種路線下,AI產(chǎn)品的關(guān)注點(diǎn)不僅是為了和用戶進(jìn)行自然對話,而是聚焦對知識條理的組織和整理,甚至是不同模態(tài)知識的任意轉(zhuǎn)換,有可能成為新的AI模型產(chǎn)品主流形態(tài)。
發(fā)表評論