【2024.12.16 更新】關於 Project Astra、Gemini 2.0 與 Multimodal Live API 的隨想和實作
週末下雨天在家閒著,想起上個月 Google 在 2024 I/O 開發者大會上所展示的「 Project Astra 」示範影片( 影片連結 )。從影片中,可以看到 Astra 跟一般聊天機器人的視覺場景辨識不同, Astra 可以讓使用者在螢幕上畫上記號,並且讓 Gemini AI 根據記號來回答問題。 雖然這個在 Android APP 上面也不是啥了不起的東西,不過正好閒著沒事,便心血來潮,實作並實驗了一下影片中在手機螢幕上畫圖並讓 AI 識別的 Demo 的效果。 在官方 Demo 影片的0:16處,測試人員按下了手機 APP 中的藍色畫筆按鈕,我認為這個按鈕是用來在使用者送出語音提示後,用以區分當前應該為何種類型的 多模態提示 ,因為在影片0:26處,測試人員示範完相機結合繪圖的辨識功能後,再次按下關閉繪圖的按鈕,我認為這個動作,目的是讓之後 Demo 內容中的多模態提示,都是以影格來作處理。 影片0:16處,使用者開啟了畫筆功能 這段 Demo 影片中,好像有用到 RMOT 的概念(參考來源: Arxiv.org & Youtube & Github ),測試人員先給了提示「看到會發出聲音的東西時說一聲」,然後開始移動手機鏡頭,當一個位於顯示器旁邊的喇叭出現在視野中時,Gemini 便回答道「我看到一個揚聲器,它會發出聲音」 參考語言特徵的多目標跟蹤 Referring Multi-Object Tracking(RMOT) 是一種新的影片理解任務,它使用語言指令來檢測和追蹤影片中的多個物件。RMOT 可以處理多個參考目標和時間變化。例如,它可以追蹤多個物件隨著時間進入或離開場景。 RMOT 在各種場景中都有應用,其中一種應用場景是自動駕駛汽車。使用 RMOT,自動駕駛汽車可以被指示追蹤特定物件,例如行人或其他車輛,並了解其移動情況。這對於避免碰撞和安全導航很有幫助。RMOT 也可用於影片監控應用程式來追蹤特定物件或感興趣的人事物。 之後測試人員向相機對著桌上的音響,在螢幕上畫了一個紅色箭頭,指向揚聲器頂部的圓圈,並問道「揚聲器的這個部分叫什麽?」Gemini 迅速回答道「那是高音單元。它負責產生高頻聲音。」 可以注意到,在影片中的0:21到0:25處,我們可以發現,測試人員在螢幕上畫了紅色箭頭後,將...