【2025.1.17 更新】有關 AI Agent、Gemini 2.0 與 Multimodal Live API 的一些隨想和實作🚀🧠✨

1月 06, 2025

週末下雨天在家閒著，想起上個月 Google 在 2024 I/O 開發者大會上所展示的「Project Astra」示範影片（影片連結）。從影片中，可以看到 Astra 跟一般聊天機器人的視覺場景辨識不同， Astra 可以讓使用者在螢幕上畫上記號，並且讓 Gemini AI 根據記號來回答問題。

雖然這個在 Android APP 也不是啥了不起的東西，不過正好閒著沒事，便心血來潮，實作並實驗了一下影片中在手機螢幕上畫圖並讓 AI 識別的 Demo 的效果。

在官方 Demo 影片的0:16處，測試人員按下了手機 APP 中的藍色畫筆按鈕，我認為這個按鈕是用來在使用者送出語音提示後，用以區分當前應該為何種類型的多模態提示，因為在影片0:26處，測試人員示範完相機結合繪圖的辨識功能後，再次按下關閉繪圖的按鈕，我認為這個動作，目的是讓之後 Demo 內容中的多模態提示，都是以影格來作處理。

影片0:16處，使用者開啟了畫筆功能

這段 Demo 影片中，好像有用到 RMOT 的概念（參考來源：Arxiv.org & Youtube & Github），測試人員先給了提示「看到會發出聲音的東西時說一聲」，然後開始移動手機鏡頭，當一個位於顯示器旁邊的喇叭出現在視野中時，Gemini 便回答道「我看到一個揚聲器，它會發出聲音」

參考語言特徵的多目標跟蹤 Referring Multi-Object Tracking（RMOT）是一種新的影片理解任務，它使用語言指令來檢測和追蹤影片中的多個物件。RMOT 可以處理多個參考目標和時間變化。例如，它可以追蹤多個物件隨著時間進入或離開場景。

RMOT 在各種場景中都有應用，其中一種應用場景是自動駕駛汽車。使用 RMOT，自動駕駛汽車可以被指示追蹤特定物件，例如行人或其他車輛，並了解其移動情況。這對於避免碰撞和安全導航很有幫助。RMOT 也可用於影片監控應用程式來追蹤特定物件或感興趣的人事物。

之後測試人員向相機對著桌上的音響，在螢幕上畫了一個紅色箭頭，指向揚聲器頂部的圓圈，並問道「揚聲器的這個部分叫什麽？」Gemini 迅速回答道「那是高音單元。它負責產生高頻聲音。」

可以注意到，在影片中的0:21到0:25處，我們可以發現，測試人員在螢幕上畫了紅色箭頭後，將相機畫面保持在同一個地方，直到 AI 給出回答。

這是因為要將繪畫視圖和 CameraView 視圖作疊加處理，所以使用者的手機畫面，無法在畫了箭頭後，立即移動到別的地方。（因為他無法知道這個 prompt 是否已經成功送至後端的 Gemini AI，所以將畫面保持住，直到 AI 給出答案，是直覺且安全的方式。）

使用者在相機畫面上繪圖，並詢問 Gemini 箭頭指的是音響的什麼部件

影片0:26處，測試人員示範完螢幕上的繪圖辨識之後，關閉了畫筆功能

之後測試人員又持續使用相機畫面，來詢問 Gemini 一些問題，首先測試人員移動到桌子另一端的蠟筆杯旁，並問道「給我一個關於這些蠟筆的創意疊詞」，Gemini 回答道「彩色蠟筆色彩繽紛。它們必能創造出色彩繽紛的作品。

隨後測試人員又 Demo 展示了 Project Astra 中的 Gemini 如何識別螢幕上的程式碼，還有根據窗外景色告訴使用者他所在的位置，以及記憶能力等功能。

最後當測試人員問到「你還記得眼鏡放在哪裡嗎？」，Gemini 依然能夠正確回答：「是的，我記得。你的眼鏡放在桌子旁邊，靠近一個紅色的蘋果。」

在 Astra 找到眼鏡後，測試人員戴上眼鏡，影片畫面變成了可穿戴設備的視角。隨後就是一系列智能眼鏡搭配 Gemini AI 的應用展示。

整個 Demo 內容中，我覺得最厲害的是，影片中 Astra 不僅持續在即時處理相機畫面中的視覺資料，還能記住它所看到的東西，並持續與後端的 Gemini AI 模型溝通。而且反應速度近乎即時，這幾點是整個 Project Astra 的 Demo 影片中，最令人感到神奇的部分。

DeepMind 的 Co-founder & CEO Demis Hassabis 表示，這是因為這些「虛擬專員」被設計來「透過連續編碼影格，將視訊和音訊輸入組合解譯成事件的時間線，並儲存此資訊以供高效調用。」

Hassabis 還指出，「雖然我們在開發能夠理解多模態信息的 AI 系統方面取得了令人難以置信的進步，但將回應時間降低到對話水平，仍然是一項艱難的工程挑戰」。Google 還一直在努力為其 AI 提供更寬廣的語音表達能力，使用其語音模型來「增強它們的發聲效果，為這些虛擬專員提供更廣泛的語調。」

從 Project Astra 的 Demo 影片中，我們可以知道，這個智能眼鏡，有一個或多個鏡頭、麥克風、光機，以及某種處理器，甚至是無線連線能力。

當然也不排除這只是 Google 為了 Project Astra 影片設計的效果，但整體來說這個眼鏡很像是 2015 年的 Google Glasses 重新復活，只是這次有了更明確的使用情境了。

目前，Project Astra 還處於早期測試階段，沒有具體的發布日期。然而，谷歌暗示其部分功能可能會在今年稍後整合到旗下的產品中，例如 Gemini 應用程式。它被稱為 Gemini Live，與 OpenAI 的 ChatGPT 上的對講功能沒有什麼不同。

最後我快速實作了一個模仿 Project Astra 示範影片中的畫筆搭配相機畫面進行辨識的功能，來測試一下實際使用上是否真如官方 Demo 影片上的那般效果（結論是效果還可以！）

延伸閱讀：Gemini 多模態 AI 模型與生成式 AI 應用：透過 Vertex AI 在 Android 應用程式加入 Gemini Pro （和 Vision）的使用心得

Gemini 回答紅色箭頭所指的照片，裡面有秋天的楓紅，所以這是秋天

再讓它幫我把書本封面上的中文「不確定為什麼要去，正是出發的理由」，翻譯成英文

這個翻譯結果也算是令人滿意的

ps. 以上是2024年中的紀錄，以下內容才是近期2024年底的更新

[2024.12.16 更新] Gemini 2.0 與 Multimodal Live API

谷歌在台灣時間12月13日發布了 Gemini 2.0 模型，Gemini 2.0 是谷歌在面向 AI Agent 時代的新人工智慧模型。裡面有很多東西（包括 Project Astra 和新的 Project Mariner 的更新），但最有趣的是我們今天可以透過谷歌同時間發布的全新的多模態直播應用程式介面（Multimodal Live API），來開發具有即時音頻和視頻流功能的應用程序。

該 API 是圍繞全新的 Gemini 2.0 Flash 模型構建的，它實現了低延遲、雙向的文字、音訊和視訊交互，以音訊和文字形式輸出，帶來更自然流暢、如同人類對話般的交互體驗。用戶可以隨時打斷模型，並透過共享相機輸入或螢幕錄影與其進行互動，並且就相機內容來進行提問。

該模型的視訊理解功能擴展了通訊模式，用戶能夠使用攝影機即時拍攝或共享桌面並提出相關問題。該 API 已經向開發者開放，同時也向用戶提供了一個多模態即時助手的演示應用。

參考資料

隆重推出Gemini 2.0：我們迎向代理式AI 時代的新模型

The next chapter of the Gemini era for developers

Gemini 2.0: Level Up Your Apps with Real-Time Multimodal Interactions

Gemini 2.0 Flash Experimental

Multimodal Live API | Gemini API | Google AI for Developers

Multimodal Live API - Web console

Multimodal Live API - API reference

即時回應能力的突破

我在 Multimodal Live API 發布兩天後，抽空花了幾個小時將其整合到 Android 應用程式中的實際效果，可以說和過去 Gemini 1.5 時代的傳統丟圖片等回答會有的延遲相比，Multimodal Live API 提供的即時視頻/音頻對話功能，其反應速度之快真的是有令人感到驚艷！

運作原理

Multimodal Live API 是一個具有狀態的 API，利用 WebSockets 進行低延遲的伺服器對伺服器通信。這個 API 支援多種工具，例如函數調用、代碼執行、搜尋基礎支持，以及在單一請求中結合多個工具，能夠提供全面的回應，無需多次提示。這使得開發者能夠創建更高效、更複雜的 AI 互動。

為了降低實作的難度，Google 在 GitHub 上發布了一個名為「Multimodal Live API - Web console」的入門套件。這是一個基於 React 的示範應用程式，提供了音訊錄製與播放、攝影機影像與螢幕截圖輸入、日誌檢視，以及與外部工具（如搜尋功能）的整合範例。開發者只需將此專案 clone 至本地，設定好 Gemini 的 API 金鑰，安裝相應的套件，即可開始使用。

Multimodal Live API 的主要特點包括：

雙向串流：允許同時發送和接收文字、音頻和視頻數據。
亞秒延遲：在 600 毫秒內輸出第一個token，對應人類預期的反應時間，實現無縫回應。
自然語音對話：支持類人語音互動，包括能夠打斷對話和語音活動檢測等功能，使 AI 與用戶的對話更加流暢。
視頻理解：提供處理和理解視頻輸入的能力，使模型能夠結合音頻和視頻上下文來生成更具信息性和細緻的回應。這種上下文感知使互動更具層次感。
工具整合：便於在單一 API 請求中整合多種工具，擴展 API 的功能，並使其能夠代表用戶執行複雜任務。
可調語音：提供五種不同的語音選擇，具有高表現力，能夠傳達廣泛的情感，為用戶提供更個性化和更具吸引力的體驗。

Multimodal Live API 支援多種即時互動應用。以下是一些這個 API 可以有效應用的場景範例：

即時虛擬助理：想像一個能觀察你螢幕並即時提供量身定制建議的助理，告訴你如何找到所需的資料，或者代表你執行某些動作。
自適應教育工具：該 API 支援開發能夠根據學生學習進度調整的教育應用程式，例如，一個語言學習應用可以根據學生即時的發音和理解能力調整練習的難度。

以下是 Gemini 2.0 Flash 5 大重點特色：

多模態能力提升

Gemini 2.0 在多模態理解方面取得了重大進展，不僅能理解文字，還能理解圖像、影片和音訊，並能以多種方式輸出訊息，例如生成圖像、產生語音，甚至混合使用文字和圖像來呈現結果。Gemini 2.0 Flash 具備原生文字轉語音輸出功能，還可選擇 8 種高品質語音以及不同語言和口音。

使用 Google 原生工具

Gemini 2.0 經過訓練，可以使用各種 Google 原生工具，包括 Google 搜尋、程式碼執行，以及用函數呼叫自訂的第三方工具。這種能力使它能夠更有效地完成任務，例如透過 Google 搜尋獲取訊息、執行程式碼解決問題，甚至使用其他工具來擴展其功能。

推理能力強化

Gemini 2.0 擁有增強的推理能力，能夠理解更複雜的指令、進行多步驟思考，並根據上下文做出更準確的判斷。

降低延遲、提高效率

Gemini 2.0 Flash 版本在效能方面有顯著提升，比 1.5 Pro 版本快兩倍，同時在關鍵基準測試中表現更出色。

新增的 AI Agent 體驗

Gemini 2.0 的新功能和改進，使其能夠實現更具代理性的體驗，例如 Project Astra（通用 AI Agent）、Project Mariner（瀏覽器 Agent）和 Jules（AI 程式碼 Agent）。

除了模型之外，谷歌這次的重頭戲是智能體（AI Agent）。在發布產品的同時，谷歌 CEO 皮蔡（Sundar Pichai）在X上著重提到了智能體 Project Astra，認為其“展現了通用 AI 助手的曙光”。皮蔡表示，“2025 年將是令人興奮的一年。”

Project Astra‌ 是 Google 最初在 2024 年 5 月的 I/O 大會上首次對外發布的 AI 助手，彼時主要是對標 OpenAI 的 GPT-4o，其主要功能包括即時語音和視覺處理，能夠透過手機或 Google 眼鏡進行跨文字、音訊、視訊之間的多模態即時推理‌。谷歌將其稱為“使用多模態理解現實世界的智能體”。

對於此次正式發布的 Project Astra‌，Google表示，它能夠流暢地在多種語言和混合語言之間進行對話，並且能夠理解不同口音和生僻單字。此外，借助 Gemini 2.0，Project Astra 可以使用 Google Search、Google Lens 和 Google Maps，從而在日常生活中發揮助手的作用。

谷歌增強了 Project Astra 的記憶能力，這位助手目前可以記住長達 10 分鐘的會話內容，並且可以回憶起過去與它進行的更多對話，能提供個人化服務。

在先前 I/O 大會上的演示中，在詢問 Project Astra 時，其語音回复還有一定的延遲，谷歌這次改進了這一點，博客提及，借助新的流式處理技術和原生音頻理解能力，該智能體能夠以接近人類對話的延遲來理解語言。

「AI智能體在現實中的應用是一個令人振奮且充滿可能性的研究領域。」谷歌稱，團隊正在探索這個全新的領域，並開發了一系列原型，幫助人們完成任務。除了 Project Astra 的升級版，這次谷歌發布的智能體還包括：完成複雜任務的智能體 Project Mariner，能夠幫助開發者的編碼智能體Jules，以及遊戲和其他領域的智能體。

Project Mariner 是使用 Gemini 2.0 建立的早期研究原型，可以從瀏覽器開始探索人機交互，它能夠理解和推理瀏覽器頁面中的信息，包括像素和文字、程式碼、圖像和表單等網頁元素，然後透過Chrome 擴充功能使用這些資訊為使用者完成任務。

在 WebVoyager 基準測試中，Project Mariner 作為單一智能體設定實現了 83.5% 的工作效率，達到了先進的水平。但Google提到，Project Mariner 目前的運作並非總是準確，且完成任務的速度較慢，仍處於早期階段。

谷歌也在部落格最後介紹了遊戲和其他領域的智能體。就在不久前，谷歌也推出了世界基礎模型 Genie 2，這是一個可以從單一圖像創建無限3D 世界的 AI 模型。基於此，Google使用 Gemini 2.0 建立了智能體，可以幫助使用者在電子遊戲中做出更好的決策。谷歌稱，這些遊戲智能體可以根據螢幕上的即時畫面，分析遊戲狀況，並提供用戶下一步的行動建議。

除了探索虛擬世界的智能體能力外，Google還將 Gemini 2.0 的空間推理能力應用於機器人領域，嘗試讓智能體在現實世界中提供幫助。這項研究仍處於初期階段，但Google認為智能體在現實環境中的應用前景非常廣闊。

雖然 AI Agent 的概念很新，但市場上已經出現一些早期的服務和應用。以下是一些例子，涵蓋了不同領域和功能：

面向企業 (B2B)

Salesforce Agent Force：全球 CRM 龍頭 Salesforce 推出的 AI Agent 平台，可自動化客服、營銷和銷售流程，無需額外提示即可進行規劃和推理。
Workday Illuminate：全球 HRM 龍頭 Workday 推出的 AI 解決方案，內含針對招募、費用報銷、人才繼承和業務流程優化的 AI Agent。
Microsoft Copilot：整合在 Microsoft 365 中的 AI 助手，可以幫助用戶撰寫文件、製作簡報、管理郵件和日曆等。雖然 Copilot 目前功能較基礎，但它展現了 AI Agent 在辦公室場景的應用潛力。

面向消費者 (B2C)

個人化 AI 助手：一些新創公司正在開發個人化 AI 助手，例如 Adept 和 Inflection AI。這些 AI 助手可以根據用戶的個人需求和習慣，提供更具針對性的服務，例如行程安排、資訊蒐集、甚至是情感支持。
AI 驅動的遊戲角色：一些遊戲公司開始嘗試使用 AI Agent 來控制遊戲中的 NPC (非玩家角色)，讓遊戲體驗更具互動性和真實感。
智能家居控制：一些智能家居平台開始整合 AI Agent，讓用戶可以用自然語言控制家中的各種設備，例如調整燈光、播放音樂、設定溫度等。

其他領域

AI 投資顧問：一些金融科技公司正在開發 AI 投資顧問，可以根據用戶的風險偏好和財務狀況，提供個人化的投資建議。
AI 醫療診斷：一些醫療科技公司正在開發 AI 醫療診斷工具，可以協助醫生診斷疾病、制定治療方案。

需要注意的是，目前市面上的 AI Agent 服務大多還處於早期階段，功能和成熟度還有待提升。隨著 AI 技術的快速發展，預計未來會有更多更強大的 AI Agent 服務出現，並滲透到各個領域，改變我們的生活和工作方式。

AI Agent 的發展前景非常廣闊，它就像網路或智慧型手機的早期階段一樣，充滿了可能性。以下是幾個 AI Agent 未來可能的發展方向：

1. 更強大的自主性和推理能力

未來的 AI Agent 將擁有更強大的自主學習和決策能力，能夠根據複雜多變的環境，自主調整行動策略，甚至預測未來事件，提前採取應對措施。
AI Agent 的推理能力也將大幅提升，可以理解更複雜的指令、處理更抽象的概念，甚至進行創造性思考，例如撰寫小說、創作音樂等。

2. 更自然的互動方式

AI Agent 將能夠以更自然、更人性化的方式與人類互動，例如透過語音、表情、肢體語言等多模態互動。
AI Agent 也將更善解人意，能夠理解人類的情緒和意圖，並做出適當的回應。

3. 更廣泛的應用場景

AI Agent 將被應用到更多領域，例如醫療保健、教育、金融、法律等，為人類提供更便捷、更智能的服務。
AI Agent 也將深入到我們的日常生活中，例如成為我們的個人助理、家庭管家、甚至是朋友。

4. 更安全的保障機制

隨著 AI Agent 的能力越來越強大，人們也越來越關注其安全性問題。未來的 AI Agent 將配備更完善的安全保障機制，例如可解釋性、可控性、公平性等，以確保 AI Agent 的行為符合人類的價值觀和道德規範。

一些具體的發展趨勢

多模態 AI Agent: 整合文字、語音、影像等多種資訊，提供更豐富的互動體驗。
個人化 AI Agent: 根據用戶的個人需求和習慣，提供定制化的服務。
情感 AI Agent: 能夠理解和回應人類的情感，提供情感支持和陪伴。
群體 AI Agent: 多個 AI Agent 協同合作，完成更複雜的任務。
Web3 和 AI Agent 的結合: AI Agent 將在去中心化的網路環境中運行，例如區塊鏈，為用戶提供更安全、更私密的服務。

[2025.1.17 更新] Gemini Advanced 的新功能「Deep Research」

Gemini Advanced的新功能「Deep Research」，是一項利用AI來研究複雜主題，並將調查結果彙整成全面且易懂的報告的功能。谷歌表示，這項功能可以大幅縮短以往用於研究的時間，讓使用者更有效地利用時間。Deep Research 是一個比傳統生成式 AI 更強大的功能，它不只是從現有的資料庫中提取答案，而是會主動搜尋、分析和整理資訊，最後生成一份報告。

舉例來說，假設你是一位正在考慮申請MBA留學的在職人士，你希望調查可以在一年課程期間兼顧工作與學業，申請流程相對容易且可申請獎學金的學校，並從中找出適合自己的課程。像這樣的調查和資訊收集，通常需要打開大量分頁，一邊尋找連結，一邊比較資訊，可能需要花費數小時才能完成。而現在，只需一個簡單的提示，Deep Research就能為你創建研究計畫，只要你核准計畫，它就會為你整理出研究報告。

當你向Deep Research提出關於日本電視出貨量趨勢的報告請求時，它會創建一個「研究計畫」。你核准後，它就會開始製作報告。

Deep Research會根據你的指示，代替你執行繁瑣的研究工作。輸入提示後，它會創建一個包含多個步驟的研究計畫，你可以根據需要進行修改或直接核准。核准後，它會開始從整個網路收集相關資訊，並進行深入分析。

它會在幾分鐘內搜尋網路上的資訊，找出有趣的資訊，並根據獲得的見解，重複執行新的搜尋。它會根據主要的調查結果，生成一份全面的報告。這份報告也可以匯出到Google文件中。

報告會整理並附上來源連結，方便你訪問相關的網站、公司和組織，進一步深入了解。如果對Gemini有後續問題或想改進報告，只需繼續提問即可。

Google的構想是在其產品中整合更多代理功能，而Deep Research是Gemini在實現這個構想中的第一個功能。

Deep Research可在桌面和行動網頁版的 Gemini Advanced 上使用，並預計在2025年上半年推出行動應用程式。使用者可以透過將模型下拉選單切換至「Gemini 1.5 Pro with Deep Research」來使用此功能。

Deep Research 功能特色：

主動搜尋資訊：根據你的問題，Deep Research 會判斷需要參考哪些資料，並主動搜尋相關資訊。
分析和整理資訊：Deep Research 會分析搜尋到的資訊，並整理成一份報告。
產生報告：Deep Research 會生成一份詳細的報告，其中包括相關資訊的摘要、分析和結論。

Deep Research 的優勢：

更準確的答案：Deep Research 不僅參考 Gemini 的訓練數據，還會主動搜尋更多資訊，因此可以提供更準確的答案。
更深入的分析：Deep Research 會分析和整理搜尋到的資訊，因此可以提供更深入的分析。
更易於理解的報告：Deep Research 會生成一份詳細的報告，其中包括相關資訊的摘要、分析和結論，因此更容易理解。

如何使用 Deep Research：

你需要訂閱 Gemini Advanced 方案才能使用 Deep Research 功能。
在 Gemini Advanced 中，選擇 "1.5 Pro with DEEP Research" 模型。
輸入你的問題，然後點擊 "Research" 按鈕。Deep Research 會開始搜尋、分析和整理資訊，最後生成一份報告。

Deep Research 的應用場景：

市場調查：Deep Research 可以用於調查市場規模、用戶屬性、產品趨勢等。
最新趨勢分析：Deep Research 可以用於分析各個領域的最新趨勢，例如電競、遊戲市場等。
影片內容企劃：Deep Research 可以用於分析 YouTube 影片的趨勢，例如 Google Workspace 的教學影片。
論文寫作：Deep Research 可以用於搜尋和整理論文寫作所需的資料。

我簡單測試了一下，詢問 Gemini 什麼是「鏡像生命」，其效果如下：

個人覺得這個功能在我需要從網路上瀏覽大量資料，過濾資訊並彙整成一份報告時，真的是非常實用！這是 Gemini 根據研究結果生成的報告範例