Google 在去年 12 月發布過一段 Gemini 技術演示影片,但後來被開發者質疑影片中該模型的能力是虛構、經過剪輯的,使它看起來比實際更快、更即時且更有能力。
後來 Google 坦承該影片並非真實呈現,而是進行過一些微調,比如降低延遲,並且操作的過程也不是即時或語音進行,而是靠靜態圖像與提示操作。
但 Google 也稱影片中的所有使用者提示和輸出都是真實的,只是簡潔起見而進行了剪輯,該影片是作為展示使用 Gemini 構建的多模態用戶體驗是什麼樣子,這樣做是為了激勵開發人員。
官方展示 Gemini 強大的多模態功能:
The potential of Gemini:這一系列影片展示了 Gemini multimodal AI 在科學、推理、音頻、程式、數學與物理方面的能力。例如在沒有光學字元辨識(OCR)協助下,用戶只要給它一張手寫的數學試卷,Gemini 就能立即批改指出錯誤,還能進一步回答錯誤思維在何處,除了能逐步詳細解題,還能進一步產出相似題型提供練習。
開發人員可以從 Google 的 Github 上面找到各種程式語言的 Gemini AI SDK,裡面都有 sample code 可以參考,像我想自己寫一個 Android 應用程式,來看看 GenAI 對於圖像推理的表現,以及在手機 APP 上的使用體驗如何,那我就可以從這裡下載 Google AI SDK for Android,並執行裡面的 sample code 看我們要如何使用它。
也有人用 Python 寫了可以在電腦上執行的腳本,透過電腦的攝像頭和麥克風來將使用者的語音提示和相機拍攝的畫面,作為輸入讓 Gemini Pro 進行推論,並透過 Text to Speech 將結果讀出來,有興趣的可以參考下面文章。
目前 Android Studio 最新預覽版已經有提供 Gemini API Starter 項目模板,供開發者開始使用適用於 Android 的 Google AI SDK。此外,Google AI Studio 也為開發者提供了一種簡化的方式來集成 Gemini Pro 模型、製作提示、創建 API 金鑰,以及輕鬆將想法轉化為 AI 應用。
Gemini Pro API有下面幾種常見的使用例:
根據純文本輸入生成文本
從文本和圖片輸入生成文本(多模態)
構建多輪對話(聊天)
使用streaming方式傳輸加快互動速度
除了上面第2項以外,其他都是使用 gemini-pro 模型,使用多模態生成文本,必須選擇 gemini-pro-vision 模型,可以同時輸入文本和圖片,送出提示的圖片格式要求,可參考提示資料和設計裡面的內容。在 Google 提供的 sample code 裡面,將圖片大小縮減為 768 像素,用以加快 Gemini AI 推論和生成內容的速度。
發送給 Gemini AI 模型的每個提示都包含用於控制模型如何生成回答的參數值,不同的參數值設定,會使模型生成不同的回答。詳細請參閱模型參數的內容。
以下是一些可以透過 Gemini Pro Vision 提供幫助的視覺回答 (VQA)任務類型應用場景:
擷取影像並要求 Gemini Pro Vision 建立與影像相關的內容,例如針對設計的產品提供文案,或者是根據一些食材照片,提供料理建議,甚至是食譜和做法。
擷取報章雜誌的文章畫面,要求 Gemini Pro Vision 總結其中的重點內容。
要求 Gemini Pro Vision 分析視覺化資料(如線圖、圓餅圖),並根據視覺化提供關鍵見解。
擷取外文的菜單目錄,要求 Gemini Pro Vision 將菜單上的品項名稱翻譯為母語。
過年前,我花了一兩天實作了一個 Android 應用程式,用來測試 Gemini AI 在智慧型手機上的使用體驗。由於我要在同一個 UI 畫面中,同時可以看見相機畫面,並呈現 AI 模型推論後的文字結果,所以我將 Camera View 做成懸浮視窗,並使用 Android 內建的 Speech to Text 來用語音輸入提示(支援多國語言的語音輸入),同時也使用 Text to Speech 來使推論結果除了文字呈現外也能用語音讀出來。
我將模型的 Temperature 設置為 0.9,並且由於是直接拿兩年多前開發的 Android 相機應用來添加 Gemini Pro API,所以實作中並沒有用到 Gemini API Starter 項目模板,而是在現有的 Android 專案進行開發。
簡單用過 Gemini Pro 之後,我認為雖然目前多模態 AI 可能還不算非常成熟、聰明、即時,但是隨著軟體、硬體技術的發展,相信不久的將來,我們就會看到各種 AI 應用場景落地生根,甚至是完全進入生活中的各個領域,一切都會變得理所當然,甚至讓你感受不到 AI 技術的存在(畢竟 AI 本來就是複雜系統下的自然產物罷了)。正如 N 年前我看過推特創辦人說過的一句話:最厲害的技術,就是讓使用者完全察覺不到技術的存在。
高遶溪古圳步道 位於桃園市復興區長興里,是羅馬公路途中,一個散步的好去處,它也是一條結合自然生態與文化歷史的步道。 去年有來走過一次 ,當時還沒有第二期步道,慢慢走大約半小時就到終點了,距離太短有點無趣。不過步道的第二期步道工程已於2025年完工,現在步道全長2.6公里,沿著高遶溪而建,早期為泰雅族人的狩獵古道,現在修繕後供遊客休閒使用,來走一趟步道,可以體驗當地的自然風光與人文特色。 高遶溪古圳步道的起點在天空咖啡旁(有消費的話可以停車,不過再往前走一點也有停車處),這條步道沿途景色優美,可以欣賞溪流、竹林等自然景觀,春天也能看到一些櫻花,還能享受愜意的森林浴。沿途設有兩座跨河繩橋,長度分別有21公尺和29公尺,增添了步道的趣味性和挑戰性。 這條步道屬於休閒等級,適合全家大小共同前往,單程約3公里左右,慢慢走大需50分鐘即可抵達高遶天空吊橋,小休息後再原路折返。這裡氣候很舒服,因為有茂密的竹林遮蔭,所以即使在夏天來,也不會覺得太熱。走在這樣的步道上,可以放鬆心情,享受大自然的寧靜。 總而言之,高遶溪古圳步道是一處結合自然美景與文化歷史的景點,適合喜愛親近自然的遊客前往探索,如果有行經羅馬公路,不妨順道造訪。 Located in Changxing Village, Fuxing District, Taoyuan City, the Gaorao Creek Ancient Canal Trail is a perfect spot for a leisurely stroll along the Roman Highway. It’s a trail that blends natural ecology with cultural history. I visited it once last year, when the second phase of the trail wasn’t yet completed. Back then, it took only about half an hour to reach the end at a slow pace, which felt a bit too short and uneventful. However, the second phase of the trail was finish...
金面山 ,海拔667公尺,是 桃園小百岳之一 ,為大溪的最高峰,以其多變的地形和挑戰性的路線聞名。因山形尖銳酷似鳥嘴,又名「鳥嘴山」或「鳥嘴尖」,為大溪八景之一「 鳥嘴含煙 」。金面山步道亦是古道,又稱「金山面仔古道」,是昔日三峽五寮前往大溪買賣貨品的一條便道。 金面山步道是一條環狀路線,但也可以原路來回,步行時間約3小時,難度屬於低至中等。步道沿途林相自然,偶有大石、危崖、峭壁,需要拉繩攀爬,野趣十足。在稜線開闊處,視野還可以,可眺望大溪、龍潭、鴻禧山莊、武嶺橋等景觀。山頂路線四通八達,可規劃不同的行走方式,例如環形一圈順登十三分山。此外,每年桐花季時,步道遍地落花,景色相當浪漫。 金面山共有三個主要登山口,均位於通往阮家莊土雞城的道路上(建議從第三登山口進出,第一登山口路徑濕滑、且指示不明顯,下山容易滑倒。): 第一登山口 :位於土雞城前方約1公里處的路旁。 第二登山口 :位於土雞城停車場前。 第三登山口 :位於土雞城後方,經過三個兄弟的店面後即達。 登山口建議導航至「 阮家莊土雞城 」,該地有寬敞的停車場可供登山客使用。需注意,前往土雞城的道路較為狹窄蜿蜒,行車時請小心駕駛。此外,如果下山後想吃山產土雞,必須事先電話預約,當天現點一般來說不會有(今天本想外帶半隻,但三家店都說沒有)。 鄰近山頭: 金山面山: 又名金山,海拔363公尺,有三等三角點1122號,和樟林林界點石柱,由金面山走至金山面山,單程約一小時。 山麻坑山: 海拔339公尺,有磺補2176號基石,在金面山第一登山口附近,登頂只需10分鐘。 交通方式: 開車: 國道1號新竹系統出口下交流道,或國道3號大溪出口下交流道,接台3線往慈湖方向行駛,轉台7線約1.2K處,左轉桃58鄉道,依美華國小指標,再循阮家土雞城指標,續行4.7公里後,抵達金面山第一登山口、金面山第二登山口、金面山第三登山口。 大眾運輸: 桃園客運5097、5099、5107:自「大溪」站搭乘,於「美華國小」站牌下車。再循阮家土雞城指標步行4.7公里,或搭計程車前往登山口。 Jinmian Mountain, with an elevation of 667 meters, is one of Taiwan's Minor One Hundred Peaks and the highest peak in Daxi, ren...