2026智慧創新大賞

發佈日期:2026-03-07

陳奕安

理工學院

資訊工程學系

回顧這次參與「2026智慧創新大賞」的歷程,從最初的構想到最終系統順利運行,對我而言是一段充滿挑戰與啟發的學習旅程。我們的參賽作品為「結合自然語言理解與視覺辨識之智能機器手臂控制系統」。在工業4.0與工業5.0所推動的智慧製造趨勢下,自動化設備的導入已成為產業發展的重要方向。然而,傳統機器手臂的操作方式往往需要專業工程師撰寫控制程式,或透過複雜的操作介面進行設定,對於沒有技術背景的使用者而言,學習門檻相當高。因此,我們希望打造一套更直覺、更人性化的操作系統,讓機器手臂能「聽得懂人話、看得懂環境、做得出動作」,使用者只需要以自然語言下達指令,系統便能結合語意理解與視覺辨識,自動完成任務。

在實現這個目標的過程中,首先面臨的挑戰是自然語言的解析與本地化運算。我們在邊緣運算平台 Apple Mac mini(M4,32GB Unified Memory)上部署大型語言模型 Llama 8B,以及語音辨識模型 Whisper Large-v3。使用者只需要透過麥克風說出像「幫我拿起右邊的紅色方塊」這樣自然的語音指令,系統便能將語音轉換為文字並進行語意解析,再將抽象的語言轉換成具體的任務流程。選擇在本地端運行模型,不僅能確保資料隱私,也能提升即時反應速度。然而,在有限的硬體資源下讓模型穩定運作,也考驗著我們在運算效率與系統架構上的最佳化能力。當看到機器能順利理解人類語言並轉化為實際操作指令時,讓我深刻體會到人工智慧與機器控制結合的巨大潛力。

除了語言理解外,系統也必須具備良好的環境感知能力。我們採用 Eye-to-Hand 的視覺架構,利用 Logitech C310 WebCam 從外部持續觀測整個作業區域。為了確保影像辨識的準確度,我們在架設攝影機時反覆調整鏡頭角度與光線條件,使整個工作區域都能被清楚辨識。在影像辨識部分,我們導入 YOLOv8 OBB(Oriented Bounding Box)模型,並透過 Roboflow 平台建立資料集並進行影像標註與資料增強。與傳統只能輸出水平邊界框的辨識方式不同,YOLOv8 OBB 能夠同時輸出物體的中心座標、尺寸與旋轉角度,使系統在辨識傾斜物體時仍能保持高精度。

為了將影像中的平面座標轉換為機器手臂可理解的三維空間座標,我們在桌面四個角落放置 ArUco 標記,建立工作區的參考座標系,並透過 OpenCV 進行攝影機姿態估計與座標轉換。這個過程結合了線性代數中的矩陣運算與空間投影概念,將理論知識應用於實際問題。經過校正後,機器手臂能準確定位物體的位置與方向,即使物體傾斜擺放,夾爪也能調整姿態順利完成抓取。

在系統控制架構方面,我們採用 ROS Noetic 作為核心平台,並運行於 Ubuntu 20.04 作業系統上。透過 Python 撰寫控制節點,各模組之間利用 Topic、Service 與 Action 進行訊息交換,使整體系統具備良好的模組化與擴展性。與傳統機器手臂常使用的有限狀態機(FSM)不同,我們將語言模型解析出的意圖轉換為 JSON 結構,並利用 py_trees_ros 動態生成「行為樹(Behavior Tree)」。行為樹能根據環境回饋即時調整執行路徑,使系統在任務失敗時能嘗試替代策略,而不會直接停止運作。這種設計不僅提升了系統的穩定性,也讓未來新增功能變得更加容易。

此外,我們也使用 Flask 開發了一個可視化的網頁操作介面。透過這個介面,使用者可以即時觀看攝影機畫面與物件辨識結果,並透過語音或文字輸入指令。系統也會顯示目前行為樹的執行狀態,讓整個決策過程變得清楚且透明,使非技術使用者也能輕鬆操作。

透過這次參賽,我深刻體會到科技創新的價值在於解決實際問題。我們的系統透過語言與視覺的整合,大幅降低了機器手臂的操作門檻,未來在智慧倉儲、物流自動化等領域具有高度應用潛力。例如在倉儲環境中,系統可以自動辨識貨物並完成搬運,減少人工操作成本。另一方面,在居家輔助與照護領域中,若能讓長者或行動不便者透過語音指揮機器手臂拿取物品,將能大幅提升生活便利性。