國立臺南大學電子歷程陳奕安的文章分享-2026智慧創新大賞

國立臺南大學電子歷程

【學習策略講座】請用Google Chrome觀看。

2026智慧創新大賞

[生輔組]114(2)參加校內外各項競賽及發表-學習心得分享(高教公共性)>2026智慧創新大賞

發佈日期：2026-03-07

陳奕安

理工學院

資訊工程學系

回顧這次參與「2026智慧創新大賞」的歷程，從最初的構想到最終系統順利運行，對我而言是一段充滿挑戰與啟發的學習旅程。我們的參賽作品為「結合自然語言理解與視覺辨識之智能機器手臂控制系統」。在工業4.0與工業5.0所推動的智慧製造趨勢下，自動化設備的導入已成為產業發展的重要方向。然而，傳統機器手臂的操作方式往往需要專業工程師撰寫控制程式，或透過複雜的操作介面進行設定，對於沒有技術背景的使用者而言，學習門檻相當高。因此，我們希望打造一套更直覺、更人性化的操作系統，讓機器手臂能「聽得懂人話、看得懂環境、做得出動作」，使用者只需要以自然語言下達指令，系統便能結合語意理解與視覺辨識，自動完成任務。

在實現這個目標的過程中，首先面臨的挑戰是自然語言的解析與本地化運算。我們在邊緣運算平台 Apple Mac mini（M4，32GB Unified Memory）上部署大型語言模型 Llama 8B，以及語音辨識模型 Whisper Large-v3。使用者只需要透過麥克風說出像「幫我拿起右邊的紅色方塊」這樣自然的語音指令，系統便能將語音轉換為文字並進行語意解析，再將抽象的語言轉換成具體的任務流程。選擇在本地端運行模型，不僅能確保資料隱私，也能提升即時反應速度。然而，在有限的硬體資源下讓模型穩定運作，也考驗著我們在運算效率與系統架構上的最佳化能力。當看到機器能順利理解人類語言並轉化為實際操作指令時，讓我深刻體會到人工智慧與機器控制結合的巨大潛力。

除了語言理解外，系統也必須具備良好的環境感知能力。我們採用 Eye-to-Hand 的視覺架構，利用 Logitech C310 WebCam 從外部持續觀測整個作業區域。為了確保影像辨識的準確度，我們在架設攝影機時反覆調整鏡頭角度與光線條件，使整個工作區域都能被清楚辨識。在影像辨識部分，我們導入 YOLOv8 OBB（Oriented Bounding Box）模型，並透過 Roboflow 平台建立資料集並進行影像標註與資料增強。與傳統只能輸出水平邊界框的辨識方式不同，YOLOv8 OBB 能夠同時輸出物體的中心座標、尺寸與旋轉角度，使系統在辨識傾斜物體時仍能保持高精度。

為了將影像中的平面座標轉換為機器手臂可理解的三維空間座標，我們在桌面四個角落放置 ArUco 標記，建立工作區的參考座標系，並透過 OpenCV 進行攝影機姿態估計與座標轉換。這個過程結合了線性代數中的矩陣運算與空間投影概念，將理論知識應用於實際問題。經過校正後，機器手臂能準確定位物體的位置與方向，即使物體傾斜擺放，夾爪也能調整姿態順利完成抓取。

在系統控制架構方面，我們採用 ROS Noetic 作為核心平台，並運行於 Ubuntu 20.04 作業系統上。透過 Python 撰寫控制節點，各模組之間利用 Topic、Service 與 Action 進行訊息交換，使整體系統具備良好的模組化與擴展性。與傳統機器手臂常使用的有限狀態機（FSM）不同，我們將語言模型解析出的意圖轉換為 JSON 結構，並利用 py_trees_ros 動態生成「行為樹（Behavior Tree）」。行為樹能根據環境回饋即時調整執行路徑，使系統在任務失敗時能嘗試替代策略，而不會直接停止運作。這種設計不僅提升了系統的穩定性，也讓未來新增功能變得更加容易。

此外，我們也使用 Flask 開發了一個可視化的網頁操作介面。透過這個介面，使用者可以即時觀看攝影機畫面與物件辨識結果，並透過語音或文字輸入指令。系統也會顯示目前行為樹的執行狀態，讓整個決策過程變得清楚且透明，使非技術使用者也能輕鬆操作。

透過這次參賽，我深刻體會到科技創新的價值在於解決實際問題。我們的系統透過語言與視覺的整合，大幅降低了機器手臂的操作門檻，未來在智慧倉儲、物流自動化等領域具有高度應用潛力。例如在倉儲環境中，系統可以自動辨識貨物並完成搬運，減少人工操作成本。另一方面，在居家輔助與照護領域中，若能讓長者或行動不便者透過語音指揮機器手臂拿取物品，將能大幅提升生活便利性。

回列表