陳奕安
理工學院
資訊工程學系
本次畢業專題「結合自然語言理解與視覺辨識之智能機器手臂控制系統」,對我而言是一段充滿挑戰、挫折與成長的學習歷程,也是大學生涯中最具代表性的一次專題實作經驗。從最初的構想發想到最終成果展示,整個過程不僅考驗技術能力,更磨練了問題解決、系統整合與團隊合作等綜合能力,讓我深刻體會到理論與實務之間的落差,以及將知識真正落地所需付出的努力。
在專題初期,我們希望突破傳統機器手臂只能透過程式碼或按鍵操作的限制,嘗試導入自然語言理解與電腦視覺技術,讓使用者能以直覺的方式下達指令,達成「聽得懂人話、看得懂環境、做得出動作」的智慧化操作目標。然而,這樣的構想在實際實作中面臨許多困難,從語音辨識的準確度、語意解析的穩定性,到影像辨識與座標轉換的精度,每一個環節都可能影響整體系統的成功與否。
在系統架構方面,我們選擇以 ROS 作為整合平台,將語音輸入、LLM 語意解析、YOLO 物件偵測、Aruco 定位、行為樹決策與機器手臂控制等模組串接起來。這樣的模組化設計雖然提高了系統的彈性與可擴充性,但同時也增加了整合與除錯的難度。在實作過程中,我們經常遇到節點間資料格式不一致、Topic 延遲、座標轉換錯誤等問題,導致機器手臂動作不穩定,甚至出現偏移或誤抓的情況。這些經驗讓我深刻體會到,真正困難的往往不是單一技術本身,而是如何讓多個系統在同一時間正確協作。
在電腦視覺部分,YOLOv8 OBB 的訓練與資料集建置讓我第一次完整接觸到從資料蒐集到模型訓練的實務流程。我們必須自行拍攝影像、進行標註、資料增強與格式轉換,並反覆調整訓練參數,才能獲得穩定的辨識結果。透過這個過程,我深刻理解到資料品質對模型效能的影響遠比想像中更為關鍵,而 OBB 旋轉框的導入,也讓我意識到在機器手臂應用中,物體的姿態資訊往往與位置同樣重要,這是過去僅停留在課本理論時難以體會的細節。
在自然語言處理與大型語言模型的應用上,這次專題讓我對 LLM 的角色有了更成熟的理解。我們並非單純將 LLM 當作聊天工具,而是透過提示詞設計,將自然語言轉換為結構化的 JSON 指令,再交由行為樹進行任務規劃。這樣的設計不僅提高系統的可控性,也讓我體會到「好的 AI 系統設計,是讓模型成為工具,而不是主宰整個流程」。行為樹的導入,更讓我學會如何將抽象的指令拆解成具體可執行的動作流程,提升系統在面對不確定情境時的穩定性與可維護性。
除了技術層面,團隊合作也是本次專題中非常重要的一環。從需求討論、功能分工到問題排查,我逐漸學會與組員進行有效溝通,並站在系統整體角度思考取捨,而不是只專注於個人負責的模組。當進度受阻或系統反覆失敗時,如何調整心態、重新規劃方向,也是一種寶貴的學習經驗。
最終能在畢業專題成果評選中獲得第二名,對我而言是一種極大的肯定,也是一份對整個專題投入過程的回饋。這不僅代表作品在技術與整體完成度上獲得認可,也證明跨領域整合與智慧互動的研究方向具有實際價值與發展潛力。更重要的是,這次經驗讓我對未來的學習與職涯方向更加明確,期望能持續在人工智慧、機器人與智慧系統整合相關領域深耕。