; ;

### 無人機追蹤人臉以手控完成飛控任務

#### (一) 摘要

本研究旨在建立無人機追蹤人臉的系統，使用 MediaPipe（這是一個超快的人臉檢測解決方案，具備6個地標和多面性支持，基於 BlazeFace）來測量人臉和手的3D角度。研究的目的是利用手部動作來控制無人機追蹤人臉，並完成飛行控制任務。將從 MediaPipe 測試中獲得的540多個地標進行預處理，提取人臉的位置或角度，並利用手的運動角度來決定相應的動作，這包括使用長短時記憶（LSTM）網絡。LSTM 是一種遞歸神經網絡，特別適合處理連續數據，如時間序列數據或視頻流。

首先，MediaPipe 利用 BlazePose 的姿勢檢測器和後續的地標模型來估計人類的姿勢。然後，根據推斷出的姿勢地標，我們為每隻手（2x）和臉部得出三個興趣區域（ROI）的裁剪，並採用重新裁剪模型來改善 ROI。接著，我們將全分辨率的輸入幀裁剪到這些 ROI，並應用特定任務的臉部和手部模型來估計其相應的地標。最後，我們將所有的地標與姿勢模型的地標合併，得到完整的540多個地標。

數據收集和標記將使用 MediaPipe、scikit-learn 和 TensorFlow 模塊，並使用 Python 編程語言。然後用 MIN_DETECTION_CONFIDENCE 和 MIN_TRACKING_CONFIDENCE 來驗證採集數據規則的準確性。希望在這個研究項目中構建的系統不會隨意檢測，並能夠達到平衡的結果。

#### (二) 研究動機與研究問題

無人機技術已經被國防組織和精通技術的消費者使用了相當長的一段時間，但其好處遠遠超出了這些部門。隨著無人機的普及，商業領域內許多最危險和高薪的工作已經成熟，可以被無人機技術取代。2020年，全球新興的使用無人機的商業服務市場價值超過1270億美元，隨著越來越多的公司希望利用這些商業機會，對無人機領域的投資已經增長。

無人機或無人駕駛飛機通過計算機視覺、人工智能、避物技術等技術組合進行操作。各公司正在利用無人機技術為各行業提供商業用途。

1A. **防務**：軍用無人機已經使用了十多年，但更小的便攜式無人機現在正被地面部隊經常使用。自2014年以來，美國在無人機技術上的軍費開支已經從每年40億美元增加到90億美元，95個國家已經擁有某種形式的軍用無人機技術。

1B. **應急反應**：照相機技術的創新使無人機能夠用於應急響應，如路虎的 Project Hero 和大疆的應急響應項目。初創公司和大學也在設計用於搜索和救援的系統，如 Flyability 的耐碰撞無人機和代爾夫特理工大學的救護車無人機。

1C. **人道主義援助與救災**：無人機在自然災害期間被用來評估損失，找到受害者，並提供援助。2017年，無人機被用來幫助恢復被哈維颶風破壞的地區的電力，調查洪水地區的損失，並協助搜索和救援工作。

1D. **安全性**：保安公司正在使用無人機為工業、商業和住宅物業提供更全面的監控系統。

1E. **健身運動**：無人機可以在用戶鍛煉時跟踪他們，並收集他們鍛煉的視頻數據，從而增強數字教練的體驗。

MediaPipe 已經擴展到包括 MediaPipe Tasks、Model Maker 和 Studio，可用於執行常見的機器學習任務，如圖像分類和物體檢測。這些解決方案適用於多個平台，包括安卓、網絡和 Python，並具有較低的延遲、用戶隱私和即時使用的優勢。

#### (三) 文獻回顧與探討

無人機作為監視特定環境的手段正變得越來越流行，為了了解不同領域所採用的無人機的技術狀況，已經進行了研究。遙控飛行器可用於保護、監視和救援，因此有必要研究如何識別其類型和意圖。

由於無人機具有成本和時間效率高的特點，在軍事和商業領域越來越受歡迎。為了開發一個監控系統，必須實現認知物聯網，以溝通和分享信息。與無人機識別和跟踪移動物體的能力有關的一個研究問題是識別和跟踪之間的延遲。

許多作者提出了各種圖像處理和機器學習技術用於手語識別。這裡討論了其中一些相關的工作。手勢識別的研究仍然是一個活躍的研究領域，需要新的方法來有效地利用不同的和新的計算機視覺算法。⁷

### MediaPipe 概述

MediaPipe 是一個由谷歌開發的開源庫，為構建和部署機器學習模型提供了一個靈活而強大的框架，適用於廣泛的應用，如實時視頻分析、人機交互和增強現實。MediaPipe 被設計為跨平台、多設備和多傳感器，這意味著它可以處理大量的數據，並可以部署在廣泛的設備和平台上。

近年來，一些研究人員利用 MediaPipe 為各種應用開發了多模態機器學習解決方案，如：

- **計算機視覺**：MediaPipe 已被用於開發物體檢測、語義分割和面部地標檢測等解決方案。研究人員還使用 MediaPipe 來開發視頻中的物體追蹤和實時圖像增強的解決方案。

- **人機互動**：MediaPipe 已被用於開發手和手勢跟踪、面部表情識別和人體姿勢估計等解決方案。

- **音頻處理**：MediaPipe 已被用於開發語音識別、揚聲器識別和音頻事件檢測等解決方案。

- **擴增現實**：MediaPipe 已被用於開發實時3D物體追蹤、無標記追蹤和手勢追蹤等解決方案。

總的來說，文獻表明，MediaPipe 是一個強大而靈活的框架，用於建立和部署機器學習模型，以進行多模態數據處理。它為構建、測試和部署機器學習解決方案提供了一個通用的基礎設施，這使得實驗新想法和與他人分享模型和解決方案變得容易。此外，MediaPipe 的可擴展性和跨平台能力使其適用於大規模的真實世界應用。

#### (一) 研究方法及步驟

**一. 研究方法**

此研究整體示意圖如下面，詳細步驟將參考以下說明：

A. **無人機**

- **圖像處理**：圖像處理方法將產生一個四旋翼飛機的路徑規劃輸出。運動的路徑規劃過程包括幾個階段，如預處理、分組和決策。這個階段包括過濾、特徵檢測和光流。特徵檢測方法將定義和跟踪圖像的重要點，如角落和邊緣。根據 Shi 和 Tomasi 的特徵檢測方法優於其他三種方法，基於檢測範圍和包含檢測到的目標的幀的比率。本文中使用的特徵檢測方法是 Shi-Tomasi 方法。⁹

Shi-Tomasi 方法使用一個最小的 R 值作為角和邊緣質量水平的門檻值。特徵值 λ1 和 λ2 代表橢圓的雙向軸值，通過這些值來確定角的存在。接下來，通過兩幀的特徵比較，光流方法被用於物體追蹤。第一幀中發現的特徵與第二幀中發現的相同特徵進行比較。該向量是由一個物體在特定像素（特徵）上的位置從一幀中的一個點移動到另一幀中的不同點而得到的，這就是所謂的物體的光流。在這裡，作者使用 Lukas-Kanade 方法作為光流的指導。⁹

兩幀圖像的梯度的 h 值是該區域的光流矢量。Lucas-Kanade 方法使我們能夠從目標點產生某些環境的異常運動。然而，這種方法的缺點是如果在搜索區域內有大量未被發現的運動，則可能會影響結果。為了解決這個問題，該方法通過將 LK 算法發展成金字塔形狀來改進。這個過程涉及不同分辨率的圖片，從金字塔的最高位置（低分辨率）開始，逐漸移動到金字塔的最低位置（高分辨率）。

從預處理階段開始，我們進入分組階段，現有的特徵將被分組。這是通過尋找每個特徵的平均值來進行分組，並將畫面分割成四個不同的象限。決策階段是控制無人機移動到沒有障礙物的象限。

**PID 控制器**：超聲波傳感器被用作無人機的附加功能，幫助無人機確定障礙物的存在與否。其原理是檢測超聲波從發射器到接收器所需的時間。要從超聲波傳感器中檢測到障礙物，取決於許多因素，如障礙物表面的方向、反射率、曲率等，以及用於檢測回波的閾值。

**決策制定**：帶有圖像處理和超聲波傳感器的相機規格，集成到一個基於從兩個傳感器獲得的信息的決策系統。決策算法使用兩個傳感器作為參考，避開障礙物的本質是如何快速地讓傳感器識別出無人機前方的障礙物。

在下面的流程圖中，有一個程序決策流程，說明了在某些情況下圖像處理和超聲波傳感器之間的聯繫和關係。決策算法的第一步是由攝像機進行障礙物檢測，超聲波傳感器計算出無人機前方的距離。我們將無人機靠近障礙物的最小距離設定為50厘米。

該程序分為幾個條件，在躲避障礙物的過程中可以在流程圖中看到。如果圖像處理檢測到一個障礙物，程序會識別距離是否為50厘米或更少。如果距離大於50厘米，那麼圖像處理的信息將被用作避障無人機的參考；但如果距離小於50厘米，則以超聲波的參考距離作為避障無人機的參考。

在其他情況下，如果圖像處理不能檢測到障礙物，則會分為兩種情況。如果超聲波傳感器讀取的距離仍在50厘米以上，則將以超聲波作為無人機避讓的參考，障礙物檢測過程仍在進行中。但如果障礙物仍未被探測到，但超聲波傳感器上的距離低於50厘米，那麼無人機就會利用這一信息來躲避障礙物。⁹

A. Mediapipe

MediaPipe 是一個跨平台的框架，用於建立和部署多模態（如視覺、音頻、文本）機器學習模型。它提供了一套可重複使用的組件，用於建立處理多媒體數據的端到端管道，如視頻流和圖像。MediaPipe 可用於廣泛的應用，包括物體檢測和跟踪、面部地標和手勢識別，以及手和身體姿勢的估計。

長短時記憶（LSTM）網絡是一種循環神經網絡（RNN），被設計用來處理連續的數據。LSTM 單元的基本結構包括四個主要部分：

- **輸入門**：它控制允許流入細胞狀態的信息量。

- **遺忘門**：它控制從上個單元狀態中被丟棄的信息量。

- **輸出門**：它控制流出單元並進入輸出的信息量。

- **單元狀態**：它是一個存儲單元，存儲流經 LSTM 單元的信息。

輸入、遺忘和輸出門由可學習的權重和偏置控制，細胞狀態由以下公式更新：

LSTM 單元的輸出計算如下：

一個 LSTM 網絡通常由多個 LSTM 單元組成，這些單元以特定的順序連接，如線性或分層結構。LSTM 單元共享同一組參數，信息按順序流經網絡。

### 一. 研究步驟

無人機研究可能包括以下步驟：

- **問題定義**：明確定義你想通過無人機研究解決的問題或研究問題。這將指導你其餘的研究過程。

- **文獻回顧**：對該主題的現有研究進行徹底審查，包括理論和實踐研究。這將幫助你了解該領域的狀況，並確定你的研究可以解決的任何知識差距。

- **設計和開發**：為你的無人機開發一個設計，以滿足你的研究項目的要求。這可能涉及選擇和配置硬件組件，開發算法，以及整合各種軟件系統。

- **測試和評估**：進行測試和實驗，以評估你的無人機的性能。這可能涉及到飛行測試、數據收集和結果分析。

- **數據分析**：分析測試和實驗期間收集的數據，以確定你的無人機在解決研究問題方面的有效性。

- **結果展示**：以簡明扼要的方式展示你的結果，包括書面報告和視覺表現，如圖表和表格。

- **結論和未來工作**：總結你的發現和結論，並提出該領域未來工作的潛在途徑。

### MediaPipe 的研究方法通常包括以下步驟：

- **界定問題並確定管道的預期輸出**。

- **收集和註釋一個多媒體數據集，以訓練和測試管道**。

- **為管道選擇和配置適當的組件，如預處理步驟和機器學習模型**。

- **使用數據集對管道進行訓練和微調**。

- **在測試集上評估管道的性能，並在必要時反復進行改進**。

- **在生產環境中部署管道並監測其性能**。

- **通過納入新的數據、模型和技術，不斷改進管道**。

### 參考文獻

1. “38 Ways Drones Will Impact Society: From Fighting War To Forecasting Weather, UAVs Change Everything” ,https://www.cbinsights.com/research/drone-impact-society-uav

2. “Introduction to mediapipe”,

https://blog.tensorflow.org/2023/02/get-inspired-in-2023-with-new-machine-learning-solutions-for-web-developers-mediapipe.html

3. https://www.quora.com/What-are-the-advantages-of-LSTM-in-general

4. “LSTM-based Traffic Gesture Recognition using MediaPipe Pose”，https://ieeexplore.ieee.org/document/9977857

5. “Literature Review on Drones Used in the Surveillance Field”, https://www.iaeng.org/publication/IMECS2021/IMECS2021_pp178-183.pdf

6. “Mediapipe Holistic”， https://google.github.io/mediapipe/solutions/holistic

7. “American Sign Language Recognition for Alphabets Using MediaPipe and LSTM”, https://reader.elsevier.com/reader/sd/pii/S1877050922021378?token=9F2E46CC4D6DCF7F88E364D1B254FDF9E0729799B779F035818C63F9ACED7D42A166A7E63183E9C74E8BFA2624A32218&originRegion=us-east-1&originCreation=20230209124716

8. https://www.researchgate.net/figure/Flowchart-of-drone-work-process_fig2_325039849

9. “Automatic Quadcopter Control Avoiding Obstacle Using Camera with Integrated Ultrasonic Sensor”，Automatic_Quadcopter_Control_Avoiding_Obstacle_Usi.pdf

10. “introduction to LSTM Units in RNN”, https://www.pluralsight.com/guides/introduction-to-lstm-units-in-rnn