在本文中,我們主要探討兩個主要問題,即在“小型機器”中實現AI的理由,以及開發AI小型機器將面臨哪些挑戰?
未來,在AI方面,我們應該有飛行汽車和機器人管家。甚至還可能遇到有感知能力的機器人決定起來反抗我們。雖然我們還沒有發展到這種程度,但顯然AI技術已經進入了我們的世界。
每次當我們讓智能語音助手做一件事是,ML技術就會先搞明白你說了什么,并試圖對你想讓它做什么做出最好的決定。例如,每次視頻網站或電商平臺向你推薦“你可能喜歡的電影”或“你可能需要的商品”時,它都是基于復雜的ML算法,盡可能地向你提供具有說服力的建議,這顯然比過去的促銷活動更有吸引力。
雖然我們可能不是所有人都有無人駕駛汽車,但我們敏銳地意識到這一領域的發展以及自動導航提供的潛力。
AI技術承載著一個偉大的希望——機器可以根據周圍的世界做出決定,像人類一樣處理信息,甚至以一種優于人類的方式。但如果我們考慮一下上面的例子,就會發現只有“大型機器”才能實現AI的承諾,這些設備往往沒有功率、尺寸或成本的限制。或者換句話說,它們會發熱,有線路供電,體積很大,而且很昂貴。例如,Alexa和Netflix這些全球領先的IT巨頭企業依靠云中的大型耗電服務器(數據中心)來推斷用戶的意圖。
雖然無人駕駛汽車很可能依賴電池,但考慮到這些電池必須轉動車輪和轉向,它們的能量容量是巨大的。與最昂貴的AI決策相比,它們是巨大的能源支出。
因此,盡管AI前景廣闊,但“小機器”卻被拋在了后面。由較小電池供電或具有成本和尺寸限制的設備無法參與機器可以看到和聽到的想法。今天,這些小機器只能利用簡單的AI技術,也許是聽一個關鍵詞,或者從心率分析低維信號,如光電體積描記術(PPG)。
如果小機器能看能聽會怎樣?
但是,小型機器能夠看到和聽到是否有價值?可能很多人很難想象像門鈴攝像頭這樣利用無人駕駛或自然語言處理等技術的小設備。盡管如此,諸如詞匯識別、語音識別和圖像分析之類的不太復雜、處理密集程度較低的AI計算仍然存在機會:
門鈴攝像頭和消費級安全攝像頭通常會觸發一些無趣的事件,例如風引起的植物運動、云引起的劇烈光線變化,甚至是狗或貓在鏡頭前面動等事件。這可能導致錯誤警報觸發,導致房主開始忽略掉一些重要事件。因為,房主可能在世界不同的地方旅行,也可能正在睡覺,而他們的安全攝像機卻對日出、云和日落引起的照明變化頻繁發出警報。而更智能的攝像機則可以更加精準是識別物體變化,如人體的輪廓,進而避免誤報干擾。
門鎖或其他接入點可以使用面部識別甚至語音識別來驗證人員訪問權限,在很多情況下無需鑰匙或IC卡。
許多攝像頭希望在某些事件上觸發:例如,跟蹤攝像頭可能希望在畫面中出現某一種動物時觸發,安全攝像頭可能希望在畫面中出現人或開門或腳步聲等噪音時觸發,并且有些攝像機可能想要通過語音命令觸發等等。
大詞匯量命令在許多應用中都很有用。雖然有很多類似“Hey Alexa”、“Hey Siri”解決方案,但如果開始考慮20個或更多單詞的詞匯,則可以在工業設備、家庭自動化、烹飪用具和許多其他設備中找到用于簡化人機交互的用途。
這些例子只是表面上的。讓小型機器看到、聽到和解決以前需要人工干預的問題的想法是一個強大的想法,我們每天都在繼續尋找創造性的新用例。
讓小型機器能看和聽的挑戰是什么?
那么,如果AI對小型機器如此有價值,為什么我們還沒有廣泛應用呢?答案是計算能力。AI推理是神經網絡模型計算的結果。把神經網絡模型想象成你的大腦如何處理圖片或聲音的一個粗略的近似,把它分解成非常小的片段,然后當這些小片段組合在一起時識別出模式。
現代視覺問題的主力模型是卷積神經網絡(CNN)。這些模型在圖像分析方面非常出色,在音頻分析中也非常有用。挑戰在于此類模型需要數百萬或數十億次數學計算。傳統上,這些應用很難選擇實施:
使用廉價且低功耗的微控制器解決方案。雖然平均功耗可能很低,但CNN可能需要幾秒鐘的時間來計算,這意味著AI推理不是實時的,因此會消耗大量電池電量。
購買可以在所需延遲內完成這些數學運算的昂貴且高性能的處理器。這些處理器通常很大,需要大量外部組件,包括散熱器或類似的冷卻組件。但是,它們執行AI推理的速度非常快。
無法實施。低功耗微控制器解決方案將太慢而無法使用,而高性能處理器方法將打破成本、尺寸和功率預算。
我們需要的是一種嵌入式的AI解決方案,從頭開始構建,以最大限度地減少CNN計算的能源消耗。與傳統的微控制器或處理器解決方案相比,AI推斷需要在一個數量級上執行,并且不需要內存等外部組件的幫助,這些外部組件會消耗能量、體積和成本。
如果AI推理解決方案可以消除機器視覺的能量損失,那么即使是最小的設備也可以看到并識別周圍世界發生的事情。
幸運的是,我們正處于這場“小機器”革命的開端。現在的產品幾乎可以消除AI推斷的能源成本,并實現電池驅動的機器視覺。例如,一個微控制器可用于執行AI推理,同時僅消耗微焦耳的能量。