掌握這項技術，拿到進入元宇宙的門票

·2小時前

關注

計算機視覺在2021年發展如何？在2022年又有哪些技術趨勢值得關注？

回顧剛剛過去的 2021 年，筆者想要總結的最核心的關鍵詞是“進化”。

從商業世界的維度看，我們的社會已經從依賴傳統的碳基能源，逐步進化到汲取数字化能源。從物理世界中，開採數據、粗煉出信息、聚合出智慧，最終提高生產率。

另一方面，我們人類賴以生存的環境近些年也在發生劇烈的變化。2020 年初新冠疫情突然爆發，病毒本身在以極快的速度進化着，相應的疫苗也在飛發著，未來病毒還是會不斷進化變異，病毒的變化與威脅促使很多技術飛快往前發展，一瞬間彷彿人類文明進程被按下了快進鍵，一切魔幻現實主義的事件在我們身邊真實發生。

這彷彿《三體》裏面描述的場景，三體星球常年處於亂紀元或者毀滅的惡劣環境中，但其科技領先地球文明上千年；人類後來被統治之後，理論物理的天花板被鎖死，但各種應用技術突飛猛進，反超了之前的科技水平。這一切的一切無不是進化的力量促使着科技向著更加適應客觀環境的方向發展，而唯一不變的就是變化本身。

站在 2021 年的尾牙，回首過去的一年，筆者總結了在進化的力量下催生的，計算機視覺在工業和學術界值得大家關注的幾點進展：

回顧計算機視覺這一年

具身智能，從被動式 AI 轉向主動式人工智能

具身智能翻譯自英文 embodied AI，字面意思是具有身體的人工智能。此處強調的是智能體（agent）需要與真實世界進行交互，具身智能（embodied AI），強調智能體（agent）要與真實世界進行交互，並通過多模態的交互 — 不僅僅是讓 AI 學習提取視覺上的高維特徵，被“輸入”的認知世界，而是通過“眼耳鼻舌身意”六根來主動獲取物理世界的真實反饋，通過反饋進一步讓智能體學習並使其更“智能”、乃至“進化”。

1986 年，著名的人工智能專家克斯 (Rodney Brooks) 提出：智能是具身化和情境化的，傳統以表徵為核心的經典 AI 進路是錯誤的，而清除表徵的方式就是製造基於行為的機器人。這個理論和 19 世紀 60 年代最早提出的認知智能，也是與“當前主流深度神經網絡的基於大腦是基於神經元連接的複雜系統 – 基於信息的表徵與加工”相悖的。

提到具身智能和進化，就不得不提到李飛飛老師今年提出的一套非常新的計算框架——DERL（deep evolution reinforcement learning）深度進化強化學習。她提到了生物進化論與智能體進化的關係，並借鑒了進化論的理論應用於假設的智能體（unimal 宇宙動物）的進化學習中。

李飛飛首次在文章中證明了鮑德溫效應，即沒有任何基因信息基礎的人類行為方式和習慣（不通過基因突變的有性繁殖進化），經過許多代人的傳播，最終進化為具有基因信息基礎的行為習慣的現象（進化的強化學習）。

並且李飛飛在設計 unimal 過程中也參考了拉馬克的學說，來對智能體穿越不同複雜地形進行訓練，“用進廢退”即生物體的器官經常使用就會變得發達，而不經常使用就會逐漸退化。unimal 通過無性進化限定了三種方式（a. 刪除肢體 b. 調整肢體長度 c. 增加肢體）。

Facebook 進化為 meta，all in 元宇宙

扎克伯格提出雲宇宙需要具備的八要素如下：Presence 開發平台 / 套件、虛擬化身（Avatars）、家庭空間（Home space）、隔空傳輸（Teleporting）、跨平台互操作（Interoperability）、隱私與安全（Privacy and safety）、虛擬商品（Virtual goods）以及自然界面（Natural interfaces）。

其中 Presence 是 meta 為 Oculus VR 頭顯開發者提供的元宇宙基礎開發套件，提供的即為基於計算機視覺和智能語音技術的工具集，分別是 insight sdk、interaction sdk 和 voice sdk。

insight sdk 基於空間錨點和場景理解技術，可以幫助開發者在真實的空間中進行虛擬物體的擺放、且符合物品之間的空間關係、遮擋關係，類似 google 推出的 google AR core 和蘋果的 AR kit；interaction sdk 主要基於手部動作的交互，具體操作包括指、戳、捏、投射等；voice sdk 是由 wit.ai 自然語言平台提供支撐，可以為開發者提供語音導航和搜索等功能。

進入元宇宙感知與交互技術這張門票，而這張門票里的視覺和語音技術是最重要的基石。

自動駕駛，全視覺方案撐起的特斯拉萬億市值

2021 年，被稱作是自動駕駛的元年。

交通運輸部發布了《促進道路交通自動駕駛技術發展和應用的指導意見》，政策利好自動駕駛行業的發展。

過去一年我們見證了一批自動駕駛獨角獸公司的快速崛起、也見證了的萬億市值神話。在 2021 的 tesla Open AI day 上，高級總監 Andrej Karpathy 介紹了特斯拉的最新自動駕駛進展。

眾所周知，特斯拉摒棄了激光雷達，採用了全視覺方案，通過八個 RGB 攝像頭完成對於空間的感知和建模。通過 Transformer 來實現多機位特徵到結果的預測，通過融入不同相機的位置信息，獲得準確的空間位置映射。

但視覺信息本身缺乏時序信息，因此特斯拉構建了視頻時序網絡框架，融入 IMU 信息提升定位 / 跟蹤的準確性，並提出了 spatial RNN video 模塊。構建了千人的自有標註團隊、自動標註平台工具，從 2D-3D 到如今的 4D 標註（時空標註），即一次標註可覆蓋多機位和多幀，3D、4D 的數據可以通過目標的移動、方向的轉換，獲得不同角度、視野的 2D 圖像。同時通過環境（光照、天氣、角度）、車輛、人、道路等場景的仿真、動態化的參數調節目標數量，用於重構無窮無盡的數據流從而重構各種場景來不斷訓練與提升模型的邊界。

南投搬家公司費用需注意的眉眉角角，別等搬了再說!

上新台中搬家公司提供您一套專業有效率且人性化的辦公室搬遷、公司行號搬家及工廠遷廠的搬家服務

自行創業缺乏曝光? 網頁設計幫您第一時間規劃公司的形象門面

網站的第一印象網頁設計，決定了客戶是否繼續瀏覽的意願。台北網動廣告製作的RWD網頁設計，採用精簡與質感的CSS語法，提升企業的專業形象與簡約舒適的瀏覽體驗，讓瀏覽者第一眼就愛上它。

想知道購買電動車哪裡補助最多?台中電動車補助資訊懶人包彙整

節能減碳愛地球是景泰電動車的理念，是創立景泰電動車行的初衷，滿意態度更是服務客戶的最高品質，我們的成長來自於你的推薦。

產品缺大量曝光嗎?你需要的是一流包裝設計

窩窩觸角包含自媒體、自有平台及其他國家營銷業務等，多角化經營並具有國際觀的永續理念。

!

同時，特斯拉也對外展示了自研的 dojo 集群，一種對稱的分佈式計算架構，區別於主流的非對稱的分佈式架構，如此的設計為 tesla 帶來了橫向擴展算力，兼顧算力的同時，具備很好的編程靈活性。“算法 + 數據 + 算力”三輪驅動鑄造了特斯拉的萬億市值，並使其將競爭對手遠遠甩在身後。

結合今年技術的突破創新，面向未來的思考，從人工智能的三駕馬車 — 算法、數據和算力，筆者總結了以下三大趨勢：

2022，三大趨勢值得關注

面向內容生成的 AIGC（算法層面）

我們已經逐步邁向了元宇宙時代。

元宇宙區別於傳統的遊戲世界的最大差異是，元宇宙是現實宇宙的数字孿生，遵循客觀世界的物質唯一性等客觀規律，因此元宇宙世界也需要孿生大量現實世界的物體或是對於現實世界的進行重建，而這些海量的重建必然不能是按照傳統遊戲世界中的方法，由 CG 工程師一個個手工製作、其效率遠遠無法滿足實際場景的需求。

因此面向內容生成的 AIGC（算法層面）是必要的。相關技術方向包括：圖像超分、domain 遷移、外推、類似 CLIP（對比式語言圖像預訓練模型，可以從自然語言監督中有效學習視覺模型）的隱式神經表示 — 通過文字描述來生成圖像等多模態的（CV+NLP）等相關技術。

SCV 合成（數據層面）

虛擬現實引擎有專門的生成合成數據的組件（比如 NVIDIA IsaacSim，Unity Perception），這些合成數據不僅美觀，而且有助於訓練更好的算法。

生成 / 合成的數據不僅僅作為元宇宙的必備要素，同時也是訓練模型的重要原料。如前面提到的特斯拉會利用虛擬現實技術來生成駕駛場景的邊緣場景和生產更多的新視角。如果我們有合適的工具來構建數據集，就可以省去繁瑣地給數據手工打標的過程，更好地對計算機視覺算法進行開發和訓練。

人眼能看到的東西遠不如現實世界豐富，我們構建的算法只能關注到人類理解和標記出的信息範圍內。但事實可能並不是那樣，我們可以為傳感器構建算法，來測量超越人類感知範圍的東西。這些算法可以在虛擬現實過編程的方式進行有效訓練。

知名數據分析公司 Gartner 認為在未來 3 年中，合成數據將比真實數據更佔優勢。在合成計算機視覺（SCV）中，我們使用虛擬現實引擎訓練計算機視覺模型，並將訓練好的模型部署到現實世界。

能效高模型（算力層面）

儘管現在學界很多 SOTA 模型很難離線運行在一些手機等可穿戴設備上，模型越重相應的延遲也會越長，如果完全放到雲端運行會引入成本、網絡時延、隱私等問題。同時佔用大量的雲端算力，也會產生海量能耗而不利於整個社會碳達峰 / 碳中和的訴求。

因此未來高能效的推理模型勢必成為主流趨勢，第一個方案就是分佈式訓練，即在矩陣當中引入 0 進行神經網絡的訓練，因為不是全部的維度都重要，儘管可能會影響性能，但是會大規模減少點乘運算從而減少網絡訓練時間。同時引入量化訓練、剪枝、感知量化訓練等也可以幫助大幅降低模型推理時間，從而提升模型能效，同時極大程度的避免因量化訓練帶來的精度損失。通過知識蒸餾訓練一個高性能的 teacher 模型來訓練 student 模型也可以幫助提升模型能效。

總結

笛卡爾說過：“我思故我在”，因為意識決定了我的存在。海德格爾後來對笛卡爾的觀點進行了批判，他提出“我在故我思”，因為人們的存在才有意識，才能感知這個世界，如果人不是人、而是存在於其他的生物體里，比如蝴蝶、鯨魚，那麼人對於世界的認知也會不同。

筆者以為，無論是傳統基於表徵的深度學習，還是新提出的具身的、基於存在與時間的具身智能都還有很長的路要走。

但毫無疑問，如果要做到一用型的人工智能，多模態的、具身的、主動交互式的人工智能體一定是必由之路。

為何如此篤定？因為人工智能是人類 – 高級智慧體定義訓練的一種人造的、類人的高級智能。既然如此，是不是應該具備人類這種高級智能體的特性呢？比如生物體的進化、比如高層次的智能：推理、演繹、下棋等，也包括低層次的智能：行走、交談、感知。面向未來的 AI 產品方嚮應該是從傳統的 2D 平面人工智能（比如圖像分類、目標檢測、分割等任務）向 3D 空間、向 4D 的方向發展（存在與時間）。

我們看到短視頻 / 視頻 vlog 這幾年較原來的圖文有了極大發展，因為它們可以帶給用戶基於時空的、環境的更多信息；發展向給用戶更加沉浸式的體驗，比如 AR/VR，提供的是基於空間、環境、時間的全方位的感知與體驗；發展向具身的虛擬数字人 /AI 智能助理，人形的機器人例如 tesla bot，是視覺 + 語音的多模態主動式的與用戶交互；發展向智能車，對外適應環境適配複雜路況、交通情況進行智能駕駛，對內為駕駛員和乘客提供真實的“第三空間”，滿足用戶的不同場景需求。

雖然人類的肉身進化緩慢、但人類精神創造的科技進化日新月異。作為一名科技工作者和 AI 從業者，我無比期盼那一天的到來，期待 AI 創造一個讓渺小人類抵禦外部環境突變的世界，賦人類以力量，賦歲月以文明。

本文來自公眾號，作者：何苗，審校：劉燕，36氪經授權發布。

該文觀點僅代表作者本人，36氪平台僅提供信息存儲空間服務。

來源鏈接：https://www.36kr.com/p/1566437318135680

太陽光電發電設備是否會產生噪音?

找對廠商很重要喔，東陽能源是擁有核心技術、產品研發、系統規劃設置、專業團隊的太陽能發電廠商。

想在住家的頂樓裝太陽光電聽說可發揮隔熱功效一線

推薦東陽能源擁有核心技術、產品研發、系統規劃設置、專業團隊的太陽能發電廠商。

網頁設計公司推薦不同的風格，搶佔消費者視覺第一線

透過選單樣式的調整、圖片的縮放比例、文字的放大及段落的排版對應來給使用者最佳的瀏覽體驗，所以不用擔心有手機版網站兩個後台的問題，而視覺效果也是透過我們前端設計師優秀的空間比例設計，不會因為畫面變大變小而影響到整體視覺的美感。

太陽光電發電設備是否會產生噪音?

找對廠商很重要喔，東陽能源是擁有核心技術、產品研發、系統規劃設置、專業團隊的太陽能發電廠商。

掌握這項技術，拿到進入元宇宙的門票

掌握這項技術，拿到進入元宇宙的門票

回顧計算機視覺這一年

2022，三大趨勢值得關注

總結

更多文章

告別新細明體！10 分鐘用 AI 簡報工具打造設計師等級投影片，提案成功率翻倍

告別花俏噱頭！這幾款AI筆電真正讓你的工作時間縮短一半

擺脫期末拖延症的終極武器：AI拆解寫作步驟，每天進步一點點

突破極限：這款硬派戶外運動手錶讓你安心潛入30公尺深海