中國報告大廳網訊,在當今數位化時代,虛擬現實技術迅猛發展,已廣泛滲透到生成式人工智慧、增強現實以及元宇宙等多個領域。然而,由於投影帶來的視覺差異,人們在虛擬現實行業系統中的空間認知往往與真實世界存在偏差,這一偏差不僅影響著虛擬現實系統的沉浸式體驗,還制約著人工智慧模型在複雜空間場景理解與重建等任務中的表現。而目前,國內外在這一領域缺乏系統性的實驗數據,成為了相關研究和應用發展的阻礙。基於此,一套全面的虛擬現實系統空間認知實驗數據集的構建顯得尤為重要。
該數據集名為虛擬現實系統空間認知實驗數據集,數據時間範圍為2024年9月–12月,有效數據量達4212條,由國家自然科學基金支持。數據集包含兩個數據文件,分別是 SpatialScene.xlsx 和SpatialCognition.csv。其中,SpatialScene.xlsx 存儲 85 個空間場景的基本信息數據,每個場景包含15個基本信息欄位;SpatialCognition.csv 存儲被試空間認知數據,共4212條有效數據,每條樣本包含11個欄位。
虛擬現實系統空間認知實驗的開展,涵蓋了實驗設計、系統搭建、數據收集與預處理等環節。在實驗設計上,採用控制變量法,探究空間對象數量、距離和角度對虛擬場景中空間認知的影響。距離分為 (0, 200 m) 和 (200 m, 500 m) 兩個區間;角度分為 (0, 60°)、(60°, 120°)、(120°, 180°) 三個區間;空間對象數量考慮兩對象(A/B)與三對象(A/B/C)情況,其中三對象中 C 的位置有 6 種劃分情況。根據這些影響因子,設計了相應的空間場景,從谷歌地圖中篩選出 85 個符合要求的地圖片段,基於谷歌地圖 API 生成 85 個時長 30 秒的實驗場景視頻。實驗包含觀察與標註兩階段,被試先觀看場景視頻記憶空間對象分布及關係,隨後繪製出對象分布情況。
數據採集系統架構包含觀察頁面、繪製頁面、評分頁面、瀏覽器、伺服器和資料庫等部分。繪製頁面要求用戶標註空間對象坐標信息,評分頁面基於坐標信息計算認知分布與真實分布的對比得分,包括角度誤差評分、距離誤差評分和總評分,具體計算公式如下:
角度誤差評分 Sa=1-|θtest-θtrue|/180°,其中 θtest 與 θtrue 分別代表測試角度與真實角度。
距離誤差評分 Ed=|ln (Rtest/Rtrue)|,Sd=1-σ(Ed)=1-1/(1+e^(-k・Ed)),其中 Ed 表示距離對數誤差,Rtest 表示測試角度對應的兩邊距離之比,Rtrue 表示真實角度對應的兩邊距離之比,σ 代表 Sigmod 函數,k 用於調節距離評分嚴格程度。
總評分 S=(Sa+Sd)/2×100。
數據收集採用線上線下相結合的方式,線上通過 「微信」 推廣系統網址二維碼,線下在人流密集區域發放二維碼海報,共搜集4396條原始實驗數據。經過篩選,剔除測試時間低於30秒以及未標註便提交導致坐標重合的明顯錯誤數據,最終保留有效數據4212條。同時,將空間場景數據中的經緯度坐標轉換為以 O 點為原點的平面直角坐標,構建成空間場景認知數據集。
從受試人群的人口統計學特徵來看,性別分布上,男性占比 52.1%,女性占比 47.9%,比例相對均衡;年齡分布上,劃分為 5 個年齡段,26–40 歲占比最高,為 32.7%,其次是 18–25 歲(28.4%)以及小於 18 歲(26.9%),41-60 歲和 > 60 歲占比相對較低。
SpatialScene.xlsx 的 15 個欄位包括 VID(空間場景編號)、A_x(空間對象 A 的 X 軸坐標)、A_y(空間對象 A 的 Y 軸坐標)、B_x(空間對象 B 的 X 軸坐標)、B_y(空間對象 B 的 Y 軸坐標)、C_x(空間對象 C 的 X 軸坐標)、C_y(空間對象 C 的 Y 軸坐標)、O_x(空間對象 O 的 X 軸坐標)、O_y(空間對象 O 的 Y 軸坐標)、Vurl(空間場景視頻對應的嵌入代碼)、Flag(空間場景中對象數量)、O_ll(空間對象 O 的經緯度)、A_ll(空間對象 A 的經緯度)、B_ll(空間對象 B 的經緯度)、C_ll(空間對象 C 的經緯度)。
SpatialCognition.csv 的 11 個欄位包括 ID(空間認知測試數據的編號)、A_x(用戶繪製 A 的 X 軸坐標)、A_y(用戶繪製 A 的 Y 軸坐標)、B_x(用戶繪製 B 的 X 軸坐標)、B_y(用戶繪製 B 的 Y 軸坐標)、C_x(用戶繪製 C 的 X 軸坐標)、C_y(用戶繪製 C 的 Y 軸坐標)、O_x(O 的 X 軸坐標)、O_y(O 的 Y 軸坐標)、Flag(空間場景中對象數量)、VID(被測場景編號)。
《2025-2030年全球及中國虛擬現實行業市場現狀調研及發展前景分析報告》為確保數據的準確性、完整性及可靠性,從四個方面進行數據質量控制與評估。一是數據採集系統的優化與隱私保護,開發專門的數據採集系統並經多輪測試優化,保證其穩定性和可靠性,同時對受試者個人信息進行匿名化處理,遵守數據隱私保護法規。二是多重校驗機制,系統實時監控並檢測異常數據,實驗後通過人工抽查進行二次校驗,標記並剔除異常數據。三是防重複測試與異常過濾,採用基於場景 ID 的隨機分配算法,防止同一受試者重複測試同一場景,利用多欄位數據比對機制識別並過濾異常數據。四是數據質量評估體系,構建專門評分體系,通過對比用戶標註的空間對象角度、距離參數與基於實際經緯度的基準值,評估受試者空間認知精度並生成認知得分。
該數據集在學術研究與應用實踐中具有重要價值。在學術研究方面,它為空間認知科學提供了定量分析基礎,有助於研究者探究三維環境感知中的認知機制及其影響因素,為空間認知理論模型的構建與驗證提供關鍵數據支持。在應用實踐方面,可為虛擬現實、增強現實及元宇宙等應用系統的優化提供指導,開發者可依據用戶的認知偏差調整場景布局和視角設計,提升用戶的空間感知精度和沉浸式體驗;同時,還能為生成式人工智慧領域中人工智慧模型在空間場景生成、對象分布預測及三維重建等任務的性能提升提供數據支撐,使人工智慧在模擬人類空間認知能力方面更精準。
綜上所述,這套虛擬現實行業系統空間認知實驗數據集的構建,填補了國內外在該領域系統性實驗數據的空白。它不僅詳細呈現了數據的基本信息、採集過程、樣本特徵、質量控制方式,還展現出在學術研究和實際應用中的重要價值,為虛擬現實、生成式人工智慧等相關領域的研究與發展提供了堅實的數據基礎,有助於推動這些領域在理論和實踐上取得進一步突破。
