關於開四停三的「大」數據迷思
新年回廣州探親,在親友車上,聽其誇耀現在廣州市的數據處理能力及規模的厲害。cctv滿街,最少一星期的視頻數據才能支撐得起那開四停三的厲政,這般那般。
當然了,我對中國挖掘個人數據的能力,是不會致疑的。要說當今世界對圖像的深度學習領域,中國必為前列。而其背後的主要推動,當然是監控的需求。
在這番共聚天輪的家庭閒聊之中,最叫我好奇的,是從技術角度能出發及解釋得了的一個問號 - 開四停三的數據規範。
首先,視頻數據是不會直接入庫的。視頻可以儲存,數據可以接某視頻或其分段,但沒有表是直接一個BLOB把視頻放進去的(嗯⋯⋯是沒有的🙈)。
想當然,分析也不會直接依賴原始數據,特別是視頻數據。
數據入庫
在視頻數據分析前,首先是feature extraction,這裡可以走過不少的pre processing
pipeline,而對於非即時處理/管理的數據,會在提取完feature後,把feature入庫。走到這一步,可能只剩下車牌、地點、時間、型號⋯⋯此類的數據。而視頻可以作他用作冷數據分別保存。
數據分析
在進行數據分析時,當然不會在這大母體裡進行了。假如成千上萬的子程式同時