關於開四停三的「大」數據迷思
新年回廣州探親,在親友車上,聽其誇耀現在廣州市的數據處理能力及規模的厲害。cctv滿街,最少一星期的視頻數據才能支撐得起那開四停三的厲政,這般那般。
當然了,我對中國挖掘個人數據的能力,是不會致疑的。要說當今世界對圖像的深度學習領域,中國必為前列。而其背後的主要推動,當然是監控的需求。
在這番共聚天輪的家庭閒聊之中,最叫我好奇的,是從技術角度能出發及解釋得了的一個問號 - 開四停三的數據規範。
首先,視頻數據是不會直接入庫的。視頻可以儲存,數據可以接某視頻或其分段,但沒有表是直接一個BLOB把視頻放進去的(嗯⋯⋯是沒有的🙈)。
想當然,分析也不會直接依賴原始數據,特別是視頻數據。
數據入庫
在視頻數據分析前,首先是feature extraction,這裡可以走過不少的pre processing pipeline,而對於非即時處理/管理的數據,會在提取完feature後,把feature入庫。走到這一步,可能只剩下車牌、地點、時間、型號⋯⋯此類的數據。而視頻可以作他用作冷數據分別保存。
數據分析
在進行數據分析時,當然不會在這大母體裡進行了。假如成千上萬的子程式同時存取主表,先不論其性能如何,但只能算是種浪費。在進行正式分析前,digest (map reduce) 入局部分析的子數據庫
那麼這子數據庫,具體需要多大呢?
主要數據as車牌及日期,在不考慮任何儲存優化,如最直接的車牌hashing預處理,單行50字節內是很容易做到的,如果以單日50萬台出行車輛,便是25,000,000字節,即25,000kB或25mB。以7日為單位作滾存,大概是175mB的庫。
這大小,嗯⋯已是大量水分下的尺寸。當然了,這不是主庫的大小啦。
Also post at: http://www.devdoggy.com/t/topic/48