随着近年來企業信息化建設的不斷深化、社會化網絡的興起,以及移動互聯網等新一代信息技術的廣泛應用,全球數據規模及其存儲容量正在迅速增長,數據的類型也變得複雜多樣。海量多樣化的數據對信息的有效存儲、快速讀取、檢索提出了挑戰;且其中所蘊藏的巨大商業價值也引發了對數據處理、分析的巨大需求。當前,大數據已逐漸滲透到各個行業和業務職能領域,數據成爲企業戰略資産,企業戰略逐漸從"業務驅動"轉向"數據驅動"。如何通過收集和分析大量内部和外部的數據,獲取有價值的信息将成爲指導企業經營決策、業務運作中的核心環節。
什麽是大數據(Big Data)
大數據技術的戰略意義不在于掌握龐大的數據信息,而在于對這些含有意義的數據進行專業化處理。換而言之,如果把大數據比作一種産業,那麽這種産業實現盈利的關鍵,在于提高對數據的“加工能力”,通過“加工”實現數據的“增值”。
從技術上看,大數據與雲計算的關系就像一枚硬币的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須采用分布式架構。它的特色在于對海量數據進行分布式數據挖掘。但它必須依托雲計算的分布式處理、分布式數據庫和雲存儲、虛拟化技術。
随着雲時代的來臨,大數據也吸引了越來越多的關注。大數據通常用來形容一個公司創造的大量非結構化數據和半結構化數據,這些數據在下載到關系型數據庫用于分析時會花費過多時間和金錢。大數據分析常和雲計算聯系到一起,因爲實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。
大數據需要特殊的技術,以有效地處理大量的容忍經過時間内的數據。适用于大數據的技術,包括大規模并行處理(MPP)數據庫、數據挖掘、分布式文件系統、分布式數據庫、雲計算平台、互聯網和可擴展的存儲系統。
數據采集:實現将異構數據從系統外部采集并傳輸到大數據平台的過程,包括數據爬取、提取、清洗、轉換和裝載等,保證數據獲取和驗證數據的有效性。
數據存儲與分析:負責海量多态數據的存儲及處理,以混搭架構模式實現多種數據存儲策略;對經過存儲和處理後的數據進行分析,主要包括自然語言處理、數據統計分析以及數據挖掘。
數據服務:将屏蔽底層針對各類數據服務需求的數據處理過程,将加工後的數據、應用等通過集中的數據服務提供功能,爲外部合作夥伴提供數據服務能力,簡化數據共享邏輯,集約化數據分析能力。
數據應用:通過固定報表、多維分析等方式展現數據,對内支撐企業管理分析、經營分析、服務分析、銷售分析及産品開發;對外支撐産品化的數據服務以及數據提供。
數據管控:實現數據全生命周期管理,提升企業數據标準、數據質量、數據安全、元數據管理等基礎數據管控能力。
大數據的價值體現
(1)對大量消費者提供産品或服務的企業可以利用大數據進行精準營銷;
(2)做小而美模式的中小微企業可以利用大數據做服務轉型;
(3)面臨互聯網壓力之下必須轉型的傳統企業需要與時俱進充分利用大數據的價值。
不過,“大數據”在經濟發展中的巨大意義并不代表其能取代一切對于社會問題的理性思考,科學發展的邏輯不能被湮沒在海量數據中。著名經濟學家路德維希·馮·米塞斯曾提醒過:“就今日言,有很多人忙碌于資料之無益累積,以緻對問題之說明與解決,喪失了其對特殊的經濟意義的了解。”這确實是需要警惕的。
在這個快速發展的智能硬件時代,困擾應用開發者的一個重要問題就是如何在功率、覆蓋範圍、傳輸速率和成本之間找到那個微妙的平衡點。企業組織利用相關數據和分析可以幫助它們降低成本、提高效率、開發新産品、做出更明智的業務決策等等。例如,通過結合大數據和高性能的分析,下面這些對企業有益的情況都可能會發生:
(1)及時解析故障、問題和缺陷的根源,每年可能爲企業節省數十億元。
(2)爲成千上萬的快遞車輛規劃實時交通路線,躲避擁堵。
(3)分析所有SKU,以利潤最大化爲目标來定價和清理庫存。
(4)根據客戶的購買習慣,爲其推送他可能感興趣的優惠信息。
(5)從大量客戶中快速識别出金牌客戶。
(6)使用點擊流分析和數據挖掘來規避欺詐行爲。