開啟主選單

求真百科

大數據

中文名 大數據

英文名 big data

大數據 ,或稱巨量資料,指的是所涉及的資料量規模巨大到無法通過目前主流軟件工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。(在維克托·邁爾-舍恩伯格及肯尼斯·庫克耶編寫的《大數據時代》中大數據指不用隨機分析法(抽樣調查)這樣的捷徑,而採用所有數據的方法)大數據的4V特點:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)。

目錄

歷史

「大數據」作為時下最火熱的IT行業的詞彙,隨之而來的數據倉庫、數據安全、數據分析、數據挖掘等等圍繞大數據的商業價值的利用逐漸成為行業人士爭相追捧的利潤焦點。

對於「大數據」(Big data)研究機構Gartner給出了這樣的定義。「大數據」是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。

大數據這個術語最早期的引用可追溯到apache org的開源項目Nutch。當時,大數據用來描述為更新網絡搜索索引需要同時進行批量處理或分析的大量數據集。隨着谷歌MapReduce和GoogleFile System (GFS)的發布,大數據不再僅用來描述大量的數據,還涵蓋了處理數據的速度。

早在1980年,著名未來學家阿爾文·托夫勒便在《第三次浪潮》一書中,將大數據熱情地讚頌為「第三次浪潮的華彩樂章」。不過,大約從2009年開始,「大數據」才成為互聯網信息技術行業的流行詞彙。美國互聯網數據中心指出,互聯網上的數據每年將增長50%,每兩年便將翻一番,而目前世界上90%以上的數據是最近幾年才產生的。此外,數據又並非單純指人們在互聯網上發布的信息,全世界的工業設備、汽車、電錶上有着無數的數碼傳感器,隨時測量和傳遞着有關位置、運動、震動、溫度、濕度乃至空氣中化學物質的變化,也產生了海量的數據信息。

原理

大數據技術的戰略意義不在於掌握龐大的數據信息,而在於對這些含有意義的數據進行專業化處理。換言之,如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。

從技術上看,大數據與雲計算的關係就像一枚硬幣的正反面一樣密不可分。大數據必然無法用單台的計算機進行處理,必須採用分布式計算架構。它的特色在於對海量數據的挖掘,但它必須依託雲計算的分布式處理、分布式數據庫、雲存儲和虛擬化技術。

隨着雲時代的來臨,大數據(Big data)也吸引了越來越多的關注。《著雲台》的分析師團隊認為,大數據(Big data)通常用來形容一個公司創造的大量非結構化和半結構化數據,這些數據在下載到關係型數據庫用於分析時會花費過多時間和金錢。大數據分析常和雲計算聯繫到一起,因為實時的大型數據集分析需要像MapReduce一樣的框架來向數十、數百或甚至數千的電腦分配工作。

大數據需要特殊的技術,以有效地處理大量的容忍經過時間內的數據。適用於大數據的技術,包括大規模並行處理(MPP)數據庫、數據挖掘電網、分布式文件系統、分布式數據庫、雲計算平台、互聯網和可擴展的存儲系統。

最小的基本單位是Byte,按順序給出所有單位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB,它們按照進率1024(2的十次方)來計算:

1Byte = 8 bit

1 KB = 1,024 Bytes

1 MB = 1,024 KB = 1,048,576 Bytes

1 GB = 1,024 MB = 1,048,576 KB

1 TB = 1,024 GB = 1,048,576 MB

1 PB = 1,024 TB = 1,048,576 GB

1 EB = 1,024 PB = 1,048,576 TB

1 ZB = 1,024 EB = 1,048,576 PB

1 YB = 1,024 ZB = 1,048,576 EB

1 BB = 1,024 YB = 1,048,576 ZB

1 NB = 1,024 BB = 1,048,576 YB

1 DB = 1,024 NB = 1,048,576 BB

特點

大數據分析相比於傳統的數據倉庫應用,具有數據量大、查詢分析複雜等特點。《計算機學報》刊登的「架構大數據:挑戰、現狀與展望」一文列舉了大數據分析平台需要具備的幾個重要特性,對當前的主流實現平台———並行數據庫、MapReduce及基於兩者的混合架構進行了分析歸納,指出了各自的優勢及不足,同時也對各個方向的研究現狀及作者在大數據分析方面的努力進行了介紹,對未來研究做了展望。

大數據的4個「V」,或者說特點有四個層面:第一,數據體量巨大。從TB級別,躍升到PB級別;第二,數據類型繁多。前文提到的網絡日誌、視頻、圖片、地理位置信息等等。第三,價值密度低,商業價值高。以視頻為例,連續不間斷監控過程中,可能有用的數據僅僅有一兩秒。第四,處理速度快。1秒定律。最後這一點也是和傳統的數據挖掘技術有着本質的不同。業界將其歸納為4個「V」——Volume(大量)、Velocity(高速)、Variety(多樣)、Value(價值)

從某種程度上說,大數據是數據分析的前沿技術。簡言之,從各種各樣類型的數據中,快速獲得有價值信息的能力,就是大數據技術。明白這一點至關重要,也正是這一點促使該技術具備走向眾多企業的潛力。

用途

大數據可分成大數據技術、大數據工程、大數據科學和大數據應用等領域。目前人們談論最多的是大數據技術和大數據應用。工程和科學問題尚未被重視。大數據工程指大數據的規劃建設運營管理的系統工程;大數據科學關注大數據網絡發展和運營過程中發現和驗證大數據的規律及其與自然和社會活動之間的關係。

物聯網、雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的傳感器,無一不是數據來源或者承載的方式。

有些例子包括網絡日誌,RFID,傳感器網絡,社會網絡,社會數據(由於數據革命的社會),互聯網文本和文件;互聯網搜索索引;呼叫詳細記錄,天文學,大氣科學,基因組學,生物地球化學,生物,和其他複雜和/或跨學科的科研,軍事偵察,醫療記錄;攝影檔案館視頻檔案;和大規模的電子商務 。

應用

洛杉磯警察局和加利福尼亞大學合作利用大數據預測犯罪的發生。

google流感趨勢(Google Flu Trends)利用搜索關鍵詞預測禽流感的散布。

統計學家內特。西爾弗(Nate Silver)利用大數據預測2012美國選舉結果。

麻省理工學院利用手機定位數據和交通數據建立城市規劃。

梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基於SAS的系統對多達7300萬種貨品進行實時調價。

Tipp24 AG針對歐洲博彩業構建的下注和預測平台。該公司用KXEN軟件來分析數十億計的交易以及客戶的特性,然後通過預測模型對特定用戶進行動態的營銷活動。這項舉措減少了90%的預測模型構建時間。SAP公司正在試圖收購KXEN。「SAP想通過這次收購來扭轉其長久以來在預測分析方面的劣勢。」Laney分析到。

沃爾瑪的搜索。這家零售業寡頭為其網站自行設計了最新的搜索引擎Polaris,利用語義數據進行文本分析、機器學習和同義詞挖掘等。根據沃爾瑪的說法,語義搜索技術的運用使得在線購物的完成率提升了10%到15%。「對沃爾瑪來說,這就意味着數十億美元的金額。」Laney說。

快餐業的視頻分析(Laney沒有說出這家公司的名字)。該公司通過視頻分析等候隊列的長度,然後自動變化電子菜單顯示的內容。如果隊列較長,則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但準備時間相對長的食品。

Morton牛排店的品牌認知。當一位顧客開玩笑地通過推特向這家位於芝加哥的牛排連鎖店訂餐送到紐約Newark機場(他將在一天工作之後抵達該處)時,Morton就開始了自己的社交秀。首先,分析推特數據,發現該顧客是本店的常客,也是推特的常用者。根據客戶以往的訂單,推測出其所乘的航班,然後派出一位身着燕尾服的侍者為客戶提供晚餐。也許,這聽起來過於離奇,但是你必須審視自己:「我是否有能力做到這個程度?」Laney說。

PredPol Inc。PredPol公司通過與洛杉磯和聖克魯斯的警方以及一群研究人員合作,基於地震預測算法的變體和犯罪數據來預測犯罪發生的幾率,可以精確到500平方英尺的範圍內。在洛杉磯運用該算法的地區,盜竊罪和暴力犯罪分布下降了33%和21%。

Tesco PLC(特易購)和運營效率。這家超市連鎖在其數據倉庫中收集了700萬部冰箱的數據。通過對這些數據的分析,進行更全面的監控並進行主動的維修以降低整體能耗。

American Express(美國運通,AmEx)和商業智能。以往,AmEx只能實現事後諸葛式的報告和滯後的預測。「傳統的BI已經無法滿足業務發展的需要。」Laney認為。於是,AmEx開始構建真正能夠預測忠誠度的模型,基於歷史交易數據,用115個變量來進行分析預測。該公司表示,對於澳大利亞將於之後四個月中流失的客戶,已經能夠識別出其中的24%。

Express Scripts Holding Co.的產品製造。該公司發現那些需要服藥的人常常也是最可能忘記服藥的人。因此,他們開發了一個新產品:會響鈴的藥品蓋和自動的電話呼叫,以此提醒患者按時服藥。

Infinity Property & Casualty Corp.的黑暗數據(dark data)。Laney對於黑暗數據的定義是,那些針對單一目標而收集的數據,通常用過之後就被歸檔閒置,其真正價值未能被充分挖掘。在特定情況下,這些數據可以用作其他用途。該公司用累積的理賠師報告來分析欺詐案例,通過算法挽回了1200萬美元的代位追償金額。

IBM戰略

IBM的大數據戰略以其在2012年5月發布智慧分析洞察「3A5步」動態路線圖作為基礎。所謂「3A5步」,指的是在「掌握信息」(Align)的基礎上「獲取洞察」(Anticipate),進而採取行動(Act),優化決策策劃能夠救業務績效。除此之外,還需要不斷地「學習」(Learn)從每一次業務結果中獲得反饋,改善基於信息的決策流程,從而實現「轉型」(Transform)。

基於「3A5步」動態路線圖,IBM提出了「大數據平台」架構。該平台的四大核心能力包括Hadoop系統、流計算(StreamComputing)、數據倉庫(Data Warehouse)和信息整合與治理(Information Integration and Governance)。

在大數據處理領域,IBM於2012年10月推出了IBMPureSystems專家集成系統的新成員——IBM PureData系統。這是IBM在數據處理領域發布的首個集成系統產品系列。PureData系統具體包含三款產品,分別為PureDataSystem for Transactions、PureData System forAnalytics和PureData System for Operational Analytics,可分別應用於OLTP(聯機事務處理)、OLAP(聯機分析處理)和大數據分析操作。與此前發布的IBMPureSystems系列產品一樣,IBM PureData系統提供內置的專業知識、源於設計的集成,以及在其整個生命周期中的簡化體驗。

斯隆數字巡天收集在其最初的幾個星期,比在天文學的歷史,早在2000年的整個數據收集更多的數據。自那時以來,它已經積累了140兆兆 字節的信息。這個望遠鏡的繼任者,大天氣巡天望遠鏡,將於2016年在網上和將獲得的數據,每5天沃爾瑪每隔一小時處理超過100萬客戶的交易,反過來進口量數據庫估計超過2.5 PB的是相當於167次,在美國國會圖書館的書籍 。FACEBOOK處理400億張照片,從它的用戶群。解碼最原始的人類基因組花費10年時間處理,如今可以在一個星期內實現。

「大數據」的影響,增加了對信息管理專家的需求,甲骨文,IBM,微軟和SAP花了超過15億美元的在軟件智能數據管理和分析的專業公司。這個行業自身價值超過1000億美元,增長近10%,每年兩次,這大概是作為一個整體的軟件業務的快速。

大數據已經出現,因為我們生活在一個有更多信息的社會中。有46億全球移動電話用戶有20億人訪問互聯網。基本上,人們比以往任何時候都與數據或信息交互。 1990年至2005年,全球超過1億人進入中產階級,這意味着越來越多的人收益的這筆錢將反過來導致更多的信息增長。思科公司預計,到2013年,在互聯網上流動的交通量將達到每年667艾字節。

大數據,其影響除了經濟方面的,它同時也能在政治、文化等方面產生深遠的影響,大數據可以幫助人們開啟循「數」管理的模式,也是我們當下「大社會」的集中體現,三分技術,七分數據,得數據者得天下。

數據價值

眾所周知,企業數據本身就蘊藏着價值,但是將有用的數據與沒有價值的數據進行區分看起來可能是一個棘手的問題。

顯然,您所掌握的人員情況、工資表和客戶記錄對於企業的運轉至關重要,但是其他數據也擁有轉化為價值的力量。一段記錄人們如何在您的商店瀏覽購物的視頻、人們在購買您的服務前後的所作所為、如何通過社交網絡聯繫您的客戶、是什麼吸引合作夥伴加盟、客戶如何付款以及供應商喜歡的收款方式……所有這些場景都提供了很多指向,將它們抽絲剝繭,透過特殊的稜鏡觀察,將其與其他數據集對照,或者以與眾不同的方式分析解剖,就能讓您的行事方式發生天翻地覆的轉變。

但是屢見不鮮的是,很多公司仍然只是將信息簡單堆在一起,僅將其當作為滿足公司治理規則而必須要保存的信息加以處理,而不是將它們作為戰略轉變的工具。

畢竟,數據和人員是業務部門僅有的兩筆無法被競爭對手複製的財富。在善用的人手中,好的數據是所有管理決策的基礎,帶來的是對客戶的深入了解和競爭優勢。數據是業務部門的生命線,必須讓數據在決策和行動時無縫且安全地流到人們手中。

所以,數據應該隨時為決策提供依據。看看在政府公開道路和公共交通的使用信息這樣看起來甚至有點晦澀的數據時會發生什麼:這些數據來源為一些私營公司提供了巨大的價值,這些公司能夠善用這些數據,創造滿足潛在需求的新產品和服務。

企業需要向創造和取得數據方面的投入索取回報。有效管理來自新舊來源的數據以及獲取能夠破解龐大數據集含義的工具只是等式的一部分,但是這種挑戰不容低估。產生的數據在數量上持續膨脹;音頻、視頻和圖像等富媒體需要新的方法來發現;電子郵件、IM、tweet和社交網絡等合作和交流系統以非結構化文本的形式保存數據,必須用一種智能的方式來解讀。

但是,應該將這種複雜性看成是一種機會而不是問題。處理方法正確時,產生的數據越多,結果就會越成熟可靠。傳感器、GPS系統和社交數據的新世界將帶來轉變運營的驚人新視角和機會。請不要錯過。

有些人會說,數據中蘊含的價值只能由專業人員來解讀。但是澤字節經濟並不只是數據科學家和高級開發員的天下。

數據的價值在於將正確的信息在正確的時間交付到正確的人手中。未來將屬於那些能夠駕馭所擁有數據的公司,這些數據與公司自身的業務和客戶相關,通過對數據的利用,發現新的洞見,幫助他們找出競爭優勢。

數據機遇

自從有了IT部門,董事會就一直在要求信息管理專家提供洞察力。實際上,早在1951年,對預測小吃店蛋糕需求的訴求就催生了計算機的首次商業應用。自那以後,我們利用技術來識別趨勢和制定戰略戰術的能力不斷呈指數級日臻完善。

今天,商業智能 (使用數據模式看清曲線周圍的一切) 穩居 CXO 們的重中之重。在理想的世界中,IT 是巨大的槓桿,改變了公司的影響力,帶來競爭差異、節省金錢、增加利潤、愉悅買家、獎賞忠誠用戶、將潛在客戶轉化為客戶、增加吸引力、打敗競爭對手、開拓用戶群並創造市場。

大數據分析是商業智能的演進。當今,傳感器、GPS 系統、QR 碼、社交網絡等正在創建新的數據流。所有這些都可以得到發掘,正是這種真正廣度和深度的信息在創造不勝枚舉的機會。要使大數據言之有物,以便讓大中小企業都能通過更加貼近客戶的方式取得競爭優勢,數據集成和數據管理是核心所在。

面臨從全球化到衰退威脅的風暴, IT 部門領導需要在掘金大數據中打頭陣,新經濟環境中的贏家將會是最好地理解哪些指標影響其大步前進的人。

當然,企業仍將需要聰明的人員做出睿智的決策,了解他們面臨着什麼,在充分利用的情況下,大數據可以賦予人們近乎超感官知覺的能力。Charles Duigg是《習慣的力量》一書的作者,他找出的一個黃金案例分析的例子是美國零售商 Target,其發現婦女在懷孕的中間三個月會經常購買沒有氣味的護膚液和某些維生素。通過鎖定這些購物者,商店可提供將這些婦女變成忠誠客戶的優惠券。實際上,Target 知道一位婦女懷孕時,那位婦女甚至還沒有告訴最親近的親朋好友 -- 更不要說商店自己了。

很明顯,在可以預見的將來,隱私將仍是重要的考量,但是歸根結底,用於了解行為的技術會為方方面面帶來雙贏,讓賣家了解買家,讓買家喜歡買到的東西。

再看一下作家兼科學家 Stephen Wolfram的例子,他收集有關自身習慣的數據,以分析他的個人行為,預測事件在未來的可能性。

大數據將會放大我們的能力,了解看起來難以理解和隨機的事物。對其前途的了解提供了獲取嶄新知識和能力的機會,將改變您的企業運作的方式。

數據回報

簡而言之,企業可以通過思考數據戰略的總體回報,來應對大數據的挑戰,抓住大數據的機會。Informatica所指的『數據回報率』,是為幫助高級IT和業務部門領導者進行大數據基本的戰術和戰略含義的討論而設計的一個簡單概念。等式非常簡單:如果您提高數據對於業務部門的價值,同時降低管理數據的成本,從數據得到的回報就會增加 -- 無論是用金錢衡量,還是更好的決策

數據回報率=數據價值/數據成本

在技術層面,數據回報率為數據集成、數據管理、商業智能和分析方面的投入提供了業務背景和案例。它還與解決業務的基礎有關:掙錢、省錢、創造機會和管理風險。它涉及對效率的考慮,同時推動了改變遊戲規則的洞察力。

案例研究

智能以及獲取數據回報經常被看成曠日持久的事情,但是通過雲計算,快速的回報正在成為可能。PDI是一家領先的醫療商業化公司,Informatica Cloud加強了該公司的銷售、客戶報告、洞察力和合規性。

Informatica通過確保交付及時和相關的信息,幫助PDI取得高額數據回報,同時減少了企業的應用程序、數據和 CRM 備份成本,更在不到一個月的時間就部署完畢。

解決方案將PDI的Salesforce .com CRM數據複製到基於雲的報表系統中,使數據完整且保持最新,完成報表周期所用的時間只是以前所需時間的零頭。可以每周、每日甚至實時生成報告,而從前則是30天的周期。

數據集成和CRM備份成本也大幅降低,同時PDI銷售團隊可以共享他們的業績視圖,跟蹤生物醫藥銷售指標和其他促進銷售的信息。

PDI的首席信息官Jo AnnSaitta 表示:「離了 Informatica Cloud ,PDI的銷售團隊就會抓瞎。這種靈活易用、基於 SaaS 的集成服務正幫助公司實現數據的巨大回報,推動本來向下的銷售上行,最終提高IT 利潤。」

新西蘭最大的金融機構 Westpac Life將Informatica 部署在其雄心勃勃的保險項目中,這個項目是一個商業智能環境,幫助金融機構增加收入、留住更多客戶、增加交叉銷售的潛在客戶並降低風險。

系統提供了一個可信業務和保險客戶數據的單一來源,有望交出240 %以上的投資回報,保單的生命周期收入提高至少一個百分點。

Informatica 還助力Westpac的社交媒體項目,利用客戶所說的話,從而將客戶放在Westpac活動的前沿和中心。

超過120 萬客戶每月進行三百萬的在線交易,龐大的數據集帶來了複雜的挑戰。但是通過部署Informatica 平台,避免了在孤島上作出決策。可基於具有高級報告和可視化的全盤信息,在保密情況下通過強大數據治理作出戰略決策。

Westpac Life新西蘭有限公司的保險負責人KevinCrowley說:「在財務不確定性的環境中,更快作出決策所需的財務效率和業務洞察是 Westpac 已經解決的挑戰。因為有 Informatica ,我們有更好的定位,對更大透明度的需求作出響應,並將公司的客戶保險數據資產轉化為業務洞察力。」

實現回報

Informatica深知,對於很多企業來說,向數據回報模型的轉變不會一蹴而就。管理數據並將其成本降低的短期要求將會是首要焦點,同樣還需要打破障礙以了解數據。企業只有這時才可以開始從傳統和新興數據集獲得更多價值。Informatica可提供數據集成平台和領導力,為企業提供全程幫助。

在大數據的世界中,最靈活和成功的企業將會是那些善用大機遇的公司。

什麼叫大數據採集技術呢

數據採集(DAQ):別稱數據獲得,就是指從控制器和其他被測機器設備等仿真模擬和數據被測模塊中全自動採集信息的全過程。

數據歸類新一代數據管理體系中,將傳統式數據管理體系中沒有考慮到過的新數據源開展梳理與歸類,可將其分成線上個人行為數據與內容數據兩類。

▷線上個人行為數據:網頁頁面數據、互動數據、表格數據、對話數據等。

▷內容數據:運用系統日誌、文檔、設備數據、視頻語音數據、社交網絡數據等。

大數據的關鍵來源於(人、自然環境、物塊等,互聯網技術,物聯網技術等):

1)商業服務數據

2)互聯網技術數據

3)控制器數據[1]

參考來源