东京热 影音-丁香最新网址-丁香五月综合缴清中文-丁香五月亚洲春色-v片在线播放-v片免费在线观看

當前位置: 首頁 > 能源互聯網 > 深度閱讀

大數據思維養成從認識大數據的本質開始

中國電力網發布時間:2020-04-26 11:58:50
  踐行數據的商業價值,理解大數據的本質,從哪里開始?應該從認識不確定性開始。

  什么是不確定性

  什么是不確定性?打個比方,老王、老李做一個游戲“猜花生米”。老王出一只拳頭,讓老李猜里面是空的還是抓了一粒花生米。這個事件對老王而言是確定性事件,因為老王自己有沒有抓花生米,他心知肚明。這個事件對猜拳的老李來說就是不確定性事件,因為老李無法對老王的猜拳決策做出絕對準確的預測。

  在實際生活中,不確定性事件廣泛存在。事實上,人生就是由一系列或大或小的不確定性事件構成的。婚姻選擇有著極大的不確定性。一對相愛的男女是否應該接受對方成為自己的終身伴侶,這是一個重大選擇。這個選擇的后果是什么?是幸福的遠航,還是痛苦的開始?這有很大的不確定性。為了極小化這種不確定性,青年男女往往需要一場死去活來的戀愛,以便充分暴露雙方的優點和缺點,以減少未來婚姻中的不確定性。但是,無論你如何了解,這種不確定性仍然存在。

  世界到處都充滿了不確定性,那我們對未來的世界認識是不是不可知的?答案是否定的。世界上很多事情是難以用確定的公式或者規則來表示,但是這種不確定性并不是無規律可循,這個時候就需要用到統計學中的概率模型來描述。在概率論的基礎上,信息論鼻祖香農博士建立了一套完整的理論,將世界的不確定性和信息聯系起來,這就是信息論,用來解釋不確定性的世界。

  信息可消除不確定性

  什么是信息?在看《暗時間》時(推薦大家看看),里面討論了一些信息論相關的內容,于是就嘗試搜索信息論和不確定性的關系,結果發現香農說了這么一句話:“信息是用來消除不確定性的東西”。信息論的鼻祖果然是鼻祖,一句話解釋了信息。

  信息是否可以被度量?如何度量信息?1948年,香農提出了“信息熵”這個概念,解決了信息度量的問題。他指出,信息量與不確定性有關:假如我們需要搞清楚一件非常不確定的事情,或者我們一無所知的事情,就需要收集大量的信息。相反,如果我們對某件事已經有了較多的了解,那么不需要太多的信息就能把它搞清楚。從這個角度來看,信息量的度量就是不確定性的多少。

  舉例說明,就拿互聯網廣告來說,在門戶網站上投放展示類的品牌廣告,點擊率是非常低的。因為對于受眾用戶,廣告投放時幾乎是隨機猜測用戶的需求,很不準確。而搜索廣告因為有用戶輸入的關鍵詞,準確率會大幅度提高,至于提高多少,取決于關鍵詞所提供的信息量。這就是搜索廣告所賺到的廣告費用要高出展示廣告兩個數量級。通過這個例子,也能說明,信息時代,誰掌握了更多的信息,誰就掌握了更多財富的可能性。

  大數據與信息的關系

  了解大數據的人,都可能知道,大數據有5V特點,這是IBM提出來的:Volume(大量)、Velocity(高速)、Variety(多樣)、Value(低價值密度)、Veracity(真實性)。但從信息論的角度,大數據通常是具備三個主要特征,數據量大,多樣性和完備性。

  1、大數據的體量足夠大

  大數據最明顯的特點就是體量大,這一點無論是內行還是外行都認可,沒什么異議。我們國家僅僅北京的國家超級大數據中心,占地面積就8萬平方米,包含9棟數據中心機房和1棟感知體驗中心。

  但是,過去由于數據量不夠,即使用了數據,依然不足以消除不確定性,因此數據的作用其實有限,很多人忽視它的重要性是必然的,數據的價值也就被嚴重低估。在那種情況下,哪個領域先積攢下足夠的數據,它的研究進展就顯得快一些。語音識別領域,就是因為早期積攢了大量的音頻數據,才可以捷足先登,第一批嘗到了數據驅動方法的甜頭。

  2、大數據的多維度足夠多

  眾所周知,Google的人工智能已經走在了前沿,也是目前全球估值最高的公司。但是,無論是AlpahaGo、無人駕駛還是IT醫療公司Calico,都是建立在多維度的大數據基礎之上的。例如關于“食物”這個問題,Google會利用用戶輸入的信息,收集所有相關的信息。不僅涉及到食物的做法、吃法、成分、營養價值、價格、問題來源的地域和時間等維度。

  大數據的多維度,統計學中稱為相關性,信息論中稱為互信息。互信息,它在信息論中,實現了對信息相關性的度量。比如“央行調整利率”和“股市短期波動”的互信息很大,這就證實了兩者具備強相關性。第二個視角,交叉驗證。舉例說明,夏天的時候,“空氣濕度高”和“24小時內要下雨”之間的互信息比較大。也就是說空氣濕度高,24小時下雨的可能性比較大,但并不能說空氣濕度高就一定會在24小時內下雨。還需要結合氣壓信息,云圖信息等其他緯度的信息,來交叉驗證“24小時內要下雨”這件事情,那么預測的準確性要高的多。

  3、大數據的完備性

  要理解它,需要介紹信息論中的一個重要概念—交叉熵。它可以反映兩個信息源之間的一致性,或者兩種概率模型之間的一致性。當兩個數據源完全一致的時候,其交叉熵為0,當它們相差很大時,它們的交叉熵也很大。因此,所有數據驅動的方法,建立模型使用的數據和使用模型的數據需要有一致性。

  抽樣調查方式都是采用抽取有限的樣本進行統計,從而得出整體的趨勢。抽樣的核心原則是隨機性,不隨機就不能真實地反應整體的趨勢。但是要做到隨機性是很難的。例如電視收視率調查,要從不同階層隨機找被調查的人,但高學歷高收入的大忙人們普遍拒絕被調查,他們根本就不會因為幾個蠅頭小利而浪費時間,電視調查的結果就可想而知。

  所以,在過去,任何使用概率統計模型都會有很多小概率事件是覆蓋不到的。大數據時代以前,這是數據驅動方法的死穴。

  在大數據時代,在某個領域獲得數據的完備性還是有可能的,Google的機器翻譯系統就能很好的要利用大數據的完備性。通過數據學到了不同語言之間很長句子成分的對應,然后直接把一種語言翻譯成另一類,前提條件就是使用的數據必須是比較全面地覆蓋中文、英文,以及其他各種語言的所有句子,也就是說具備兩種語言之間翻譯的完備性。

  當數據的完備性具備了以后,就相當于訓練模型的數據集合和使用這個模型的測試集合是同一個集合,或者是高度重復的。這樣的數據驅動方法才是有效的。

  由此可見,大數據的科學基礎是信息論,它的本質就是利用信息消除不確定性。

  ——以上內容部分是源自于吳軍老師《智能時代》的讀書筆記。

評論

用戶名:   匿名發表  
密碼:  
驗證碼:
最新評論0

相關閱讀

李瑋:手握大數據 馳騁物聯網

在4月22日舉辦的2019年度業績說明會上,佳華科技董事長李瑋表示,2020年,公司將持續在數據采集、數據分析方面發力,實現數據的復用和增值,成為物聯網數據的“托管地”,做實平臺化建設,構建智慧城市云鏈大數據平臺。“我們要成為物聯網領域的推動者、領航者。這條路一定是對的!”
專家觀點2020-04-26

“工業互聯網”條件下新一代控制系統的發展趨勢

隨著工業互聯網的快速發展,使得我們的生產數據可以進行規模化集中存儲,實現以前不可能實現的大數據,并利用云計算平臺前所未有的計算能力對這些大數據進行分析、挖掘和優化生產效率。
電力物聯網2020-04-24

從工業軟件轉型工業互聯網平臺,“朗坤智慧”已接入35萬臺設備

隨著物聯網、大數據等技術的發展,國內傳統工業信息化公司也開始了互聯網轉型。36氪近期采訪了國內老牌工業軟件廠商「朗坤智慧」副總裁、工業互聯網子公司總經理毛旭初,探討了公司從工業軟件向工業互聯網轉型的歷程以及目前其工業互聯網發展現狀。

新基建之數據中心2020

移動互聯網時代,數據流量不斷增加。去年,我國移動互聯網用戶每戶平均月流量為7.82GB,是2018年的1.69倍,企業數據也呈現爆發式增長。
市場研究2020-04-24
網絡數據安全標準體系:讓“新基建”更安全

網絡數據安全標準體系:讓“新基建”更安全

近年來,數據泄露事件頻頻發生,隨著5G、物聯網等“新基建”大規模推進,未來個人信息在網上應用將更加普遍,非法數據共享與交易帶來的安全挑戰愈加嚴峻。
市場研究2020-04-22

2020年大數據開發行業就業趨勢

隨著科技的發展,人類社會擁有數據規模增長很快,每時每刻、從天到地都有大量數據被產生和存儲下來。數據科學則通過對數據進行分析,幫助決策。
市場研究2020-04-22

六大案例解析電力行業如何應用大數據

智能時代的發展,電力行業積累了實實在在的海量“大數據”。電力行業的數據源主要來源于電力生產和電能使用的發電、輸電、變電、配電、用電和調度各個環節,可大致分為三類:一是電網運行和設備檢測或監測數據;二是電力企業營銷數據,如交易電價、售電量、用電客戶等方面數據;三是電力企業管理數據。

曙光中標長江電力!打造強大處理能力數據中心

近日,曙光中標長江電力三峽數據中心IT基礎設施及大數據資源集中管理項目,為長江電力提供安全可靠、穩定性高、可擴展的云計算大數據中心硬件平臺及全方位的技術服務。
大數據2020-04-21

萬國數據董事長黃偉:數據中心要為新基建“打好底”

在當前新舊動能轉換的關鍵時期,數字經濟正在強勢崛起,并改變著人類的生產、生活和消費行為,已成為我國經濟增長的新引擎。
專家觀點2020-04-21

“電力聲音”是大數據時代重要依據

最近,中共中央總書記、國家主席、中央軍委主席習近平,在浙江省委書記車俊和省長袁家軍陪同下,先后來到寧波、湖州、杭州等地,深入港口、企業、農村、生態濕地等,就統籌推進新冠肺炎疫情防控和經濟社會發展工作進行調研,強調運用電力大數據,推進流動人口風險分析、企業復工、獨居老人關愛等城市治理能力現代化。
言論觀點2020-04-20
主站蜘蛛池模板: 滕州市| 沛县| 长海县| 东乡族自治县| 土默特左旗| 抚松县| 汶川县| 丰县| 新密市| 怀远县| 西盟| 外汇| 琼海市| 兰西县| 根河市| 鄱阳县| 敖汉旗| 文登市| 瑞安市| 百色市| 西吉县| 兴化市| 长垣县| 错那县| 涿州市| 青海省| 鲁山县| 乳源| 兰坪| 兴宁市| 亳州市| 鄯善县| 连平县| 竹北市| 阳东县| 通辽市| 平湖市| 富裕县| 嵊泗县| 临朐县| 蓝田县|