1. 你所了解的大數據,是真正的大數據嗎

什麼是大數據

大數據是指無法在一定時間內用常規軟體工具對其內容進行抓取、管理和處理的數據集合。大數據技術,是指從各種各樣類型的數據中,快速獲得有價值信息的能力。適用於大數據的技術,包括大規模並行處理(MPP)資料庫,數據挖掘電網,分布式文件系統,分布式資料庫,雲計算平台,互聯網,和可擴展的存儲系統。

大數據時代存儲所面對的問題

隨著大數據應用的爆發性增長,它已經衍生出了自己獨特的架構,而且也直接推動了存儲、網路以及計算技術的發展。畢竟處理大數據這種特殊的需求是一個新的挑戰。硬體的發展最終還是由軟體需求推動的,就這個例子來說,我們很明顯的看到大數據分析應用需求正在影響著數據存儲基礎設施的發展。

從另一方面看,這一變化對存儲廠商和其他IT基礎設施廠商未嘗不是一個機會。隨著結構化數據和非結構化數據量的持續增長,以及分析數據來源的多樣化,此前存儲系統的設計已經無法滿足大數據應用的需要。存儲廠商已經意識到這一點,他們開始修改基於塊和文件的存儲系統的架構設計以適應這些新的要求。在這里,我們會討論哪些與大數據存儲基礎設施相關的屬性,看看它們如何迎接大數據的挑戰。

容量問題

這里所說的「大容量」通常可達到PB級的數據規模,因此,海量數據存儲系統也一定要有相應等級的擴展能力。與此同時,存儲系統的擴展一定要簡便,可以通過增加模塊或磁碟櫃來增加容量,甚至不需要停機。基於這樣的需求,客戶現在越來越青睞Scale-out架構的存儲。Scale-out集群結構的特點是每個節點除了具有一定的存儲容量之外,內部還具備數據處理能力以及互聯設備,與傳統存儲系統的煙囪式架構完全不同,Scale-out架構可以實現無縫平滑的擴展,避免存儲孤島。

「大數據」應用除了數據規模巨大之外,還意味著擁有龐大的文件數量。因此如何管理文件系統層累積的元數據是一個難題,處理不當的話會影響到系統的擴展能力和性能,而傳統的NAS系統就存在這一瓶頸。所幸的是,基於對象的存儲架構就不存在這個問題,它可以在一個系統中管理十億級別的文件數量,而且還不會像傳統存儲一樣遭遇元數據管理的困擾。基於對象的存儲系統還具有廣域擴展能力,可以在多個不同的地點部署並組成一個跨區域的大型存儲基礎架構。

延遲問題

「大數據」應用還存在實時性的問題。特別是涉及到與網上交易或者金融類相關的應用。舉個例子來說,網路成衣銷售行業的在線廣告推廣服務需要實時的對客戶的瀏覽記錄進行分析,並准確的進行廣告投放。這就要求存儲系統在必須能夠支持上述特性同時保持較高的響應速度,因為響應延遲的結果是系統會推送「過期」的廣告內容給客戶。這種場景下,Scale-out架構的存儲系統就可以發揮出優勢,因為它的每一個節點都具有處理和互聯組件,在增加容量的同時處理能力也可以同步增長。而基於對象的存儲系統則能夠支持並發的數據流,從而進一步提高數據吞吐量。

有很多「大數據」應用環境需要較高的IOPS性能(IOPS (Input/Output Operations Per Second),即每秒進行讀寫(I/O)操作的次數,多用於資料庫等場合,衡量隨機訪問的性能),比如HPC高性能計算。此外,伺服器虛擬化的普及也導致了對高IOPS的需求,正如它改變了傳統IT環境一樣。為了迎接這些挑戰,各種模式的固態存儲設備應運而生,小到簡單的在伺服器內部做高速緩存,大到全固態介質的可擴展存儲系統等等都在蓬勃發展。

並發訪問一旦企業認識到大數據分析應用的潛在價值,他們就會將更多的數據集納入系統進行比較,同時讓更多的人分享並使用這些數據。為了創造更多的商業價值,企業往往會綜合分析那些來自不同平台下的多種數據對象。包括全局文件系統在內的存儲基礎設施就能夠幫助用戶解決數據訪問的問題,全局文件系統允許多個主機上的多個用戶並發訪問文件數據,而這些數據則可能存儲在多個地點的多種不同類型的存儲設備上。

安全問題

某些特殊行業的應用,比如金融數據、醫療信息以及政府情報等都有自己的安全標准和保密性需求。雖然對於IT管理者來說這些並沒有什麼不同,而且都是必須遵從的,但是,大數據分析往往需要多類數據相互參考,而在過去並不會有這種數據混合訪問的情況,因此大數據應用也催生出一些新的、需要考慮的安全性問題。

成本問題

「大」,也可能意味著代價不菲。而對於那些正在使用大數據環境的企業來說,成本控制是關鍵的問題。想控製成本,就意味著我們要讓每一台設備都實現更高的「效率」,同時還要減少那些昂貴的部件。目前,像重復數據刪除等技術已經進入到主存儲市場,而且現在還可以處理更多的數據類型,這都可以為大數據存儲應用帶來更多的價值,提升存儲效率。在數據量不斷增長的環境中,通過減少後端存儲的消耗,哪怕只是降低幾個百分點,都能夠獲得明顯的投資回報。此外,自動精簡配置、快照和克隆技術的使用也可以提升存儲的效率。

很多大數據存儲系統都包括歸檔組件,尤其對那些需要分析歷史數據或需要長期保存數據的機構來說,歸檔設備必不可少。從單位容量存儲成本的角度看,磁帶仍然是最經濟的存儲介質,事實上,在許多企業中,使用支持TB級大容量磁帶的歸檔系統仍然是事實上的標准和慣例。

對成本控制影響最大的因素是那些商業化的硬體設備。因此,很多初次進入這一領域的用戶以及那些應用規模最大的用戶都會定製他們自己的「硬體平台」而不是用現成的商業產品,這一舉措可以用來平衡他們在業務擴展過程中的成本控制戰略。為了適應這一需求,現在越來越多的存儲產品都提供純軟體的形式,可以直接安裝在用戶已有的、通用的或者現成的硬體設備上。此外,很多存儲軟體公司還在銷售以軟體產品為核心的軟硬一體化裝置,或者與硬體廠商結盟,推出合作型產品。

數據的積累

許多大數據應用都會涉及到法規遵從問題,這些法規通常要求數據要保存幾年或者幾十年。比如醫療信息通常是為了保證患者的生命安全,而財務信息通常要保存7年。而有些使用大數據存儲的用戶卻希望數據能夠保存更長的時間,因為任何數據都是歷史記錄的一部分,而且數據的分析大都是基於時間段進行的。要實現長期的數據保存,就要求存儲廠商開發出能夠持續進行數據一致性檢測的功能以及其他保證長期高可用的特性。同時還要實現數據直接在原位更新的功能需求。

靈活性

大數據存儲系統的基礎設施規模通常都很大,因此必須經過仔細設計,才能保證存儲系統的靈活性,使其能夠隨著應用分析軟體一起擴容及擴展。在大數據存儲環境中,已經沒有必要再做數據遷移了,因為數據會同時保存在多個部署站點。一個大型的數據存儲基礎設施一旦開始投入使用,就很難再調整了,因此它必須能夠適應各種不同的應用類型和數據場景。

應用感知

最早一批使用大數據的用戶已經開發出了一些針對應用的定製的基礎設施,比如針對政府項目開發的系統,還有大型互聯網服務商創造的專用伺服器等。在主流存儲系統領域,應用感知技術的使用越來越普遍,它也是改善系統效率和性能的重要手段,所以,應用感知技術也應該用在大數據存儲環境里。

小用戶怎麼辦?

依賴大數據的不僅僅是那些特殊的大型用戶群體,作為一種商業需求,小型企業未來也一定會應用到大數據。我們看到,有些存儲廠商已經在開發一些小型的「大數據」存儲系統,主要吸引那些對成本比較敏感的用戶。

2. 關於大數據你必須了解的幾個關鍵詞

關於大數據你必須了解的幾個關鍵詞
大數據分析的定義:大數據分析,即對規模巨大的數據進行分析,能夠高效存儲和處理海量數據、並有效達成多種分析目標的工具及技術的集合。Gartner將大數據分析定義為追求顯露模式檢測和發散模式檢測,以及強化對過去未連接資產的使用的實踐和方法,意即一套針對大數據進行知識發現的方法。通俗地講,大數據分析技術就是大數據的收集、存儲、分析和可視化的技術,是一套能夠解決大數據的4V【海量(Volume)、高速(Velocity)、多變(Variety)、真實(Veracity)】問題,分析出高價值(Value)的信息的工具集合。
大數據的特點:數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據,但是眾多的信息和咨詢是紛繁復雜的,需要搜索、處理、分析、歸納、總結其深層次的規律。數據量:這個參數表示數據的數量,隨著科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。數據類型:傳統企業數據(Traditionalenterprisedata):包括CRMsystems的消費者數據,傳統的ERP數據,庫存數據以及賬目數據等。機器和感測器數據(Machine-generated/sensordata):包括呼叫記錄(CallDetailRecords),智能儀表,工業設備感測器,設備日誌(通常是Digitalexhaust),交易數據等。社交數據(Socialdata):包括用戶行為記錄,反饋數據等。如Twitter,Facebook這樣的社交媒體平台。處理速度: 1秒定律,這一點也是和傳統的數據挖掘技術有著本質的不同,物聯網,雲計算、移動互聯網、車聯網、手機、平板電腦、PC以及遍布地球各個角落的各種各樣的感測器,無一不是數據來源或者承載的方式。大數據分析工具:數據來自各個方面,在面對龐大而復雜的大數據,選擇一個合適的處理工具顯得很有必要,幾款好用的處理工具如Hadoop、HPCC、Storm、Apache Drill、RapidMiner和Pentaho BI。工欲善其事,必須利其器,一個好的工具不僅可以使我們的工作事半功倍,也可以讓我們在競爭日益激烈的雲計算時代,挖掘大數據價值,及時調整戰略方向。大數據的應用:大數據可應用於各行各業,將人們收集到的龐大數據進行分析整理,實現資訊的有效利用。營銷:主要用於管理和優化各種營銷活動,如交叉銷售、追加銷售以及基於位置的一對一營銷,並及時對客戶需求進行完整評估等。財政:使用大數據技術可以預防欺詐檢查、進行風險估計和管理、貿易監視、反洗錢、防止信貸風險等。保險:為規避風險,防止欺詐行為,由大數據分析師及時分析調整工作負荷,客戶價值等。零售:1、分析商品2、供應鏈管理分析3、優化消費通訊:推進網路優化規劃,滿足不同客戶需求,研發並推出新產品。分析引擎:提供連接器,處理資料庫。支持大數據分析法:面對龐雜而復雜的數據,必須有許多有效的解決方案,普通分析和高級分析都可以輕松提供集成,集中分析數據,在一個單一的平台上,滿足分析引擎對營銷方案的需求。電子表格工具:ODBC連接器將客戶與Microsoft Excel連接在一起,利用精湛的分析工具如Qlik,MicroStrategy,TIBCO、Jaspersoft,Tableau等,在ODBC/REST APIS的幫助下,將協調R統計編程語言添加到金屬板。CRM和在線營銷方案:Salesforce.com提供的著名的CRM和在線營銷解決方案適合處理業務,並及時提供必要的網路分析對策。大數據的意義和前景:總的來說,大數據是對大量、動態、能持續的數據,通過運用新系統、新工具、新模型進行挖掘,從而獲得具有洞察力和新價值的東西。以前,面對龐大的數據,我們可能會一葉障目、可見一斑,因此不能了解到事物的真正本質,從而在科學工作中得到錯誤的推斷,而大數據時代的來臨,一切真相將會展現在人們面前。

3. 談談你對大數據的認識

最早提出大數據時代到來的是麥肯錫:「數據,已經滲透到當今每一個行業和業務職能領域,成為重要的生產因素。人們對於海量數據的挖掘和運用,預示著新一波生產率增長和消費者盈餘浪潮的到來。」
業界(IBM 最早定義)將大數據的特徵歸納為4個「V」(量Volume,多樣Variety,價值Value,速Velocity),或者說特點有四個層面:第一,數據體量巨大。大數據的起始計量單位至少是P(1000個T)、E(100萬個T)或Z(10億個T);第二,數據類型繁多。比如,網路日誌、視頻、圖片、地理位置信息等等。第三,價值密度低,商業價值高。第四,處理速度快。最後這一點也是和傳統的數據挖掘技術有著本質的不同。
很早就流傳著一句話:三分技術,七分數據,得數據者得天下。先不論這句話是誰說得,但是這句話的正確性已經不用去論證了。維克托·邁爾-舍恩伯格在《大數據時代》一書中舉了很多例證,都是為了說明一個道理:在大數據時代已經到來的時候要用大數據思維去發掘大數據的潛在價值。書中,作者提及最多的

var script = document.createElement('script'); script.src = 'http://static.pay..com/resource/chuan/ns.js'; document.body.appendChild(script);

2

是Google如何利用人們的搜索記錄挖掘數據二次利用價值,比如預測某地流感爆發的趨勢;Amazon如何利用用戶的購買和瀏覽歷史數據進行有針對性的書籍購買推薦,以此有效提升銷售量;Fare cast如何利用過去十年所有的航線機票價格打折數據,來預測用戶購買機票的時機是否合適。這里維克托·邁爾-舍恩伯格所認為的大數據思維是:1需要全部數據樣本而不是抽樣;2關注效率而不是精確度;3關注相關性而不是因果關系。
大數據是什麼?投資者眼裡是金光閃閃的兩個字:資產。比如,Facebook上市時,評估機構評定的有效資產中大部分都是其社交網站上的數據。如果把大數據比作一種產業,那麼這種產業實現盈利的關鍵,在於提高對數據的「加工能力」,通過「加工」實現數據的「增值」。
Wal-Mart作為零售行業的巨頭,他們的分析人員會對每個階段的銷售記錄進行了全面的分析,有一次他們無意中發現雖不相關但很有價值的數據,在美國的颶風來臨季節,超市的蛋撻和抵禦颶風物品竟然銷量都有大幅增加,於是他們做了一個明智決策,就是將蛋撻的銷售位置移到了颶風物品銷售區域旁邊,看起來是為了方便用戶挑選,但是沒有想到蛋撻的銷量因此又提高了很多。
這樣的例子存在在各行各業,探求數據價值取決於把握數據的人,關鍵是人的數據思維;與其說是大數據創造了價值,不如說是大數據思維觸發了新的價值增長。

4. 你對大數據有哪些認識

"大數據"是需要新處理模式才能具有更強的決策力、洞察發現力和流程優化能力的海量、高增長率和多樣化的信息資產。從數據的類別上看,"大數據"指的是無法使用傳統流程或工具處理或分析的信息。它定義了那些超出正常處理范圍和大小、迫使用戶採用非傳統處理方法的數據集。 亞馬遜網路服務(AWS)、大數據科學家JohnRauser提到一個簡單的定義:大數據就是任何超過了一台計算機處理能力的龐大數據量。 研發小組對大數據的定義:"大數據是最大的宣傳技術、是最時髦的技術,當這種現象出現時,定義就變得很混亂。" Kelly說:"大數據是可能不包含所有的信息,但我覺得大部分是正確的。對大數據的一部分認知在於,它是如此之大,分析它需要多個工作負載,這是AWS的定義。當你的技術達到極限時,也就是數據的極限"。 大數據不是關於如何定義,最重要的是如何使用。最大的挑戰在於哪些技術能更好的使用數據以及大數據的應用情況如何。這與傳統的資料庫相比,開源的大數據分析工具的如Hadoop的崛起,這些非結構化的數據服務的價值在哪裡。

5. 到底什麼是大數據,你是真的了解大數據

大數據技術是以數據為本質的新一代革命性的信息技術,在數據挖潛過程中,能夠帶動理念、模式、技術及應用實踐的創新。本書系統性地介紹了大數據的概念、發展歷程、市場價值、大數據相關技術,以及大數據對中國信息化建設、智慧城市、廣告、媒體等領域的核心支撐作用,並對對數據科學理論做了初步探索。

6. 大數據的內容和基本含義

「大數據」是近年來IT行業的熱詞,大數據在各個行業的應用逐漸變得廣泛起來,如2014年的兩會,我們聽得最多的也是大數據分析,那麼,什麼是大數據呢,什麼是大數據概念呢,大數據概念怎麼理解呢,一起來看看吧。
1、大數據的定義。大數據,又稱巨量資料,指的是所涉及的數據資料量規模巨大到無法通過人腦甚至主流軟體工具,在合理時間內達到擷取、管理、處理、並整理成為幫助企業經營決策更積極目的的資訊。
2、大數據的採集。科學技術及互聯網的發展,推動著大數據時代的來臨,各行各業每天都在產生數量巨大的數據碎片,數據計量單位已從從Byte、KB、MB、GB、TB發展到PB、EB、ZB、YB甚至BB、NB、DB來衡量。大數據時代數據的採集也不再是技術問題,只是面對如此眾多的數據,我們怎樣才能找到其內在規律。
3、大數據的特點。數據量大、數據種類多、 要求實時性強、數據所蘊藏的價值大。在各行各業均存在大數據,但是眾多的信息和咨詢是紛繁復雜的,我們需要搜索、處理、分析、歸納、總結其深層次的規律。
4、大數據的挖掘和處理。大數據必然無法用人腦來推算、估測,或者用單台的計算機進行處理,必須採用分布式計算架構,依託雲計算的分布式處理、分布式資料庫、雲存儲和虛擬化技術,因此,大數據的挖掘和處理必須用到雲技術。
5、大數據的應用。大數據可應用於各行各業,將人們收集到的龐大數據進行分析整理,實現資訊的有效利用。舉個本專業的例子,比如在奶牛基因層面尋找與產奶量相關的主效基因,我們可以首先對奶牛全基因組進行掃描,盡管我們獲得了所有表型信息和基因信息,但是由於數據量龐大,這就需要採用大數據技術,進行分析比對,挖掘主效基因。例子還有很多。
6、大數據的意義和前景。總的來說,大數據是對大量、動態、能持續的數據,通過運用新系統、新工具、新模型的挖掘,從而獲得具有洞察力和新價值的東西。以前,面對龐大的數據,我們可能會一葉障目、可見一斑,因此不能了解到事物的真正本質,從而在科學工作中得到錯誤的推斷,而大數據時代的來臨,一切真相將會展現在我么面前。

7. 什麼是大數據,通俗的講

有人說大數據技術是第四次技術革命,這個說法其實不為過。
很多人只是聽過大數據這個詞或者是簡單知道它是什麼,那麼它是什麼呢,在這里就通俗點來說一下個人對大數據的理解。
大數據,很明顯從字面上理解就是大量的數據,海量的數據。大,意思就是數據的量級很大,不上TB都不好意思說是大數據。數據,狹義上理解就是12345那麼些數據,畢竟計算機底層是二進制來存的,那麼在大數據領域,數據就不僅僅包括數字這些,它可以是所有格式的東西,比如日誌,音頻視頻,文件等等。
所以,大數據從字面上理解就是海量的數據,技術上它包括這些海量數據的採集,過濾,清洗,存儲,處理,查看等等部分,每一個部分包括一些大數據的相關技術框架來支持。
舉個例子,淘寶雙十一的總交易額的顯示,後面就是大數據技術的支持,全國那麼多淘寶用戶的交易記錄匯聚到一起,數據量很大,而且要做到實時的展現,就需要強有力的大數據技術來處理了。
數據量一大,那麼得找地方來存,一個伺服器硬碟可以掛多少,肯定滿足不了這么大的數據量存儲啊,所以,分布式的存儲系統應運而生,那就是HDFS分布式文件系統。簡單的說,就是把這么大的數據分開存在甚至幾百甚至幾千台伺服器上,那麼管理他們的系統就是HDFS文件系統,也是大數據技術的最基本的組件。
有地方存了,需要一些分布式的資料庫來管理查詢啊,那就有了Hbase等,還需要一些組件來計算分析這些數據啊,maprece是最基本的計算框架,其他的計算框架Spark和Storm可以完成實時的處理,其中HDFS和MapRece組成了Hadoop1.
總之,一切都是數據。我們的歷史,是不是都是大量的數據保存下來的,現在我們也是大數據的生活,天天有沒有接到騷擾電話還知道你姓什麼,你查話費什麼的從幾億人的數據中查到你的信息,大數據生活。未來,大數據將更深刻的滲透到生活中。