1. 電力行業做大數據平台有哪些價值體現能解決什麼問題

充分應用移動互聯、人工智慧等現代信息技術、先進通信技術,實現電力內系統各環節萬容物互聯、人機交互,具有狀態全面感知、信息高效處理、應用便捷靈活特徵的智慧服務系統,包含感知層、網路層、平台層、應用層四層結構。

2. 大數據與Hadoop之間是什麼關系

大數據是一系列技術的統稱,經過多年的發展,大數據已經形成了從數據採集、整理、傳回輸、存儲、答安全、分析、呈現和應用等一系列環節,這些環節涉及到諸多大數據工作崗位,這些工作崗位與物聯網、雲計算也都有密切的聯系。

大數據技術的三個重點:Hadoop、spark、storm。Hadoop本身就是大數據平台研發人員的工作成果,Hadoop是目前常見的大數據支撐性平台,Hadoop平台提供了分布式存儲(HDFS)、分布式計算(MapRece)、任務調度(YARN)、對象存儲(Ozone)和組件支撐服務(Common)。

3. HADOOP可以說是較為常用的大數據處理平台,那麼它與java有什麼關系

HADOOP是使用JAVA語言來實現的,之所以使用JAVA來實現,主要是因為JAVA社區比較火熱,關注的人也比較多。並不是因為使用JAVA語言來實現HADOOP更有優勢,可能使用C++來實現效果更佳

4. 簡述hadoop和spark大數據平台的基本構架和工作原理

簡述這你來查查這大數比據平台的一些消息,關於數據的。

5. 大數據平台是什麼什麼時候需要大數據平台如何建立大數據平台

首先我們要了解Java語言和Linux操作系統,這兩個是學習大數據的基礎,學習的順序不分前後。

Java :只要了解一些基礎即可,做大數據不需要很深的Java 技術,學java SE 就相當於有學習大數據基礎。

Linux:因為大數據相關軟體都是在Linux上運行的,所以Linux要學習的扎實一些,學好Linux對你快速掌握大數據相關技術會有很大的幫助,能讓你更好的理解hadoop、hive、hbase、spark等大數據軟體的運行環境和網路環境配置,能少踩很多坑,學會shell就能看懂腳本這樣能更容易理解和配置大數據集群。還能讓你對以後新出的大數據技術學習起來更快。

Hadoop:這是現在流行的大數據處理平台幾乎已經成為大數據的代名詞,所以這個是必學的。Hadoop裡麵包括幾個組件HDFS、MapRece和YARN,HDFS是存儲數據的地方就像我們電腦的硬碟一樣文件都存儲在這個上面,MapRece是對數據進行處理計算的,它有個特點就是不管多大的數據只要給它時間它就能把數據跑完,但是時間可能不是很快所以它叫數據的批處理。

Zookeeper:這是個萬金油,安裝Hadoop的HA的時候就會用到它,以後的Hbase也會用到它。它一般用來存放一些相互協作的信息,這些信息比較小一般不會超過1M,都是使用它的軟體對它有依賴,對於我們個人來講只需要把它安裝正確,讓它正常的run起來就可以了。

Mysql:我們學習完大數據的處理了,接下來學習學習小數據的處理工具mysql資料庫,因為一會裝hive的時候要用到,mysql需要掌握到什麼層度那?你能在Linux上把它安裝好,運行起來,會配置簡單的許可權,修改root的密碼,創建資料庫。這里主要的是學習SQL的語法,因為hive的語法和這個非常相似。

Sqoop:這個是用於把Mysql里的數據導入到Hadoop里的。當然你也可以不用這個,直接把Mysql數據表導出成文件再放到HDFS上也是一樣的,當然生產環境中使用要注意Mysql的壓力。

Hive:這個東西對於會SQL語法的來說就是神器,它能讓你處理大數據變的很簡單,不會再費勁的編寫MapRece程序。有的人說Pig那?它和Pig差不多掌握一個就可以了。

Oozie:既然學會Hive了,我相信你一定需要這個東西,它可以幫你管理你的Hive或者MapRece、Spark腳本,還能檢查你的程序是否執行正確,出錯了給你發報警並能幫你重試程序,最重要的是還能幫你配置任務的依賴關系。我相信你一定會喜歡上它的,不然你看著那一大堆腳本,和密密麻麻的crond是不是有種想屎的感覺。

Hbase:這是Hadoop生態體系中的NOSQL資料庫,他的數據是按照key和value的形式存儲的並且key是唯一的,所以它能用來做數據的排重,它與MYSQL相比能存儲的數據量大很多。所以他常被用於大數據處理完成之後的存儲目的地。

Kafka:這是個比較好用的隊列工具,隊列是干嗎的?排隊買票你知道不?數據多了同樣也需要排隊處理,這樣與你協作的其它同學不會叫起來,你干嗎給我這么多的數據(比如好幾百G的文件)我怎麼處理得過來,你別怪他因為他不是搞大數據的,你可以跟他講我把數據放在隊列里你使用的時候一個個拿,這樣他就不在抱怨了馬上灰流流的去優化他的程序去了,因為處理不過來就是他的事情。而不是你給的問題。當然我們也可以利用這個工具來做線上實時數據的入庫或入HDFS,這時你可以與一個叫Flume的工具配合使用,它是專門用來提供對數據進行簡單處理,並寫到各種數據接受方(比如Kafka)的。

Spark:它是用來彌補基於MapRece處理數據速度上的缺點,它的特點是把數據裝載到內存中計算而不是去讀慢的要死進化還特別慢的硬碟。特別適合做迭代運算,所以演算法流們特別稀飯它。它是用scala編寫的。Java語言或者Scala都可以操作它,因為它們都是用JVM的。

6. 類似hadoop大數據平台有哪些

Storm, Spark, Hadoop比較
http://www.itpub.net/thread-1882941-1-1.html

7. 在大數據平台hadoop可以做哪些應用

Hadoop是適復合於大數據的分布式存儲和處制理平台,是一種開源的框架
1、搜索引擎(Hadoop的初衷,為了針對大規模的網頁快速建立索引)。
2、大數據存儲,利用Hadoop的分布式存儲能力,例如數據備份、數據倉庫等。
3、大數據處理,利用Hadoop的分布式處理能力,例如數據挖掘、數據分析等。
4、Hadoop是一種分布式的開源框架,對於分布式計算有很大程度地參考價值。
應用:例如
日誌處理
用戶細分特徵建模
個性化設計

8. 一般,中型公司的大數據平台,hadoop幾個節點

可以這樣算,首先你要知道這個公司的數據量有多大,比如說有20pb,一般情況下,版文件副本設置為權3,那麼就是60pb,這時候看電腦硬碟多大,然後用60pb除以單個硬碟的大小,得到的結果就是從節點的個數,為了以防萬一,在這個節點數的基礎上再多加幾台。主節點的機器配置要求就比較高了,內存,硬碟之類的要比從節點好太多,主節點一般是一台,如果為了避免單點故障也就是主節點突然掛了,可以使用ha機制再增加一台主節點備用,這樣一旦主節點出現問題,另一台主節點能立刻工作,不會出現數據丟失!

9. 如何搭建基於Hadoop的大數據平台

Hadoop: 一個開源的分布式存儲、分布式計算平台.(基於Apache)

Hadoop的組成:
HDFS:分布式文件系統,存儲海量的數據。
MapRece:並行處理框架,實現任務分解和調度。
Hadoop的用處:
搭建大型數據倉庫,PB級數據的存儲、處理、分析、統計等業務。
比如搜索引擎、網頁的數據處理,各種商業智能、風險評估、預警,還有一些日誌的分析、數據挖掘的任務。
Hadoop優勢:高擴展、低成本、成熟的生態圈(Hadoop Ecosystem Map)

Hadoop開源工具:
Hive:將SQL語句轉換成一個hadoop任務去執行,降低了使用Hadoop的門檻。
HBase:存儲結構化數據的分布式資料庫,habase提供數據的隨機讀寫和實時訪問,實現 對表數據的讀寫功能。
zookeeper:就像動物管理員一樣,監控hadoop集群裡面每個節點的狀態,管理整個集群 的配置,維護節點針之間數據的一次性等等。
hadoop的版本盡量選穩定版本,即較老版本。
===============================================
Hadoop的安裝與配置:
1)在Linux中安裝JDK,並設置環境變數
安裝jdk: >> sudo apt-get install openjdk-7-jdk
設置環境變數:
>> vim /etc/profile

>> :wq
2)下載Hadoop,並設置Hadoop環境變數
下載hadoop解壓縮:
>> cd /opt/hadoop-1.2.1/
>> ls
>> vim /etc/profile

>>:wq

3)修改4個配置文件
(a)修改hadoop-env.sh,設置JAVA_HOME
(b)修改core-site.xml,設置hadoop.tmp.dir, dfs.name.dir, fs.default.name
(c)修改mapred-site.xml, 設置mapred.job.tracker
(d)修改hdfs-site.xml,設置dfs.data.dir
>> cd conf
>> ls

>> vim mapred-site.xml

>> :wq
>> vim core-site.xml
第一部分

第二部分

>> :wq
>> vim hdfs-site.xml

>> :wq
>> vim hadoop-env.sh

>> :wq
# hadoop格式化
>> hadoop namenode -format
# hadoop啟動
>> start-all.sh
# 通過jps命令查看當前運行進程
>> jps
看見以下進程即說明hadoop安裝成功