由于集群內(nèi)部的松耦合方式以及資源分布的特點(diǎn),對(duì)其日常維護(hù)管理提出了較高的要求。作為用戶(hù),不必知道集群的基礎(chǔ)系統(tǒng)結(jié)構(gòu)就可以有效的使用這些機(jī)器。無(wú)論是否遠(yuǎn)程,都可以透明地訪問(wèn)系統(tǒng)資源、提交任務(wù)。整個(gè)系統(tǒng)應(yīng)當(dāng)具備良好的可用性和可擴(kuò)展性。這就需要在集群硬件系統(tǒng)之上建立一個(gè)管理系統(tǒng)——集群管理系統(tǒng),負(fù)責(zé)管理集群、實(shí)現(xiàn)集群功能,讓用戶(hù)在使用集群時(shí)就像在使用一臺(tái)計(jì)算機(jī)一樣。集群管理系統(tǒng)能夠?qū)崿F(xiàn)集群功能并且管理整個(gè)系統(tǒng),是集群必不可少的軟件支持,也是集群技術(shù)的集中體現(xiàn)。
當(dāng)集群在虛擬化基礎(chǔ)架構(gòu)中,虛擬化管理程序負(fù)責(zé)加強(qiáng)共享、隔離吵鬧的鄰居、動(dòng)態(tài)遷移和/或重新啟動(dòng)受影響,甚至突然飆升的工作負(fù)載,還扮演交警的角色。這幾年我們發(fā)現(xiàn)了該領(lǐng)域的長(zhǎng)足進(jìn)步,可以在虛擬機(jī)層面和虛擬存儲(chǔ)卷級(jí)別(如VMware VVOL)上,動(dòng)態(tài)執(zhí)行用戶(hù)指定的服務(wù)質(zhì)量(QoS)。 有效的集群管理設(shè)計(jì)對(duì)大數(shù)據(jù)尤其重要,這關(guān)系到引入企業(yè)IT規(guī)模擴(kuò)展的HPC技術(shù)。Hadoop、Spark和其他可擴(kuò)展NoSQL工具旨在讓所有人都實(shí)現(xiàn)分布式處理。然而,生產(chǎn)大數(shù)據(jù)應(yīng)用程序目前要求應(yīng)用程序性能的一致性。當(dāng)大數(shù)據(jù)應(yīng)用支撐著關(guān)鍵業(yè)務(wù)流程時(shí),運(yùn)營(yíng)與性能的可靠性和穩(wěn)定性將成為問(wèn)題。
在種類(lèi)繁多的大數(shù)據(jù)工具如Hadoop集群,每個(gè)大數(shù)據(jù)作業(yè)都爭(zhēng)奪相同的資源。到目前為止,很多Hadoop集群只是簡(jiǎn)單處理小型單一的大數(shù)據(jù)處理流程或只對(duì)小部分用戶(hù)服務(wù),通常用于非生產(chǎn)環(huán)境的數(shù)據(jù)科學(xué)。但隨著大數(shù)據(jù)集群移入生成環(huán)境,就意味著它們需要承載更多的任務(wù)并且服務(wù)多個(gè)租戶(hù)——就如大型虛擬化或云集群。而當(dāng)這種集群被共享,管理大數(shù)據(jù)將成為一大挑戰(zhàn)。經(jīng)??吹叫碌拇髷?shù)據(jù)集群管理和操作方案并不稀奇。集群管理工具一般分為幾類(lèi)。起步于高性能計(jì)算領(lǐng)域的Bright Computing公司,現(xiàn)在正協(xié)助企業(yè)從裸機(jī)上部署、配置與管理大型集群。 但真正的關(guān)鍵在于性能管理,秘訣在于了解都是誰(shuí),以及在什么時(shí)候做什么事。至少,還有標(biāo)準(zhǔn)的工具可以從集群的日志文件(通常十分巨大)中生成報(bào)告。但隨著日志的增長(zhǎng),這個(gè)方法的效果會(huì)降低。而且當(dāng)談及運(yùn)營(yíng)性能,真正要做的實(shí)際上是優(yōu)化混合租戶(hù)與混合工作負(fù)載環(huán)境的QoS和運(yùn)行時(shí)。例如,Pepperdata能生成實(shí)時(shí)運(yùn)行視圖,展示集群里正在發(fā)生什么,然后可以動(dòng)態(tài)的控制和分配集群資源。這樣可以保證優(yōu)先級(jí)應(yīng)用程序滿(mǎn)足服務(wù)器級(jí)別協(xié)議,同時(shí)最小化集群基礎(chǔ)設(shè)施的規(guī)模。
在更高的級(jí)別,大數(shù)據(jù)需要有自己專(zhuān)屬的應(yīng)用程序性能管理程序。例子之一是Concurrent的Driven,可以跟蹤和回溯應(yīng)用程序執(zhí)行軌跡,還可以直接監(jiān)控業(yè)務(wù)流程和應(yīng)用程序級(jí)的工作流,應(yīng)用程序之間的內(nèi)部依賴(lài)、運(yùn)行時(shí)和失敗。這樣有助于識(shí)別代碼瓶頸,規(guī)劃和修復(fù)工作流執(zhí)行窗口,并協(xié)助數(shù)據(jù)管理。隨著橫向擴(kuò)展架構(gòu)在數(shù)據(jù)中心內(nèi)落地,集群管理工具的價(jià)值將增長(zhǎng)——降低資源共享所需的資本支出,同時(shí)保障承諾性能和其他大數(shù)據(jù)處理業(yè)務(wù)的QoS。在某些情況下,IT沒(méi)有這些集群專(zhuān)用工具協(xié)助,是可能無(wú)法有效處理這些大數(shù)據(jù)集群的。
由于集群內(nèi)部的松耦合方式以及資源分布的特點(diǎn),對(duì)其日常維護(hù)管理提出了較高的要求。作為用戶(hù),不必知道集群的基礎(chǔ)系統(tǒng)結(jié)構(gòu)就可以有效的使用這些機(jī)器。無(wú)論是否遠(yuǎn)程,都可以透明地訪問(wèn)系統(tǒng)資源、提交任務(wù)。整個(gè)系統(tǒng)應(yīng)當(dāng)具備良好的可用性和可擴(kuò)展性。這就需要在集群硬件系統(tǒng)之上建立一個(gè)管理系統(tǒng)——集群管理系統(tǒng),負(fù)責(zé)管理集群、實(shí)現(xiàn)集群功能,讓用戶(hù)在使用集群時(shí)就像在使用一臺(tái)計(jì)算機(jī)一樣。集群管理系統(tǒng)能夠?qū)崿F(xiàn)集群功能并且管理整個(gè)系統(tǒng),是集群必不可少的軟件支持,也是集群技術(shù)的集中體現(xiàn)。
當(dāng)集群在虛擬化基礎(chǔ)架構(gòu)中,虛擬化管理程序負(fù)責(zé)加強(qiáng)共享、隔離吵鬧的鄰居、動(dòng)態(tài)遷移和/或重新啟動(dòng)受影響,甚至突然飆升的工作負(fù)載,還扮演交警的角色。這幾年我們發(fā)現(xiàn)了該領(lǐng)域的長(zhǎng)足進(jìn)步,可以在虛擬機(jī)層面和虛擬存儲(chǔ)卷級(jí)別(如VMware VVOL)上,動(dòng)態(tài)執(zhí)行用戶(hù)指定的服務(wù)質(zhì)量(QoS)。 有效的集群管理設(shè)計(jì)對(duì)大數(shù)據(jù)尤其重要,這關(guān)系到引入企業(yè)IT規(guī)模擴(kuò)展的HPC技術(shù)。Hadoop、Spark和其他可擴(kuò)展NoSQL工具旨在讓所有人都實(shí)現(xiàn)分布式處理。然而,生產(chǎn)大數(shù)據(jù)應(yīng)用程序目前要求應(yīng)用程序性能的一致性。當(dāng)大數(shù)據(jù)應(yīng)用支撐著關(guān)鍵業(yè)務(wù)流程時(shí),運(yùn)營(yíng)與性能的可靠性和穩(wěn)定性將成為問(wèn)題。
在種類(lèi)繁多的大數(shù)據(jù)工具如Hadoop集群,每個(gè)大數(shù)據(jù)作業(yè)都爭(zhēng)奪相同的資源。到目前為止,很多Hadoop集群只是簡(jiǎn)單處理小型單一的大數(shù)據(jù)處理流程或只對(duì)小部分用戶(hù)服務(wù),通常用于非生產(chǎn)環(huán)境的數(shù)據(jù)科學(xué)。但隨著大數(shù)據(jù)集群移入生成環(huán)境,就意味著它們需要承載更多的任務(wù)并且服務(wù)多個(gè)租戶(hù)——就如大型虛擬化或云集群。而當(dāng)這種集群被共享,管理大數(shù)據(jù)將成為一大挑戰(zhàn)。經(jīng)??吹叫碌拇髷?shù)據(jù)集群管理和操作方案并不稀奇。集群管理工具一般分為幾類(lèi)。起步于高性能計(jì)算領(lǐng)域的Bright Computing公司,現(xiàn)在正協(xié)助企業(yè)從裸機(jī)上部署、配置與管理大型集群。 但真正的關(guān)鍵在于性能管理,秘訣在于了解都是誰(shuí),以及在什么時(shí)候做什么事。至少,還有標(biāo)準(zhǔn)的工具可以從集群的日志文件(通常十分巨大)中生成報(bào)告。但隨著日志的增長(zhǎng),這個(gè)方法的效果會(huì)降低。而且當(dāng)談及運(yùn)營(yíng)性能,真正要做的實(shí)際上是優(yōu)化混合租戶(hù)與混合工作負(fù)載環(huán)境的QoS和運(yùn)行時(shí)。例如,Pepperdata能生成實(shí)時(shí)運(yùn)行視圖,展示集群里正在發(fā)生什么,然后可以動(dòng)態(tài)的控制和分配集群資源。這樣可以保證優(yōu)先級(jí)應(yīng)用程序滿(mǎn)足服務(wù)器級(jí)別協(xié)議,同時(shí)最小化集群基礎(chǔ)設(shè)施的規(guī)模。
在更高的級(jí)別,大數(shù)據(jù)需要有自己專(zhuān)屬的應(yīng)用程序性能管理程序。例子之一是Concurrent的Driven,可以跟蹤和回溯應(yīng)用程序執(zhí)行軌跡,還可以直接監(jiān)控業(yè)務(wù)流程和應(yīng)用程序級(jí)的工作流,應(yīng)用程序之間的內(nèi)部依賴(lài)、運(yùn)行時(shí)和失敗。這樣有助于識(shí)別代碼瓶頸,規(guī)劃和修復(fù)工作流執(zhí)行窗口,并協(xié)助數(shù)據(jù)管理。隨著橫向擴(kuò)展架構(gòu)在數(shù)據(jù)中心內(nèi)落地,集群管理工具的價(jià)值將增長(zhǎng)——降低資源共享所需的資本支出,同時(shí)保障承諾性能和其他大數(shù)據(jù)處理業(yè)務(wù)的QoS。在某些情況下,IT沒(méi)有這些集群專(zhuān)用工具協(xié)助,是可能無(wú)法有效處理這些大數(shù)據(jù)集群的。

