Когато SQL не е достатъчен: Контроли за масивни нови центрове за данни

Видео: Crypto Pirates Daily News - January 19th, 2022 - Latest Crypto News Update

Съдържание

Google файлова система: голямо проучване на случаите
Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви
Поглед към основните технологии
Как други големи системи постигат това?
Поддържане на DFS

За вкъщи:

Разработчиците и инженерите трябва непрекъснато да работят за ускоряване и подобряване на услугите над платформи, които са надхвърлили класическите си архетипи от епохата на 90-те години.

С цялата шумотевица около огромни центрове за данни на НСА, които държат газилиони битове с данни за нашия личен живот, има едно нещо, за което не се говори много, поне в CNN. Той включва инженерни проблеми, които се появиха заедно с облачната технология, големите данни и впечатляващите физически центрове за съхранение на данни, които сега се изграждат по целия свят. И така, какво е това? Е, без значение кой управлява една от мамутните ИТ системи, които управляват тези съоръжения, има нужда от софтуерни системи, които помагат на всички тези данни бързо да влязат и излязат от тръбопровода. Тази нужда представлява един от най-интересните ИТ въпроси или пъзели, пред които са изправени професионалистите днес.

Както много експерти подчертават, днешното изключително търсене на обработка на данни надхвърля традиционните подходи. Най-просто казано, използването на прости структури на база данни и инструменти като интерфейс за SQL заявки няма да осигури достатъчно мощ или функционалност за обработка за подобно на собствените системи, които са се развили през последните няколко години. Архивите на днешните големи технологични компании се нуждаят от изключително мащабируема технология. Те се нуждаят от инструменти за обработка на данни, които могат да въвеждат и извеждат резултати в много по-голям обем от това, което може да улесни един сървър. Те се нуждаят от решения, които могат бързо да се увеличат за растеж, решения, които включват сложни нива на изкуствен интелект, решения, създадени за лесно управление от ИТ отдел.

Въпросът е как компаниите и правителствените агенции завладяват ограниченията на традиционния път за обработка на данни? Тук добре разгледайте една много обещаваща опция: Софтуер, който обработва големи данни и администриране на множество центрове за данни.

Google файлова система: голямо проучване на случаите

Защитената технология, която Google използва за достъп до своите центрове за данни, е един от най-добрите примери за общи модели за работа с големи данни и администриране на множество данни. Файловата система на Google (GFS), разработена през 2003 г., е проектирана да поддържа огромния обем от високоскоростни поправки в системите за данни, които са част от получаването на толкова много нова информация в и от една платформа, тъй като милиони потребители щракват на по същото време. Експертите наричат това като разпределена файлова система и използват термина „съхранение на данни”, за да опишат тези изключително сложни техники. В действителност обаче тези термини дори не надраскват повърхността, като описват какво работи.

Отделно, функциите и компонентите, които изграждат система като GFS, може да не са новаторски, но те са сложни. Много от тях са обхванати на този сайт като сравнително нови иновации, които са част от основата на нова, винаги включена, винаги свързана глобална ИТ система. Колективно система като GFS е много повече от сбора на нейните части: тя е до голяма степен невидима, но изключително сложна мрежа, пълна с отделни части данни, хвърлени по този начин, и че в процес, който, ако бъде напълно моделиран визуално, ще изглежда като хаос. Разбирането къде отиват всички данни отнема много енергия и ангажираност, тъй като онези, които поддържат бойните станции на тези системи, лесно ще признаят.

„Има твърде много подробности, които оказват дълбоко влияние върху областите на използваемост - включително външна и вътрешна фрагментация, ъпдейти, базирани на лога спрямо мястото и нива на последователност на транзакциите, за да обобщят начина, по който работи в едно кратко изречение ", казва Момчил Михайлов, изпълнителен директор и съосновател на Sanbolic.

„Разпределената файлова система е или разпределен агрегатор от местни пространства от имена и свободни пространства на участващи възли, или локална файлова система, която работи на множество възли, достъпа до споделено хранилище с помощта на разпределен компонент за управление на заключване“, каза той.

Кери Лебел е старши продуктов мениджър в Automic, компания, известна със своите мащабируеми платформи за автоматизация. Lebel казва, че макар да е точно да се опише DFS като система, която просто присвоява натоварванията на сървъри, свързани с хардуерни части, това всъщност не разказва цялата история.

Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви

Не можете да подобрите уменията си за програмиране, когато никой не се интересува от качеството на софтуера.

„Това, което в крайна сметка липсва, е всичко най-готиният фактор как те правят това, което правят ", каза Лебел.

Когато се отдръпнете от техническите подробности и просто помислите за основната идея зад разпределената файлова система, "хладният фактор", за който говори Lebel, е очевиден. Тези системи за обработка на големи данни заменят стари файлови / папни системи със структури, които включват не само множество системи за доставяне, но и "обектно ориентиран" подход, при който огромен брой единици се пренасочват тук-там, за да се предотвратят затрудненията.

Помислете например за най-съвременна система от магистрали, при която стотици хиляди коли не са просто свити надолу по многопластови направо, а са загребани в спретнати малки детелини от листата на детелината или лакътя, които се завъртат и изпращат към техните дестинации по различни отклонения. От небето всичко изглежда толкова хореографирано, колкото швейцарски часовник. Това е видът на визуалния модел, който инженерите разглеждат, когато мечтаят за нови начини за насочване на информация около ограниченията, като ги „ритат“ до различни нива на многостепенна схема за ограничаване на данни. Оставяйки настрана спецификациите, това е целта на най-високо ниво на система за обработка: да поддържа тези самостоятелни обекти с вградените си метаданни да се движат с максимална скорост до мястото, където трябва да бъдат, за постигане на целите за съгласуваност, за удовлетворяване на крайния потребител или дори да информират наблюдение или анализ от най-високо ниво.

Поглед към основните технологии

Статия на Шон Галахър, която се появи на Ars Technica, разгражда GFS дизайна надолу на малко по-управляеми части и намеква за това, което се намира под листа в Google.

GFS започва с излишен и устойчив на повреди модел за четене и запис на данни. Идеята тук е, че вместо да напишат конкретна актуализация на едно устройство, новите системи записват парчета данни на множество дестинации. По този начин, ако един запис не успее, други ще останат. За да се съобрази с това, един основен компонент на мрежата обработва обработка на данни на други подчинени единици, като отново агрегира данните, когато клиентът „извиква“ за него. Всичко това става възможно чрез протокол за метаданни, който помага да се идентифицират къде са определени актуализации и резултати от предаване в по-голямата система.

Друг много важен аспект на това е как тези дублиращи тежки системи налагат съгласуваност на данните. Както отбелязва Галахер, дизайнът на GFS жертва известна последователност, като все още "налага атомност" или защитава принципа как данните се актуализират в множество единици за съхранение, за да съвпадат във времето. „Моделът на спокойна последователност“ на Google изглежда следва основната теория на модела BASE, който осигурява повече гъвкавост в замяна на по-дълъг период от време за прилагане на последователност.

Как други големи системи постигат това?

„Когато се достигне достатъчно голям мащаб, несъответствията или повреждането на данните стават неизбежни“, казва Михайлов. „Следователно, основна цел на разпределените файлови системи трябва да бъде способността да се извършват възможно най-много операции при наличие на корупция, като същевременно се предоставят ефективни методи за едновременно справяне с корупцията.“ Михайлов споменава и необходимостта от запазване на резултатите чрез внимателно прилагане на съкращенията.

„Например, създаването на метаданни (данни за данните) на всеки диск дава възможност на този диск да възстанови правилната си структура на данни, ако огледалното му копие е повредено“, каза Михайлов. „Освен това нивата на RAID могат да се използват за борба с отказите в паметта или на агрегатора на файловата система, или на нивата на мениджъра на споделените томове.“

Обсъждайки друг модел на последователност, Lebel се съсредоточава върху система, наречена Hadoop разпределена файлова система (HDFS), която той нарича „индустриален де факто факт“.

В HDFS, казва Lebel, всеки блок данни се репликира три пъти на различни възли и на два различни стелажа. Данните се проверяват от край до край. Неуспехите се отчитат в NameNode, обработващ данни, който се отървава от корумпирани блокове и създава нови.

Всичко това подкрепя видовете "чисти данни", които са толкова важни за целостта на една от тези системи за масови данни.

Поддържане на DFS

Друг много различен поглед към GFS идва от статия от октомври 2012 г. на писателя на Wired Стивън Леви. Много по-кратко е да се характеризира софтуерният подход за колективно управление на мрежата отгоре надолу.

„С течение на годините, пише Леви,„ Google също е създала софтуерна система, която му позволява да управлява безбройните си сървъри, сякаш са едно гигантско образувание. Нейните вътрешни разработчици могат да действат като майстори на марионетките, изпращайки хиляди компютри, които да изпълняват задачи толкова лесно, колкото стартирането на една машина. "

Правенето на това включва и множество кибер-базирани и поддръжка на околната среда, от специализирани екипи за тестване, които се опитват да "разбият" сървърните системи, до внимателно контролирани температури в залите на криптата с данни.

Levy също споменава допълнителни технологии за GFS, като MapReduce, инструмент за приложение в облак и Hadoop, аналитичен механизъм, който споделя някои дизайнерски принципи с GFS. Тези инструменти имат своето влияние върху това как се проектират големите системи за обработка на центрове за данни и какво може да се появи в бъдеще. (Научете повече за тези технологии в Evolution of Big Data.)

Михаилов вярва, че MapReduce има потенциал да поддържа все по-големи системи от центрове за данни и говори за „единична реализация“ на споделени и агрегирани файлови системи, които биха могли „да запазят именните възли на агрегирана файлова система в споделен клъстър със SSD дискове за съхранение . "

От своя страна Lebel вижда отдалечаване от пакетната обработка (поддържан от Hadoop) до поточна обработка, което ще доближи тези операции с данни до реално време.

„Колкото по-бързо можем да обработим данните и да ги направим достъпни за лицата, вземащи решения на бизнеса, или за нашите клиенти, толкова повече ще има конкурентно предимство“, казва Лебел, който също предлага да се замени горната терминология за обработка с термини, фокусирани върху краен потребител. Мислейки за „синхронни“ дейности или дейности, синхронизирани с действия на крайния потребител, и „асинхронни“ дейности, които са по-гъвкави по отношение на внедряването, Lebel казва, че компаниите могат да използват SLAs и други ресурси, за да определят как дадена система на услугата ще работи ,

Всичко това се свежда до известен смисъл, че разработчиците и инженерите трябва непрекъснато да работят за ускоряване и подобряване на услугите над платформи, които са надхвърлили класическите си архетипи от епохата на 90-те години. Това означава да се разгледа критично машината на данните и да се преодолеят пречките по начини, които поддържат не само нарастващото население, но и експоненциалната промяна, случваща се със скорост на счупване на шията, която пандатите наричат „следващата индустриална революция“. Вероятно е онези, които се преборят най-добре на тези фронтове, да окажат доминиране на пазарите и икономиките на бъдещето.