5 Предупредителни знаци за критична повреда на оборудването

Видео: Calling All Cars: Missing Messenger / Body, Body, Who’s Got the Body / All That Glitters

Съдържание

Какво е MTBF?
Прекарването
Ключове
Устойчива мощност
Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви
Защитено съхранение
Сървъри
MTBF: Твърде може да се провали

За вкъщи:

Намаляването на престоите чрез щателно предварително планиране може да означава разликата между растежа и спада на бизнеса. Там идва средното време между неуспеха.

Не подценявайте колко днешните корпорации разчитат на критични системи всеки ден. Ето защо единственият му здрав разум е предприятието да може да прецени риска от повреда на оборудването. Без гаранции за това кога дадено оборудване може да се срине, трябва поне да има точна оценка на това кога той вече не може да се счита за надежден.

Иначе невидимата част от оборудването може да не изглежда критична за бизнеса, но когато един вентилатор за охлаждане се провали, кара генератора да се откаже от призрака и причинява на десетки или дори стотици хиляди потребители скъпи проблеми за продължителен период, можете да вижте, че да можете да прецените кои компоненти на вашата инфраструктура могат да се провалят - и кога - са от първостепенно значение. Именно там идва средното време между отказите (MTBF), методът, на който ИТ специалистите разчитат да дадат точност оценка за това кога критичното оборудване ще се провали. Тук разглеждаме какво най-накрая убива някои често срещани видове критично оборудване и как MTBF може да помогне за спасяването на деня.

Какво е MTBF?

Всяко произведено оборудване от ИТ разполага с уникален номер на модел. Тези, които играят някаква роля в критичната инфраструктура, се предоставят на клиентите с оценка на MTBF. Сложните изчисления за изработване на MTBF за дадено оборудване се извършват по време на продължителната фаза на изпитване в рамките на проучване и разработка на продукти и са относително специфични за конкретен модел.

Ако търсите да намерите MTBF за конкретно оборудване, ще го намерите в подробната спецификация, предоставена от производителя. Можете също така да се свържете директно с производителя.

Прекарването

Рутер-клас рутер включва много части, някои движещи се, а други статични. Захранващите блокове (PSU) и вентилаторите за охлаждане и двете имат движещи се части и неговите елементи, които имат тенденция да бъдат точки на повреда, особено ако устройството не се помещава в относително без прах център за данни. За щастие, с някои администраторски данни повечето рутери ще докладват на a Syslog съоръжение, така че всички повредени компоненти могат да бъдат маркирани.

Ключове

По подобен начин следващото ниво в корпоративната мрежа е хардуерът за превключване. Въпреки, че превключвателите за корпоративен клас също са склонни да разчитат на вентилатори, обикновено има по-малко от тях, отколкото тези, намиращи се в шасито на рутер. Ако механизмите за завихряне на вентилаторите са непокътнати, тогава дефектният превключвател обикновено се държи неправилно на софтуерното ниво, или чрез деактивиране на порт за превключване неочаквано или, по-често, проявяващо необичайно поведение, като отпадане на пакети, причиняване на различни нива на прекъсване на трафика или неправилно промяна потребителски дефинирани настройки, без да се изисква от тях.

Мрежовият бегемот Cisco рекламира един от своите маршрутизатори като има MTBF от 188 574 часа за модела Cisco Catalyst 3750G-24TS. Ако разделим това на 8 765.81277 (броят на часовете за една година), тогава виждаме, че този модел има оценка на MTBF от около 21.5 години. Тази цифра е известна увереност, когато смятате, че това оборудване трябва да работи добре 24/7 без грешка, въпреки че в действителност това е просто индикация за неговата надеждност. Въпреки това, той дава на потребителите образовани предположения за това колко дълго може да се очаква това оборудване да издържи.

Устойчива мощност

Непрекъсваемите захранващи устройства (UPS), свързани с голям брой батерии, могат да осигурят резервно захранване в предприятието по време на краткото заклинание, преди генераторите да се завъртят по време на прекъсване на електрозахранването. Някои специфични грешки в софтуера могат да се материализират в UPS, както при всяко оборудване, но като цяло батериите, от които черпят захранване, обикновено предизвикват най-голямо притеснение. Ако UPS батерията често се захранва и презарежда, нейният капацитет ще намалее по-бързо и времето за работа ще се съкрати драстично. Не е изненадващо, че е възможно и батериите на UPS да се откажат изцяло. UPS може да докладва през модеми и мрежи, когато се развият неизправности, но по-често, отколкото по-старите UPS ще задействат звукови аларми, когато възникне проблем първо.

Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви

Не можете да подобрите уменията си за програмиране, когато никой не се интересува от качеството на софтуера.

Защитено съхранение

Твърдите дискове, които използваме днес и на които разчитаме до такава висока степен, станаха значително по-надеждни през последното десетилетие. Те обаче далеч не са безпогрешни и в зависимост от това, което изследване може да повярвате, изглежда, че функционират правилно за по-дълъг период в зависимост от редица фактори. (Страхотно мнение за това може да намерите тук в The Remarketer.) Ако е активирано подробното отчитане и устройството предоставя обратна информация за грешки, тогава корумпираните сектори и грешките при четене / запис са ключът към забелязването, когато дискът е в масив за съхранение. се проваля. Друг често срещан проблем в сървърите, които използват няколко диска, свързани към RAID контролер, е, че самият контролер ще се провали. За съжаление, понякога твърдите дискове просто спират да работят без никакво предупреждение - проблем, срещу който е трудно да се защити надеждно.

Сървъри

Освен устройствата, вградени в сървъри и подвижните части, като гореспоменатите вентилатори за охлаждане и PSU, могат да възникнат и редица проблеми в хардуерните компоненти на сървъра. Отчитането на софтуерно ниво (което обикновено се отнася до BIOS или друга диагностика на хардуерни компоненти на ниско ниво) е от ключово значение за откриването, когато нещата са се провалили или по-важното, показват признаци на неуспех. Един проблем, който може да не е веднага очевиден, е този, който засяга дънните платки. Има идеален смисъл машините да не харесват твърде много топлина. Но дори и днес, ако модерната платка е подложена на бърза загуба на топлина - или преминава от много горещо до внезапно студено - могат да се появят пукнатини, които да доведат до катастрофата. Това е проблем, който трябва да се има предвид, особено ако движите оборудване между сградите в рамките на прозорци за поддръжка, непростими времеви рамки.

MTBF: Твърде може да се провали

Колкото и полезни да са прогнозите на MTBF, важно е да се изчислят нивата на приемлив риск с всяко оборудване, на което трябва да се разчита на бизнеса. За съжаление, дори при всички статистически уверения, предоставени от производителите, единственият конкретен начин да се гарантира наличността на оборудването, което работи с критични системи, е като го удвои, за да даде възможност за отказ от време.

Всеки отделен хардуер, използван в предприятието, е съставен от много различни компоненти, така че истинският MTBF далеч не е тривиално изчисление. Ясно е, че е важно да не се опира на бъдещето на тези оценки на вероятността, а вместо това да ги използва като критерий за вземане на информирани решения във връзка с непрекъснатостта на бизнеса и процедурите за възстановяване при бедствия. В крайна сметка, намаляването на времето за престой чрез щателно предварително планиране може да означава разликата между успешен бизнес и бизнес провал.