5 най-добри практики за автоматизиране на управление на големи инциденти

Автор: Roger Morrison
Дата На Създаване: 27 Септември 2021
Дата На Актуализиране: 1 Юли 2024
Anonim
30 глупых вопросов DevOps-инженеру [Карьера в IT]
Видео: 30 глупых вопросов DevOps-инженеру [Карьера в IT]

Съдържание



Източник: Pixtum / iStockphoto

За вкъщи:

С помощта на стратегия за интелигентна автоматизация можете да направите реакцията на инциденти по-бърза и лесна от всякога - минимизирайки времето на престой и потенциални нарушения на сигурността.

Основните ИТ инциденти се случват в рамките на компаниите всеки ден. Докато само шепа прави заглавия, събития като прекъсвания и нарушения на сигурността могат сериозно да осакат производителността на служителите, да повлияят негативно на възприятията на клиентите и най-важното - да доведат до загубени приходи.

Затова, когато става въпрос за управление на големи ИТ инциденти, най-добре е да се съсредоточите върху въздействието върху бизнеса и най-долната линия. Според института Ponemon, средната цена на престой през 2016 г. е била 8 851 долара на минута - това е над 500 000 долара на час, а типичните времена на престой средно повече от 90 минути. И това е само непосредствената цена! Дългосрочното въздействие като повреда на репутацията и износване на клиентите са непредсказуеми и потенциално катастрофални.


Въпреки че не можете напълно да избегнете всички големи инциденти, можете да въоръжите организацията си, за да бъдете максимално подготвени за справяне с тях, когато възникнат. И основен компонент на вашата стратегия трябва да бъде включването на автоматизация. Организации, които увеличават максимално използването на автоматизация в своите основни процеси за разрешаване на инциденти, постигат по-бързо възстановяване на обслужването и много по-малко грешки поради човешка грешка. Това е така, защото автоматизацията влияе директно върху способността ви да свиете продължителността на прозореца за въздействие върху бизнеса - или онзи скъп период, в който вашите потребители и бизнес операции действително усещат въздействието на инцидент. (За да научите повече за автоматизацията, вижте Автоматизация: Бъдещето на науката за данни и машинното обучение?)

За да увеличите максимално ползите от автоматизацията, трябва да проучите кои дейности трябва да се извършват по време на прозореца на удара и да разберете как да преместите всички други дейности към преди старта на инцидента или след като бизнесът се върне към нормалната си дейност. Ето пет полезни начина да започнете.


1. Разработете и дефинирайте процес

Определянето на основен процес на управление на инциденти означава определяне на това, което може да бъде планирано, координирано или изпълнено по време на инцидент. Това може да означава идентифициране на ключови членове на екипа за поддръжка например чрез набор от умения и график, така че вашето бюро за обслужване да може да ги ангажира възможно най-бързо и ефикасно. Това също означава да разберете как ще предавате подходяща информация на вашия екип, така че той да започне да разрешава проблема веднага, както и да информирате и актуализирате правилните заинтересовани страни.

Автоматизацията е критична за ключовите аспекти на този процес. Например, можете да автоматизирате включването на съответната информация от вашите инструменти за наблюдение в билетите на сервизното си бюро или да включите информация от сервизното бюро в известия за решаващите инциденти. Можете също така да документирате целия инцидент до един източник на изчерпателна истина, който е достъпен за всички. Не забравяйте, че можете да практикувате този процес, за да се оправи - не е нужно да чакате инцидент в реалния свят, за да тествате своя подход.

2. Изправете правилно инфраструктурата си

В този ден и епохата на умора от съществено значение е от съществено значение да не продължавате да бомбардирате екипите си с неподходящи известия и информация, която не се отнася за тях. Прилагането на филтри към вашите мониторингови сигнали ще даде възможност на вашите екипи по-лесно да се набиват на иглата в сеното на рутинния шум. Това е от ключово значение, за да направите всичките си прозрения и данни наистина действителни, а не само да добавите към претоварване с информация.

Добрите начини за автоматизиране включват използването на APM решение за обхождане на всички ваши приложения и системи за проактивно определяне на първопричините в точката на всяко влошаване на производителността, преди да доведе до големи прекъсвания на услугата. Можете също да интегрирате вашия мониторинг, сервизно бюро, приложения за сътрудничество и инструменти за чат, за да споделяте обща информация в реално време.

Без грешки, без стрес - Вашето стъпка по стъпка ръководство за създаване на софтуер, променящ живота, без да разрушава живота ви

Не можете да подобрите уменията си за програмиране, когато никой не се интересува от качеството на софтуера.

3. Прецизно измервайте MTTR

Как измервате средното време за ремонт (MTTR)? Базирате ли го на общото време, в което ИТ екипите са ангажирани, или на общото време, в което бизнесът действително се влияе? Ако отговорът ви е първият, трябва да преразгледате измерването на прозореца на въздействието, използвайки вместо това бизнес перспективата. Това е много по-точен проблем за вашите усилия за оптимизация, защото целта ви е да сведете до минимум въздействието на инциденти, а не просто да представяте по-добри доклади за реакции на вашия съвет. (За да научите повече за престоя и как се справя, проверете какво средно време между отказите наистина означава.)

Можете да автоматизирате, като осигурите пълна видимост в приложенията, за да „задействате часовника“ със задна дата, ако е необходимо, и запазите пълен запис на вашите дейности по разделяне и комуникации за анализ и одит, за да подобрите вашите процеси.

4. Информирайте заинтересованите страни - но без да прекъсвате резолюцията

Заинтересованите страни очакват ефективна и навременна комуникация, като същевременно очакват експертите по темите да останат фокусирани на лазер върху отстраняване на проблеми. Въпреки че бихте могли да посочите точка за контакт за комуникация, която да наблюдава и ангажира бизнес потребителите, по-ефективна стратегия би била да създадете уеб страница за самообслужване с актуализации на състоянието. Това дава възможност на заинтересованата страна да провери за себе си, без да бомбардира вашия екип с допълнителни обаждания. Просто не забравяйте да актуализирате вашите заинтересовани страни на редовни интервали, така че те винаги да получават и знаят да очакват последния доклад за състоянието. Не забравяйте, че комуникацията не трябва да спира само защото услугата е възстановена! Важно е заинтересованите страни да получат обобщение на случилото се, наученото и как ситуацията може да бъде предотвратена в бъдеще.

Автоматизацията в този случай може да бъде внедрена, за да се създаде автоматична страница в състояние в реално време за заинтересованите страни, както и да се изграждат команди за наклонена черта във вашия чат инструмент за актуализиране на тази страница.

5. Събирайте данни, за да поддържате управлението на проблеми

Възстановяването на услугата не представлява края на управлението на инцидентите! Всъщност някои от най-ценните дейности се случват вследствие на разрешаването. Чрез събиране на данни за диагностика и въздействие и извършване на анализ на първопричината можете да извършите пълен одит на голям инцидент, който включва поставянето на превантивни мерки, за да избегнете подобни инциденти в бъдеще. Освен това, дори ако разпознаваем инцидент се случи отново, можете да създадете определена процедура за това какви видове данни трябва да събирате и стъпките, които трябва да се случат за разрешаване на диск. По този начин вашият екип просто трябва да се позове на контролен списък и да се съсредоточи върху основната си цел за възстановяване на услугата, вместо да се притеснява от това, от което се нуждаят и кога.

Автоматизацията тук може да улови и запази дейностите по разделяне, включително неща като преписи в чата, в една система от записи за анализ. Освен това ще ви помогне да изградите каталог на познати инциденти или проблеми, да затвърдите най-добрите практики за всеки и следователно да увеличите скоростта на разрешаване в бъдеще.

В заключение: Автоматизирайте по-умни, не повече

Внимавайте, че по-добрата автоматизация не е непременно по-добрият подход! По-важно е да разберете кога, къде и как да свържете вашите ИТ системи, за да поддържате управление на инциденти. Не искате да добавяте излишни сложности с цел увеличаване на автоматизираните процеси. Не забравяйте, че целта е да опростите и консолидирате операциите възможно най-много, за да накарате вашите екипи да се чувстват овластени за ефективно справяне с проблемите. Става въпрос за интелигентното прилагане на автоматизацията за улесняване на добре координиран набор от процеси, знаещ персонал и ефективна комуникация със заинтересованите страни, така че да се сведе до минимум общото въздействие на големите инциденти върху бизнеса.