Q:
Hvordan maksimerer virksomheder oppetid?
EN:At holde it-tjenester i gang er åbenlyst vigtigt. Systemproducenter har tænkt meget på emnet. Nogle kritiske økonomiske computere har kørt kontinuerligt i årevis. Der er en historie på Internettet om en Novell Netware 3-computer, der endelig blev lukket ned efter 16 år. Når man overvejer driftstid af netværket, er standarden “Five 9s” eller 99.999% tilgængelighed. At opnå maksimal oppetid er en vigtig overvejelse for ethvert tilbud af it-tjenester.
Hvordan opnås maksimal oppetid? God ledelse er nøglen. Den internationale organisation for standardisering (ISO) skabte en ramme for netværksadministration kaldet FCAPS, som står for:
- Fejlhåndtering
- Konfigurationsstyring
- Regnskabsstyring
- Performance management
- Sikkerhedsstyring
Problemer med individuelle netværkskomponenter håndteres både proaktivt og reaktivt ved hjælp af denne model. Fejl overvåges ved hjælp af alarmer og hændelsesmeddelelser. Disse indsamles af agenter af protokoller, såsom SNMP (systemnetværksadministrationsprotokol) eller nogle andre proprietære løsninger. Tilpasselige tærskler kan udløse alarmer og endda automatisk generere billetter, der ender i køerne for overvågningspersonale i datacentre. Store transportnetværk kan have separate afdelinger til at håndtere kerne-, distributions- eller adgangslagene i netværket. Analyse af rodårsager forsøger at isolere og definere kritiske problemer efter en større begivenhed.
Lignende processer bruges til systemadministration. Internetudbydere (ISP'er) og administrerede hostingcentre ansætter systemadministratorer til at overvåge og styre levedygtigheden af servere, lagringssystemer eller andre enheder. Individuelle processer på Windows eller Linux-maskiner, for eksempel, kan ses og kontrolleres gennem grafiske brugergrænsefladestyringsprogrammer (GUI) på samme måde som netværksprotokoller.
Fjernovervågning og konfiguration af netværkskomponenter og -systemer giver mulighed for realtid til maksimal opetid af systemet. Det udvides til konfigurationsændringer, indsamling af nøgleprestationsindikatorer eller implementering af sikkerhedsforbedringer.
En måde at se opetid på og hvilket som helst systems robusthed er med den model, som IBM kaldte RAS: pålidelighed, tilgængelighed og brugbarhed. For at sikre RAS er der blevet udviklet mange metoder. Disse inkluderer redundans, sikkerhedskopiering af data, UPS (Uninterruptible Power Supply), hot-swappable komponenter og automatiske opdateringer. Planlagte ændringer og vedligeholdelsesvinduer giver muligheder for at rette eller forbedre kendte problemer uden at forstyrre brugeren.
Til sidst vil systemer og netværk mislykkes. Redundans er en af nøglerne til systemets elasticitet. Dette kan gælde hardware, software eller data. De, der er ansvarlige for at sikre pålidelighed i et netværk eller softwaresystem, vil se efter, hvad der kan betragtes som et enkelt mislykkelsespunkt (SPOF). Strømmer hele netværket gennem en enkelt switch eller kabel? Findes alle processer på en ensidig server? Er der kun en kopi af et kritisk datasæt? Uden redundans kan en virksomhed - på et øjeblik - miste det, der måske har taget år at udvikle.
Maksimering af oppetid er en "alt-fra-ovenstående" bestræbelse. Bedste praksis er blevet udviklet gennem årtiers erfaring og samarbejde. Der indføres løbende nye løsninger, såsom self-healing netværk, virtualisering, dataanalyse og forbedret arkitektur. Ingen enkelt metode vil besvare alle spørgsmål, der opstår i komplekse systemer. Hver virksomhed forsøger at udnytte sine it-ressourcer bedst muligt så effektivt som muligt inden for det udstyr, det har til rådighed.