Você está aqui: Página Inicial > Tema > TemaTec > Tempos de recuperação em continuidade de negócios

Notícias

Tempos de recuperação em continuidade de negócios

TemaTec 229

Luciana Gomes
Exibir carrossel de imagens É especialista em Governança em TI pela Fundação Universa (2014) e bacharel em Ciência da Computação pela Universidade de Brasília (2000). Trabalha como analista de rede de computadores no Serpro desde 2001 e está atualmente lotada na Coordenação-Geral de Segurança da Informação (COGSI). Possui as certificações ITIL Foundation v2 e Modulo Certified Security Officer.

É especialista em Governança em TI pela Fundação Universa (2014) e bacharel em Ciência da Computação pela Universidade de Brasília (2000). Trabalha como analista de rede de computadores no Serpro desde 2001 e está atualmente lotada na Coordenação-Geral de Segurança da Informação (COGSI). Possui as certificações ITIL Foundation v2 e Modulo Certified Security Officer.

1. INTRODUÇÃO

As instituições, independente de tamanho ou setor de atuação, são sensíveis a interrupções nos seus processos de negócio. Elas são vulneráveis a situações de riscos, que são originados por desastres naturais ou por pequenos incidentes, e a seus respectivos impactos. A ocorrência desses eventos pode causar uma interrupção parcial ou total das atividades da instituição, prejudicando seu negócio (FRIEDENHAIN, 2008, p. 11).

Esta situação tem direcionado gradativamente a estrutura da Gestão de Continuidade de Negócios (GCN). Trata-se de um "“processo abrangente de gestão que identifica ameaças potenciais para uma organização e os possíveis impactos nas operações de negócio caso estas ameaças se concretizem"” (ABNT, 2013, p. 2). Para que a gestão de continuidade de negócios possa atingir seus objetivos, as seguintes etapas devem ser observadas:

    1. Análise de Impacto de Negócios (Business Impact Analysis – BIA): responsável por identificar e analisar os processos da organização e os efeitos que uma interrupção de negócio pode ter sobre eles. Ao final desta etapa, a organização será capaz de saber quais são seus processos de negócios mais críticos, suas interdependências e seus tempos de recuperação, objeto de estudo desta publicação;
    2. Avaliação de risco: processo de identificação, análise e tratamento dos riscos mais evidentes que podem afetar o funcionamento dos processos de negócio da organização. Para Ludescher (2011, p. 17) esta fase determina as possíveis causas de desastre e seus eventuais resultados.
    3. Elaboração da estratégia de continuidade de negócios: a partir dos resultados e dos requisitos de continuidade das duas etapas anteriores, identifica-se qual é a melhor abordagem, medida ou solução que a organização deve implementar para enfrentar uma interrupção de negócio. A estratégia de continuidade visa reduzir a chance e diminuir o tempo de interrupção ou, ainda, limitar seu impacto na execução de produtos e serviços da instituição (FAGUNDES ET AL, p. 254);
    4. Elaboração de planos de continuidade de negócios: criação da documentação de procedimentos e informações para que a instituição mantenha a continuidade dos seus processos críticos, caso ocorra algum tipo de interrupção neles. Guindani (2011, p. 71) ressalta que as atividades devem ser “"escritas como ordens de comando, curtas e simples, com maior detalhamento para as atividades diferentes do dia a dia"”;
    5. Teste e manutenção dos planos de continuidade de negócios e análise crítica: validação e atualização da documentação criada na fase anterior e identificação de melhorias no processo de GCN;
    6. Inclusão da cultura de GCN na organização: para ser efetiva, a GCN deve fazer parte da cultura da organização (VENEZIANO, p. 25; ABNT, 2007, p. 37). Envolve ações de conscientização e treinamento sobre o assunto. Guindani (op. Cit, p. 87) considera que é a etapa mais complexa de todo o processo.

2. TEMPOS DE RECUPERAÇÃO

Os tempos de recuperação são grandezas em escala de tempo (segundos, minutos, horas, dias, semanas) que fazem parte dos requisitos de continuidade de negócios de um processo ou de uma atividade de uma instituição. 
Essas medidas são importantes para "“determinar a melhor forma de preparar a organização para ser capaz de gerenciar suas interrupções"” (FAGUNDES et , 2010, p. 263) e devem estar de acordo com os seus requisitos, diminuindo os prejuízos decorrentes de perdas ou para atendimento à legislação pertinente (LUDESCHEIR, 2011, p. 25). 
Assim, eles influenciam a escolha da abordagem ou solução de continuidade (estratégia), incluindo recursos de hardware, de software e outras tecnologias, que será usada em uma organização quando ocorrer uma interrupção nos seus negócios. Recursos mais elaborados e complexos são mais caros, então, como consequência, os tempos de recuperação afetam o custo de implementação da estratégia de continuidade de negócios.
Conforme já explicado, essas informações são identificadas na etapa de Análise de Impacto de Negócios (BIA). As medidas de tempo mais comuns relacionadas à continuidade de negócios são:

      1. Tempo objetivado de recuperação (RTO – - Recovery Time Objective)
      2. Ponto objetivado de recuperação (RPO – - Recovery Point Objective)
      3. Período Máximo de Interrupção Tolerável (MTPD –- Maximum Tolerable Period of Disruption / MTD – Maximum Tolerable Downtime)

2.1 RTO – - Tempo objetivado de recuperação

É também conhecido como objetivo de tempo de recuperação (CORREA FILHO, 2010, p. 43; GLOSSARIO, 2014, p. 95; LUDESCHEIR, 2011, p. 24) ou tempo objetivo de recuperação (VENEZIANO, Op. Cit, p; 18; BRASIL, 2009, p.4 ).
De uma forma geral, a maioria das referências consultadas considera que essa grandeza é o período de tempo para retomar uma atividade ou processo crítico após sua interrupção. A ABNT (2007, p. 5) acrescenta que o RTO também pode ser o “"tempo alvo para recuperação de um sistema ou aplicação de TI após um incidente"”.

Assim, se uma atividade ou processo crítico de uma organização possui um RTO de seis horas, significa que a instituição consegue conviver com a ausência dessa atividade por até seis horas, sem grandes impactos. Ou, em outras palavras, depois dela ser interrompida, essa atividade deve ser retomada em até seis horas, para evitar impactos maiores para a organização.

Guindani (op. Cit, p. 49), no entanto, tem como marco inicial da contagem do seu valor a decretação do regime de contingência e como término a retomada da atividade, o que diferencia sua definição das demais. Usando o exemplo acima e esta definição, se o processo possui um RTO de quatro horas, esse valor representa o tempo entre decretar a contingência e o retorno da execução da atividade.

Com relação à unidade de tempo, o RTO pode variar de segundos a dias. Essa variação é trazida pelas necessidades da organização e pelo recursos tecnológicos que serão usados para garantir a continuidade das atividades ou processos interrompidos. Quanto menor o RTO, menor é o impacto no negócio e maior é o custo, conforme gráfico representado na Figura 1.

Figura 1 - Relação entre RTO e custo da solução (Fonte: AMORIM, 2008)

Figura 1 - Relação entre RTO e custo da solução (Fonte: AMORIM, 2008)

O gráfico mostra que o melhor é possuir uma solução que representa o equilíbrio entre tempo no impacto dos negócios (RTO) e o seu custo. Uma ressalva importante sobre essa medida de tempo é que ela é diferente do tempo médio para reparo (MTTR – - Mean Time to Repair) que a biblioteca ITIL ® traz. O MTTR é o tempo médio para reparar (substituir ou corrigir um item de configuração) um serviço de TI ou item de configuração (IC) após uma falha (GLOSSARIO, Op. Cit.). O RTO é o tempo máximo para recuperação de um serviço de TI após sua interrupção. Dessas definições, depreende-se que o MTTR é menor que o RTO. Outro aspecto relevante é que o termo RTO é aplicado tanto para Tecnologia da Informação como para processo de negócio. Já o termo MTTR pertence apenas à esfera tecnológica.

2.2 RPO – - Ponto objetivado de recuperação

O Glossário ITIL (Op. Cit, loc. Cit) e Ludescher (Op. Cit, loc. Cit) traduzem essa sigla como objetivo do ponto de recuperação.

Guindani (Op. Cit, loc. cit) define o RPO como sendo “a posição (no tempo) na qual deverão estar disponíveis os dados das aplicações recuperadas após a ocorrência de um desastre”. Neste caso, a definição do autor tem foco em Tecnologia da Informação.

A ABNT (2013, p. 8) generaliza a aplicação do termo como “ponto em que a informação usada por uma atividade deve ser restaurada para permitir a operação da atividade retomada.”

Ludescheir (Op. Cit, p. 25) diz que o RPO “é o último instante de tempo em que os dados de um sistema computacional se encontravam íntegros e armazenados de alguma maneira, estando disponíveis para serem utilizados em um processo de recuperação, no caso de falha do sistema”.

Outra forma de entender esse requisito de continuidade é pensar na perda máxima de dados que a atividade ou processo de negócio pode ter, caso ocorra uma interrupção. O dado da atividade ou do processo é protegido, através de, por exemplo, backup ou replicação de dados, ou até uma fotocópia (DRII, 2014?, p. 3), antes da sua indisponibilidade.

Então, se uma instituição tem um processo ou atividade que tem um RPO de 24 horas (a proteção do dado pode ter sido feita através de um backup diário, por exemplo), em caso de interrupção, este processo ou atividade pode perder, no pior caso, 24 horas de dados atualizados.

Analogamente ao RTO, o RPO deve atender as necessidades da organização e ser compatível com os recursos tecnológicos disponíveis para recuperação de seus dados. Quanto menor o RPO, menor é o impacto para o negócio e maior é o custo, conforme gráfico representado na imagem seguinte.

Figura 2 – Relação entre RPO e custo da solução (Fonte: AMORIM, 2008)

O gráfico da figura 2 mostra que a solução mais adequada equilibra o RPO (perda de dados) e o custo da solução para implementar um mecanismo de recuperação de dados.

Figura 2 – Relação entre RPO e custo da solução (Fonte: AMORIM, 2008)

2.3 MTPD –- Período Máximo de Interrupção Tolerável

Segundo a ABNT (2013, p. 5) é "o “tempo necessário para que os impactos adversos tornem-se inaceitáveis, que pode surgir como resultado de não fornecer um produto/serviço ou realizar uma atividade"”. Guindani (Op. Cit, loc. Cit) tem uma definição semelhante: "é “o tempo máximo que os produtos ou serviços podem ficar indisponíveis, antes que os prejuízos atinjam níveis inaceitáveis ou ameacem a sobrevivência da empresa”".

Essa definição pode levar a uma confusão com aquela sobre RTO. Trata-se de medidas diferentes sobre a interrupção de um processo crítico. Enquanto o RTO mede o tempo de retomada de uma atividade cuja indisponibilidade gera impacto negativo na instituição, o MTPD mede o tempo (máximo ou inaceitável) onde a indisponibilidade do produto ou serviço gerado em questão torna-se alta demais, prejudicando fortemente e ameaçando a sobrevivência da organização.

Complementarmente, Veneziano (Op. Cit, p. 18), ABNT (2013, p. 8) e Ludescheir (op. Cit, p. 25) enfatizam que o RTO deve ser sempre menor do que o MTPD.

Se um processo de negócio tem um MTPD de quatro dias, significa que a ausência desse processo por um período superior a quatro dias é tão inaceitável que ameaça a sobrevivência da respectiva organização. E se esse mesmo processo tem um RTO de oito horas, os impactos negativos de sua ausência só começarão a ser sentidos a partir desse período.

3.COMPARATIVO

Para facilitar a compreensão dos conceitos expostos, é mostrada a Tabela 1, com a comparação das suas características.

Tempo médio de reparo – MTTRTempo objetivado de recuperação – RTOPonto objetivado de recuperação – RPOPeríodo máximo de interrupção tolerável – MTPD
Foco em TI Foco em negócio. O conceito também é usado para TI Foco em negócio. Uso indireto para TI Foco em negócio
Tempo médio Tempo máximo Perda máxima de dados no tempo Tempo máximo
 Falha no item de configuração ou serviço de TI  Indisponibilidade de atividade e processo críticos, sistema ou aplicação de TI Proteção dos dados da atividade ou do processo crítico Ausência do produto, serviço ou atividade da organização
Falha, com pequeno a alto impacto  Indisponibilidade de processo, atividade ou sistema de TI, de alto impacto Indisponibilidade de dados, de alto impacto  Indisponibilidade do produto, serviço ou atividade, de impacto  inaceitável
Medido após a falha Medido após a interrupção Medido antes da interrupção Medido após a interrupção

Tabela 1 –- Comparativo dos tempos de reparo e recuperação

Alguns dos aspectos apresentados são semelhantes. O que pode ajudar a explicitar a singularidade de cada uma dessas métricas é, principalmente, o seu foco, o tipo de medida (valor médio ou máximo) e a partir de quando esses tempos começam a ser contabilizados. Dentro do decorrer do tempo, as métricas abordadas e suas particularidades podem ser representadas conforme a Figura 3:

Figura 3 – Representação das métricas de recuperação no decorrer do tempo
Figura 3 –- Representação das métricas de recuperação no decorrer do tempo
 

 4. CONCLUSÃO

O presente artigo teve como objetivo explicitar as diferenças conceituais dos tempos de recuperação, usados no contexto da continuidade de negócios. O tempo objetivado de recuperação refere-se ao período de tempo que uma atividade ou processo deve ser retomada após uma interrupção. O ponto objetivado de recuperação tem como foco a quantidade de dados de um processo ou atividade ou sistema de Tecnologia da Informação que pode ser perdida após uma interrupção. O período máximo de interrupção tolerável é o tempo em que o impacto de uma interrupção de um produto, serviço ou atividade torna-se inaceitável para uma instituição. Esses tempos são identificados na fase de Análise de Impacto de Negócios do processo de Gestão de Continuidade de Negócios e são usados para estabelecer qual é a melhor estratégia de continuidade para os processos ou atividades críticos da organização. Para que essa escolha ocorra de forma efetiva, deve-se levar em consideração o equilíbrio entre impacto da indisponibilidade retratada por esses tempos e o custo de implementação das tecnologias para alcançá-los.

Referências Bibliográficas

AMORIM, Paulo. Curso de Especialização em Gestão da Segurança da Informação. Brasília, UnB:2008.

ASSOCIAÇÃO BRASILEIRA DE NORMAS TÉCNICAS. NBR 15999-1: Gestão de Continuidade de negócios – - Parte 1: código de prática. Rio de Janeiro, 2007.

______. NBR ISO 22301: Sistema de Gestão de Continuidade de Negócios – - Requisitos. Rio de Janeiro, 2013.

BRASIL, Norma Complementar 06. Gestão de Continuidade de Negócios em Segurança da Informação e Comunicações. Departamento de Segurança da Informação e Comunicações. Brasília: GSIPR, 2009.

CORREA FILHO, Leopoldo Augusto. TAVARES, Mário R. de S. Gestão da Continuidade de Negócios e a Comunicação em Momentos de Crise. 1a. Edição. São Paulo: Sicurezza, 2010.

DISASTER RECOVERY INSTITUTE INTERNATIONAL. Prática Profissional 4. Estratégias de continuidade de negócios. Tradução: Alexandre Guindani. New York: DRII, [2014?]. Disponível em <https://drii.org/docs/Portuguese/Professional%20Practices_PT4_0814.pdf>. Acesso em 20 de janeiro de 2015.

FAGUNDES, Leonardo L. Et al. Estratégia de contingência para serviço de Tecnologia da Informação e Comunicação. 2010. Minicurso. (X Simpósio Brasileiro em Segurança da Informação e de Sistemas Computacionais). Fortaleza: SBSeg, 2010.

FRIEDENHAIN, Vitor. Um estudo sobre métodos e processos para implantação da gestão de continuidade de negócios aplicáveis a órgãos da administração pública federal brasileira. 2008. Monografia de Especialização (Departamento de Ciência da Computação). Universidade de Brasília, Brasília. 31 de outubro de 2008. Disponível em <https://dsic.planalto.gov.br/cegsic/83-monografias-da-1-turma-do-cegsic>. Acesso em outubro de 2014.

GLOSSÁRIO e abreviações ITIL. Português do Brasil. [s.l.]: Axelos, 2011. Disponível em <http://www.itil-officialsite.com/nmsruntime/saveasdialog.aspx?lID=1189&sID=242> . Acesso em 4 de maio de 2014.

GUINDANI, Alexandre. Deus é brasileiro. O guia da Gestão de Continuidade dos Negócios. Rio de Janeiro: Editora Ciência Moderna Ltda, 2011.

LUDESCHER, Wagner. Modelo para avaliação da qualidade de projetos de planos de continuidade de negócios aplicados a sistemas computacionais . 2011. Tese de doutorado. (Departamento de Engenharia de Computação e Sistemas Digitais). Escola Politécnica da Universidade de São Paulo,São Paulo, 2011. Disponível em <http://www.teses.usp.br/teses/disponiveis/3/3141/tde-10082011-142221/pt-br.php>. Acesso em 13 de janeiro de 2015.

VENEZIANO, Wilson H. FERNANDES, Jorge H. C. Gestão de Continuidade no Serviço Público. Versão 1.0. [s.l.]: GSIC, 2009-2011.

É especialista em Governança em TI pela Fundação Universa (2014) e bacharel em Ciência da Computação pela Universidade de Brasília (2000). Trabalha como analista de rede de computadores no Serpro desde 2001 e está atualmente lotada na Coordenação-Geral de Segurança da Informação (COGSI). Possui as certificações ITIL Foundation v2 e Modulo Certified Security Officer.LUCIANA GOMES
É especialista em Governança em TI pela Fundação Universa (2014) e bacharel em Ciência da Computação pela Universidade de Brasília (2000). Trabalha como analista de rede de computadores no Serpro desde 2001 e está atualmente lotada na Coordenação-Geral de Segurança da Informação (COGSI). Possui as certificações ITIL Foundation v2 e Modulo Certified Security Officer.