Переключения и отработки отказа
https://learn.microsoft.com/ru-ru/exchange/high-availability/manage-ha/switchovers-and-failovers?view=exchserver-2019
Переключения и отработка отказа — это две формы сбоев в Microsoft Exchange Server:
Переключение — это запланированный сбой базы данных или сервера, явно инициированный командлетом или управляемой системой доступности в Exchange Server. Переключения обычно выполняются во время подготовки к обслуживанию. Переключения предполагают перемещение активной копии базы данных почтового ящика на другой сервер группы обеспечения доступности баз данных (DAG). Если при переключении не удается найти ни одной подходящей целевой базы данных, администратор получит уведомление об ошибке, а база данных почтового ящика не будет отключена.
Отработка отказа подразумевает неожиданные события, которые могут приводить к недоступности служб, данных или тех и других. Отработка отказа включает в себя автоматическое восстановление системы после сбоя путем активации пассивной копии базы данных почтового ящика и ее преобразования в активную. Если при отработке отказа не удается найти ни одной подходящей целевой базы данных, база данных почтового ящика будет отключена.
Exchange Server предназначена для обработки переключений и отработок отказа.
Ищете задачи управления, связанные с высоким уровнем доступности и устойчивостью сайта? См. статью Управление высоким уровнем доступности и устойчивостью сайта.
Переключения
В Exchange Server существует три типа переключений:
Переключения базы данных.
Переключения сервера.
Переключения центра данных.
Переключения базы данных
Переключение базы данных — это процесс, в ходе которого одна активная база данных переключается на другую (пассивную) копию базы данных, которая затем становится новой активной копией базы данных. Переключения базы данных могут происходить как внутри центров данных, так и между ними. Переключение базы данных можно выполнить с помощью Центра администрирования Exchange (EAC) или командной консоли Exchange. Вне зависимости от используемого интерфейса, процесс переключения выполняется следующим образом.
Администратор инициирует переключение базы данных, чтобы переместить текущую активную копию базы данных почтовых ящиков на другой сервер.
Клиент, используемый при выполнении задачи, отправляет вызов RPC в службу репликации Microsoft Exchange участника группы доступности базы данных (DAG).
Участник группы DAG может не выполнять обработку роли основного диспетчера Active Manager (PAM). В этом случае он переводит задачу на сервер, которому принадлежит роль PAM.
В рамках этой задачи выполняется вызов RPC в службу репликации Microsoft Exchange сервера, которому принадлежит роль PAM.
Диспетчер PAM считывает и обновляет сведения о местоположении базы данных, которые хранятся в базе данных кластера для группы доступности DAG.
Диспетчер PAM подключается к службе репликации Microsoft Exchange участника группы DAG, пассивная копия которой активируется в качестве новой активной копии базы данных почтовых ящиков.
Служба репликации Microsoft Exchange на целевом сервере отправляет запросы к службам репликации Microsoft Exchange всех участников группы DAG для определения наилучшего источника журнала копии базы данных.
База данных отключается от текущего сервера, и служба репликации Microsoft Exchange на целевом сервере копирует оставшиеся журналы на целевой сервер.
Служба репликации Microsoft Exchange на целевом сервере отправляет запросы о подключении базы данных.
Служба банка данных Microsoft Exchange на целевом сервере преобразует файлы журналов и подключает базу данных.
Коды ошибок возвращаются в службу репликации Microsoft Exchange на целевом сервере.
Диспетчер PAM обновляет сведения о состоянии копии базы данных в базе данных кластера для группы доступности DAG.
Служба репликации Microsoft Exchange на целевом сервере возвращает коды ошибок в службу репликации Microsoft Exchange диспетчера PAM.
Служба репликации Microsoft Exchange диспетчера PAM возвращает все ошибки на интерфейс администрирования, с которого выполнялся вызов задачи.
Приложение Remote PowerShell возвращает результаты операции на вызывающий интерфейс администрирования.
Дополнительные сведения о переключении базы данных см. в разделе Активация копии базы данных почтовых ящиков.
Переключения сервера
Переключение сервера — это процесс, в ходе которого все активные базы данных участника группы DAG активируются для одного или нескольких других участников этой группы. Как и при переключении баз данных, переключение сервера может происходить как в центре обработки данных, так и в разных центрах обработки данных. Его можно инициировать с помощью центра администрирования Exchange и командной консоли Exchange. Вне зависимости от используемого интерфейса, процесс переключения сервера выполняется следующим образом.
Администратор инициирует переключение сервера, чтобы переместить все текущие активные копии базы данных почтовых ящиков на один или несколько других серверов.
В рамках данной задачи для каждой активной базы данных на текущем сервере выполняются действия, описанные выше в этом разделе для переключений базы данных (шаги 2-4).
Диспетчер PAM считывает и обновляет сведения о местоположении базы данных, которые хранятся в базе данных кластера для группы доступности DAG.
Диспетчер PAM подключается к службе репликации Microsoft Exchange каждого участника группы DAG, для которого активируется пассивная копия.
Служба репликации Microsoft Exchange на целевых серверах отправляет запросы к службам репликации Microsoft Exchange всех других участников группы DAG для определения наилучшего источника журнала копии базы данных.
База данных отключается от текущего сервера, и служба репликации Microsoft Exchange на каждом целевом сервере копирует оставшиеся журналы.
Служба репликации Microsoft Exchange на каждом целевом сервере отправляет запросы о подключении базы данных.
Служба банка данных Microsoft Exchange на каждом целевом сервере преобразует файлы журналов и подключает базу данных.
Коды ошибок возвращаются в службу репликации Microsoft Exchange на целевом сервере.
Диспетчер PAM обновляет сведения о состоянии копии базы данных в базе данных кластера для группы доступности DAG.
Служба репликации Microsoft Exchange на целевом сервере возвращает коды ошибок в службу репликации Microsoft Exchange диспетчера PAM.
Служба репликации Microsoft Exchange диспетчера PAM возвращает все ошибки на интерфейс администрирования, с которого выполнялся вызов задачи.
Приложение Remote PowerShell возвращает результаты операции на вызывающий интерфейс администрирования.
Подробные инструкции по переключении сервера см. в разделе Выполнение переключения сервера.
Переключения центра обработки данных
В устойчивой конфигурации сайта автоматическое восстановление в ответ на сбой на уровне сайта может происходить в DAG, что позволяет системе обмена сообщениями оставаться в функциональном состоянии. Для этой конфигурации требуется по крайней мере три расположения, так как необходимо развернуть члены DAG в двух расположениях и сервер-свидетель DAG в третьем расположении.
Если у вас нет трех расположений или даже если у вас есть три расположения, но вы хотите управлять действиями по восстановлению на уровне центра обработки данных, вы можете настроить DAG для восстановления вручную, если произойдет сбой на уровне сайта. В этом случае выполняется процесс под названием переключение центра обработки данных. Так же как и для многих сценариев аварийного восстановления, предварительное планирование и подготовка к переключению центра данных позволяют упростить процесс восстановления и сократить время отключения. Подробные инструкции по переключении центра обработки данных см. в разделе Переключение центра обработки данных.
Отработки отказов
Отработка отказа — это процедура автоматической активации, которая может выполняться на уровне базы данных, сервера или центра обработки данных. Отработки отказов происходят в ответ на сбой, который оказал влияние на отдельную базу данных (например, потеря данных в изолированном хранилище), на весь сервер (например, сбой материнской платы или потеря питания) или на весь сайт (например, потеря всех членов группы DAG на сайте).
Группы доступности базы данных (DAG) и копии базы данных почтовых ящиков обеспечивают полную избыточность и быстрое восстановление как данных, так и служб, обеспечивающих доступ к этим данным. В следующей таблице перечислены ожидаемые действия по восстановлению при различных сбоях. В одних случаях запустить процесс восстановления должен администратор, в других — ошибки автоматически обрабатываются системой.
Отработки отказов в базах данных
Отработка отказа в базах данных происходит, когда активная копия базы данных больше не может оставаться активной. Следующие вхождения являются частью отработки отказа базы данных:
Служба банка данных Microsoft Exchange обнаруживает сбой в базе данных.
Служба банка данных Microsoft Exchange записывает сбои в журнал событий канала crimson.
Диспетчер Active Manager на сервере, на котором находится неисправная база данных, обнаруживает события сбоя.
Диспетчер Active Manager запрашивает сведения о состоянии копии базы данных у других серверов, на которых хранится копия базы данных.
Другие серверы возвращают диспетчеру Active Manager запрошенные сведения о состоянии копии базы данных.
PAM инициирует перемещение активной базы данных на другой сервер в группе DAG с использованием процесса выбора лучших копий.
Диспетчер PAM обновляет местоположение подключения базы данных в базе данных кластера для обращения к выбранному серверу.
Диспетчер PAM отправляет запрос диспетчеру Active Manager на выбранном сервере о его назначении главным сервером для этой базы данных.
Диспетчер Active Manager на выбранном сервере отправляет запрос в службу репликации Microsoft Exchange на создание копии последних журналов с предыдущего сервера и устанавливает флажок подключения для этой базы данных.
Служба репликации Microsoft Exchange копирует журналы с сервера, на котором ранее находилась активная копия базы данных.
Диспетчер Active Manager считывает номер последней версии журнала из базы данных кластера.
Служба банка данных Microsoft Exchange подключает новую активную копию базы данных.
Отработки отказов на серверах
Отработка отказа на сервере происходит, если участник группы DAG больше не может обслуживать сеть MAPI или служба кластеров участника группы DAG больше не может поддерживать связь с оставшимися участниками этой группы. Следующие вхождения являются частью отработки отказа сервера:
Служба кластеров диспетчера PAM отправляет уведомление этому диспетчеру в одном из двух случаев:
Узел вниз: сервер доступен, но не может участвовать в операциях DAG.
Сеть MAPI отключена. С сервером нельзя связаться по сети MAPI и, следовательно, не может участвовать в операциях DAG.
Если сервер доступен, диспетчер PAM подключается к диспетчеру Active Manager на поврежденном сервере и запрашивает немедленное отключение всех баз данных.
Для каждой поврежденной копии базы данных выполняется следующее:
Диспетчер PAM запрашивает сведения о состоянии копии базы данных у всех серверов в группе DAG.
Диспетчер PAM получает ответ от всех доступных и активных участников группы DAG.
Диспетчер PAM пытается определить наилучший источник журнала на всех отвечающих серверах, запрашивая у каждого номер последней версии журнала.
Каждый сервер сообщает в ответ номер версии журнала.
Диспетчер PAM извлекает текущее состояние каталога индекса поиска из базы данных кластера.
На основе номера версии журнала и работоспособности каталога каждой копии базы данных диспетчер PAM выбирает лучшие копии для активации.
Диспетчер PAM обновляет подключенное местоположение базы данных в базе данных кластера.
Диспетчер PAM инициирует отработку отказа в базе данных, связываясь с диспетчером Active Manager на одном или нескольких серверах.
Диспетчер Active Manager на выбранных серверах запрашивает службу репликации Microsoft Exchange на копирование последних журналов с предыдущего сервера и установку флажка подключения.
Если база данных является подключаемой, диспетчер Active Manager на серверах подключает базы данных.
Дополнительные сведения о процессе выбора лучших копий диспетчером Active Manager см. в разделе Активный диспетчер.
Отработки отказа в центрах обработки данных
После Exchange 2010 были внесены значительные изменения в конфигурацию устойчивости сайта. Благодаря упрощению пространства имен, консолидации ролей сервера, разделению служб клиентского доступа и восстановлению DAG (в Exchange Server пространство имен не требуется перемещаться вместе с DAG), а также изменениями в отношении балансировки нагрузки Exchange Server предоставляет варианты устойчивости сайта, такие как возможность использовать одно глобальное пространство имен. Если у вас есть более двух расположений для развертывания компонентов службы обмена сообщениями, Exchange Server также включает настройку службы обмена сообщениями для автоматической отработки отказа в ответ на сбои, которые требовали вмешательства вручную в предыдущих версиях.
Exchange использует отказоустойчивость, встроенную в пространство имен, с помощью нескольких IP-адресов, балансировки нагрузки и, при необходимости, возможности принимать серверы в эксплуатацию и не работать. Exchange Server позволяет использовать возможность клиентов кэшировать несколько IP-адресов, возвращенных с DNS-сервера в ответ на запрос разрешения имен. Клиенты с возможностью кэширования нескольких IP-адресов (включая почти все клиенты на основе HTTP в Exchange Server, такие как Outlook, Outlook Anywhere, EAS, EWS, Outlook в Интернете, EAC, RPS и т. д.), могут использовать эти несколько IP-адресов, что обеспечивает отработку отказа на стороне клиента. Вы можете настроить DNS для передачи нескольких IP-адресов клиенту в процессе разрешения имен. Клиент запрашивает mail.contoso.com и получает, например, 2 или 4 IP-адреса. Клиент будет использовать несколько полученных IP-адресов. Это упрощает работу клиента, поскольку если один из IP-адресов не работает, клиент имеет несколько других вариантов подключения. Если клиент пробует один адрес и тот не работает, клиент ждет 20 секунд, а затем пробует следующий адрес в списке. Таким образом, если вы потеряете подключение к основному массиву служб клиентского доступа (CAS) и у вас есть второй опубликованный IP-адрес для второго массива CAS, восстановление для клиентов происходит автоматически (и примерно через 21 секунду).
Современные HTTP-клиенты (операционные системы и веб-браузеры, которым не более десяти лет) работают с этой избыточностью автоматически. Стек HTTP может принимать несколько IP-адресов для полного доменного имени, и если первый IP-адрес, который он пытается выполнить сбой (например, не удается подключиться), он попытается использовать следующий IP-адрес в списке. При обратимом сбое (подключение потеряно после установки сеанса из-за периодических сбоев в службе, когда, например, устройство удаляет пакеты и должно быть удалено из службы), пользователю может потребоваться обновить браузер.
При правильной конфигурации отработка отказа может происходить на уровне клиента, и клиенты будут автоматически перенаправляться во второй центр обработки данных, где запущены службы клиентского доступа, а серверы, на которых выполняются службы клиентского доступа, будут прокси-сервером обмена данными обратно с сервером почтовых ящиков пользователя, который остается не затронутым сбоем (так как переключение не выполняется). Вместо того, чтобы восстанавливать службу, служба восстанавливается сама, и вы можете сосредоточиться на устранении основной проблемы (например, замене подсистемы балансировки нагрузки, которая завершилась сбоем).
Благодаря быстрой отработке отказа пространства имен между центрами обработки данных все, что требуется для отработки отказа центра обработки данных, механизм отработки отказа роли сервера почтовых ящиков в центрах обработки данных. Для автоматической отработки отказа для группы DAG необходимо просто разработать решение, при котором группа равномерно распределяется между двумя центрами обработки данных, а затем разместить следящий сервер в третьем расположении для его арбитража членами группы DAG в каждом центре обработки данных (вне зависимости от состояния сети между центрами обработки данных с членами этой группы). Очень важно то, что третье расположение изолированно от сетевых сбоев, влияющих на расположения с членами группы DAG.
Если у вас всего два центра обработки данных и вы хотите настроить автоматический отработку отказа, можно использовать Microsoft Azure в качестве третьего расположения. Вам потребуется создать виртуальную сеть Azure и подключить ее к двум центрам обработки данных с помощью виртуальной частной сети из нескольких точек. Затем вы сможете разместить следящий сервер на виртуальной машине Microsoft Azure. Дополнительные сведения см. в статье Using a Microsoft Azure VM as a DAG witness server.
Комментарии
Отправить комментарий