お知らせ

2020年3月11日に発生しましたシステム障害についてのご報告

2020年03月27日 16:00 お知らせ

平素より、弊社サービスをご利用くださいまして誠にありがとうございます。

2020年3月10日(火)19:01より下記サービスにおきましてシステム障害が発生いたしました。現在は復旧し、正常に稼働しております。ご利用のお客様には、多大なるご迷惑をおかけいたしましたことを深くお詫び申し上げます。

今回発生した障害に関する詳細を、以下の通りご報告いたします。

発生期間

2020年3月10日(火)19:01 ~ 2020年3月21日(土)15:40

対象サービス

・SSLサーバ証明書
・コードサイニング証明書
・クライアント証明書
・文書署名用証明書

影響範囲

・証明書の申請および発行
・証明書の失効手続き
・OCSP/CRLによる証明書失効情報の確認
・タイムスタンプ

事象

上記発生時刻から弊社証明書発行サービスにおいて、過度のOCSPリクエスト送信による高負荷により、ネットワーク機器に不具合が発生いたしました。
その影響により、証明書の申請ならびに発行処理の応答を一定時間内に返せず、対象サービスにおいて発行リクエストと失効リクエストがエラーとなる事象が発生いたしました。

障害の原因

当該障害の解析を行い、ネットワーク機器への過剰負荷と通常とは異なる通信が原因であることがわかりました。

1)OCSPリクエストの急激な増加により、ネットワーク機器が処理能力を超えたことからネットワーク機器に不具合が発生し、正常に通信できない状態になりました。

2)通常とは異なる通信がCDNを経由して弊社のデータセンターに転送されておりました。この通信による影響は軽微なものであり、影響はございませんでした。

 

本障害の再発防止の対応

1)本障害に影響を与えていた OCSPリクエストを処理しているプラットフォームを専用データベースに移動し、別セグメントに独立させました。

2)該当のネットワーク機器を新たに追加した過剰負荷に耐えることのできるネットワーク機器に入れ替えを行いました。解析により明らかになった、通常とは異なる通信は無効化を実施し、セキュリティ面は従来通り第三者のチェックを受け、各サーバ機器は監視体制の維持に努めます。

3) 本障害の原因となった負荷の正確なパターンを特定すべく詳細な分析を実施いたしました。当該の分析をもとにCDNの調整を行った上で、過剰負荷のリスクを軽減することを実施いたしました。

恒久的な対策

1)ネットワーク機器を過剰負荷に耐えうる機器に入れ替えました。

2)本障害に影響を与えていたトラフィックについては、別の経路を通る設定と機器の分離を実施し、既存証明書サービスならびにOCSP/CRLに影響しない構成にいたしました。

3) 2020年度中に、新データセンターへの移設と全ての機器の入れ替えを行います。新データセンターへの移設に伴い、ローカルネットワークとインターネット回線のキャパシティの拡充を行い、システム全体の見直しを含めて、より安定化を図ります。

障害の経過

日時 時間 事象
3月10日 19:01 ネットワーク機器に過剰負荷が発生
19:20 ネットワーク機器を手動で再起動実施。一時的に負荷が下がったことを確認
19:27 一旦復旧するも再度、過剰負荷により正常処理ができない状態が発生
19:45 過度のOCSP通信が発生していることが判明
21:35 一部のOCSP通信の追加ネットワーク機器への迂回が完了
証明書発行エラー発生率の低減は確認できるも完全復旧には至らず
21:40 継続調査
3月11日 11:22 ネットワーク機器の過剰負荷が再度発生し調査開始
12:30 調査の結果、過度のOCSP通信以外の通信が原因である可能性が判明
15:34 ネットワーク機器ベンダーが到着し、解析を開始。解析の結果、問題が無いことを確認
19:10 社内診断チームのパケット調査開始
19:50 全てのOCSP通信を追加機器へ流すよう変更開始
3月12日 12:40 データセンター現地にて確認開始
22:20 証明書の正常な発行処理を確認
3月13日 15:00 申請済み証明書の滞留分の同期復旧作業を順次開始
3月14日 10:21 申請済み証明書の一部滞留分の同期が完了、引き続き復旧作業を継続
3月15日 01:35 申請済み証明書の滞留分の同期が完了
9:30 申請済み証明書の発行エラーの復旧処理を開始
18:23 申請済み証明書の発行エラー(SSL)の復旧処理が完了
3月16日 12:00 ネットワーク機器の負荷ならびに証明書発行処理については復旧
12:02 証明書発行処理の不具合を回復
18:00 申請済み証明書の発行エラー(クライアント系)の復旧処理を開始
20:51 申請済み証明書の発行エラー(クライアント系)の復旧処理を完了
21:00 失効処理の不具合について、継続して調査を実施
3月17日 13:34 3/16日分の申請済み証明書の発行エラーの復旧処理が完了
14:00 失効処理エラーの滞留分の復旧処理を開始
17:01 本障害に影響を与えていた OCSP通信を処理しているプラットフォームの分離作業が完了
21:06 失効処理エラーの滞留分の復旧処理が完了
3月18日 終日 失効申請申し込み滞留分の処理を開始
3月19日 終日 失効申請申し込み滞留分処理を実施
17:45 失効申請申し込み滞留分が解消
3月21日 15:40 新規失効申請処理の正常動作の確認を完了

お問い合わせ

ご質問や不明な点などございましたら、下記よりお問い合わせください。