代表窓口:03-5211-7750(平日9:30-18:00)

時系列の異常検出のためのアトラス法

アクセリアの研究
時系列データはいたるところにあります
スマートウェアラブルを使用すると、1日あたりの歩数、つまり1分あたりの心拍数を取得できます。
産業用設定では、温度、ノイズ、変動、振動などのあらゆる種類の測定値。
ネットワーク環境では、パケット数とバイト数、1秒あたりの接続数です。

この種のデータの異常を見つけることは非常に重要であり、機械学習と統計のコアテクノロジーの1つです。
時系列の季節変化に対処するための手法(ARIMAモデルなど)を含め、多くの手法が開発されています。

例として下記の図を見ましょう:ここはあるインターネット接続データのARIMAモデルを作成されて、
いくつのデータがプロットされた:実際のデータ(青)、予測(黒)、3σ帯(赤、緑)と注意点(黄)。




注意点が多すぎで、ほとんど異常報告のために使えない状況です。

今日は、多くの異なる時系列を同時に処理する方法を紹介したいと思います。
例として、インターネット接続のメタデータ(国、ポート、パケットサイズなど)または工場の機械のセンサーです。
このようなシステムの異常を検出する技術です。

簡単なアプローチの1つは、利用可能なデータ(またはデータウィンドウ)からの各センサーの平均と標準偏差の推定量を計算し、
新しい測定値は平均から離れている標準偏差の倍数であるz値を計算します。
正規分布では、測定値の99.7%以上が平均値の周りの3σ帯内にあって、とういうz値は3より小さいです。
各センサーを個別に確認し、新しい測定値に対してこの計算が実行され、測定値の1つが3σ帯(または2σ帯)領域の外側にある場合、アラームが発生します。

残念ながら、センサーの数が多いと、異常な動作を報告するセンサーが常にいくつかあり、非常に高い偽陽性率、または多くの異常の見逃しになります。
この問題に対処するために、eBayのエンジニアは、関連する時系列の大規模なグループの異常を予測するための興味深い方法[1]を開発しました。

彼らが採用した方法では、すべての特徴の「サプライズ」値(z値みたい)をサイズによって並べて、
そこの中の90パーセンタイルを新しい特徴として使いました。これですべての時系列から新しい特徴を設計し、
特徴の変更とその分布をエンコードする新しい時系列が得られます。
最後に、通常の3σルールを使用して、この新特徴の平均とz値を異常の指標として使用します。



論文[1]で、この方法がeBayである履歴データで非常にうまく認識し、高いFスコアで異常を確実に認識できると報告しました。

Acceliaでは、約3000の特徴のセットを使用して、接続メタデータに同じ方法を実験しました。
この方法で、データに見られる異常が正しく予測されたことを確認できました。「サプライズ」
値の変わりに、曜日と時間帯に分けてz値を使用しました。

[1] D. Goldberg, Y. Shan. The Importance of Features for Statistical Anomaly Detection. In 7th USENIX Workshop on Hot Topics in Cloud Computing (HotCloud 15), USENIX Association, 2015.

Norbert Preining

アクセリア株式会社 研究開発部社員
北陸先端科学技術大学院大学ソフトウェア検証研究センター 研究員
ウィーン工科大学 研究員
デビアン開発者
TeX User Group (取締役会員)、Kurt Godel Society (取締役会員)
ACM, ACM SigLog, 日本数式処理学会、ドイツ数学論理学会

アクセリア株式会社
〒102-0083 東京都千代田区麹町3丁目3番地4 KDX 麹町ビル3F
TEL 03-5211-7750 FAX 03-5211-7751 東京メトロ有楽町線 麹町駅 1番出口 徒歩1分 東京メトロ半蔵門線 半蔵門駅 2番出口 徒歩3分
当サイトの内容、記述、画像等の無断転載、無断利用はご遠慮ください。 © 2019 Accelia,inc.