Exponentiell Gewichtete Gleitende Durchschnitt Diagramme Für Erkennung Konzept Drift


Exponentiell gewichtete gleitende Mitteldiagramme zur Erkennung von Konzeptdrift Die Klassifizierung von Streaming-Daten erfordert die Entwicklung von Methoden, die rechnerisch effizient und in der Lage sind, Veränderungen in der zugrunde liegenden Verteilung des Stroms zu bewältigen, ein in der Literatur als Phänomen bekanntes Phänomen als Konzeptdrift. Wir schlagen eine neue Methode zur Erkennung von Konzeptdrift vor, die ein exponentiell gewichtetes Gleitende Durchschnitt (EWMA) - Tiagramm verwendet, um die Fehlklassifizierungsrate eines Streaming-Klassifikators zu überwachen. Unser Ansatz ist modular und kann daher parallel zu jedem zugrunde liegenden Klassifikator laufen, um eine zusätzliche Schicht der Konzept Drift Erkennung bieten. Darüber hinaus ist unsere Methode rechnerisch effizient mit Overhead O (1) und arbeitet in einer vollständig online Weise ohne Notwendigkeit, Datenpunkte im Speicher zu speichern. Im Gegensatz zu vielen bestehenden Ansätzen zur Konzeptdrift-Erkennung erlaubt unsere Methode, die Rate der falsch-positiven Erkennungen zu kontrollieren und über die Zeit konstant zu halten. Highlights Wir präsentieren einen einzigen Pass und einen rechnerisch effizienten Konzept Drift Detection Algorithmus. Geeignet für den Einsatz auf Hochfrequenz-Datenströmen. Ermöglicht die Kontrolle der Rate der falsch positiven Erkennungen im Gegensatz zu den bestehenden Methoden. Experimente auf realen und synthetischen Daten zeigen ermutigende Ergebnisse. Streaming-Klassifizierung Concept Drift Change ErkennungDonate to arXiv arXiv. org gt stat gt arXiv: 1212.6018 Statistik Machine Learning Titel: Exponentiell gewichtete Moving Average Charts für die Erkennung von Concept Drift (Eingereicht am 25 Dez 2012) Zusammenfassung: Die Klassifizierung von Streaming-Daten erfordert die Entwicklung von Methoden, die sind Rechnerisch effizient und in der Lage, Veränderungen in der zugrunde liegenden Verteilung des Stroms zu bewältigen, ein Phänomen, das in der Literatur als Konzeptdrift bekannt ist. Wir schlagen eine neue Methode zur Erkennung von Konzeptdrift vor, die ein exponentiell gewichtetes Moving Average (EWMA) Diagramm verwendet, um die Fehlklassifizierungsrate eines Streaming-Klassifikators zu überwachen. Unser Ansatz ist modular und kann daher parallel zu jedem zugrunde liegenden Klassifikator laufen, um eine zusätzliche Schicht der Konzept Drift Erkennung bieten. Darüber hinaus ist unsere Methode rechnerisch effizient mit Overhead O (1) und arbeitet in einer vollständig online Weise ohne Notwendigkeit, Datenpunkte im Speicher zu speichern. Im Gegensatz zu vielen bestehenden Ansätzen zur Konzeptdrift-Erkennung erlaubt unsere Methode, die Rate der falsch-positiven Erkennungen zu kontrollieren und über die Zeit konstant zu halten. Maschinelles Lernen (Stat. ML) Lernen (cs. LG) Anwendungen (stat. AP) Auf dieser Seite stellen wir Datenstrom-Ensemble-Klassifikatoren zur Verfügung, die mit Konzeptdriften konfrontiert sind (Learn. NSE, Dynamic Weighted Majority, Ensemble Building und RCD) ), Konzept Drift Detektoren (Paired Learners, ECDD und PHT) und Datensätze (Sine und Mixed). Ihre Parameter und entsprechende Papiere werden nachfolgend beschrieben. Dokumentation Um diese Erweiterung zu verwenden, müssen Sie moa. jar und sizeofag. jar herunterladen, die auf der MOA Framework Website verfügbar sind. Fügen Sie dann die JAR-Dateien unten im Klassenpfad hinzu, wenn Sie MOA starten. Zum Beispiel in Linux: java - cp EnsembleClassifiers. jar: moa. jar: weka. jar - javaagent: sizeofag. jar moa. gui. GUI Die JAR-Datei hat grundsätzlich die Klassendateien, die jeden Klassifikator implementieren. Eine weitere Möglichkeit besteht darin, moa. jar zu dekomprimieren, die Quelldateien in das Paket moa. classifiers aufzunehmen und MOA neu zu kompilieren. Ensemble-Klassifikatoren Wiederkehrende Konzept Drifts (RCD) ist ein Framework entwickelt, um mit Kontexten umzugehen, die wieder auftauchen. Nach der Identifizierung einer Konzeptdrift durch eine Drift-Erkennungsmethode verwendet sie eine nicht parametrische multivariate statistische Prüfung, um zu prüfen, ob der Kontext neu ist oder eine alte, die wieder auftritt. Die in RCD verwendeten Parameter sind folgende: - l: Basislerner. - b: Puffergröße. Es ist ein Beispiel von tatsächlichen und gespeicherten Kontexten und werden von den statistischen Tests verwendet, um wiederkehrende Kontext zu identifizieren. - t: Häufigkeit prüfen In der Testphase ist es die Rate, in der die statistischen Tests durchgeführt werden, um den Klassifikator in Bezug auf den gegenwärtigen Kontext zu halten. - d: Drift-Erkennungsmethode zu verwenden. - a: Statistischer Test verwendet werden. - s: Die minimale prozentuale Ähnlichkeit zwischen Verteilungen (p-Wert). - c: Die maximale Anzahl der zu speichernden Klassifikatoren - m: Die Thread-Pool-Größe, die angibt, wie viele gleichzeitige Tests erlaubt sind. Referenzen Paulo Mauricio Gonalves Jr. und Roberto Souto Maior de Barros. RCD: Ein wiederkehrendes Konzept Drift Framework. Pattern Recognition Briefe. 34 (9), Seiten 1018-1025, 2013. Elsevier. URL dx. doi. org10.1016j. patrec.2013.02.005 Ensemble Building Classifier besser geeignet, um wiederkehrende Konzept Drifts zu behandeln. Seine Parameter sind: - l: Basis-Lerner. - e: Erlaubter Fehler - a: Akzeptanzfaktor - c: Chunk-Größe. - r: Die maximale Anzahl der Klassifikatoren zu speichern und wählen Sie bei der Erstellung eines Ensembles. - n: Die maximale Anzahl der Klassifikatoren in einem Ensemble. Referenzen Sasthakumar Ramamurthy und Raj Bhatnagar. Tracking Recurrent Concept Drift in Streaming-Daten mit Ensemble-Klassifikatoren. In der Sechsten Internationalen Konferenz zum Maschinellen Lernen und Anwendungen, S. 404-409, 2007. URL dx. doi. org10.1109ICMLA.2007.80. Dynamic Weighted Majority (bereits im MOA enthalten) Die für diesen Klassifikator verfügbaren Parameter sind die in den referenzierten Papieren angegebenen: - l: Base Lerner. - p: Zeitraum zwischen Expertenentfernung, Erstellung und Gewichtsaktualisierung. - b: Faktor, um Fehler von Klassifikatoren zu bestrafen. - g: Mindestgewicht des Gewichts pro Sichter. Referenzen Jeremy Zico Kolter und Marcus A. Maloof. Mit additiven Experte Ensembles, um mit Konzept Drift zu bewältigen. In Proceedings of the 22nd International Conference on Machine Learning, ICML 05, Seiten 449-456, New York, NY, USA, 2005. ACM. ISBN 1-59593-180-5. URL doi. acm. org10.11451102351.1102408 Jeremy Zico Kolter und Marcus A. Maloof. Dynamische gewichtete Mehrheit: Eine Ensemble-Methode zum Treiben von Konzepten. Das Journal der maschinellen Lernforschung. 8: 2755-2790, Dezember 2007. ISSN 1532-4435. URL dl. acm. orgcitation. cfmid1314498.1390333 Learn. NSE (bereits im MOA enthalten) Die für diesen Klassifikator verfügbaren Parameter sind die in den referenzierten Papieren angegebenen: - l: Basislerner. - p: Größe der Umgebungen. Nach wie vielen Beispielen wird ein neuer Klassifikator erstellt. - a: Steilheit der Sigmoidfunktion, die die Anzahl der vorherigen Perioden kontrolliert, die bei der Gewichtung berücksichtigt wurden. - b: Halbwegsübergangspunkt der Sigmoidfunktion, die die Anzahl der vorherigen Perioden kontrolliert, die bei der Gewichtung berücksichtigt werden. - s: Klassifikatoren Beschneidungsstrategie verwendet werden (NO: keine Beschneidung, AGE: altersgebunden, ERROR: fehlerbasiert). - e: Ensemble maximale Größe. Referenzen Matthew Karnick, Metin Ahiskali, Michael D. Muhlbaier und Robi Polikar. Lernkonzept Drift in nichtstationären Umgebungen mit einem Ensemble von Klassifikatoren basierte ap-proach. In der IEEE International Joint Conference on Neural Networks (IEEE World Congress on Computational Intelligence), IJCNN 08, Seiten 3455-3462, Juni 2008a. URL dx. doi. org10.1109IJCNN.2008.4634290 Matthew Karnick, Michael D. Muhlbaier und Robi Polikar. Inkrementelles Lernen in nicht-stationären Umgebungen mit Konzeptdrift mit einem mehrfachen Klassifikator-basierten Ansatz. In der 19. Internationalen Konferenz zur Mustererkennung, ICPR 08, Seiten 1-4, Dezember 2008b. URL dx. doi. org10.1109ICPR.2008.4761062 Michael Muhlbaier und Robi Polikar. Ein Ensemble-Ansatz für inkrementelles Lernen in nichtstationären Umgebungen. In Michal Haindl, Josef Kittler und Fabio Roli, Redakteure, Multiple Classifier Systems, Band 4472 von Vorlesungsunterlagen in Informatik, Seiten 490-500. Springer Berlin Heidelberg, 2007. ISBN 978-3-540-72481-0. URL dx. doi. org10.1007978-3-540-72523-749 Ryan Elwell und Robi Polikar. Inkrementelles Lernen von Konzeptdrift in nicht-stationären Umgebungen. IEEE-Transaktionen auf neuronalen Netzen, 22 (10): 1517-1531, Oktober 2011. ISSN 1045-9227. URL dx. doi. org10.1109TNN.2011.2160459 R. Elwell und R. Polikar. Inkrementelles Lernen in nichtstationären Umgebungen mit kontrolliertem Vergessen. In der IEEE International Joint Conference on Neural Networks, IJCNN 09, Seiten 771-778, Los Alamitos, CA, USA, Juni 2009b. IEEE Computer Gesellschaft. URL dx. doi. org10.1109IJCNN.2009.5178779 Concept Drift Detectors Virtual Drift Detection Methode, die multivariate nicht parametrische statistische Tests verwendet. Seine Parameter sind: - t: Statistischer Test verwendet. - s: Fenstergröße. - w: Warnschwelle. - d: Ebene ändern. Drift-Erkennungsmethode, um eine Änderung der vorherigen Wahrscheinlichkeiten der Klassen zu identifizieren. Es verwendet multivariate nicht-parametrische statistische Tests. Seine Parameter sind: - t: Statistischer Test verwendet. - s: Fenstergröße. - w: Warnschwelle. - d: Ebene ändern. ECDD (bereits im MOA enthalten) EWMA für Concept Drift Detection (ECDD) ist ein Drift-Detektor, der ein exponentiell gewichtetes Gleitende Durchschnitt (EWMA) Diagramm verwendet, um die Fehlklassifizierungsrate eines Streaming-Klassifikators zu überwachen. Es kann wie DDM und EDDM in der SingleClassifierDrift Klasse verwendet werden. Seine Parameter sind: - a: Die durchschnittliche Lauflänge. Informiert die Rate der falsch positiven Alarme pro Datenpunkte. - m: Steuert, wie viel Gewicht auf neuere Daten verglichen mit älteren Daten gegeben wird. Kleinere Werte bedeuten weniger Gewicht für aktuelle Daten. - w: Warnschwelle. Referenzen Gordon J. Ross, Niall M. Adams, Dimitris K. Tasoulis und David J. Hand. Exponentiell gewichtete gleitende Mitteldiagramme zur Erkennung von Konzeptdrift. Pattern Recognition Letters, 33, Seiten 191-198, 2012. Elsevier. URL dx. doi. org10.1016j. patrec.2011.08.019 Paired Learners (bereits im MOA enthalten) Ein Klassifikator und Drift Detektor. Erstellt zwei Klassifikatoren: ein stabiler und reaktiver. Der erste ist verantwortlich, um das eigentliche stabile Konzept darzustellen, während das reaktive auf die aktuellsten Daten geschult wird. Wenn die Genauigkeit der Reaktivität höher ist als der Stall, bedeutet dies, dass sich das Konzept geändert hat. Der stabile Klassifikator wird durch das reaktive ersetzt, und das reaktive wird reseziert. Seine Parameter sind: - s: Stabile Lerner. - r: Reaktiver Lerner. - w: Fenstergröße für den reaktiven Lernenden. - t: Threashold für die Schaffung eines neuen stabilen Lernenden. Referenzen Stephen H. Bach und Marcus A. Maloof, Paired Learners für Concept Drift, In Achte IEEE Internationale Konferenz zum Data Mining, S. 23-32, 2008. URL dx. doi. org10.1109ICDM.2008.119. PHT (bereits im MOA enthalten) Der Page-Hinkley-Test (PHT) ist eine sequentielle Analysetechnik, die typischerweise für die Überwachung der Änderungserkennung im Durchschnitt eines Gaußschen Signals verwendet wird. Es kann wie DDM und EDDM in der SingleClassifierDrift Klasse verwendet werden. Seine Parameter sind: - d: Erkennungsschwelle. - w: Warnschwelle. - m: Größenschwelle. Referenzen Die DoF-Methode erkennt Drifts, indem sie Daten-Chunk von Chunk verarbeitet, den nächsten Nachbarn in der vorherigen Charge für jede Instanz im aktuellen Batch berechnet und ihre entsprechenden Labels vergleicht. Es wird eine Distanzkarte erstellt, die den Index der Instanz in der vorherigen Charge und dem von dem nächsten Nachbarn berechneten Label verknüpft. Ein metrisch benannter Drift wird anhand der Distanzkarte berechnet. Die Durchschnitts - und Standardabweichung aller Drift-Drift wird berechnet und wenn der aktuelle Wert von den durchschnittlich mehr als s Standardabweichungen entfernt ist, wird eine Konzeptdrift erhoben. Seine Parameter sind: - w: Fenstergröße jedes Datenstücks. - s: Anzahl der Standardabweichungen zur Erkennung von Drifts Referenzen Parinaz Sobhani und Hamid Beigy: Neue Drift Detection Methode für Datenströme. Adaptive und Intelligente Systeme, 2011: Band 6943, S. 88-97. URL dx. doi. org10.1007978-3-642-23857-412. STEPD (bereits in MOA enthalten) STEPD berechnet die Genauigkeit des Basis-Lernenden in den letzten Fällen und vergleicht sie mit der Gesamtgenauigkeit ab Beginn des Lernprozesses. Seine Parameter sind: - d: Signifikanz für Drift. - m: Signifikanz für Warnung. Referenzen Kyosuke Nishida und Koichiro Yamauchi: Erkennung von Konzept Drift mit statistischen Tests. Discovery Science 2007: 264-269 URL dx. doi. org10.1007978-3-540-75488-627 Künstliche Datenströme Dieser Datensatz wurde in Sobolewski und Wozniak (2013) beschrieben. Es wird verwendet, um eine virtuelle Konzeptdrift zu simulieren, indem sie Attribute erzeugt, die auf Gaußschen Daten und Konzeptdriften basieren, indem sie den Mittelwert um 5,0 ändern. Seine Parameter sind: - i: Samen für zufällige Erzeugung von Instanzen. - n: Anzahl der zu generierenden Attribute. - d: Anzahl der Attribute mit Konzeptdrift. - c: Klasse, die mit jeder Instanz verknüpft werden soll. Referenzen P. Sobolewski und M. Wozniak, vergleichbare Studie der statistischen Tests für Virtual Concept Drift Detection. Heidelberg: Springer International Publishing, 2013, S. 329337. Online. Verfügbar: dx. doi. org10.1007978-3-319-00969-832 Dieser Datensatz simuliert eine virtuelle Konzeptdrift durch Ändern der Position von vier Kreisen. Seine Parameter sind: - i: Samen für zufällige Erzeugung von Instanzen. - f: Funktion, die die Position der Kreise beschreibt. - n: Prozentsatz des Lärms. - s: Reduzieren Sie die Daten, um nur 2 relevante numerische Attribute zu enthalten. - b: Anzahl der irrelevanten Attribute. Sinus (bereits im MOA enthalten) Dieser Datensatz kann verwendet werden, um die vier Versionen von Sine zu schaffen, die in Gama et al. (2004), zwei Versionen in Baena-Garca et al. (2006). Seine Parameter basieren auf den Papieren, die diesen Datensatz verwendet haben: - i: Samen für zufällige Erzeugung von Instanzen. - f: Klassifizierungsfunktion (1 bis 4). Eine (1) ist die Umkehrung von zwei (2), und drei (3) ist die Umkehrung von vier (4). - s: Reduzieren Sie die Daten, um nur 2 relevante numerische Attribute zu enthalten. Andernfalls werden zwei irrelevante Attribute erstellt. - b: Gleichgewicht der Anzahl der Instanzen jeder Klasse. Referenzen Joo Gama, Pedro Medas, Gladys Castillo und Pedro Pereira Rodrigues. Lernen mit Drift Detection. In Bazzan, Ana L. C. und Labidi, Sofiane, Redakteure, Fortschritte in der Künstlichen Intelligenz - SBIA 2004, Band 3171 der Vorlesungsunterlagen in Informatik, Seiten 286-295. Springer Berlin Heidelberg, 2004. ISBN 978-3-540-23237-7. URL dx. doi. org10.1007978-3-540-28645-529. Manuel Baena-Garca, Jos del Campo-vila, Raul Fidalgo, Albert Bifet, Ricard Gavald und Rafael Morales-Bueno. In: ECML PKDD 2006 Workshop zur Wissenserfindung aus Datenströmen. 18 Set 2006. Berlin, Deutschland. URL eprints. pascal-network. orgarchive00002509 Mixed (bereits im MOA enthalten) Mit diesem Datensatz können die in Gama et al. (2004) und Baena-Garca et al. (2006). Seine Parameter basieren auf den Papieren, die diesen Datensatz verwendet haben: - i: Samen für zufällige Erzeugung von Instanzen. - f: Klassifizierungsfunktion (1 und 2), wobei eine (1) die Umkehrung von zwei (2) ist. - b: Gleichgewicht der Anzahl der Instanzen jeder Klasse. Referenzen Joo Gama, Pedro Medas, Gladys Castillo und Pedro Pereira Rodrigues. Lernen mit Drift Detection. In Bazzan, Ana L. C. und Labidi, Sofiane, Redakteure, Fortschritte in der Künstlichen Intelligenz - SBIA 2004, Band 3171 der Vorlesungsunterlagen in Informatik, Seiten 286-295. Springer Berlin Heidelberg, 2004. ISBN 978-3-540-23237-7. URL dx. doi. org10.1007978-3-540-28645-529. Manuel Baena-Garca, Jos del Campo-vila, Raul Fidalgo, Albert Bifet, Ricard Gavald und Rafael Morales-Bueno. In: ECML PKDD 2006 Workshop zur Wissenserfindung aus Datenströmen. 18 Set 2006. Berlin, Deutschland. URL eprints. pascal-network. orgarchive00002509 Kommentare, Vorschläge, Verbesserungen, Korrekturen werden sehr geschätzt. Paulomgj bei gmail dot com

Comments