Réseaux convolutifs temporaires - révolutionnant le monde des séries chronologiques

La traduction de l'article a été préparée à la veille du début du Deep Learning. Basique " .










Dans cet article, nous parlerons des dernières solutions TCN innovantes. Pour commencer, en utilisant l'exemple d'un détecteur de mouvement, nous examinerons l'architecture des réseaux convolutionnels temporels et leurs avantages par rapport aux approches traditionnelles telles que les réseaux de neurones convolutifs (CNN) et les réseaux de neurones récurrents (RNN). Nous parlons ensuite d'exemples récents d'applications TCN, y compris l'amélioration de la prévision du trafic, du localisateur et du détecteur de son et de la prédiction probabiliste.



Un bref aperçu de TCN



Les travaux fondamentaux de Lea et al. (2016) ont été les pionniers de l'utilisation de réseaux convolutifs temporels pour segmenter les actions basées sur la vidéo. Habituellement, le processus est divisé en deux étapes: d'une part, le calcul des entités de bas niveau en utilisant (le plus souvent) CNN, qui encode les informations spatio-temporelles, et d'autre part, l'entrée d'entités de bas niveau dans le classificateur, qui reçoit des informations temporelles de haut niveau en utilisant (le plus souvent) ) RNN. Le principal inconvénient de cette approche est la nécessité de disposer de deux modèles distincts. TCN propose une approche unifiée pour couvrir les deux niveaux d'information de manière hiérarchique.



La figure ci-dessous montre la structure du codeur-décodeur, des informations sur l'architecture se trouvent dans les deux premiers liens à la fin de l'article. Les questions les plus critiques sont résolues comme suit: TCN peut prendre une série de n'importe quelle longueur et obtenir la même longueur dans la sortie. La convolution occasionnelle est utilisée lorsqu'il existe une architecture de réseau unidimensionnelle entièrement convolutionnelle. La caractéristique clé est que la valeur de sortie au temps t est réduite uniquement avec les éléments qui se sont produits dans le temps avant elle.







Le buzz autour du TCN est même allé jusqu'à Nature, avec une publication récente de Jan et al. (2020) sur l'utilisation du TCN dans les prévisions météorologiques. Dans leurs travaux, les auteurs ont mené une expérience comparant TCN et LSTM. L'un des résultats a été la conclusion que TCN fait un bon travail de prévision des séries chronologiques.







Les sections suivantes présentent l'implémentation et l'extension du TCN classique.



Meilleure prévision du trafic



Les services de covoiturage et de navigation en ligne peuvent améliorer les prévisions de trafic et améliorer l'expérience routière. Réduire les embouteillages, réduire la pollution, conduire en toute sécurité et rapidement ne sont que quelques-uns des objectifs qui peuvent être atteints en améliorant les prévisions de trafic. Étant donné que ce problème est basé sur des données en temps réel, les données de trafic accumulées doivent être utilisées. Pour cette raison, Dai et al. (2020) ont récemment introduit un réseau convolutif hybride de graphes spatio-temporels (H-STGCN). L'idée de base est de tirer parti du rapport de densité de flux glissant linéaire par morceaux et de convertir le volume de trafic à venir en son équivalent en temps de trafic.L'une des approches les plus intéressantes qu'ils ont utilisées dans leur travail est la convolution de graphes pour obtenir une dépendance temporelle. La matrice de contiguïté composite reflète les caractéristiques inhérentes à l'approximation du trafic (lire l'article de Lee 2017 pour plus d'informations). L'architecture suivante fournit quatre modules pour décrire l'ensemble du processus de prévision.







Localisation et détection d'événements sonores



Le domaine de la localisation et de la détection audio (SELF) continue de croître. Dans la navigation autonome, la compréhension de l'environnement joue un grand rôle. Girjis et al. (2020) ont récemment proposé une nouvelle architecture d'événement audio SELF-TCN. Un groupe de chercheurs affirme que leur cadre surpasse les solutions actuelles dans ce domaine, réduisant le temps de formation. Dans leur SELDnet (l'architecture est illustrée ci-dessous), l'audio multicanal échantillonné à 44,1 kHz extrait la phase et l'amplitude du spectre en utilisant une transformée de Fourier à court terme et les extrait en tant que caractéristiques d'entrée distinctes. Ensuite, les blocs convolutifs et les blocs récurrents (GRU bidirectionnels) sont connectés, puis un bloc entièrement connecté vient. À la sortie de SELDnet, vous pouvez obtenir la détection des événements audio et la direction d'où provient l'audio.







Et pour surpasser la solution existante, les auteurs ont introduit SELD-TCN:







puisque les convolutions étendues permettent au réseau de traiter différentes entrées, un réseau plus profond peut être nécessaire (qui sera affecté par des gradients instables lors de la rétropropagation d'erreur). Les auteurs de l'étude ont pu résoudre ce problème en adaptant l'architecture WaveNet (Dario et al., 2017). Ils ont montré que les couches récurrentes ne sont pas nécessaires pour les tâches SELD, tout en étant capable de déterminer les heures de début et de fin des événements sonores actifs.



Prévisions probabilistes



Un nouveau cadre développé par Chen et al. (2020) peut être appliqué pour estimer la densité de probabilité. Les prévisions de séries chronologiques améliorent de nombreux scénarios de décision commerciale (par exemple, la gestion des ressources). La prévision probabiliste vous permet d'extraire des informations à partir de données historiques et de minimiser l'incertitude des événements futurs. Lorsque la tâche de prévision consiste à prédire des millions de séries chronologiques associées (comme dans le commerce de détail), il faut un travail et des ressources informatiques prohibitifs pour estimer les paramètres. Pour résoudre ces difficultés, les auteurs ont proposé un système d'estimation et de prévision de la densité basé sur CNN. Leur structure peut apprendre la corrélation cachée entre les séries. La nouveauté scientifique de leur travail réside dans leur proposition de TCN profond, représentée dans leur architecture:







La mise en œuvre de modules codeurs-décodeurs peut aider au développement d'applications à grande échelle.



Conclusion



Dans cet article, nous avons passé en revue les derniers travaux liés aux réseaux convolutifs temporels, qui sont supérieurs d'une manière ou d'une autre aux approches classiques CNN et RNN pour résoudre les problèmes de séries chronologiques.



Sources



  • Lea, Colin et coll. «Réseaux convolutifs temporels: une approche unifiée de la segmentation d'action». Conférence européenne sur la vision par ordinateur. Springer, Cham, 2016.
  • Lea, Colin et coll. "Réseaux convolutifs temporels pour la segmentation et la détection des actions." actes de la conférence IEEE sur la vision par ordinateur et la reconnaissance de formes. 2017.
  • Yan, Jining et coll. "Réseaux convolutifs temporels pour la prédiction avancée de enSo." Rapports scientifiques 10.1 (2020): 1-15.
  • Li, Yaguang, et al. “Diffusion convolutional recurrent neural network: Data-driven traffic forecasting.” arXiv preprint arXiv:1707.01926 (2017).
  • Rethage, Dario, Jordi Pons, and Xavier Serra. “A wavenet for speech denoising.” 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018.
  • Chen, Yitian, et al. “Probabilistic forecasting with temporal convolutional neural network.” Neurocomputing (2020).
  • Guirguis, Karim, et al. “SELD-TCN: Sound Event Localization & Detection via Temporal Convolutional Networks.” arXiv preprint arXiv:2003.01609 (2020).








:






All Articles