15 meilleurs ensembles de données pour la formation de chatbot

Pour résoudre rapidement les problèmes des utilisateurs sans intervention humaine, un chatbot efficace nécessite une énorme quantité de données d'entraînement. Cependant, le principal goulot d'étranglement dans le développement de chatbot est l'obtention de données conversationnelles réalistes et axées sur les tâches pour entraîner ces systèmes à l'aide de techniques d'apprentissage automatique. Surtout pour le début du nouveau fil de discussion du cours Machine Learning, je partage avec vous une liste des meilleurs ensembles de données de conversations issues de chats, décomposés en questions et réponses, données de support client, données interactives et données multilingues.














Pour résoudre rapidement les problèmes des utilisateurs sans intervention humaine, un chatbot efficace nécessite une énorme quantité de données d'entraînement. Cependant, le principal goulot d'étranglement dans le développement de chatbot est l'obtention de données conversationnelles réalistes et axées sur les tâches pour former ces systèmes à l'aide de techniques d'apprentissage automatique. Nous avons compilé une liste des meilleurs ensembles de données de conversation à partir de chats, décomposée en questions et réponses, données de service client. données interactives et multilingues.



Ensemble de données de questions et réponses de formation Chatbot



Lien . Ce corpus comprend des articles de Wikipédia, des questions factuelles générées à la main et des réponses générées à la main à ces questions à utiliser dans la recherche scientifique.



Corpus WikiQA . Un ensemble accessible au public de paires de questions et de phrases collectées et annotées pour explorer les réponses aux questions du domaine ouvert. Pour refléter le véritable besoin d'informations des utilisateurs ordinaires, ils ont utilisé les journaux de requêtes Bing comme source de questions. Chaque question est liée à une page Wikipédia qui a potentiellement une réponse.



Données de langue Yahoo . Cette page présente des ensembles de données QC triés sur le volet de Yahoo Answers de Yahoo.



Collection AQ TREC (Text REtrieval Collection): TREC répond aux questions depuis 1999. Dans chaque séquence de questions et réponses, le problème était défini de telle manière que les systèmes recevaient de petits fragments de texte contenant la réponse aux questions du domaine ouvert avec des réponses possibles uniquement «oui» ou «non».



Ensemble de données de support Ubuntu



Le corpus de conversations Ubuntu se compose de près d'un million de conversations de deux personnes extraites des journaux de discussion Ubuntu utilisés pour obtenir un support technique sur divers problèmes liés à Ubuntu. L'ensemble contient 930 000 dialogues et plus de 100 000 000 mots.



Kit de stratégie de relation de service client : Collectez des données de service client liées aux voyages à partir de quatre sources Journaux de conversation de trois services clients commerciaux IVA et forums des compagnies aériennes sur TripAdvisor.com en août 2016.



Assistance client Twitter . Cet ensemble de données sur Kaggle comprend plus de 3 000 000 de tweets et réponses des plus grandes marques sur Twitter.



Ensemble de données de la boîte de dialogue de formation Chatbot



Journaux de discussion IRC du groupe d'intérêt du Web sémantique . Ce journal de discussion IRC généré automatiquement est disponible dans RDF qui a été mis à jour quotidiennement depuis 2004, y compris les horodatages et les alias.



Cornell Corps of Film Dialogues . Ce corpus contient une grande collection de métadonnées riches en dialogues fictifs à partir de scripts de films: il y a 220 579 dialogues entre 10 292 paires de héros de cinéma avec 9035 personnages de 617 films.



Ensemble de données ConvAI2 . Cet ensemble de données contient plus de 2000 conversations pour le concours PersonaChat , où des personnes travaillant sur la plate-forme de crowdsourcing Yandex.Toloka ont discuté avec des robots des équipes participantes.



Santa Barbara. Corpus anglais américain parlé: Cet ensemble de données comprend environ 249 000 mots en transcription, audio et horodatage au niveau des unités d'intonation individuelles.



Corpus de chat NPS . Ce corpus se compose de 10 567 messages provenant d'environ 500 000 messages collectés dans divers forums de discussion en ligne conformément aux conditions d'utilisation.



Dialogues axés sur les objectifs à Maluuba . Un ensemble de données de conversations dans lequel la conversation est axée sur l'accomplissement d'une tâche ou la prise de décision, comme la recherche de vols et d'hôtels. Contient des informations complètes sur plus de 250 hôtels, vols et destinations.



Ensemble de données multidomaines Wizard of Oz (MultiWOZ)... Une collection entièrement balisée de conversations écrites couvrant plusieurs domaines et sujets. L'ensemble contient 10 000 dialogues et au moins un ordre de grandeur de plus que tous les corpus annotés précédents, axés sur la résolution de problèmes.



Ensemble de données pour la formation de bots multilingues



NUS Corpus . Ce corpus a été créé pour normaliser le texte des réseaux sociaux et le traduire. Il est construit en sélectionnant au hasard 2000 messages du corpus SMS anglais NUS, puis traduits en chinois formel.



Ensemble de données EXCITEMENT . Disponibles en anglais et en italien, ces kits contiennent des avis clients négatifs, dans lesquels les clients indiquent les raisons de leur mécontentement à l'égard de l'entreprise.



Vous ne trouvez toujours pas les données que vous recherchez? Lionbridge AI fournit des données personnalisées pour former un chatbot à l' aide de l'apprentissage automatique en 300 langues afin de rendre vos conversations plus interactives et de soutenir les clients du monde entier. Et si vous souhaitez vous améliorer en apprentissage automatique, suivez notre cours avancé.by ML et n'oubliez pas le code promo HABR , qui ajoute 10% à la réduction sur la bannière.



image










Articles recommandés






All Articles