Comment importer des données sur Google BigQuery

La traduction de l'article a été préparée à la veille du début du cours "Bases de données non relationnelles" .








Dans cet article, nous examinerons les options de téléchargement de données sur le stockage cloud Google BigQuery. Cela inclut des moyens simples de charger des données à partir de fichiers CSV / JSON et des moyens de charger via une API ou une extension.



Avec Google BigQuery (GBQ), vous pouvez collecter des donnĂ©es Ă  partir de diverses sources et les analyser Ă  l'aide de requĂȘtes SQL. Parmi les avantages du GBQ, il y a une vitesse de calcul Ă©levĂ©e mĂȘme pour de grandes quantitĂ©s de donnĂ©es et un faible coĂ»t.



Pourquoi avez-vous besoin de télécharger des données dans un référentiel unique? Si vous souhaitez utiliser des analyses de bout en bout, générer des rapports à partir de données brutes et mesurer l'efficacité de votre marketing, vous avez besoin de Google BigQuery.



Si vous avez besoin d'analyser des téraoctets de données en quelques secondes, Google BigQuery est le choix le plus simple et le plus abordable. Vous pouvez en savoir plus sur ce service en regardant une courte vidéo sur la chaßne YouTube de Google Developers .



Créer un jeu de données et une table



Avant d'importer des données, vous devez d'abord créer un ensemble de données et une table dans Google BigQuery. Pour ce faire, sur la page d'accueil de BigQuery, sélectionnez la ressource dans laquelle vous souhaitez créer un ensemble de données.





Les images utilisées dans l'article sont fournies par l'auteur.



SpĂ©cifiez l'ID du jeu de donnĂ©es dans la fenĂȘtre «CrĂ©er un jeu de donnĂ©es», sĂ©lectionnez l'emplacement de traitement des donnĂ©es et dĂ©finissez la pĂ©riode de stockage par dĂ©faut de la table.

Remarque: Si vous choisissez «Jamais» comme date d'expiration de la table, aucun stockage physique ne sera défini. Pour les tables temporaires, vous pouvez spécifier le nombre de jours pour les conserver.







Créez ensuite une table dans l'ensemble de données.







Terminé! Vous pouvez maintenant commencer à télécharger des données.



Chargement de données à l'aide de Google Sheets (extension OWOX BI BigQuery Reports).



Si vous devez importer des données de Google Sheets vers Google BigQuery, le moyen le plus simple de le faire est d'installer l'extension gratuite OWOX BI BigQuery Reports.



Vous pouvez installer cette extension directement depuis Google Sheets ou depuis le Chrome Web Store .







AprÚs l'avoir installé, une boßte de dialogue apparaßt avec des invites et demandant des autorisations.







Il est maintenant temps de revenir à Google Sheets. Pour importer des données dans BigQuery, sélectionnez simplement Importer des données dans BigQuery dans le menu Modules complémentaires -> Rapports OWOX BI BigQuery.







Spécifiez le projet, l'ensemble de données et le nom de la table dans lesquels charger les données. Et c'est tout :) Un



avantage indiscutable de l'extension OWOX BI BigQuery Reports est sa facilité d'utilisation. Vous pouvez également utiliser l'extension pour personnaliser les rapports programmés.



Pour générer des rapports basés sur des données brutes précises provenant de toutes les sources et les importer automatiquement dans le référentiel Google BigQuery, nous vous recommandons d'utiliser le service OWOX BI Pipeline .



Avec Pipeline, vous pouvez configurer la collecte automatique de données à partir des services de publicité, des systÚmes de suivi des appels et du CRM. Cela vous permet de récupérer rapidement et facilement des ensembles de données complets à partir des sources de votre choix.







Sélectionnez simplement vos sources de données et autorisez l'accÚs; laissez le reste à OWOX BI .



Avec OWOX BI, vous pouvez créer des rapports pour tous les goûts et toutes les couleurs, du ROI, de l'effet ROPO et de l'analyse de cohorte à l'analyse LTV et RFM.



Chargement de données à partir de fichiers CSV



Pour tĂ©lĂ©charger des donnĂ©es Ă  partir d'un fichier CSV, sĂ©lectionnez une source de donnĂ©es dans la fenĂȘtre CrĂ©er une table et utilisez l'option TĂ©lĂ©charger.







SĂ©lectionnez ensuite le fichier et son format.







Ensuite, vous devez définir la destination des données en spécifiant le nom du projet et l'ensemble de données.



Remarque: dans Google BigQuery, vous pouvez sélectionner deux types de tableaux: natifs et externes.









Google BigQuery détectera automatiquement la structure du tableau, mais si vous souhaitez ajouter des champs manuellement, vous pouvez utiliser la fonction d'édition de texte ou le bouton + Ajouter un champ.



Remarque: Si vous souhaitez interférer avec l'analyse des données d'un fichier CSV dans Google BigQuery, vous pouvez utiliser des options avancées.







Pour plus d'informations sur le format CSV, consultez la documentation détaillée de l'Internet Society.



Chargement de données à partir de fichiers JSON



Pour charger des données à partir d'un fichier JSON, répétez toutes les étapes ci-dessus: créez ou sélectionnez un ensemble de données et une table avec lesquels vous travaillez - choisissez uniquement JSON comme format de fichier.

Vous pouvez importer un fichier JSON depuis votre ordinateur, Google Cloud Storage ou Google Drive.







Remarque: pour plus d'informations sur le format JSON, consultez la documentation Google Cloud.



Téléchargement de données depuis Google Cloud Storage.



Google Cloud Storage vous permet de stocker et de transférer des données en ligne en toute sécurité.



Informations utiles sur l'utilisation de ce service:



Premiers pas avec Google Cloud Storage Guides de démarrage rapide de la

documentation Cloud Storage Choix d'un stockage et d'une base de données sur Google Cloud Platform Vous pouvez télécharger des fichiers de Google Cloud Storage vers Google BigQuery dans les formats suivants:











  • CSV
  • JSON (dĂ©limitĂ© par une nouvelle ligne)
  • Avro
  • Parquet
  • ORC
  • Cloud Datastore








Vous pouvez en savoir plus sur l'utilisation de Cloud Storage avec le Big Data dans la documentation officielle .



Vous pouvez également en savoir plus sur les limites et les autorisations de téléversement Cloud Storage dans le centre d'aide Google Cloud.



Chargement de données à partir d'autres services Google tels que Google Ads et Google Ad Manager.



Pour télécharger des données à partir de divers services Google, vous devez d'abord configurer le service de transfert de données BigQuery. Avant de pouvoir l'utiliser, vous devez sélectionner ou créer un projet de données et, dans la plupart des cas, activer la facturation pour celui-ci. Par exemple, la facturation est requise pour les services suivants:



  • Directeur de campagne
  • Gestionnaire d'annonces Google
  • Google Ads
  • Google Play (bĂȘta)
  • YouTube - Rapports de chaĂźnes
  • YouTube - Rapports du propriĂ©taire de contenu




Remarque: pour plus d'informations sur la configuration et la modification de la facturation, veuillez consulter le centre d'aide Google Cloud.



Pour lancer le service de transfert de données BigQuery, sur la page d'accueil de BigQuery , sélectionnez Transferts dans le menu de gauche.







Remarque: vous avez besoin des droits d'administrateur pour créer un transfert.



Dans la fenĂȘtre suivante, tout ce que vous avez Ă  faire est de sĂ©lectionner la source de donnĂ©es souhaitĂ©e.







Remarque: Le service de transfert de données BigQuery est accessible non seulement depuis la console de la plate-forme, mais également depuis:

  • lassic bq_ui
  • outil de ligne de commande bq
  • API du service de transfert de donnĂ©es BigQuery




Une fois configuré, le service télécharge automatiquement et réguliÚrement des données dans BigQuery. Cependant, vous ne pouvez pas l'utiliser pour télécharger des données depuis BigQuery.



Chargement de données à l'aide de l'API



Avec les bibliothÚques clientes cloud, vous pouvez utiliser votre langage de programmation préféré pour travailler avec l'API Google BigQuery.



Remarque: vous trouverez plus d'informations sur le chargement de données à l'aide de l'API dans la documentation Google Cloud .



Tout d'abord, vous devez créer ou sélectionner un projet avec lequel vous allez travailler. Ensuite, sur la page principale, accédez à la section API.







Dans la fenĂȘtre de prĂ©sentation de l'API, vous pouvez connecter des API et des services. Vous devez sĂ©lectionner l'API dont vous avez besoin dans la bibliothĂšque.







Dans la bibliothÚque, vous pouvez utiliser la recherche par champ ou filtrer l'API par catégorie.







Vous pouvez utiliser un ensemble de scripts Python d'OWOX BI pour automatiser l'importation de données dans Google BigQuery.

Il existe des scripts pour automatiser l'importation de données dans Google BigQuery à partir des sources suivantes:



  • amoCRM
  • FTP
  • FTPS
  • HTTP (S)
  • Interphone
  • ExpertSender
  • MySQL
  • SFTP




Ces scripts Python peuvent ĂȘtre tĂ©lĂ©chargĂ©s depuis GitHub .



Remarque: découvrez comment utiliser Python avec l'API Google dans ce didacticiel vidéo de Google Developers sur YouTube .



conclusions



Dans cet article, nous avons décrit les moyens les plus courants de charger des données dans Google BigQuery. Du simple téléchargement d'un fichier de données au téléchargement de données via l'API, tout utilisateur peut trouver une option appropriée.






All Articles