Astronomie, mĂ©gadonnĂ©es et nuages ​​- comment la technologie aide Ă  Ă©tudier l'univers





Comment les astronomes travaillent-ils habituellement? Ils conviennent avec l'observatoire de la date et de l'heure d'utilisation du télescope, et le jour fixé, ils effectuent des observations en téléchargeant les données collectées. Mais du fait que les télescopes génÚrent de plus en plus d'informations utiles, les méthodes traditionnelles cessent de fonctionner. Et les scientifiques ont trouvé une issue en utilisant les technologies cloud. Cloud4Y explique comment les Stargazers fonctionnent désormais.



L'Observatoire Vera Rubin au Chili peut collecter 20 tĂ©raoctets de donnĂ©es par nuit. Cela est en grande partie dĂ» Ă  son bon emplacement. Le tĂ©lescope Ă  miroir grand angle de recherche est situĂ© Ă  une altitude de 2715 m au sommet d'El Peñon (c'est le nord du Chili). La conception du tĂ©lescope est unique en ce sens qu'il a un champ de vision trĂšs large: 3,5 degrĂ©s de diamĂštre ou 9,6 degrĂ©s carrĂ©s. Par comparaison, le Soleil et la Lune sont visibles depuis la Terre sous forme d'objets mesurant 0,5 ° horizontalement ou 0,2 degrĂ© carrĂ©. CombinĂ© Ă  la grande ouverture, cela lui permet d'avoir une force de collecte extrĂȘmement Ă©levĂ©e. En d'autres termes, le tĂ©lescope est capable d'acquĂ©rir des donnĂ©es de vastes zones du ciel en mĂȘme temps. La premiĂšre lumiĂšre «d'ingĂ©nierie» devrait ĂȘtre reçue en mai 2021, l'ensemble du systĂšme - en octobre 2021 et en octobre 2022 pour commencer Ă  fonctionner pleinement



20 téraoctets équivaut à peu prÚs à la Sloan Digital Sky Survey , qui propose les cartes 3D les plus détaillées de l'univers et qui recueille toutes les données de 2000 à 2010. Mais ce n'est pas tout. Le projet Square Kilometer Array , qui devrait commencer à fonctionner en 2020, augmentera ce volume d'un facteur 100, à 2 pétaoctets par jour (lorsqu'il atteindra sa capacité maximale en 2028). Et l'équipement de nouvelle génération (ngVLA), selon les responsables des observatoires, générera des centaines de pétaoctets.



Il n'est pas facile de traiter de tels volumes de données. Vous ne pouvez pas simplement les télécharger et les stocker quelque part. Et créer un support pour que les ressources informatiques locales fonctionnent est trop coûteux. Selon certaines estimations, le coût de l'organisation d'une infrastructure informatique à partir de zéro et du maintien du personnel requis pour soutenir l'observatoire Vera Rubin pourrait approcher 150 millions de dollars sur 10 ans. Ainsi, les astronomes du Chili, comme beaucoup de leurs collÚgues, se sont tournés vers le nuage. Et voici les conclusions qu'ils ont déjà tirées.



L'investissement dans la puissance de calcul est bon pour la science



Il ne suffit pas de déplacer les données vers le cloud; les chercheurs doivent pouvoir interagir avec eux. Au lieu du modÚle de travail traditionnel, lorsque les astronomes transféraient des données sur leurs ordinateurs, ils téléchargent désormais leur code pour travailler avec les données disponibles dans le cloud. Grùce à la disponibilité d'un accÚs en ligne à la plateforme scientifique de l'observatoire (notebooks Jupyter pour la programmation en Python, Julia, R, etc., interfaces de programmation d'application (API) pour analyser, visualiser et rechercher des données), les utilisateurs peuvent écrire et exécuter du code Python pour une analyse à distance de tout l'ensemble de données de l'observatoire sur des serveurs hébergés au National Center for Supercomputing Applications à Urbana, Illinois. Et vous n'avez rien à télécharger sur votre ordinateur.



Dans d'autres branches de la science, cette approche est trÚs efficace. Par exemple, le projet Pangeo, qui est une plate-forme d'analyse de mégadonnées pour les sciences de la Terre, a rendu publiques et calculables des pétaoctets de données climatiques, facilitant ainsi la collaboration des chercheurs.



Pratique mĂȘme lorsque vous travaillez sans Big Data



Evelina Momcheva, qui travaille avec un tĂ©lescope spatial Ă  Baltimore, Maryland, dit avoir rencontrĂ© des cas oĂč des projets utilisant uniquement des donnĂ©es de taille moyenne ont bĂ©nĂ©ficiĂ© du cloud computing. Ne serait-ce que parce que les chercheurs ont pu accĂ©der Ă  des ressources largement supĂ©rieures aux performances de leurs ordinateurs portables. Et, ce qui est important, Ă  un coĂ»t relativement bas. Certains fournisseurs de cloud proposent des ressources gratuites Ă  des fins Ă©ducatives.



En 2015, Momcheva et ses collĂšgues ne disposaient que d'un serveur Ă  8 cƓurs pour leur projet 3D-HST, qui analysait les donnĂ©es du tĂ©lescope spatial Hubble pour comprendre les forces qui façonnent les galaxies dans l'univers lointain. Les ressources Ă©taient rares et elles se sont tournĂ©es vers les nuagesprenant cinq machines Ă  32 cƓurs. Pourquoi? Mais parce qu'aprĂšs des calculs prĂ©liminaires, il s'est avĂ©rĂ© que l'analyse sur nos propres machines prendrait au moins trois mois. Avec un fournisseur de cloud, cela a pris cinq jours et moins de 1 000 $. »



Le prix n'est pas tout



Les différends quant à savoir si les services cloud sont moins chers par rapport à leur propre infrastructure informatique, s'ils disparaissent, ne le seront pas de sitÎt. Les deux parties ont de solides arguments. Par exemple, un rapport du département américain de l'énergie de 2011 sur le cloud computing par Magellan a conclu que les centres informatiques du département sont généralement moins chers que la location de services cloud. Cependant, beaucoup d'eau a coulé sous le pont depuis lors et les technologies ont radicalement changé.



L'optimisation du travail avec les services cloud, selon l'UniversitĂ© de Washington, peut niveler ces diffĂ©rences. Les chercheurs ont pu prouver que l'expĂ©rience cloud Ă  43 $ n'Ă©tait que de 6 $ aprĂšs quelques mois de travail et d'optimisation des coĂ»ts. Ils ont Ă©galement calculĂ© qu'accomplir les mĂȘmes tĂąches dans des dĂ©lais comparables en utilisant leurs propres ressources coĂ»terait Ă  l'Ă©quipe environ 75 000 $ (pour le matĂ©riel, l'Ă©lectricitĂ© et les salaires du personnel), tandis que les serveurs devraient ĂȘtre actifs 87% du temps pendant trois ans.



Le gain de temps influence souvent la prise de dĂ©cision. Lorsque votre infrastructure informatique prend neuf mois pour traiter vos donnĂ©es, et que le cloud ne prend qu'un mois, et pour Ă  peu prĂšs le mĂȘme montant, cette diffĂ©rence de huit mois devient trĂšs intĂ©ressante.



Les astronomes disent qu'ils n'ont aucun désir de passer d'un cÎté. Au contraire, l'utilisation d'infrastructures locales pour les tùches quotidiennes et les «nuages» - pour le calcul complexe - est le modÚle optimal pour de nombreux centres scientifiques.



La consolidation des données ouvre de nouveaux horizons



Une autre chose que les astronomes aiment beaucoup est la possibilité de combiner plusieurs ensembles de données volumineuses. Leur combinaison peut fournir des informations qui ne seraient pas évidentes pour chaque ensemble séparément. Autrement dit, plus les astronomes rassemblent d'informations, plus cela devient utile.



InspirĂ© du projet NIH Data Commons, oĂč les scientifiques stockent et Ă©changent des donnĂ©es et des logiciels biomĂ©dicaux et comportementaux, les chercheurs prĂ©voient de crĂ©er les donnĂ©es communes d'astronomie. Des scientifiques de l'UniversitĂ© de Washington ont dĂ©jĂ  publiĂ© un ensemble de donnĂ©es appelĂ© Zwicky Transient Facility, qui comprend 100 milliards d'observations d'environ 2 milliards d'objets cĂ©lestes. Si ce travail est utile, d'autres astronomes peuvent emboĂźter le pas. Ensuite, tout un Ă©cosystĂšme astronomique sera crĂ©Ă©, dont les possibilitĂ©s ne peuvent ĂȘtre que rĂȘvĂ©es.



Il ne suffit pas d'aller dans le cloud, il faut savoir s'en servir



Pour travailler avec des donnĂ©es dans le cloud, les utilisateurs doivent crĂ©er un compte, choisir l'une des nombreuses options d'interaction avec les informations, installer leur propre logiciel (souvent auto-Ă©crit ou personnalisĂ©). De plus, configurez tout pour que le logiciel puisse fonctionner sur plusieurs machines en mĂȘme temps. Les erreurs sont inĂ©vitables et peuvent coĂ»ter cher aux chercheurs, dĂ©courageant leur intĂ©rĂȘt pour la technologie cloud. Il y a eu un cas oĂč des Ă©tudiants diplĂŽmĂ©s incompĂ©tents ont «brĂ»lé» en vain quelques milliers d'heures de CPU. Il est donc conseillĂ© aux scientifiques de s'entraĂźner d'abord «sur les chats», en lançant de petits projets pilotes utilisant leur propre infrastructure.



Il est Ă©galement important de ne pas oublier les exigences de sĂ©curitĂ©. Bien que la confidentialitĂ© et la sĂ©curitĂ© dans le cloud soient meilleures que les ressources sur site, la mise en place d'une infrastructure cloud peut ĂȘtre difficile. Et l'erreur d'un programmeur inexpĂ©rimentĂ© conduira au fait que vos donnĂ©es seront disponibles dans le monde entier. Lorsque vous utilisez notre propre parc informatique, ces problĂšmes sont contrĂŽlĂ©s plus Ă©troitement. Et dans le cloud, il est facile de se tromper si vous n’écoutez pas les recommandations des experts techniques du fournisseur.



En gĂ©nĂ©ral, le dĂ©sir des astronomes d'utiliser les ressources des nuages ​​pour Ă©tudier les systĂšmes stellaires, construire des modĂšles de formation d'Univers et stocker des «lacs de donnĂ©es» est comprĂ©hensible. L'informatique lourde a longtemps Ă©tĂ© laissĂ©e Ă  la merci des Ă©quipements des centres de donnĂ©es. Les plates-formes cloud ont considĂ©rablement transformĂ© la science et les affaires, devenant un outil important pour le dĂ©veloppement de la pensĂ©e humaine. L'essentiel est d'utiliser correctement cet outil.



Quoi d'autre est intéressant dans le blog Cloud4Y



→ «Faites-le vous-mĂȘme», ou un ordinateur de Yougoslavie

→ Le dĂ©partement d'État amĂ©ricain va crĂ©er son propre grand pare-feu

→ L'intelligence artificielle chante la rĂ©volution

→ Quelle est la gĂ©omĂ©trie de l'Univers?

→ ƒufs de Pñques sur les cartes topographiques de la Suisse



Abonnez-vous Ă  notre chaĂźne Telegram pour ne pas rater un autre article. Nous n'Ă©crivons pas plus de deux fois par semaine et uniquement pour affaires.



All Articles