Comment la pratique des données a été construite dans EPAM

EPAM travaille avec les donnĂ©es depuis longtemps, les premiers grands clients avec des projets Big Data sont apparus en 2001. À l'Ă©poque, les sociĂ©tĂ©s d'analyse bien connues Gartner et Forrester, ainsi que les principaux fournisseurs Oracle, Microsoft et IBM, ont notĂ© que les entreprises devraient s'orienter vers le Big Data, car ces technologies sont indispensables dans tous les domaines liĂ©s au traitement de grandes quantitĂ©s de donnĂ©es. Depuis, l'Ă©quipe d'experts d'EPAM n'a cessĂ© de s'agrandir, travaillant sur des projets de plus en plus complexes et offrant des solutions Ă©prouvĂ©es et des produits de qualitĂ© pour travailler avec le Big Data. Aujourd'hui, uniquement dans l'EPAM russe, plus de 500 personnes travaillent dans la pratique des donnĂ©es. Comment tout a commencĂ©, quels projets nous avons rencontrĂ©s, quels Ă©checs se sont produits, ce Ă  quoi les spĂ©cialistes des donnĂ©es devraient se prĂ©parer et quel type de spĂ©cialistes des donnĂ©es il existe,J'ai parlĂ© avec le responsable de l'EPAM Data Practice en Russie -Ilya Gerasimov .  





CarriĂšre 

Dites-nous comment vous en ĂȘtes arrivĂ© Ă  la direction des donnĂ©es

J'ai rejoint EPAM en 2006 en tant que dĂ©veloppeur junior sur .NET et MS SQL Server, avant cela j'ai travaillĂ© dans une sociĂ©tĂ© de produits et occupĂ© le poste de chef d'Ă©quipe, dĂ©veloppant des logiciels d'automatisation d'hĂŽtels et de restaurants. Mais Ă  EPAM, j'ai commencĂ© ma carriĂšre Ă  partir de zĂ©ro. En 2013, j'Ă©tais devenu un chef d'Ă©quipe et j'Ă©tais Ă  la recherche de nouvelles opportunitĂ©s pour mon dĂ©veloppement en EPAM, et c'est Ă  ce moment-lĂ  que j'ai rencontrĂ© Ă  la SEC Ă  Minsk le responsable du centre de compĂ©tences Big Data, et nous avons convenu que ce domaine devrait ĂȘtre dĂ©veloppĂ© en Russie.   





Ensuite, nous Ă©tions deux ou trois. Des collĂšgues d'autres pays nous ont aidĂ©s, nous ont donnĂ© des cours et nous ont impliquĂ©s dans diverses activitĂ©s liĂ©es Ă  ce domaine. J'ai dĂ» beaucoup Ă©tudier, puis diffuser les connaissances acquises.  





Pourquoi travaillez-vous pour l'entreprise depuis si longtemps?

Data , - . , , . - — , .





Data?

   â€”  Data,  Data.  :)





Data-?

   Data-: Data Science, Machine Learning, Business Intelligence, Enterprise Search, DevOps in Data, Data Quality, Business Data Analysis.   500 —        .  





     .     «»  ,  Â«Â»  .  





 Data-  Data governance, ..  , , ,    .   , ,  ,  .. 





 â€”  .  





, , . ,    â€”  , ,  , Data Science  .  





, , ,

2013-2014 , - , , , , Data Science.





, Scala , DevOps, , . , , , .





?

. , . Java, Python, DevOps- .





« », , . , 2012 — , . , , , . , . , , , , -, EPAM.





— Data Analytics, , Data Engineering, Data Science , — EPAM.





, , . — , .





? ?

, - , - , - , . , . , . . Cadence, , , , , , .





, Reinforcement Learning. . 2- , . , . , , Reinforcement Learning. , , , .





« », Data-. . , , «» . , « » — . , , , . , , Theano, TensorFlow, Theano - .





  •  Apache  , ,  â€”  Spark, Cassandra, Elasticsearch  .  





  • Yarn, HDFSMapReduceHiveKafkaZooKeeper â€”   , .   Hadoop  ,     ,   ,  ,  . 





  •     â€”  Amazon, Microsoft Azure, GCP â€”   Hadoop, .  





  • ,  Kerberos, Knox, Ranger.  





  • ,  NoSQL  NewSQL  — Cassandra,  (  ), Snowflake, Amazon Redshift, HBase, MongoDBTeradata





  • DevOps  â€” Kubernetes, Docker, Jenkins.  





  • : Power BI, Tableau, QlikView. 





  •  Data Science  ,  TensorFlow  Google BERT (  Â« »,   ), PyTorchKeras.  





  •  Streaming. Streaming    Data,    — Spark Streaming, Kafka Streams, Apache Flink, Apache Storm.   





.   





SQL ( ), DWH ( — , , Data Vault,  ..), ( ,   , , ), , DWH, Data Mart, Data Lake.  





, . , AWS, Azure, GCP. 





, ETL ( ) ETL ELT, , ,  slowly changed dimension. ETL (PL/SQL, T-SQL, pgSQL, Python, Spark), (, Airflow), ,  , (TalendInformatica Power CenterPentaho, etc.). 





(Data Analytics and Visualization), 2- (Power BI, Tableau, TIBCO Spotfire, MicroStrategy, Pentaho,  ..)   (, Storytelling). 





- ?

   Apache —  Spark, NiFi, Elasticsearch . .   ,  ,  — - Open Source .  





,     Open Source , , Open Data Analytics Hub (ODAHU) , ML .  





?

- ,    Data —     ,   . (blueprint) . ,  ,   .  ,  ,        , , . 





  blueprint   -  , ,      , ,   Data Scientists, ,   .. 





?

    , ,   , e-commerce,  ,  ,  Life Science   â€”  , -.  , ,  blueprints  , .   





,     , , .    , ,   .





2020 ?

, ,      XXI .  2020 , (late majority),   ,    . 





La diffusion des innovations selon Rogers.  (De Wikipedia)
The diffusion of innovations according to Rogers. (From Wikipedia)

, : , ?

, ,    , . , ,   ,    .  





,   ,   Data,  Java, Scala  Python. 





- EPAM , Data Engineering, Data Science, BI, Python , .





, Data EPAM?

. ,  Data  —  Java, Scala  Python (, ),  SQL, , , ,  DevOps- ,      Machine Learning  .   








All Articles