Programme SmartData 2020



Nous avons déjà dit à Habr que le nouveau SmartData est une conférence sur l'ingénierie des données. Mais qu'est-ce que cela signifie exactement dans la pratique, quels rapports correspondent à cette définition? Au moment de l'annonce, nous ne pouvions expliquer qu'en termes généraux, mais maintenant le programme de la conférence est prêt - nous montrons donc tous les détails. Sous la coupe - descriptions de tous les rapports.



- -: 1 YouTube , ( asm0dey , olegchir , , ) — , . YouTube-.







Streaming





Flink — , . , Flink SQL, Flink . , Apache Zeppelin . , Zeppelin Flink -, HTML/JS- .

, Flink Zeppelin, .



: Zeppelin

: Zeppelin — Exploratory Data Analysis (EDA). , .

: , Zeppelin Flink .






« Kafka NiFi: »,



Apache NiFi Apache Kafka .



: VirtualHealth . , , ?

: , NiFi Kafka.

: VirtualHealth , .






«Advanced usage patterns of Scala UDF in PySpark»,



PySpark UDF, Scala/Java. .

, , Scala/Java UDF PySpark.



, :



  • PySpark , UDF;
  • pyspark.sql.Column UDF spark.sql(...);
  • Singleton Pattern UDF;
  • UDF ;
  • log4j.


: Spark .

: , Spark, - , Spark (Spark-).

: , , .






«Stateful streaming: , , »,



— , . , . , .






Storage



«Kusto (Azure Data Explorer): Big Data »,



Kusto — Big Data. , Kusto Azure . Kusto security log analytics- : Azure Monitor, Azure Sentinel, Microsoft Defender Advanced Threat Protection . Kusto Azure Data Explorer, e-commerce, gaming, manufacturing, automotive .



, Kusto (Azure Data Explorer) , , - ( ) , , Kusto.



: — .

: . .

: , .

, .






«Kusto (Azure Data Explorer): Architecture and internals»,



Kusto , . , , .



. , , , Azure .






«NeoFS: »,



NeoFS — , . . NeoFS AWS S3, . .



, S3 , . , , , , .



: .

: .

: , , .






« : Business intelligence Clickhouse»,



: , . Data Silo. - , .



Data Silo . DWH Clickhouse, Kafka Spark.



, , - . , DWH Clickhouse, , . , , , Clickhouse DWH .



: DWH DE, , .

: ClickHouse — , BA , .

: , BI.






«The latest and greatest of Delta Lake», Jacek Laskowski



: Spark, « » Apache Spark, Delta Lake, Apache Kafka Kafka Streams.

: , SQL. DeltaLake — , .

: -, DeltaLake.






« . , , »,



: bare metal, Hadoop&CO, Vertica, ClickHouse, ExaSol, GreenPlum (ArenaDataDB), RDBMS, Teradata .



, , . , , .



, , , .



: , , .

: , .






«SQL- Postgres »,



? ? ? - , . , — ? ( ), ?



, PostgreSQL, .



: PG, , .

: , — , .

: , , , .






Tooling



« - Dagster»,



- — , Java/Scala- .



Spark + Scala- Python-? Dagster , - , .



, Dagster .



: 7 , ML DE , .

: -.

: , - .






« »,



Lamoda:



  • SVN + Python + Jira + cron Git + Liquibase + Bamboo;
  • ;
  • .


: , .

: , , . .






«CI/CD Ml- »,



, , DS . , , , DS - ( , ).



— , , . , , .



: MLOps .

: -, ML.






«Scio — data processing at Spotify», Neville Li



Scio — Scala API Apache Beam Google Cloud Dataflow, Spotify , , . Scio .



big data Spotify: Python, Hadoop, Hive, Storm, Scalding . , « », , Discover Weekly, Wrapped, a , .



, Scio Spotify big data- Scala, Algebird, macros, shapeless magnolia. , .






Industry use-cases



« »,



« » — , , , .



, Kafka, Clickhouse Esper , , .



: , stateful- .






«Enterprise data platform: -»,



S7 . , , data governance . , , , .



S7 : Openshift, Minio, Apache Spark, Apache Airflow, Apache Kafka, Python, Scala, Java, Dremio, Alation.



: , , - . , , .






«Predictive Maintenance S7: »,



S7. S7 , , .



S7 : Apache Spark, Apache Airflow, Python, R.



: S7 , .

: , , DE. , , .






«: , ,



, , , , .



, , : , , , , .



: Kafka, Redis, ClickHouse, Quartz, Spring, Flink, ZooKeeper.



. .



: , , -.






Architecture



«Retable DSL: technology-agnostic data pipelines »,



Retable DataFrame DSL — open-source data pipelines DSL. C , data-, Spark DataFrames Python Pandas, — backend-agnostic, data pipelines data warehouses ELT, ETL data lakes, Spark.



Modern Data Stack, (ETL) (ELT) , DSL. , data pipelines, CI/CD-, — Spark, Snowflake Pandas Code.






«Highly Normalized Hybrid Model, », ,



DWH «» «». , , Agile.



, DWH , : Data Vault Anchor modeling — . , , : , .



:



  • DV AM: ;
  • «» ;
  • «» , ;
  • , ;
  • .


: DWH.

: -, DWH.






« . »,



, DWH, Hadoop.



:

: -, Hadoop, , data engineering.






« »,



, . . DWH, . , , .



:



  • ;
  • , -;
  • .


: Apache Kafka, Apache Flink, AWS, S3, EKS, Compression, Spark, Parquet, JSON.



: : — Joom , .

: DE, .

: .






« -»,



- , . , , MongoDB .



: .



Other



« »,



, , , . , . , — JIT, BLAS .






« NiFi»,



Apache NiFi , , NiFi, . , . , , .

, , .



, . , — . « », . SmartData 9 12 !



All Articles