Afgelopen week bezocht ik de Snowflake Summit in Las Vegas. Tijdens de keynote werd onder andere ondersteuning aangekondigd voor Apache Iceberg tabellen. In eerste instantie was ik niet direct onder de indruk van de ondersteuning van een extra bestandsformaat, maar na het bezoeken van wat extra break-out sessies en 1-op-1 gespreken met productmanagers en ontwikkelaars in de expo hall denk ik dat deze extra ondersteuning een game-changer gaat zijn voor Snowflake.
Wat zijn Apache Iceberg tabellen?
Volgens de beschrijving op hun website is Iceberg een krachtig bestandsformaat voor enorme analytische tabellen. Iceberg brengt de betrouwbaarheid en eenvoud van SQL-tabellen naar big data, terwijl het voor engines zoals Spark, Trino, Flink, Presto en Hive mogelijk wordt gemaakt om tegelijkertijd veilig met dezelfde tabellen te werken.
Iceberg stelt je dus in staat om tegelijkertijd met meerdere tools aan enorme volumes aan data te werken.
Waarom is dit voor Snowflake zo’n game-changer?
Omdat Iceberg je in staat stelt om samen te werken op dezelfde grote datasets kan Snowflake op deze manier direct met de data werken in externe systemen zonder dat deze data verplaatst hoeft te worden, en kunnen externe systemen data welke in Snowflake opgeslagen ligt in Iceberg tabellen direct verwerken.
Naast dat Snowflake op deze manier on-premise data kan verwerken zonder dat deze verplaatst hoeft te worden zie ik het voor Snowflake ook mogelijk worden om data van bijvoorbeeld zeer grote cloud SaaS providers direct te ontsluiten zonder dat hiervoor ETL/ELT gebruikt hoeft te worden. Ik kijk er naar uit hoe zich dit de komende tijd verder gaat ontwikkelen.