Gab sql generator

Module to define GAB SQL classes.

`GABDeleteGenerator` ¶

Bases: GABSQLGenerator

GAB delete generator.

Creates the delete statement to clean the use case base data on the insights table.

Source code in mkdocs/lakehouse_engine/packages/core/gab_sql_generator.py

class GABDeleteGenerator(GABSQLGenerator):
    """GAB delete generator.

    Creates the delete statement to clean the use case base data on the insights table.
    """

    _LOGGER = LoggingHandler(__name__).get_logger()

    def __init__(
        self,
        query_id: str,
        cadence: str,
        temp_stage_view_name: str,
        lookup_query_builder: DataFrame,
        target_database: str,
        target_table: str,
    ):
        """Construct GABViewGenerator instances.

        Args:
            query_id: gab configuration table use case identifier.
            cadence:  inputted cadence to process.
            temp_stage_view_name: stage view name.
            lookup_query_builder: gab configuration data.
            target_database: target database to write.
            target_table: target table to write.
        """
        self.query_id = query_id
        self.cadence = cadence
        self.temp_stage_view_name = temp_stage_view_name
        self.lookup_query_builder = lookup_query_builder
        self.target_database = target_database
        self.target_table = target_table

    @_execute_sql
    def generate_sql(self) -> Optional[str]:
        """Generate delete sql statement.

        This statement is to clean the insights table for the corresponding use case.
        """
        delete_sql_statement = self._delete_statement_generator()

        return delete_sql_statement

    def _delete_statement_generator(self) -> str:
        df_filtered = self.lookup_query_builder.filter(
            col("query_id") == lit(self.query_id)
        )

        df_map = df_filtered.select(col("mappings"))
        view_df = df_map.select(
            to_json(struct([df_map[x] for x in df_map.columns]))
        ).collect()[0][0]
        line = json.loads(view_df)

        for line_v in line.values():
            result = ast.literal_eval(line_v)

        for result_key in result.keys():
            result_new = result[result_key]
            dim_from_date = result_new["dimensions"]["from_date"]
            dim_to_date = result_new["dimensions"]["to_date"]

        self._LOGGER.info(f"temp stage view name: {self.temp_stage_view_name}")

        min_from_date = ExecEnv.SESSION.sql(
            """
            SELECT
                MIN({from_date}) as min_from_date
            FROM {iter_stages}""".format(  # nosec: B608
                iter_stages=self.temp_stage_view_name, from_date=dim_from_date
            )
        ).collect()[0][0]
        max_from_date = ExecEnv.SESSION.sql(
            """
            SELECT
                MAX({from_date}) as max_from_date
            FROM {iter_stages}""".format(  # nosec: B608
                iter_stages=self.temp_stage_view_name, from_date=dim_from_date
            )
        ).collect()[0][0]

        min_to_date = ExecEnv.SESSION.sql(
            """
            SELECT
                MIN({to_date}) as min_to_date
            FROM {iter_stages}""".format(  # nosec: B608
                iter_stages=self.temp_stage_view_name, to_date=dim_to_date
            )
        ).collect()[0][0]
        max_to_date = ExecEnv.SESSION.sql(
            """
            SELECT
                MAX({to_date}) as max_to_date
            FROM {iter_stages}""".format(  # nosec: B608
                iter_stages=self.temp_stage_view_name, to_date=dim_to_date
            )
        ).collect()[0][0]

        gen_del = """
        DELETE FROM {target_database}.{target_table} a
            WHERE query_id = {query_id}
            AND cadence = '{cadence}'
            AND from_date BETWEEN '{min_from_date}' AND '{max_from_date}'
            AND to_date BETWEEN '{min_to_date}' AND '{max_to_date}'
        """.format(  # nosec: B608
            target_database=self.target_database,
            target_table=self.target_table,
            query_id=self.query_id,
            cadence=self.cadence,
            min_from_date=min_from_date,
            max_from_date=max_from_date,
            min_to_date=min_to_date,
            max_to_date=max_to_date,
        )

        return gen_del

`init(query_id, cadence, temp_stage_view_name, lookup_query_builder, target_database, target_table)` ¶

Construct GABViewGenerator instances.

Parameters:

Name	Type	Description	Default
`query_id`	`str`	gab configuration table use case identifier.	required
`cadence`	`str`	inputted cadence to process.	required
`temp_stage_view_name`	`str`	stage view name.	required
`lookup_query_builder`	`DataFrame`	gab configuration data.	required
`target_database`	`str`	target database to write.	required
`target_table`	`str`	target table to write.	required

Source code in mkdocs/lakehouse_engine/packages/core/gab_sql_generator.py

def __init__(
    self,
    query_id: str,
    cadence: str,
    temp_stage_view_name: str,
    lookup_query_builder: DataFrame,
    target_database: str,
    target_table: str,
):
    """Construct GABViewGenerator instances.

    Args:
        query_id: gab configuration table use case identifier.
        cadence:  inputted cadence to process.
        temp_stage_view_name: stage view name.
        lookup_query_builder: gab configuration data.
        target_database: target database to write.
        target_table: target table to write.
    """
    self.query_id = query_id
    self.cadence = cadence
    self.temp_stage_view_name = temp_stage_view_name
    self.lookup_query_builder = lookup_query_builder
    self.target_database = target_database
    self.target_table = target_table

`generate_sql()` ¶

Generate delete sql statement.

This statement is to clean the insights table for the corresponding use case.

Source code in mkdocs/lakehouse_engine/packages/core/gab_sql_generator.py

@_execute_sql
def generate_sql(self) -> Optional[str]:
    """Generate delete sql statement.

    This statement is to clean the insights table for the corresponding use case.
    """
    delete_sql_statement = self._delete_statement_generator()

    return delete_sql_statement

`GABInsertGenerator` ¶

Bases: GABSQLGenerator

GAB insert generator.

Creates the insert statement based on the dimensions and metrics provided in the configuration table.

Source code in mkdocs/lakehouse_engine/packages/core/gab_sql_generator.py

class GABInsertGenerator(GABSQLGenerator):
    """GAB insert generator.

    Creates the insert statement based on the dimensions and metrics provided in
    the configuration table.
    """

    _LOGGER = LoggingHandler(__name__).get_logger()

    def __init__(
        self,
        query_id: str,
        cadence: str,
        final_stage_table: str,
        lookup_query_builder: DataFrame,
        target_database: str,
        target_table: str,
    ):
        """Construct GABInsertGenerator instances.

        Args:
            query_id: gab configuration table use case identifier.
            cadence:  inputted cadence to process.
            final_stage_table: stage view name.
            lookup_query_builder: gab configuration data.
            target_database: target database to write.
            target_table: target table to write.
        """
        self.query_id = query_id
        self.cadence = cadence
        self.final_stage_table = final_stage_table
        self.lookup_query_builder = lookup_query_builder
        self.target_database = target_database
        self.target_table = target_table

    def generate_sql(self) -> Optional[str]:
        """Generate insert sql statement to the insights table."""
        insert_sql_statement = self._insert_statement_generator()

        return insert_sql_statement

    def _insert_statement_generator(self) -> str:
        """Generate GAB insert statement.

        Creates the insert statement based on the dimensions and metrics provided in
        the configuration table.
        """
        result = GABUtils.get_json_column_as_dict(
            self.lookup_query_builder, self.query_id, "mappings"
        )

        for result_key in result.keys():
            joined_dimensions, joined_metrics = self._get_mapping_columns(
                mapping=result[result_key]
            )
            gen_ins = f"""
                INSERT INTO {self.target_database}.{self.target_table}
                SELECT
                    {self.query_id} as query_id,
                    '{self.cadence}' as cadence,
                    {joined_dimensions},
                    {joined_metrics},
                    current_timestamp() as lh_created_on
                FROM {self.final_stage_table}
                """  # nosec: B608

        return gen_ins

    @classmethod
    def _get_mapping_columns(cls, mapping: dict) -> tuple[str, str]:
        """Get mapping columns(dimensions and metrics) as joined string.

        Args:
            mapping: use case mappings configuration.
        """
        dimensions_mapping = mapping["dimensions"]
        metrics_mapping = mapping["metric"]

        joined_dimensions = cls._join_extracted_column_with_filled_columns(
            columns=dimensions_mapping, is_dimension=True
        )
        joined_metrics = cls._join_extracted_column_with_filled_columns(
            columns=metrics_mapping, is_dimension=False
        )

        return joined_dimensions, joined_metrics

    @classmethod
    def _join_extracted_column_with_filled_columns(
        cls, columns: dict, is_dimension: bool
    ) -> str:
        """Join extracted columns with empty filled columns.

        Args:
            columns: use case columns and values.
            is_dimension: flag identifying if is a dimension or a metric.
        """
        extracted_columns_with_alias = (
            GABUtils.extract_columns_from_mapping(  # type: ignore
                columns=columns, is_dimension=is_dimension
            )
        )

        filled_columns = cls._fill_empty_columns(
            extracted_columns=extracted_columns_with_alias,  # type: ignore
            is_dimension=is_dimension,
        )

        joined_columns = [*extracted_columns_with_alias, *filled_columns]

        return ",".join(joined_columns)

    @classmethod
    def _fill_empty_columns(
        cls, extracted_columns: list[str], is_dimension: bool
    ) -> list[str]:
        """Fill empty columns as null.

        As the data is expected to have 40 columns we have to fill the unused columns.

        Args:
            extracted_columns: use case extracted columns.
            is_dimension: flag identifying if is a dimension or a metric.
        """
        filled_columns = []

        for ins in range(
            (
                len(extracted_columns) - 1
                if is_dimension
                else len(extracted_columns) + 1
            ),
            41,
        ):
            filled_columns.append(
                " null as {}{}".format("d" if is_dimension else "m", ins)
            )

        return filled_columns

`init(query_id, cadence, final_stage_table, lookup_query_builder, target_database, target_table)` ¶

Construct GABInsertGenerator instances.

Parameters:

Name	Type	Description	Default
`query_id`	`str`	gab configuration table use case identifier.	required
`cadence`	`str`	inputted cadence to process.	required
`final_stage_table`	`str`	stage view name.	required
`lookup_query_builder`	`DataFrame`	gab configuration data.	required
`target_database`	`str`	target database to write.	required
`target_table`	`str`	target table to write.	required

Source code in mkdocs/lakehouse_engine/packages/core/gab_sql_generator.py

def __init__(
    self,
    query_id: str,
    cadence: str,
    final_stage_table: str,
    lookup_query_builder: DataFrame,
    target_database: str,
    target_table: str,
):
    """Construct GABInsertGenerator instances.

    Args:
        query_id: gab configuration table use case identifier.
        cadence:  inputted cadence to process.
        final_stage_table: stage view name.
        lookup_query_builder: gab configuration data.
        target_database: target database to write.
        target_table: target table to write.
    """
    self.query_id = query_id
    self.cadence = cadence
    self.final_stage_table = final_stage_table
    self.lookup_query_builder = lookup_query_builder
    self.target_database = target_database
    self.target_table = target_table

`generate_sql()` ¶

Generate insert sql statement to the insights table.

Source code in mkdocs/lakehouse_engine/packages/core/gab_sql_generator.py

def generate_sql(self) -> Optional[str]:
    """Generate insert sql statement to the insights table."""
    insert_sql_statement = self._insert_statement_generator()

    return insert_sql_statement