1 ay önce · 9334247d18
--- a/carddef2sql.py
+++ b/carddef2sql.py
@@ -55,6 +55,13 @@ FILTER_OPERATOR_MAP = {
 
															 IDENTIFIER_QUOTE = '`'
														
 
															 QUOTE_FLAG = True
														
 
															+WINDOW_MAX_OVER_PATTERN = re.compile(
														
 
															+    r"max\s*\(\s*(?P<arg>.*?)\s*\)\s*over\s*\(\s*(?P<window>.*?)\s*\)",
														
 
															+    flags=re.IGNORECASE | re.DOTALL,
														
 
															+)
														
 
															+
														
 
															+AGGREGATION_PATTERN= re.compile(r"\b(sum|avg|count|max|min|stddev|variance|collect_list|collect_set|percentile|percentile_approx)|\s*\(", flags=re.IGNORECASE)
														
 
															+
														
 
															 # 副词
														
 
															 ADV_FILTER_EXP_MAP = {
														
 
															     'TODAY': "{field} = '{{today}}'",
														
@@ -163,7 +170,166 @@ def resolve_calculation_formula(formula, calculation_fields, visited=None):
 
															     return re.sub(r"\[([^\[\]]+)\]", replace_calculation_field, formula)
														
 
															-def build_with_part(new_date_fields, new_dimension_fields, dataset_fid_name_map, added_fields_info, dataset_id):
														
 
															+def extract_formula_field_refs(formula):
														
 
															+    # 提取公式中以 [字段] 形式引用的字段，供依赖收集使用。
														
 
															+    if not formula:
														
 
															+        return set()
														
 
															+    refs = set()
														
 
															+    for match in re.findall(r"\[([^\[\]]+)\]", formula):
														
 
															+        field_name = match.strip()
														
 
															+        if field_name and not re.fullmatch(r"\d+", field_name):
														
 
															+            refs.add(field_name)
														
 
															+    return refs
														
 
															+
														
 
															+def collect_formula_dependencies(formula, calculation_fields, visited=None):
														
 
															+    # 递归下钻计算字段，收集最终依赖到的数据集原始字段。
														
 
															+    if not formula:
														
 
															+        return set()
														
 
															+    if visited is None:
														
 
															+        visited = set()
														
 
															+
														
 
															+    if "consolidation" in formula:
														
 
															+        consolidation_dict = json.loads(formula)["consolidation"]
														
 
															+        source_name = consolidation_dict.get("sourceName")
														
 
															+        if not source_name:
														
 
															+            return set()
														
 
															+        source_field = calculation_fields.get(source_name)
														
 
															+        if not source_field:
														
 
															+            return {source_name}
														
 
															+        source_field_id = source_field.get("field_id") or source_name
														
 
															+        if source_field_id in visited:
														
 
															+            raise ValueError(f"计算字段存在循环引用: {source_name}")
														
 
															+        nested_formula = source_field["calculation"].get("formula", "")
														
 
															+        return collect_formula_dependencies(nested_formula, calculation_fields, visited | {source_field_id})
														
 
															+
														
 
															+    dependencies = set()
														
 
															+    for field_name in extract_formula_field_refs(formula):
														
 
															+        field_def = calculation_fields.get(field_name)
														
 
															+        if not field_def:
														
 
															+            dependencies.add(field_name)
														
 
															+            continue
														
 
															+        field_id = field_def.get("field_id") or field_name
														
 
															+        if field_id in visited:
														
 
															+            raise ValueError(f"计算字段存在循环引用: {field_name}")
														
 
															+        nested_formula = field_def["calculation"].get("formula", "")
														
 
															+        dependencies.update(collect_formula_dependencies(nested_formula, calculation_fields, visited | {field_id}))
														
 
															+    return dependencies
														
 
															+
														
 
															+def collect_filter_dependencies(filter_relation_str, calculation_fields):
														
 
															+    # 筛选条件里的公式也可能依赖额外字段，需要提前纳入 WITH 基础列。
														
 
															+    if not filter_relation_str or filter_relation_str == "[]":
														
 
															+        return set()
														
 
															+    dependencies = set()
														
 
															+    try:
														
 
															+        raw_conditions = json.loads(filter_relation_str)
														
 
															+    except Exception:
														
 
															+        return dependencies
														
 
															+
														
 
															+    for cond_dict in raw_conditions:
														
 
															+        field_name = cond_dict.get("name")
														
 
															+        if field_name:
														
 
															+            dependencies.add(field_name)
														
 
															+        formula = cond_dict.get("formula")
														
 
															+        if formula:
														
 
															+            dependencies.update(collect_formula_dependencies(formula, calculation_fields))
														
 
															+        consolidation = cond_dict.get("consolidation")
														
 
															+        if consolidation:
														
 
															+            source_name = consolidation.get("sourceName")
														
 
															+            if source_name:
														
 
															+                source_field = calculation_fields.get(source_name)
														
 
															+                if not source_field:
														
 
															+                    dependencies.add(source_name)
														
 
															+                else:
														
 
															+                    nested_formula = source_field["calculation"].get("formula", "")
														
 
															+                    dependencies.update(collect_formula_dependencies(nested_formula, calculation_fields, {source_field.get("field_id") or source_name}))
														
 
															+    return dependencies
														
 
															+
														
 
															+def collect_with_base_fields(
														
 
															+    all_field_names,
														
 
															+    measure_fields,
														
 
															+    new_date_fields,
														
 
															+    new_dimension_fields,
														
 
															+    dataset_fid_name_map,
														
 
															+    added_fields_info,
														
 
															+    filter_relation_str,
														
 
															+):
														
 
															+    # WITH 只保留后续 SELECT / WHERE / ORDER BY 真正需要的底层字段，
														
 
															+    # 避免把整张数据集无差别 SELECT 进临时表。
														
 
															+    dataset_field_names = set(dataset_fid_name_map.values())
														
 
															+    required_fields = {name for name in all_field_names if name in dataset_field_names}
														
 
															+
														
 
															+    for fid, _ in new_date_fields:
														
 
															+        old_fid = fid.split('_')[0]
														
 
															+        if old_fid in dataset_fid_name_map:
														
 
															+            required_fields.add(dataset_fid_name_map[old_fid])
														
 
															+        elif old_fid in added_fields_info:
														
 
															+            formula = added_fields_info[old_fid]["calculation"].get("formula", "")
														
 
															+            required_fields.update(collect_formula_dependencies(formula, added_fields_info, {old_fid}))
														
 
															+
														
 
															+    for fid, _ in new_dimension_fields:
														
 
															+        formula = added_fields_info[fid]["calculation"].get("formula", "")
														
 
															+        required_fields.update(collect_formula_dependencies(formula, added_fields_info, {fid}))
														
 
															+
														
 
															+    for field in measure_fields:
														
 
															+        if field not in added_fields_info:
														
 
															+            continue
														
 
															+        field_id = added_fields_info[field]["field_id"]
														
 
															+        formula = added_fields_info[field]["calculation"].get("formula", "")
														
 
															+        required_fields.update(collect_formula_dependencies(formula, added_fields_info, {field_id}))
														
 
															+
														
 
															+    required_fields.update(collect_filter_dependencies(filter_relation_str, added_fields_info))
														
 
															+    return required_fields
														
 
															+
														
 
															+def resolve_window_expression_fields(expression, calculation_fields):
														
 
															+    # 窗口函数内部若引用了计算字段，需要先还原为公式，
														
 
															+    # 否则 WITH 中生成的窗口列仍会依赖一个并不存在的别名字段。
														
 
															+    if not expression:
														
 
															+        return expression
														
 
															+
														
 
															+    def replace_identifier(match):
														
 
															+        field_name = match.group(1).strip()
														
 
															+        field_def = calculation_fields.get(field_name)
														
 
															+        if not field_def:
														
 
															+            return match.group(0)
														
 
															+
														
 
															+        field_id = field_def.get("field_id") or field_name
														
 
															+        formula = field_def["calculation"].get("formula", "")
														
 
															+        if "consolidation" in formula:
														
 
															+            resolved_formula = get_consolidation_field(json.loads(formula)["consolidation"])
														
 
															+        else:
														
 
															+            resolved_formula = resolve_calculation_formula(formula, calculation_fields, {field_id})
														
 
															+            resolved_formula = quote_identifier(resolved_formula, formula=True)
														
 
															+        return f"({resolved_formula})"
														
 
															+
														
 
															+    return re.sub(r"`([^`]+)`", replace_identifier, expression)
														
 
															+
														
 
															+def rewrite_window_max_over(expression, calculation_fields, window_alias_map, window_select_expressions):
														
 
															+    # Hive / SparkSQL 不允许在 WHERE/HAVING 中直接使用窗口函数。
														
 
															+    # 这里将 max() over(...) 提取到 WITH 中，WHERE 里只保留对中间列的判断。
														
 
															+    if not expression:
														
 
															+        return expression
														
 
															+
														
 
															+    def replace_window(match):
														
 
															+        raw_expression = resolve_window_expression_fields(match.group(0).strip(), calculation_fields)
														
 
															+        normalized_expression = re.sub(r"\s+", " ", raw_expression).lower()
														
 
															+        alias = window_alias_map.get(normalized_expression)
														
 
															+        if not alias:
														
 
															+            alias = f"window_max_over_{len(window_alias_map) + 1}"
														
 
															+            window_alias_map[normalized_expression] = alias
														
 
															+            window_select_expressions.append(f"{raw_expression} AS {quote_identifier(alias)}")
														
 
															+        return quote_identifier(alias)
														
 
															+
														
 
															+    return WINDOW_MAX_OVER_PATTERN.sub(replace_window, expression)
														
 
															+
														
 
															+def build_with_part(
														
 
															+    new_date_fields,
														
 
															+    new_dimension_fields,
														
 
															+    dataset_fid_name_map,
														
 
															+    added_fields_info,
														
 
															+    dataset_id,
														
 
															+    required_base_fields,
														
 
															+    extra_with_expressions=None,
														
 
															+):
														
 
															     override_field_names = set()
														
 
															     for _, new_name in new_date_fields:
														
 
															         override_field_names.add(new_name)
														
@@ -175,6 +341,9 @@ def build_with_part(new_date_fields, new_dimension_fields, dataset_fid_name_map,
 
															     for field_name in dataset_fid_name_map.values():
														
 
															         if field_name in override_field_names or field_name in seen_columns:
														
 
															             continue
														
 
															+        # 仅保留依赖收集阶段判定为需要的原始字段。
														
 
															+        if field_name not in required_base_fields:
														
 
															+            continue
														
 
															         seen_columns.add(field_name)
														
 
															         base_columns.append(quote_identifier(field_name))
														
@@ -207,6 +376,10 @@ def build_with_part(new_date_fields, new_dimension_fields, dataset_fid_name_map,
 
															             tmp_part = quote_identifier(formula, formula=True) + f" AS `{new_name}`"
														
 
															         with_expressions.append(tmp_part)
														
 
															+    if extra_with_expressions:
														
 
															+        # 额外字段主要承载从 WHERE 中抽出的窗口函数中间列。
														
 
															+        with_expressions.extend(extra_with_expressions)
														
 
															+
														
 
															     select_parts = base_columns + with_expressions
														
 
															     sql_part = "WITH tmp as (\nSELECT " + ",\n".join(select_parts)
														
 
															     sql_part += f"\nFROM {quote_identifier(str(dataset_id))}\n)"
														
@@ -253,8 +426,8 @@ def process_measure_fields(measure_fields, measure_aggs, calculation_fields, car
 
															                 measure_is_aggregated.append(True)
														
 
															                 agg_flag = True
														
 
															             else:
														
 
															-                new_measure_aggs.append(measure_aggs.pop(0))
														
 
															-                measure_is_aggregated.append(False)
														
 
															+                new_measure_aggs.append('NUL')
														
 
															+                measure_is_aggregated.append(True)
														
 
															     return new_measure_fields, new_measure_aggs, measure_is_aggregated, agg_flag
														
 
															 # sql部分去重
														
@@ -418,10 +591,16 @@ def get_consolidation_field(consolidation_dict):
 
															     field += "\nEND"
														
 
															     return field
														
 
															-def parse_filter_string(filter_relation_str):
														
 
															+def parse_filter_string(filter_relation_str, calculation_fields=None, window_alias_map=None, window_select_expressions=None):
														
 
															     conditions = {}
														
 
															     if not filter_relation_str or filter_relation_str == "[]":
														
 
															         return conditions
														
 
															+    if calculation_fields is None:
														
 
															+        calculation_fields = {}
														
 
															+    if window_alias_map is None:
														
 
															+        window_alias_map = {}
														
 
															+    if window_select_expressions is None:
														
 
															+        window_select_expressions = []
														
 
															     raw_conditions = json.loads(filter_relation_str)
														
 
															     for cond_dict in raw_conditions:
														
@@ -449,6 +628,8 @@ def parse_filter_string(filter_relation_str):
 
															                 continue
														
 
															             if 'formula' in cond_dict:
														
 
															                 field = quote_identifier(cond_dict['formula'], formula=True)
														
 
															+                # 先改写窗口函数，避免将非法的 over(...) 留在 WHERE 条件中。
														
 
															+                field = rewrite_window_max_over(field, calculation_fields, window_alias_map, window_select_expressions)
														
 
															             else:
														
 
															                 field = quote_identifier(cond_dict['name'])
														
 
															             expression = ADV_FILTER_EXP_MAP.get(cond_dict["advFilter"])
														
@@ -461,6 +642,8 @@ def parse_filter_string(filter_relation_str):
 
															         elif op_dict == 'SPARK_EXPR':
														
 
															             if 'formula' in cond_dict:
														
 
															                 formula = quote_identifier(cond_dict['formula'], formula=True)
														
 
															+                # SPARK_EXPR 中也可能直接出现窗口函数，处理方式与普通公式一致。
														
 
															+                formula = rewrite_window_max_over(formula, calculation_fields, window_alias_map, window_select_expressions)
														
 
															                 conditions[fdId] = {"exp": formula, "agg": is_aggregated}
														
 
															             else:
														
 
															                 if isinstance(cond_dict['filterValue'], list) and len(cond_dict['filterValue']) == 1:
														
@@ -473,7 +656,7 @@ def parse_filter_string(filter_relation_str):
 
															         # 处理条件
														
 
															         value_nums = op_dict["val_nums"]
														
 
															-        if value_nums != 0 and len(values) != value_nums:
														
 
															+        if value_nums != 9 and len(values) != value_nums:
														
 
															             print(f"警告: 无法解析筛选条件，值数量与操作符不匹配。跳过此条件。")
														
 
															             continue
														
@@ -491,6 +674,7 @@ def parse_filter_string(filter_relation_str):
 
															             # 公式，非 consolidation情况
														
 
															             if "formula" in cond_dict:
														
 
															                 field = quote_identifier(cond_dict["formula"], formula=True)
														
 
															+                field = rewrite_window_max_over(field, calculation_fields, window_alias_map, window_select_expressions)
														
 
															         if op_name in ("NI", "IN") and len(values) == 0:
														
 
															             print(f"警告: 无法解析筛选条件，IN或NI中参数个数为0。跳过此条件。")
														
@@ -527,6 +711,9 @@ def build_sql_query(card_data, added_fields_info, dataset_fid_name_map):
 
															     measure_fids = parse_multi_value_field(card_data.get("num_value_field_id", []))
														
 
															     measure_fields = parse_multi_value_field(card_data.get("num_value_field_name", []))
														
 
															+    # 处理用于转置行列的特殊无ID“度量名”字段
														
 
															+    if "度量名" in dimension_fields and len(dimension_fields) == len(dimension_fids) + 1:
														
 
															+        dimension_fields.remove("度量名")
														
 
															     measure_aggs = parse_multi_value_field(card_data.get("num_value_field_merge_way", []))
														
 
															     filter_relation_str = card_data.get("filters_field_value_name_rela")
														
@@ -552,25 +739,6 @@ def build_sql_query(card_data, added_fields_info, dataset_fid_name_map):
 
															     # 只需要更新有重命名的字段即可
														
 
															     selected_fid_alias_map = dict(zip(dimension_fids+measure_fids, dimension_fields+measure_fields))
														
 
															-    # 构建WITH
														
 
															-    with_part = ""
														
 
															-    new_date_fields = []
														
 
															-    # 日期转换
														
 
															-    for fid, name in all_field_id_name_map.items():
														
 
															-        fid_splits = fid.split('_')
														
 
															-        if len(fid_splits) == 2:
														
 
															-            new_date_fields.append((fid, name))
														
 
															-            old_fid = fid_splits[0]
														
 
															-            selected_fid_alias_map[old_fid] = name
														
 
															-    # 新增维度字段
														
 
															-    new_dimension_fields = []
														
 
															-    for fid, name in dimension_fid_name_map.items():
														
 
															-        if fid in added_fields_info:
														
 
															-            new_dimension_fields.append((fid, name))
														
 
															-    # 如果有新增日期字段、新增维度字段，构建WITH
														
 
															-    if new_date_fields or new_dimension_fields:
														
 
															-        with_part = build_with_part(new_date_fields, new_dimension_fields, dataset_fid_name_map, added_fields_info, dataset_id)
														
 
															-    
														
 
															     # 构建SELECT
														
 
															     select_parts = []
														
 
															     has_aggregation = False
														
@@ -601,7 +769,11 @@ def build_sql_query(card_data, added_fields_info, dataset_fid_name_map):
 
															                 alias = measure_fields[i]
														
 
															             select_parts.append(f"{field} AS {quote_identifier(alias)}")
														
 
															             # 属于计算字段，但没有聚合函数，等同于维度字段，需要加入groupbyby。
														
 
															-            if not measure_is_aggregated[i] and field and re.search(r"\b(sum|avg|count|max|min|stddev|variance|collect_list|collect_set|percentile|percentile_approx)|\s*\(", field, flags=re.IGNORECASE) is None:
														
 
															+            if not measure_is_aggregated[i] and field and re.search(AGGREGATION_PATTERN, field) is None:
														
 
															+                if re.match(r"\d+", field):
														
 
															+                    non_aggregated_select_parts.append(quote_identifier(field))
														
 
															+                else:
														
 
															+                    non_aggregated_select_parts.append(field)
														
 
															                 non_aggregated_select_parts.append(field)
														
 
															             selected_fid_alias_map[fid] = alias
														
 
															         else:
														
@@ -626,21 +798,60 @@ def build_sql_query(card_data, added_fields_info, dataset_fid_name_map):
 
															     else:
														
 
															         select_clause = "SELECT " + ",\n    ".join(select_parts)
														
 
															-    # 构建FROM
														
 
															-    if with_part:
														
 
															-        from_clause = "FROM tmp"
														
 
															-    else:
														
 
															-        from_clause = f"FROM {quote_identifier(str(dataset_id))}"
														
 
															-    
														
 
															     # 构建WHERE
														
 
															     filter_conditions = {}
														
 
															+    window_alias_map = {}
														
 
															+    window_select_expressions = []
														
 
															     try:
														
 
															-        filter_conditions = parse_filter_string(filter_relation_str)
														
 
															+        # parse_filter_string 会顺便收集需要下推到 WITH 的窗口函数表达式。
														
 
															+        filter_conditions = parse_filter_string(filter_relation_str, added_fields_info, window_alias_map, window_select_expressions)
														
 
															     except Exception as e:
														
 
															         print(f"错误: 卡片 {card_id} {card_name} 解析筛选条件出错：{e}。WHERE字句缺失。")
														
 
															         print("详细错误信息:")
														
 
															         print(traceback.format_exc())
														
 
															+    # 构建WITH
														
 
															+    with_part = ""
														
 
															+    new_date_fields = []
														
 
															+    # 日期转换
														
 
															+    for fid, name in all_field_id_name_map.items():
														
 
															+        fid_splits = fid.split('_')
														
 
															+        if len(fid_splits) == 2:
														
 
															+            new_date_fields.append((fid, name))
														
 
															+            old_fid = fid_splits[0]
														
 
															+            selected_fid_alias_map[old_fid] = name
														
 
															+    # 新增维度字段
														
 
															+    new_dimension_fields = []
														
 
															+    for fid, name in dimension_fid_name_map.items():
														
 
															+        if fid in added_fields_info:
														
 
															+            new_dimension_fields.append((fid, name))
														
 
															+    # 只要存在派生日期、计算维度或窗口筛选中的任一情况，就需要 WITH。
														
 
															+    if new_date_fields or new_dimension_fields or window_select_expressions:
														
 
															+        required_base_fields = collect_with_base_fields(
														
 
															+            all_field_names,
														
 
															+            measure_fields,
														
 
															+            new_date_fields,
														
 
															+            new_dimension_fields,
														
 
															+            dataset_fid_name_map,
														
 
															+            added_fields_info,
														
 
															+            filter_relation_str,
														
 
															+        )
														
 
															+        with_part = build_with_part(
														
 
															+            new_date_fields,
														
 
															+            new_dimension_fields,
														
 
															+            dataset_fid_name_map,
														
 
															+            added_fields_info,
														
 
															+            dataset_id,
														
 
															+            required_base_fields,
														
 
															+            window_select_expressions,
														
 
															+        )
														
 
															+
														
 
															+    # 构建FROM
														
 
															+    if with_part:
														
 
															+        from_clause = "FROM tmp"
														
 
															+    else:
														
 
															+        from_clause = f"FROM {quote_identifier(str(dataset_id))}"
														
 
															+
														
 
															     # 构建GROUPBY
														
 
															     group_by_clause = ""
														
 
															     if has_aggregation: