2 maanden geleden · 7cc15a613b
--- a/carddef2sql.py
+++ b/carddef2sql.py
@@ -399,4 +399,235 @@ def parse_filter_string(filter_relation_str):
 
				             continue
			
 
				         elif op_dict == 'SPARK_EXPR':
			
 
				             if 'formula' in cond_dict:
			
 
				-                
			
 
				+                formula = quote_identifier(cond_dict['formula'], formula=True)
			
 
				+                conditions[fdId] = {"exp": formula, "agg": is_aggregated}
			
 
				+            else:
			
 
				+                if isinstance(cond_dict['filterValue'], list) and len(cond_dict['filterValue']) == 1:
			
 
				+                    field = quote_identifier(cond_dict['name'])
			
 
				+                    value = cond_dict['filterValue'][0]
			
 
				+                    conditions[fdId] = {"exp": f"{field} = {value}", "agg": is_aggregated}
			
 
				+                else:
			
 
				+                    print(f"警告: 无法解析筛选条件，SPARK_EXPR中未定义。跳过此条件。")
			
 
				+            continue
			
 
				+
			
 
				+        # 处理条件
			
 
				+        value_nums = op_dict["val_nums"]
			
 
				+        if value_nums != 0 and len(values) != value_nums:
			
 
				+            print(f"警告: 无法解析筛选条件，值数量与操作符不匹配。跳过此条件。")
			
 
				+            continue
			
 
				+
			
 
				+        field = quote_identifier(field)
			
 
				+        # consolidation 情况，将consolidation公式替换条件左边的field
			
 
				+        if "consolidation" in cond_dict:
			
 
				+            consolidation = cond_dict["consolidation"]
			
 
				+            consolidation_field = get_consolidation_field(consolidation)
			
 
				+            if not consolidation_field:
			
 
				+                print(f"警告: 无法解析consolidation字段。跳过此条件。")
			
 
				+                continue
			
 
				+            else:
			
 
				+                field = consolidation_field
			
 
				+        else:
			
 
				+            # 公式，非 consolidation情况
			
 
				+            if "formula" in cond_dict:
			
 
				+                field = quote_identifier(cond_dict["formula"], formula=True)
			
 
				+            
			
 
				+        if op_name in ("NI", "IN") and len(values) == 0:
			
 
				+            print(f"警告: 无法解析筛选条件，IN或NI中参数个数为0。跳过此条件。")
			
 
				+            continue
			
 
				+            
			
 
				+        # 特殊情况
			
 
				+        if op_name in ('NI', 'IN') and None in values:
			
 
				+            conditions[fdId] = {"exp": f"{field} IS NOT NULL", "agg": is_aggregated}
			
 
				+            values = [x for x in values if x is not None]
			
 
				+            if len(values) == 0:
			
 
				+                continue
			
 
				+        
			
 
				+        # 填充模板所需要的参数
			
 
				+        format_args = get_format_args(field, fd_type, op_dict, values)
			
 
				+        condition_str = op_dict["template"].format(**format_args)
			
 
				+        conditions[fdId] = {"exp": condition_str, "agg": is_aggregated}
			
 
				+    return conditions
			
 
				+
			
 
				+def build_sql_query(card_data, added_fields_info, dataset_fid_name_map):
			
 
				+    card_id = card_data["card_id"]
			
 
				+    card_name = card_data["card_name"]
			
 
				+    dataset_id = card_data.get("ds_id")
			
 
				+    if not dataset_id:
			
 
				+        print(f"错误: {card_id} {card_name} 数据集ID为空.")
			
 
				+        return "", "", "", ""
			
 
				+    
			
 
				+    added_fields_info = get_added_fields_info(added_fields_info)
			
 
				+    dataset_fid_name_map = get_fid_name_map(dataset_fid_name_map)
			
 
				+
			
 
				+    dimension_fids = parse_multi_value_field(card_data.get("field_id", []))
			
 
				+    dimension_fields = parse_multi_value_field(card_data.get("field_name", []))
			
 
				+    dimension_fid_name_map = dict(zip(dimension_fids, dimension_fields))
			
 
				+    dimension_name_fid_map = dict(zip(dimension_fields, dimension_fids))
			
 
				+
			
 
				+    measure_fids = parse_multi_value_field(card_data.get("num_value_field_id", []))
			
 
				+    measure_fields = parse_multi_value_field(card_data.get("num_value_field_name", []))
			
 
				+    measure_aggs = parse_multi_value_field(card_data.get("num_value_field_merge_way", []))
			
 
				+    filter_relation_str = card_data.get("filters_field_value_name_rela")
			
 
				+
			
 
				+    sort_fids = parse_multi_value_field(card_data.get("sort_field_id", []))
			
 
				+    sort_fields = parse_multi_value_field(card_data.get("sort_field_name", []))
			
 
				+    sort_method = parse_multi_value_field(card_data.get("sort_way", []))
			
 
				+
			
 
				+    all_field_ids = dimension_fids + \
			
 
				+                    parse_multi_value_field(card_data.get("filters_field_id", [])) + \
			
 
				+                    sort_fids + \
			
 
				+                    measure_fids
			
 
				+    all_field_names = dimension_fields + \
			
 
				+                    parse_multi_value_field(card_data.get("filters_field_name", [])) + \
			
 
				+                    sort_fields + \
			
 
				+                    measure_fields
			
 
				+    all_field_id_name_map = dict(zip(all_field_ids, all_field_names))
			
 
				+
			
 
				+    # 处理字段重命名关系
			
 
				+    fields_rename_map = get_fields_rename_map(card_data.get("field_info", ""))
			
 
				+    selected_fid_alias_map = dict(zip(dimension_fids+measure_fids, dimension_fields+measure_fields))
			
 
				+
			
 
				+    # 构建WITH
			
 
				+    with_part = ""
			
 
				+    new_date_fields = []
			
 
				+    # 日期转换
			
 
				+    for fid, name in all_field_id_name_map.items():
			
 
				+        fid_splits = fid.split('_')
			
 
				+        if len(fid_splits) == 2:
			
 
				+            new_date_fields.append((fid, name))
			
 
				+            old_fid = fid_splits[0]
			
 
				+            selected_fid_alias_map[old_fid] = name
			
 
				+    # 新增维度字段
			
 
				+    new_dimension_fields = []
			
 
				+    for fid, name in dimension_fid_name_map.items():
			
 
				+        if fid in added_fields_info:
			
 
				+            new_dimension_fields.append((fid, name))
			
 
				+    # 如果有新增日期字段、新增维度字段，构建WITH
			
 
				+    if new_date_fields or new_dimension_fields:
			
 
				+        with_part = build_with_part(new_date_fields, new_dimension_fields, dataset_fid_name_map, added_fields_info, dataset_id)
			
 
				+    
			
 
				+    # 构建SELECT
			
 
				+    select_parts = []
			
 
				+    has_aggregation = False
			
 
				+    
			
 
				+    # 添加维度字段
			
 
				+    for field in dimension_fields:
			
 
				+        fid = dimension_name_fid_map[field]
			
 
				+        alias = fields_rename_map.get(field)
			
 
				+        if alias and alias != "null":
			
 
				+            select_parts.append(f"{quote_identifier(field)} AS {quote_identifier(alias)}")
			
 
				+            selected_fid_alias_map[fid] = alias
			
 
				+        else:
			
 
				+            select_parts.append(f"{quote_identifier(field)}")
			
 
				+            selected_fid_alias_map[fid] = field
			
 
				+    
			
 
				+    # 加工计算字段
			
 
				+    new_measure_fields, measure_aggs, agg_flag = process_calculation_fields(measure_fields, measure_aggs, added_fields_info, card_id, card_name)
			
 
				+    if agg_flag:
			
 
				+        has_aggregation = True
			
 
				+    for i, field in enumerate(new_measure_fields):
			
 
				+        fid = measure_fids[i]
			
 
				+        alias = fields_rename_map.get(field.strip('`'))
			
 
				+        agg_func_template = AGGREGATION_MAP.get(measure_aggs[i])
			
 
				+        if not agg_func_template:
			
 
				+            if not alias or alias == "null":
			
 
				+                alias = measure_fields[i]
			
 
				+            select_parts.append(f"{field} AS {quote_identifier(alias)}")
			
 
				+            selected_fid_alias_map[fid] = alias
			
 
				+        else:
			
 
				+            has_aggregation = True
			
 
				+            # 特殊处理 count distinct
			
 
				+            if '{}' in agg_func_template:
			
 
				+                agg_expression = agg_func_template.format(field)
			
 
				+            else:
			
 
				+                agg_expression = f"{agg_func_template}({field})"
			
 
				+            # 添加别名
			
 
				+            if not alias or alias == "null":
			
 
				+                suffix = AGGREGATION_SUFFIX_MAP.get(measure_aggs[i])
			
 
				+                alias = f"{measure_fields[i]}_{suffix}"
			
 
				+            select_parts.append(f"{agg_expression} AS {quote_identifier(alias)}")
			
 
				+            selected_fid_alias_map[fid] = alias
			
 
				+    
			
 
				+    if not select_parts:
			
 
				+        print(f"错误: {card_id} {card_name} 没有select字段。")
			
 
				+        return '', '', '', ''
			
 
				+    else:
			
 
				+        select_clause = "SELECT " + ",\n    ".join(select_parts)
			
 
				+    
			
 
				+    # 构建FROM
			
 
				+    if with_part:
			
 
				+        from_clause = "FROM tmp"
			
 
				+    else:
			
 
				+        from_clause = f"FROM {quote_identifier(str(dataset_id))}"
			
 
				+    
			
 
				+    # 构建WHERE
			
 
				+    filter_conditions = {}
			
 
				+    try:
			
 
				+        filter_conditions = parse_filter_string(filter_relation_str)
			
 
				+    except Exception as e:
			
 
				+        print(f"错误: 卡片 {card_id} {card_name} 解析筛选条件出错：{e}。WHERE字句缺失。")
			
 
				+        print("详细错误信息:")
			
 
				+        print(traceback.format_exc())
			
 
				+
			
 
				+    # 构建GROUPBY
			
 
				+    group_by_clause = ""
			
 
				+    if has_aggregation and dimension_fields:
			
 
				+        group_by_parts = [quote_identifier(field) for field in dimension_fields]
			
 
				+        group_by_clause = "GROUP BY " + ", ".join(group_by_parts)
			
 
				+    
			
 
				+    # 构建ORDERBY
			
 
				+    order_by_clause = ""
			
 
				+    if sort_fields and sort_method and len(sort_fields) == len(sort_method):
			
 
				+        order_by_parts = []
			
 
				+        for i, field in enumerate(sort_fields):
			
 
				+            fid = sort_fids[i]
			
 
				+            if fid not in selected_fid_alias_map:
			
 
				+                continue
			
 
				+            alias = selected_fid_alias_map[fid]
			
 
				+            order_by_parts.append(f"{quote_identifier(alias)} {sort_method[i]}")
			
 
				+        if order_by_parts:
			
 
				+            order_by_clause = "ORDER BY " + ", ".join(order_by_parts)
			
 
				+    
			
 
				+    # 组装SQL
			
 
				+    sql_parts = [with_part, select_clause, from_clause]
			
 
				+
			
 
				+    return ("\n".join(sql_parts)).strip(), json.dumps(filter_conditions, ensure_ascii=False), group_by_clause, order_by_clause
			
 
				+
			
 
				+def generate():
			
 
				+    res_list = []
			
 
				+    df = pd.read_parquet("data/dev_card.parquet").reset_index()
			
 
				+    add_field_info = pd.read_parquet("data/dev_calc.parquet").set_index("card_id")
			
 
				+    all_field_info = pd.read_parquet("data/dev_field.parquet").set_index("ds_id")
			
 
				+    for i, row in df.iterrows():
			
 
				+        if i > 100:
			
 
				+            break
			
 
				+        row = row.to_dict()
			
 
				+        if row["card_type_cd"] != '图表' or row["ds_id"] == "":
			
 
				+            continue
			
 
				+        card_id = row["card_id"]
			
 
				+        try:
			
 
				+            added_fields_info = add_field_info.loc[[card_id]]
			
 
				+        except KeyError:
			
 
				+            added_fields_info = pd.DataFrame()
			
 
				+        try:
			
 
				+            dataset_fid_name_map = all_field_info.loc[[row["ds_id"]]]
			
 
				+        except KeyError:
			
 
				+            print(f"错误: 没有数据及字段信息: {card_id}")
			
 
				+            continue
			
 
				+
			
 
				+        select, where, groupby, orderby = '', '', '', ''
			
 
				+        try:
			
 
				+            select, where, groupby, orderby = build_sql_query(row, added_fields_info, dataset_fid_name_map)
			
 
				+        except Exception as e:
			
 
				+            print(f"错误: 卡片 {card_id} 发生未知错误: {e}")
			
 
				+            print(i, traceback.format_exc())
			
 
				+        if not select:
			
 
				+            print(f"{card_id} 生成失败")
			
 
				+            continue
			
 
				+        res_list.append([str(card_id), str(row["card_name"]), select, where, groupby, orderby])
			
 
				+    res_df = pd.DataFrame(res_list, columns=["card_id", "card_name", "select", 'where', 'groupby', 'orderby'])
			
 
				+    return res_df
			
 
				+
			
 
				+if __name__ == "__main__":
			
 
				+    df = generate()
			
 
				+    df.to_parquet("output/sql.parquet")