pyspark 新接口 DataSource V2 写法写入paimon为例

张

张建站

2026/4/15 9:00:30

10分钟阅读

pyspark 新接口 DataSource V2 写法写入paimon为例

5种写入动作spark新接口 DataSource V2: 介绍: df.writeTo(...) 返回的是 DataFrameWriterV2是 Spark 3.x 引入的 DataSource V2 写接口与旧的 df.write (DataFrameWriter V1) 是两套完全不同的 API 案例: df.writeTo(paimon.bi_dwd.tb1) \ .using(paimon) \ .replace() api 区别: .create() 等价 SQLCREATE TABLE ... AS SELECT ...CTAS 表不存在建表写数据表已存在抛异常 .createOrReplace() 等价 SQLCREATE OR REPLACE TABLE ... AS SELECT ... 表不存在建表写数据表已存在先 DROP 再 CREATE相当于完整重建表并写入新数据注意会丢失原表所有数据及表结构定义适合每次全量刷新场景 .replace() 等价 SQLREPLACE TABLE ... AS SELECT ... 表不存在抛异常表已存在DROP CREATE 重建写入 .append() 等价 SQLINSERT INTO ... 向已有表追加数据INSERT INTO 语义表不存在会报错不会自动建表不支持 .using() / .tableProperty()表已存在无需配置 .overwritePartitions() 等价 SQLINSERT OVERWRITE ...动态分区模式覆盖 DataFrame 中涉及到的分区其他分区数据保留相当于 spark.sql.sources.partitionOverwriteModedynamic 的 INSERT OVERWRITE接口对比案例动态覆盖的分区表且表可能不存在writer ( df_sink.writeTo(paimon.db1.tb1) .using(paimon) .tableProperty(bucket, 16) .tableProperty(bucket-key, uid) .partitionedBy(dt) ) try: writer.overwritePartitions() except Exception: # 表不存在时 overwritePartitions 会抛异常改用 create writer.create()

大模型表格识别能力实测：Gemma 4排名倒数，开源之王也有软肋

大模型表格识别能力实测：Gemma 4排名倒数，开源之王也有软肋

Google 开源旗舰 Gemma 4 家族在各大榜单上声势浩大，Arena AI 排名直逼闭源巨头。但当 gemma-4-26b-a4b-it和 gemma-4-31b-it两款模型走进我们的表格识别评测场——一个 39%，一个 32%，双双跌入榜单下半区。开源新贵遇上结构化识别&#xff0c…...

2026/4/15 8:58:14 阅读更多 →

AIAgent模型蒸馏到底该不该做？——基于17个工业级Agent项目的蒸馏ROI数据对比分析

AIAgent模型蒸馏到底该不该做？——基于17个工业级Agent项目的蒸馏ROI数据对比分析

第一章：AIAgent模型蒸馏的工业级价值再审视 2026奇点智能技术大会(https://ml-summit.org) 在大规模AI Agent部署落地过程中，模型蒸馏已从学术优化手段跃升为决定系统可用性、合规性与商业可持续性的核心工程杠杆。工业场景对延迟敏感（如金融…...

2026/4/15 8:55:18 阅读更多 →

崩坏星穹铁道全自动助手终极指南：从零开始解放你的游戏时间

崩坏星穹铁道全自动助手终极指南：从零开始解放你的游戏时间

崩坏星穹铁道全自动助手终极指南：从零开始解放你的游戏时间【免费下载链接】March7thAssistant 崩坏：星穹铁道全自动三月七小助手项目地址: https://gitcode.com/gh_mirrors/ma/March7thAssistant 你是否曾因《崩坏：星穹铁道》的日…...

2026/4/15 8:54:16 阅读更多 →

【AI原生研发灰度发布黄金法则】：20年架构师亲授7步闭环策略，规避92%的线上事故风险

【AI原生研发灰度发布黄金法则】：20年架构师亲授7步闭环策略，规避92%的线上事故风险

第一章：AI原生研发灰度发布的本质跃迁 2026奇点智能技术大会(https://ml-summit.org) AI原生研发不再将模型视为静态产物，而是持续演化的认知组件。灰度发布由此从“流量切分策略”升维为“智能体行为协同机制”——它需同时调度代码逻辑、模型权重、提…...

2026/4/15 2:48:47 阅读更多 →

医疗影像分割新突破：手把手教你用MCF框架提升半监督学习效果（附代码）

医疗影像分割新突破：手把手教你用MCF框架提升半监督学习效果（附代码）

医疗影像分割新突破：手把手教你用MCF框架提升半监督学习效果（附代码） 在医疗AI领域，数据标注一直是制约模型性能提升的瓶颈。以胰腺CT分割为例，专业医师标注一个病例平均需要4-6小时，而大型三甲医院年产生影…...

2026/4/14 20:34:27 阅读更多 →

玻璃采光顶结构的荷载及组合

玻璃采光顶结构的荷载及组合 1、玻璃采光顶结构的定义 (1)屋盖(roofsystem)根据《建筑结构设计术语和符号标准》(GB／T50083—97)定义如下：在房屋顶部，用以承受各种屋面作用的屋面板、屋面梁或屋架及支撑系统组成的部件或以拱、网架、薄壳和悬索等大跨空间构件与支承边缘…...

2026/4/15 6:08:41 阅读更多 →

XSL-FO 区域

XSL-FO 区域引言 XSL-FO（可扩展样式表语言格式化对象）是一种用于格式化XML文档的XML方言。它允许开发者定义复杂的布局和格式，以便在多种输出介质上渲染XML数据。XSL-FO的“区域”是其中非常重要的一个概念，它定义了文档中的布局区域，如页边距、页眉、页脚、文本块等。…...

2026/4/15 5:38:01 阅读更多 →