RT-DETR最新创新改进系列：轻量级卷积LightConv，特征提取采用共享卷积核，采用更少的参数完成对RT-DTER网络的的轻量化创新设计，创新点神器！

张

张建站

2026/4/27 12:12:54

10分钟阅读

RT-DETR最新创新改进系列轻量级卷积LightConv特征提取采用共享卷积核采用更少的参数完成对RT-DTER网络的的轻量化创新设计创新点神器购买相关资料后畅享一对一答疑畅享超多免费持续更新且可大幅度提升文章档次的纯干货工具lightconv一、简介最近的研究表明ASR 和 TTS 模型的组合在标准语音转换任务例如 2020 年语音转换挑战赛 (VCC2020)中产生了极具竞争力的性能。为了获得良好的性能这两个模型都需要对大量数据进行预训练从而获得使用效率可能低下的大型模型。在这项工作中我们提出了一个明显更小的模型因此在获得同等性能的同时处理速度更快。为了实现这一目标所提出的模型 Dynamic-GAN-VC (DYGAN-VC) 使用非自回归结构并利用从 VQWav2vec 模型获得的矢量量化嵌入。此外引入动态卷积来改进语音内容建模同时需要少量参数。使用VCC2020任务进行客观和主观评估MOS分数高达3.86字符错误率低至4.3%。这是通过大约一半的模型参数数量和高达 8 倍的更快解码速度实现的。最近最先进的SOTA语音转换VC模型[1,2,3,4,5,6]取得了良好的性能生成的样本已达到接近人类语音质量的水平。在最近的 Voice Conversion Challenge 2020 [7] (VCC2020) 中Cascade ASR-TTS [1] 获得了有竞争力的表现。它由自动语音识别ASR模型和文本转语音TTS模型组成。 ASR 和 TTS 模型都是大型预训练自回归 (AR) Transformer [8] 模型。最近有几项工作表明 Transformer 模型在 ASR [9, 10] 和 TTS [11, 12] 领域都存在参数和解码效率问题。因此在内存和计算资源有限的实际情况下部署级联 ASR-TTS 模型效率很低。表 1 概述了级联 ASR-TTS [1] 和所提出的模型。 [1]总共有超过100M百万个参数。还值得注意的是级联 ASR-TTS 仅支持多对一转换方向这意味着每个模型仅支持多个源和一个目标扬声器。因此在多个目标说话人的场景下级联ASR-TTS的参数效率低于支持多对多转换方向的模型。本文重点关注提高级联 ASR-TTS 的效率 [1]。 DYGAN-VC没有使用AR模型而是采用非AR模型结构应该具有更好的解码效率。本文建议使用VQWav2vec而不是使用Transformer ASR模型。 VQWav2vec [13] 是一种将语音编码为特征的语音自监督学习模型 [14,15,16]。 VQWav2vec 旨在学习有利于多个下游任务的无监督语音表示。基于Wav2vec [14]引入了矢量量化[17]模块这是一种可微分聚类方法。由于模型引入了离散性VQWav2vec 特征应该包含语音内容信息并且是说话者不变的。如表1所示与级联AST-TTS [1]中使用的ASR模型相比作为非AR模型VQWav2vec更小。此外最近的 VC 工作 [18] 使用 VQWav2vec 功能来提高数据效率。为了提高 Transformer TTS 模型的效率本文提出使用动态卷积 [19] 作为替代而不是使用计算成本高昂的自注意力层。为了提高大型 Transformer 模型的效率提出了轻量级卷积和动态卷积[19]。它们可以被视为 Transformer 计算昂贵的注意力机制的轻量级替代品。此外在最近的语音合成工作[20]中引入了轻量级卷积以获得更好的参数和解码效率。本文提出了 DYGAN-VC一种基于生成对抗网络GAN的新型 VC 模型 [21]。 DYGAN-VC 使用轻量级的 VQWav2vec而不是像 [1] 中那样使用大型 ASR 模型。作为自注意力层的替代引入动态卷积[19]以获得更好的参数三效率。 DYGAN-VC模型尺寸小解码速度快达到了与级联ASR-TTS相当的性能。二、亮点贡献可概括如下• 本文提出了 DYGAN-VC一种高效的 GAN VC 模型其性能与 SOTA 相当。• 本文首次将自监督特征VQWav2vec与GAN VC 模型相结合。• 本文首次将动态卷积引入到VC中提高了参数效率轻量级卷积和动态卷积轻量级卷积是一维卷积的变体它比普通一维卷积具有更少的参数。给定一个特征矩阵 X ∈ Rb×t×c其中 b、t、c 表示批量大小、分段长度和通道数。轻量级卷积具有内核 K ∈ Rk×h其中 k 是内核大小h 是头数。输出 O ∈ Rb×t×c 由 oi,j,p k q1 Kq,( pc h ) · Xi,(jq− k1 2 ),p, (1 ) 其中 oi,j,p 是 O ∈ Rb×t×c 的元素。轻量级卷积将 X 的特征维度分割为 h 组其中一组中的特征共享一个内核。通过这样做一个轻量级卷积层的参数数量为 k × h少于传统的一维卷积层。动态卷积在轻量级卷积的基础上引入了额外的核生成机制根据输入特征X生成核使得动态卷积的核K的形状变为[b,t,k,h]。下面展示了内核生成机制的形成。经过线性层和GLU层后可以得到特征矩阵X注意上述为机翻详情请大家看完视频后根据B站视频进行原文阅读三、改进源码私信Ai学术叫叫兽即可四、验证是否成功即可执行命令python train.py改完收工关注AI学术叫叫兽从此走上科研快速路遥遥领先同行写在最后学术因方向、个人实验和写作能力以及具体创新内容的不同而无法做到一通百通关注UPAi学术叫叫兽在所有B站资料中留下联系方式以便在科研之余为家人们答疑解惑本up主获得过国奖发表多篇SCI擅长目标检测领域拥有多项竞赛经历拥有软件著作权核心期刊等经历。因为经历过所以更懂小白的痛苦因为经历过所以更具有指向性的指导祝所有科研工作者都能够在自己的领域上更上一层楼以下为给大家庭小伙伴们免费更新过的绘图代码均配有详细教程超小白也可一键操作! 后续更多提升文章档次的资料的更新请大家庭的小伙伴关注UPAi学术叫叫兽

MySQL 查询计划缓存策略

MySQL查询计划缓存策略深度解析在数据库性能优化领域，MySQL的查询计划缓存（Query Cache）机制曾是提升查询效率的重要工具。其核心思想是通过缓存SELECT语句及其结果集，避免重复解析和计算，从而显著降低高并发场景下的…...

2026/4/27 12:11:21 阅读更多 →

【MCP 2026合规生死线】：5步完成旧HIS系统与新访问控制框架的无缝对接（含FHIR v4.0.1适配代码片段）

更多请点击： https://intelliparadigm.com 第一章：MCP 2026医疗数据访问控制合规性总览 MCP 2026（Medical Compliance Protocol 2026）是面向医疗健康信息系统设计的新型数据访问控制框架，旨在统一满足GDPR、HIPAA及中…...

2026/4/27 12:08:25 阅读更多 →

一个手机号注册多个Kaggle账号？小心被Ban！详解平台规则与防锁指南

Kaggle账号安全指南：如何避免因多账号操作被封禁在数据科学竞赛和开源学习领域，Kaggle作为全球最大的数据科学家社区平台，吸引了数百万开发者参与。但许多用户可能没意识到，一个看似无害的操作——用同一手机号注册多个账号——可…...

2026/4/27 12:04:30 阅读更多 →

茉莉花插件终极指南：3步轻松管理中文文献，让Zotero效率提升90%

茉莉花插件终极指南：3步轻松管理中文文献，让Zotero效率提升90% 【免费下载链接】jasminum A Zotero add-on to retrive CNKI meta data. 一个简单的Zotero 插件，用于识别中文元数据项目地址: https://gitcode.com/gh_mirrors/ja/jasminum …...

2026/4/26 0:08:03 阅读更多 →