Skip to content

Commit a134a7e

Browse files
committed
[Hackathon 7th No.55】rfc: 在 PaddleSpeech 中实现 DAC 的训练中使用的第三方库 audiotools PaddlePaddle/Paddle#68244]
1 parent 77dcbad commit a134a7e

File tree

1 file changed

+61
-0
lines changed

1 file changed

+61
-0
lines changed
+61
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,61 @@
1+
# audiotools——设计文档
2+
3+
| 任务名 | PaddleSpeech--audiotools |
4+
| -------- | ------------------------ |
5+
| 提交作者 | suzakuwcx |
6+
| 提交时间 | 2024-11-16 |
7+
| 版本号 | v1.0 |
8+
| 依赖 | main 版本 |
9+
| 文件名 | rfc0001-audiotools.md |
10+
11+
# 一、概述
12+
13+
## 1、相关背景
14+
15+
[Hackathon 7th Q.55](https://github.com/PaddlePaddle/community/blob/master/hackathon/hackathon_7th/%E3%80%90Hackathon%207th%E3%80%91%E4%B8%AA%E4%BA%BA%E6%8C%91%E6%88%98%E8%B5%9B%E2%80%94%E5%A5%97%E4%BB%B6%E5%BC%80%E5%8F%91%E4%BB%BB%E5%8A%A1%E5%90%88%E9%9B%86.md)
16+
17+
为了在 Paddle 中复现论文 [High-Fidelity Audio Compression with Improved RVQGAN](http://arxiv.org/abs/2306.06546), 以及促进 paddle 框架在语音领域的发展, 需要在 PaddleSpeech 中集成工具 [audiotools](https://github.com/descriptinc/audiotools) 的功能
18+
19+
## 2、功能目标
20+
21+
1.在 PaddleSpeech 中新增 audiotools 包,要求与原仓库接口兼容,且精度对标原仓库
22+
23+
## 3、意义
24+
25+
- 扩充PaddleOcr中的语音预处理能力
26+
27+
# 二、飞桨现状
28+
29+
目前 Paddle 框架尚无相关功能,
30+
31+
# 三、业内方案调研
32+
33+
audiotool 代码地址如下:https://github.com/descriptinc/audiotools
34+
35+
dac 代码地址如下:https://github.com/descriptinc/descript-audio-codec
36+
37+
# 四、对比分析
38+
39+
在原仓库的代码基础上进行移植是目前的最佳实践方式,同时需要将原仓库框架设计 torch 的部分转成 paddle, 且尽可能在保证 paddle 外部依赖不变的情况下实现其功能
40+
41+
# 五、设计思路与实现方案
42+
43+
## 总体思路
44+
45+
- audiotools 中需要将多种不同的语音源转换成 AudioSignal 格式,其内部使用 torch 进行转换操作,这里需要将 torch 的实现替换为 paddle 版本,然后保证其流程和输入输出保持一致
46+
47+
# 六、测试和验收的考量
48+
49+
相关 audiotools 的功能都需要实现
50+
51+
# 七、可行性分析和排期规划
52+
53+
预计在 12 月完成 pr 合入
54+
55+
# 八、影响面
56+
57+
- 在 PaddleSpeech/audio/paddleaudio 下新增 audiotools 目录
58+
59+
# 名词解释
60+
61+
# 附件及参考资料

0 commit comments

Comments
 (0)