作者您好,想跟您确认下,第二阶段的训练在第一阶段上新增了tts任务,输入为回复的文本,输出为对应的音频的encodec,那在训练第二阶段的同时,下图中的部分也要带着一起吗? 第三阶段训练也有同样的困惑,输入只有音频adapter,输出为回复音频的encodec?还需要带第二阶段的部分吗? <img width="217" alt="截屏2024-12-31 15 22 04" src="https://github.com/user-attachments/assets/2de8383f-2388-4684-aec5-a7fa9f80a95c" />