📚 Weekly Papers
|
Archive
2026-02-16
2026-02-16 ~ 2026-02-22
Less is Enough: Synthesizing Diverse Data in Feature Space of LLMs
Authors: Zhongzhi Li, Ninghao Liu
Affiliation: University of Georgia
论文提出在 LLM 内部特征空间中度量合成数据多样性的 FAC(Feature Activation Coverage),并基于 SAE 构建 FAC Synthesis 框架,识别种子数据缺失的任务相关特征后定向生成样本。实验表明该方法可在多类任务上提升数据多样性与下游性能,并支持跨模型家族的特征迁移。
SQuTR: A Robustness Benchmark for Spoken Query to Text Retrieval under Acoustic Noise
Authors: Yuejie Li, Caixin Kang
Affiliation: Huazhong University of Science and Technology
论文提出 SQuTR 噪声鲁棒性基准,基于 6 个中英文检索数据集构造 37,317 条 spoken query,并用 200 位说话人合成语音,在分级 SNR 与多类真实环境噪声下建立统一评测协议。对级联式与端到端检索系统的大规模实验显示,噪声增强会显著降低检索性能,鲁棒性仍是关键瓶颈。