PreAlign: Boosting Cross-Lingual Transfer by Early Establishment of Multilingual Alignment

为了解决多语言大模型对齐问题，前面的工作常常是在预训练中或者预训练后注入对齐信息，这使得预训练早期的知识不能很好的共享
本文提出PreAlign, 在预训练前就注入多语言对齐信息。
数据准备：通过GPT-4翻译多语言数据信息。
初始化:通过对比学习使得模型对于对齐的单词产生相似的encoding, 获取Encoder架构的每一层表示（如果一个单词会被tokenize到多个subword，取平均）
为了保证初始化的结果对于语言模型不太差，再加了一个5%的Language modeling loss.
训练过程中：为了保证对齐不被遗忘，再在训练过程中对于输入加了一个codeswitching(部分替换为另一个语言)
评估方法：合成了一种语言ENCLONE, 对于English的每个词的embedding加上60000变成另一个语言，保证语言逻辑、架构相同，仅仅评估对齐效果。从目标语言语言能力本身、zero-shot模型跨语言能力（在源语言上微调并在目标语言评估）、跨语言知识能力。

Multilingual LLMs are Better Cross-lingual In-context Learners with Alignment


   In Española, bad means malo and good means bueno.