DL NLP 为什么 Bert 的三个 Embedding 可以进行相加? https://www.zhihu.com/question/374835153 文本可以看作信号的叠加,可以在后续网络中解耦。