data:image/s3,"s3://crabby-images/409b9/409b9cd83290d161c0afe297245c8882f1de0361" alt="第一次開始搭建Transformer模型 第一次開始搭建Transformer模型"
data:image/s3,"s3://crabby-images/18b96/18b968652938cf02b5cc104f7346d2d4fd0bc686" alt="第一次開始搭建Transformer模型 第一次開始搭建Transformer模型"
Transformer模型是一種採用自注意力機制的深度學習模型,這一機制可以按輸入數據各部分重要性的不同而分配不同的權重。該模型主要用於自然語言處理與計算機視覺領域。 與循環神經網絡一樣,Transformer模型旨在處理自然語言等順序輸入數據,可應用於翻譯、文本摘要等任務。
這邊為了練習,盡可能使用乾淨的內容去實現。實驗檔案Colab
data:image/s3,"s3://crabby-images/5327b/5327ba8acff30baf1a5b0997cfd95154be7240a4" alt=""
模型定義
ntoken # 字詞數量
d_model # 嵌入層的維度
nhead # nn.MultiheadAttention 中的頭數
d_hid # nn.TransformerEncoder 中前饋網絡模型的維度
nlayers # nn.TransformerEncoder 中的 nn.TransformerEncoderLayer 的數量
dropout # 捨棄概率
data:image/s3,"s3://crabby-images/6fbca/6fbca6f7e4d2adc4b42e11b799d1c34b8fbd07a2" alt=""
data:image/s3,"s3://crabby-images/e65a8/e65a89686657030425266683d36d848d0376d31f" alt=""
訓練腳本
data:image/s3,"s3://crabby-images/31d10/31d105d2ed15243fcbd806571779121195a510c2" alt=""