DistilBERT

來自站酷網的圖片

DistilBERT是一個通過知識蒸餾技術從BERT模型壓縮而來的更小、更快、更輕便的通用語言表示模型。

詳細解釋

DistilBERT是由Google Research提出的，通過知識蒸餾技術，從預訓練好的BERT模型中學習，以減小模型體積並加速推理速度。

在保持BERT大部分性能和功能的同時，DistilBERT減少了40%的參數，推理速度提高了60%。

其模型架構與BERT類似，但移除了部分組件（如token-type embeddings和pooler），並將層數減少了一半。

使用三重損失函數進行訓練，結合語言建模損失、蒸餾損失和餘弦距離損失，以更好地從教師模型中學習。

由於其較小的模型體積和較快的推理速度，DistilBERT非常適合在資源受限的環境中部署，如移動設備、筆記本電腦等^[1]。

它可以在自然語言理解任務中表現出色，且在多種基準測試中保持高性能。

LLM似乎正在接管世界，但許多人仍然不真正理解他們是如何運作的。我從事機器學習工作已有幾年，並且對自然語言處理和最近的進展非常着迷。

儘管我閱讀了大部分隨附的論文，但訓練這些模型對我來說仍然是一個謎，這就是為什麼我決定繼續自己訓練一個模型，以真正了解它是如何工作的。我將其與訓練問答模型結合起來，但這裡僅詳細介紹DistilBERT模型。

為了讓你的生活更輕鬆，我決定對其工作原理進行簡短回顧。請查看這篇文章中的distilbert.ipynb文件來查找相關代碼。

在線工具推薦：Three.js AI紋理開發包-YOLO合成數據生成器-GLTF/GLB在線編輯-3D模型格式在線轉換-可編程3D場景編輯器

1、為什麼選擇DistilBERT

要回答的第一個問題是為什麼我選擇DistilBERT而不是BERT、ALBERT和該模型的所有其他變體。不幸的是，我沒有無限的雲計算訪問權限，只有內存有限的本地GPU，因此我必須針對模型大小和訓練時間而不是性能進行優化。

也就是說，與BERT相比，官方的DistilBERT性能僅下降了3%，這似乎是一個合理的權衡。BERT基礎有1.1億個參數，訓練時間為12天，而DistilBERT有6600萬個參數，訓練時間只有3.5天左右。原始論文中指出模型減小了40%，保留了97%的語言理解能力，速度提高60%。

我查看了這篇文章中對BERT、RoBERTA、DistilBERT和XLNet的簡短總結和比較，文章在評論中提供了一個很棒的表格，比較了所有模型。

2、數據

我使用HuggingFace的OpenWebText數據集來訓練模型。它是OpenAI的WebText數據集的開源版本。它包含從Reddit採樣的8013769個段落。

HuggingFace為許多數據集和模型提供了一個令人驚嘆的（！！！）界面，我在整個項目中都使用了它。只需使用以下命令即可下載整個數據集。