モデルの再訓練に関する推奨事項
この記事では、モデルの再訓練に関するベストプラクティスと推奨事項を提供します。
再訓練について
機械学習や統計ツールは未来のパフォーマンスを保証するために設計されているわけではありませんが、簡単なガイドラインに従うことでパフォーマンス結果を改善し、新たなモデルを作成しようとする試みから生じる可能性のある混乱を減らすことができます。以下のセクションでは、訓練済みモデルとデプロイ済みモデルの再訓練に関する一般的なガイドラインとベストプラクティスを提供します。
モデルの再訓練方法については、モデルの再訓練を参照してください。
必要な訓練回数の見積もり
モデルが必要とする訓練の回数を見積もることは、科学よりも機械学習の芸術の一部です。モデルの微調整には複数回の訓練(通常は1から3回)と、除外する属性の調整が必要です。モデルが劣化し始めると、再訓練は最初はより良い結果をもたらしますが、時間が経つにつれて再びゆっくりと劣化し始めます。通常、モデルの訓練版は訓練日範囲が長くなるにつれて劣化するまでの時間が長くなります。
劣化したモデルの特定
モデルの劣化に寄与する主な要素は2つあります:最後の訓練からの経過時間と、モデルが受け取る新しいデータの量です。訓練中のモデルはスナップショットに過ぎませんが、デプロイされたモデルはライブです。デプロイされたモデルのスコアが訓練されたモデルのスコアよりも低い場合、これはモデルが劣化して再訓練が必要であることを示しています。
スコアが高い新たに訓練されたバージョンのデプロイ
現在デプロイされているモデルのバージョンのパフォーマンススコアが低く、それを再訓練してスコアが高い新しいバージョンを作成した場合、再訓練されたバージョンをデプロイして、モデルの最良のバージョンがデプロイされるようにします。
スコアを上げるために2つ目の同様のモデルを作成することは推奨されません。2つ目のモデルは追加の利益をもたらす可能性は低く、実装に混乱をもたらす可能性があります。
再訓練されたバージョンのスコアが低い場合
デプロイされたモデルのスコアが下がると、モデルが劣化し始めてパフォーマンスを改善するために再訓練が必要であることが明らかになります。しかし、劣化し始めたモデルが再訓練されると、そのスコアはデプロイされたモデルのスコアよりも低くなることがあります。
このシナリオでは、新たに訓練されたモデルは現在のモデルの代わりにデプロイすべきではありません。調整と再訓練を続けて、再訓練されたモデルのスコアが初期の劣化したモデルのスコアよりも高くなるまで続けます。スコアが高くなったときにのみ、新しいモデルをデプロイすべきです。
F1スコアが低く、急速に劣化する
モデルが訓練された後にF1スコアが低く、急速に劣化する場合、以下の問題の一つまたは両方が存在する可能性があります:
- データの不一致
訪問の行動が訓練に使用された時間枠内で変化または不一致している可能性があります。 - データの不完全性
訪問の行動のより完全なビューには、追加の訪問属性が必要かもしれません。
再訓練の頻度
モデルの再訓練の必要性はTealium Predict製品に特有のものではなく、機械学習全般に関連しています。再訓練の頻度はあなたのデータに依存し、ビジネス間で大きく異なります。一般的に、訓練日範囲が長いほど、モデルはよりゆっくりと劣化します。モデルの品質があなたの組織が許容できる予定のスコア以下に劣化したときに通常は再訓練が必要となります。
再訓練と削除
モデルを削除する前に再訓練を検討してください。モデルを削除すると、訓練履歴が失われます。再訓練すると、各訓練は時間枠、除外される属性、時間経過とともに追加されるデータの点で異なる構成を持つことができます。その後、バージョン(個々の訓練)間の違いを確認して、どのバージョンをデプロイするかを決定できます。
モデル訓練への外部からの影響
世界、ビジネス、訪問の行動が急速に変化すると、通常は数ヶ月かかるモデルが予想以上に急速に劣化することがあります。以下の外部問題がモデル訓練と結果に影響を及ぼす可能性があります。
グローバルな問題
市場に影響を及ぼすグローバルな問題、例えば2020年のCOVID-19パンデミックは、ある程度モデルに影響を及ぼします。このような問題は訪問の行動の明確なイメージを得ることを難しくすることがありますが、新しいバージョンを再訓練し、手動での再調整を何度も行う手間をかけずにシームレスにデプロイすることは容易です。
マーケティングキャンペーン
モデルは時々、他の活動、例えば広告キャンペーン、大きな祝日、季節外れの暑さ、大規模な暴動、政治的な動揺と同時に訓練されます。
活動が停止したり、もはや適用されなくなったりすると、現在のモデルは訓練中に機能したほどうまく機能しないかもしれません。モデルの再訓練に加えて、これらのイベントを表す属性をモデルに含めることができます。
データ分布の考慮事項
モデルが正確に予測するためには、予測の基礎となるデータは、モデルが訓練されたデータと同様の分布を持つ必要があります。データ分布が時間とともに変化するため、モデルのデプロイは一度きりのタスクではなく、継続的なプロセスです。データの分布が元の訓練データの分布から逸脱したことを知ったときに、新しいデータでモデルを再訓練することはベストプラクティスです。データ分布の変化を検出するためのデータ監視が高いオーバーヘッドを持つ場合、毎日、毎週、または毎月など、定期的にモデルを再訓練することができます。
最終更新日 :: 2024年March月29日