https://huggingface.co/naoa/gemma-2-9b-base71_lora
Patentfield という特許検索・分析サービス を開発しています。 情報検索、自然言語処理に興味関心を持っており、特許情報をより活用できるようにするため、 LLMやその他の技術を特許データに活用していきたいと考えています。
Gemma2-9B
以下のデータセットを約5000件ほどLlama.cpp
にてQwen2.5-32B-Instruct
により独自の合成データを生成しました。
合成データは、<reasoning>
タグで推論過程、<reflection>
タグで推論過程の評価をした上で、<output>
タグで最終的に推論結果を出力するようにしました。
- magpie-sft-v1.0
https://huggingface.co/datasets/llm-jp/magpie-sft-v1.0
Author: Hirokazu Kiyomaru and Takashi Kodama. License: Apache License 2.0
上記のデータの一部をQwen2.5-32B-Instruct
により独自データ拡張。
Qwen2.5-32B-Instruct
による独自合成データ
https://huggingface.co/Qwen/Qwen2.5-32B-Instruct
ELYZA-tasks-100
のタスクを元に独自に簡単なタスクを定義をし、Qwen2.5-32B-Instruct
により独自データを生成。
なお、ELYZA-tasks-100
のタスク自体は直接シードプロンプトとして用いていない。
https://huggingface.co/datasets/elyza/ELYZA-tasks-100
ELYZA-tasks-100: 日本語instructionモデル評価データセット Akira Sasaki and Masato Hirakawa and Shintaro Horie and Tomoaki Nakamura
例:
物語の順序並べ替えタスク: 複数の文で構成される物語が、文の順番をランダムにした状態で提示されます。提示された文を、物語として適切な順番に並べ替えるタスクです。
- 上記データセットを用いてQLoraでSFT学習をしました。
- ハイパーパラメータの調整でLoraのDROPOUTが0.05、Learning Rateが0.0001が最も予選リーダーボードのスコアが上がることを確認しました。
- 学習回数で過学習ぎみにやるほうが予選リーダーボードのスコアが上がる傾向を確認しました。しかし手元のELYZA-tasks-100の検証スコアは逆に悪作用でした。
- DPOを実行しましたが予選リーダーボードのスコアが上がらなかったのでDPOは不採用のモデルを提出しました。
- 予選リーダーボードのスコアを上げることに捉われており、過学習させたりDPOを実施しないモデルを提出しましたが、決勝の人手の評価を考えると、リーダーボードのスコアにとらわれずに人手の定性評価を優先すべきだったと感じました。
- 本最終課題を通じて、ローカルLLMのSFTやDPOによりベンチマークスコアを上げることはできるようになりました。
- 今後自社業務である特許データ特化のLLM開発に活かしたいと考えています。
https://www.notion.so/matsuolab-geniac/3-58-3-1157-dde910b774734f008f512fbf350ce00a