農業分野LLM向け学習データ構築事例
農業にAIを
-AI社会実装プロジェクト-
農研機構「AI農業社会実装プロジェクト」におけるインストラクションデータ整備
株式会社いちからは、内閣府の「研究開発とSociety5.0との橋渡しプログラム(BRIDGE)」のうち「AI農業社会実装プロジェクト」に参画しております。「AI農業社会実装プロジェクト」では、農研機構(*1)が中心となって普及指導員・営農指導員向け言語モデルの開発を実施しており、いちからは、本開発において「学習用インストラクションデータの構築」を担当しました。
*1:国立研究開発法人 農業・食品産業技術総合研究機構
背景とプロジェクト概要
本取り組みでは、まず対象分野を限定し、
・三重県のイチゴ
・北海道の小麦
という、地域性と専門性の高い分野にフォーカスしたモデル開発が進められました。
本取り組みでは、普及指導員が現場で行う説明・助言を想定した回答を生成できるよう
・普及指導員の想定回答によるインストラクションチューニング
・栽培マニュアルや栽培・防除情報を格納した RAG(Retrieval Augmented Generation)用データの構築
を組み合わせた学習を目標としました。
このうち、インストラクションデータの構築について、株式会社いちからがデータ作成支援を担当しました。
データ構築の進め方
― 三重県「イチゴ」を対象としたケース ―
データ構築の目標と体制
インストラクションデータ目標数:500件
データ構築期間:約4か月
分野ごとに適したアノテーターを配置しており、農業領域も専門知識を持つ弊社人材が対応しています。
- 普及指導員が過去に対応した中でも、特に回答や判断が難しかった質問を重点的に抽出・整理。
- 抽出した質問に対し、農業に詳しいアノテーターがマニュアルと現場視点を踏まえ、実務向けの丁寧な回答案を作成。
- マニュアル外も含め、現場で起こりやすい応用的な質問を追加し、QAデータの網羅性を強化。
- 作成したQAを社内アノテーターと三重県農業研究所が相互レビューし、正確性と説明の丁寧さを確認。
構築結果
最終的に、506件のインストラクションデータが完成しました。
インストラクションチューニングによる効果検証
- 提案システムは、より詳細で踏み込んだ回答を行う傾向が見られました
- 一方で、その詳細さが過剰な内容やハルシネーションとして評価されるケースも確認されました
今後の展望
今後は、
・各都道府県ごとのクローズドデータを人手で段階的に構築
・今回作成したイチゴ・小麦のデータを基盤として、将来的な自動構築の実現
することが検討されています。
その後、新たに玉ねぎ分野のデータ整備にも取り組み、対象作物の拡充を進めています。
さらに、関連するコンソーシアムにも参画し、関係機関との連携体制の強化を図っています。
株式会社いちからは、引き続き専門性の高い分野におけるLLM学習データ整備と品質設計を通じて、農研機構様のAI農業社会実装の取り組みに貢献してまいります。