農業分野LLM向け学習データ構築事例

NARO_main

農業にAIを
-AI社会実装プロジェクト-

農研機構「AI農業社会実装プロジェクト」におけるインストラクションデータ整備

株式会社いちからは、内閣府の「研究開発とSociety5.0との橋渡しプログラム(BRIDGE)」のうち「AI農業社会実装プロジェクト」に参画しております。「AI農業社会実装プロジェクト」では、農研機構(*1)が中心となって普及指導員・営農指導員向け言語モデルの開発を実施しており、いちからは、本開発において「学習用インストラクションデータの構築」を担当しました。

*1:国立研究開発法人 農業・食品産業技術総合研究機構


背景とプロジェクト概要

本取り組みでは、まず対象分野を限定し、
・三重県のイチゴ
・北海道の小麦
という、地域性と専門性の高い分野にフォーカスしたモデル開発が進められました。

本取り組みでは、普及指導員が現場で行う説明・助言を想定した回答を生成できるよう
・普及指導員の想定回答によるインストラクションチューニング
・栽培マニュアルや栽培・防除情報を格納した RAG(Retrieval Augmented Generation)用データの構築
を組み合わせた学習を目標としました。
このうち、インストラクションデータの構築について、株式会社いちからがデータ作成支援を担当しました。


データ構築の進め方

― 三重県「イチゴ」を対象としたケース ―
データ構築の目標と体制


インストラクションデータ目標数:500件
データ構築期間:約4か月

分野ごとに適したアノテーターを配置しており、農業領域も専門知識を持つ弊社人材が対応しています。

  1. 普及指導員が過去に対応した中でも、特に回答や判断が難しかった質問を重点的に抽出・整理。
  2. 抽出した質問に対し、農業に詳しいアノテーターがマニュアルと現場視点を踏まえ、実務向けの丁寧な回答案を作成。
  3. マニュアル外も含め、現場で起こりやすい応用的な質問を追加し、QAデータの網羅性を強化。
  4. 作成したQAを社内アノテーターと三重県農業研究所が相互レビューし、正確性と説明の丁寧さを確認。
  5. 構築結果

    最終的に、506件のインストラクションデータが完成しました。


インストラクションチューニングによる効果検証

  • 提案システムは、より詳細で踏み込んだ回答を行う傾向が見られました
  • 一方で、その詳細さが過剰な内容やハルシネーションとして評価されるケースも確認されました
これは、株式会社いちからが構築したインストラクションデータの特性として「丁寧に、背景まで含めて説明する」回答スタイルが学習された結果である可能性が考えられます。


今後の展望

今後は、
・各都道府県ごとのクローズドデータを人手で段階的に構築
・今回作成したイチゴ・小麦のデータを基盤として、将来的な自動構築の実現
することが検討されています。

その後、新たに玉ねぎ分野のデータ整備にも取り組み、対象作物の拡充を進めています。
さらに、関連するコンソーシアムにも参画し、関係機関との連携体制の強化を図っています。

株式会社いちからは、引き続き専門性の高い分野におけるLLM学習データ整備と品質設計を通じて、農研機構様のAI農業社会実装の取り組みに貢献してまいります。


TOP