いちからのデータ紹介1.instruction1 - AIコンサルティング・データ開発

いちからインストラクション1シリーズ ichikara instruction1 series

1. ichikara-instruction

1.2万件のインストラクション
（一般的、丁寧なもの）

向いている課題

尖った表現ではなく、業務で実際に使われる“無難な日本語指示”を大量に収録しています。

LLM導入初期で、基本的な指示追従を固めたい
日本語LLMの“基礎的な受け答え”が弱い
ユーザーの質問ジャンルが読めず、回答品質にムラが出る

“いちから”がLLMのために作った最初の日本語データです。要約や抽出などどNLPトピックの他に一般的知識を問うもの、悩みや相談など幅広い分野にわたる質問文と回答データとなっております。弊社が創立する以前、理化学研究所時代に作成されたもので、現在は弊社が再配布権を持ち、ライセンス提供を行っています。
こちらの特徴としては回答文が非常に丁寧に作られており、質問の中心となる回答のみ、というわけではなく、回答文を読んだだけでどのような質問がされていたかまでを分かるように作られています。

 {
    "ID": "ichikara-instruction-single-004-003-0006080-001",
    "text": "最近、仕事をしていても何か元気が出ず、朝も辛いのですが、会社の中にある医療センターに行ってカウンセリングを受けたいです。しかし、このような理由でカウンセリングを受けると、その後の私のキャリアに何か影響はありますでしょうか。",
    "output": "最近、仕事をしていても元気が出ず、朝も辛いとのこと、とても心配ですね。\n\nさて、会社の中にある医療センター等に行ってカウンセリングを受けると、その後のご自身のキャリアに何か影響があるのかについて、一般的には、影響はなく、人事評価には影響を及ぼさないこと、本人の同意なく面談内容が会社側に知られることはないと言えます。\nただし、人事部社員などごく限られた範囲にのみ情報共有される場合もあります。また、緊急性が高い場合や、就業上の措置が求められるよう場合に限り、必要な内容だけ会社側に報告されることもあります。しかし、そのような場合には基本的に事前に本人に説明があるようです。\n特に説明がない場合は、相談先に事前に確認すると良いでしょう。\n\nカウンセリングを受けることで、メンタル不調による休職・退職を避けることができます。また、状況が改善することによって、業務パフォーマンスや集中力の向上も期待できます。メンタルの不調は早期発見・対応が重要のため、不調を感じているのであれば、早めに社内外を含めたカウンセリングを受けることをおすすめします。\n\n詳細等については、会社の医療センターにお問い合わせください。\nお大事にされてください。",
    "meta": {
      "task": [
        "オープン質問"
      ],
      "perspective": [
        "客観",
        "一般論"
      ],
      "time-dependency": false,
      "domain": [
        "ビジネス",
        "健康"
      ],
      "source-to-answer": [
        "知識"
      ],
      "output-type": [
        "文章"
      ],
      "text-producer": 31,
      "output-producer": 14,
      "output-reference": [
        "https://www.avenir-executive.co.jp/sangyoui/column-10/",
        "https://fairwork.jp/counseling/",
        "https://sanpomichi-dt.jp/sangyouimendantoha/"
      ],
      "alert-type": []
    }
  },

2. ichikara-instruction-simpleanswer（1,9とセット）

1のうち
1.1万件の要約的インストラクション

向いている課題

「まず結論だけを返す」ことが求められる実運用向けチャットボットや業務QA、ハルシネーション抑制を重視したLLM構築に適しています。

簡潔で一貫した回答が求められるタスク
ハルシネーションを極力抑えたい
「まず結論→必要なら深掘り」設計のAI

1のichikara-instructionでは丁寧に作られていた分、回答文が長すぎるというコメントをいただき、それを受けて作成された1の質問文と要点部分のみの回答がセットとなるデータです。（「要点のみ回答してください」といった指示追加は未実施。）1と比較してハルシネーションを削減することが出来たという結果を得られています。
下記サンプルは上のichikara-instructionと同じ質問文ですが、回答を見比べていただければ分かるとおり、要点を絞った回答となっています。

  {
    "ID": "ichikara-instruction-simpleanswer-004-003-0006080-001",
    "text": "最近、仕事をしていても何か元気が出ず、朝も辛いのですが、会社の中にある医療センターに行ってカウンセリングを受けたいです。しかし、このような理由でカウンセリングを受けると、その後の私のキャリアに何か影響はありますでしょうか。",
    "output": "一般的には、ご自身のキャリアや人事評価には影響を及ぼすことはなく、本人の同意なく面談内容が会社側に知られることはないと言えます。\nただし、人事部社員などごく限られた範囲にのみ情報共有される場合もあります。また、緊急性が高い場合や、就業上の措置が求められるよう場合に限り、必要な内容だけ会社側に報告されることもあります。しかし、そのような場合には基本的に事前に本人に説明があるようです。\n特に説明がない場合は、相談先に事前に確認すると良いでしょう。",
    "meta": {
      "task": [
        "オープン質問"
      ],
      "perspective": [
        "客観",
        "一般論"
      ],
      "time-dependency": false,
      "domain": [
        "ビジネス",
        "健康"
      ],
      "source-to-answer": [
        "知識"
      ],
      "output-type": [
        "文章"
      ],
      "text-producer": 31,
      "output-producer": 14,
      "output-reference": null,
      "alert-type": []
    }
  },

9. ichikara-rag-data（1,2とセット）

1のインストラクションの
参考URLを元にしたRAGデータ

向いている課題

結論だけでなく、背景や理由まで含めて“納得できる回答”が求められる対話型RAGやサポート用途のLLM構築に適しています。

ユーザーが追加で聞き返さなくても理解できる回答をさせたい
理由・前提・補足まで含めた説明力をAIに持たせたい
出力結果の信頼性を高めたい

1のichikara-instruction1（ichikara-instruction-simpleanswer）をご購入の方には、それに対応するragデータ（508件）の提供も開始しました。

 {
    "ID": "ichikara-rag-data-001-001-{入力文ID}-{回答文ID}-{リファレンス番号}", // 今回、回答文IDとリファレンス番号は001となる
    "text": "{入力文}", // 元データと同一
    "output": "{回答文}", // 元データと同一
    "meta": {
      "base-ID": "ichikara-instruction-single-004-004-{入力文ID}-001", // 元データのID
      "output-keywords": [
        "キーワード1",
        "キーワード2",
        ..., // 回答文を元にTF-IDFで抽出されたキーワード。スコア順に最大で20件。オーバーラップされたキーワードは除去してある
      ],
      "output-reference-url": "https://...", // URL (回答文の根拠となった参考URL。配列ではなく単一の文字列で与えられる)
      "output-reference-html-timestamp": "{HTML取得日時を表す文字列}",
      "output-reference-text-segments": [
        {
          "reference-label": true/false, // 同オブジェクト内の text-segment の文字列が回答文の根拠としてみなせるかどうかを表すフラグ（人手アノテーション結果）
          "text-segment": "参考URL中の部分テキスト", // 取得されたHTMLから抽出された部分テキスト。行分割→句点で分割を行った結果。出現順
          "keywords": [
            "マッチしたキーワード1",
            "マッチしたキーワード2",
            ..., // output-keywords のうち text-segmentに出現したキーワードの配列。ヒットしたキーワードは全て格
          ],
          "keyword-count": {ヒットしたキーワードの種類数}, // 複数回ヒットした同一キーワードは1回としてカウント
          "keyword-hit-count": {キーワードのヒット回数}, // 同一キーワードの複数回ヒットも重複してカウント (keyword-count <= keyword-hit-count となる)
        },
        { ... } // 2件目のセグメント情報,
        ...,
      ],
  },
  { ... }, // 2件目のデータ
  ...,

いちからのデータリスト（料金表）

＞お問い合わせは
こちら

導入や活用における疑問・不安がありましたら、お気軽にご相談ください。
専門家が現状のヒアリングから課題抽出、具体的なソリューション提案まで伴走いたします。

TOP