いちからのデータ一覧 Data List

データ一覧(公開日順)



いちからの有償データ

ichikara-instruction1 series

ichikara-instruction1

1.2万件のインストラクション
(一般的、丁寧なもの)

向いている課題

尖った表現ではなく、業務で実際に使われる“無難な日本語指示”を大量に収録しています。

  • LLM導入初期で基本指示を固めたい
  • 基礎的な受け答えが弱い
  • 回答品質にムラがある

“いちから”がLLMのために作った最初の日本語データです。要約や抽出などのNLPトピックの他に一般的知識を問うもの、悩みや相談など幅広い分野にわたる質問文と回答データとなっております。弊社が創立する以前、理化学研究所時代に作成されたもので、現在は弊社が再配布権を持ち、ライセンス提供を行っています。
こちらの特徴としては回答文が非常に丁寧に作られており、質問の中心となる回答のみ、というわけではなく、回答文を読んだだけでどのような質問がされていたかまでを分かるように作られています。

 {
      "ID": "ichikara-instruction-single-004-003-0006080-001",
      "text": "最近、仕事をしていても何か元気が出ず、朝も辛いのですが、会社の中にある医療センターに行ってカウンセリングを受けたいです。しかし、このような理由でカウンセリングを受けると、その後の私のキャリアに何か影響はありますでしょうか。",
      "output": "最近、仕事をしていても元気が出ず、朝も辛いとのこと、とても心配ですね。\n\nさて、会社の中にある医療センター等に行ってカウンセリングを受けると、その後のご自身のキャリアに何か影響があるのかについて、一般的には、影響はなく、人事評価には影響を及ぼさないこと、本人の同意なく面談内容が会社側に知られることはないと言えます。\nただし、人事部社員などごく限られた範囲にのみ情報共有される場合もあります。また、緊急性が高い場合や、就業上の措置が求められるよう場合に限り、必要な内容だけ会社側に報告されることもあります。しかし、そのような場合には基本的に事前に本人に説明があるようです。\n特に説明がない場合は、相談先に事前に確認すると良いでしょう。\n\nカウンセリングを受けることで、メンタル不調による休職・退職を避けることができます。また、状況が改善することによって、業務パフォーマンスや集中力の向上も期待できます。メンタルの不調は早期発見・対応が重要のため、不調を感じているのであれば、早めに社内外を含めたカウンセリングを受けることをおすすめします。\n\n詳細等については、会社の医療センターにお問い合わせください。\nお大事にされてください。",
      "meta": {
        "task": [
          "オープン質問"
        ],
        "perspective": [
          "客観",
          "一般論"
        ],
        "time-dependency": false,
        "domain": [
          "ビジネス",
          "健康"
        ],
        "source-to-answer": [
          "知識"
        ],
        "output-type": [
          "文章"
        ],
        "text-producer": 31,
        "output-producer": 14,
        "output-reference": [
          "https://www.avenir-executive.co.jp/sangyoui/column-10/",
          "https://fairwork.jp/counseling/",
          "https://sanpomichi-dt.jp/sangyouimendantoha/"
        ],
        "alert-type": []
      }
    },
      
ichikara-instruction-simpleanswer

1のうち1.1万件の要約的インストラクション

向いている課題

「まず結論だけを返す」ことが求められる実運用向けチャットボットや業務QA、ハルシネーション抑制を重視したLLM構築に適しています。

  • 簡潔で一貫した回答が求められるタスク
  • ハルシネーションを極力抑えたい
  • 「まず結論→必要なら深掘り」設計のAI

1のichikara-instructionでは丁寧に作られていた分、回答文が長すぎるというコメントをいただき、それを受けて作成された1の質問文と要点部分のみの回答がセットとなるデータです。(「要点のみ回答してください」といった指示追加は未実施。)1と比較してハルシネーションを削減することが出来たという結果を得られています。 下記サンプルは上のichikara-instructionと同じ質問文ですが、回答を見比べていただければ分かるとおり、要点を絞った回答となっています。

 {
      "ID": "ichikara-instruction-simpleanswer-004-003-0006080-001",
      "text": "最近、仕事をしていても何か元気が出ず、朝も辛いのですが、会社の中にある医療センターに行ってカウンセリングを受けたいです。しかし、このような理由でカウンセリングを受けると、その後の私のキャリアに何か影響はありますでしょうか。",
      "output": "一般的には、ご自身のキャリアや人事評価には影響を及ぼすことはなく、本人の同意なく面談内容が会社側に知られることはないと言えます。\nただし、人事部社員などごく限られた範囲にのみ情報共有される場合もあります。また、緊急性が高い場合や、就業上の措置が求められるよう場合に限り、必要な内容だけ会社側に報告されることもあります。しかし、そのような場合には基本的に事前に本人に説明があるようです。\n特に説明がない場合は、相談先に事前に確認すると良いでしょう。",
      "meta": {
        "task": [
          "オープン質問"
        ],
        "perspective": [
          "客観",
          "一般論"
        ],
        "time-dependency": false,
        "domain": [
          "ビジネス",
          "健康"
        ],
        "source-to-answer": [
          "知識"
        ],
        "output-type": [
          "文章"
        ],
        "text-producer": 31,
        "output-producer": 14,
        "output-reference": null,
        "alert-type": []
      }
    },
      
ichikara-rag-data

1の参考URLを元にしたRAGデータ

向いている課題

結論だけでなく、背景や理由まで含めて“納得できる回答”が求められる対話型RAGやサポート用途のLLM構築に適しています。

  • ユーザーが追加で聞き返さなくても理解できる回答をさせたい
  • 理由・前提・補足まで含めた説明力をAIに持たせたい
  • 出力結果の信頼性を高めたい

1のichikara-instruction1(ichikara-instruction-simpleanswer)をご購入の方には、それに対応するragデータ(508件)の提供も開始しました。

 {
    "ID": "ichikara-rag-data-001-001-{入力文ID}-{回答文ID}-{リファレンス番号}", // 今回、回答文IDとリファレンス番号は001となる
    "text": "{入力文}", // 元データと同一
    "output": "{回答文}", // 元データと同一
    "meta": {
      "base-ID": "ichikara-instruction-single-004-004-{入力文ID}-001", // 元データのID
      "output-keywords": [
        "キーワード1",
        "キーワード2",
        ..., // 回答文を元にTF-IDFで抽出されたキーワード。スコア順に最大で20件。オーバーラップされたキーワードは除去してある
      ],
      "output-reference-url": "https://...", // URL (回答文の根拠となった参考URL。配列ではなく単一の文字列で与えられる)
      "output-reference-html-timestamp": "{HTML取得日時を表す文字列}",
      "output-reference-text-segments": [
        {
          "reference-label": true/false, // 同オブジェクト内の text-segment の文字列が回答文の根拠としてみなせるかどうかを表すフラグ(人手アノテーション結果)
          "text-segment": "参考URL中の部分テキスト", // 取得されたHTMLから抽出された部分テキスト。行分割→句点で分割を行った結果。出現順
          "keywords": [
            "マッチしたキーワード1",
            "マッチしたキーワード2",
            ..., // output-keywords のうち text-segmentに出現したキーワードの配列。ヒットしたキーワードは全て格
          ],
          "keyword-count": {ヒットしたキーワードの種類数}, // 複数回ヒットした同一キーワードは1回としてカウント
          "keyword-hit-count": {キーワードのヒット回数}, // 同一キーワードの複数回ヒットも重複してカウント (keyword-count <= keyword-hit-count となる)
        },
        { ... } // 2件目のセグメント情報,
        ...,
      ],
  },
  { ... }, // 2件目のデータ
  ...,
      


ichikara-instruction2

ichikara-instruction2

1万件のインストラクション
(1に含まれないタイプ)

向いている課題

モデルの実運用における対話品質・指示追従性・説明力を総合的に強化できるデータセットです。

  • ユーザー意図が曖昧な発話への対応力向上
  • 指示通りに答えられない問題の改善(指示追従性)
  • ハルシネーション抑制(回答不能処理)
  • 推論過程を伴う説明能力(CoT誘導)
  • 分野依存質問への実務耐性

ichikara-instruction1シリーズで網羅されていない分野を追加した、シングルターンの質問文と回答のデータセットです。主に下記のタイプが追加されています。

ichikara-instruction2_table

“挨拶、愚痴、独り言”とは特定の回答を求めていないプロンプト、たとえば「月がきれいだね」といったものです。それに対する回答もフラット、寄り添い、厳しめ、といった3種類のバリエーションをご用意しました。

 {
    "ID": "ichikara-instruction2-002-001-0000006-001",
    "text": "月がきれいだね",
    "output": "はい、今日は月がきれいに見えるようですね。  \n\n「I love you.」を漱石は「月がきれいですね」と訳したという話もありますね。",
    "meta": {
      "answer-attitude": "フラット",
      "task": "挨拶・愚痴",
      "perspective": [
        "主観"
      ],
      "domain": [
        "一般"
      ],
      "alert-type": null,
      "output-reference": null
    }
  },
  {
    "ID": "ichikara-instruction2-002-001-0000006-002",
    "text": "月がきれいだね",
    "output": "そうなのですね。  \nきれいな月を見ると心が洗われます。  \nいい気分で一日を終えることができそうですね。",
    "meta": {
      "answer-attitude": "寄り添い",
      "task": "挨拶・愚痴",
      "perspective": [
        "主観"
      ],
      "domain": [
        "一般"
      ],
      "alert-type": null,
      "output-reference": null
    }
  },
  {
    "ID": "ichikara-instruction2-002-001-0000006-003",
    "text": "月がきれいだね",
    "output": "私はAIなので月がきれいどうか判断することができません。  \n月がきれいかどうかは個人の感覚によって異なります。",
    "meta": {
      "answer-attitude": "厳しめ",
      "task": "挨拶・愚痴",
      "perspective": [
        "主観"
      ],
      "domain": [
        "一般"
      ],
      "alert-type": null,
      "output-reference": null
    }
  },
    

“指示追従性”は、文字数制限、箇条書きなど、回答の仕方に対して何らかの指示を与えているものを指します。

 {
    "ID": "ichikara-instruction2-IF-002-001-0000007-001",
    "text": "100字以上120字以内で桃太郎の話の概要を書いて。",
    "output": "昔々、おばあさんが川で洗濯をしていると大きな桃が流れてきました。桃から赤ん坊がでてきて、おじいさんとおばあさんは桃太郎と名付けました。  \n桃太郎は、犬、サル、キジを仲間にして鬼ヶ島で鬼退治をしました。  \n宝物を手に入れ、幸せに暮らしました。",
    "meta": {
      "output-reference": [
        "https://www.douwa-douyou.jp/contents/html/douwastory/douwastory1_05.shtml"
      ],
      "task": "オープン質問",
      "perspective": [
        "客観"
      ],
      "domain": [
        "文学"
      ],
      "alert-type": null,
      "instruction_following_type": [
        "長さ指定",
        "スタイル指定"
      ]
    }
  },
  {
    "ID": "ichikara-instruction2-IF-002-001-0000064-001",
    "text": "「だったので映画館に行くのはやめました。」で終わる短い日記を書いて下さい。",
    "output": "「だったので映画館に行くのはやめました。」で終わる短い日記を書きました。\n\n今日は友達とショッピングと映画に行く約束をしていました。まずはショッピングモールでワンピース探し。続いてワンピースに似合う靴も…とショッピングに夢中になってしまいました。気づくともう遅い時間だったので映画館に行くのはやめました。",
    "meta": {
      "output-reference": null,
      "task": "ブレスト",
      "perspective": [
        "主観"
      ],
      "domain": [
        "一般"
      ],
      "alert-type": null,
      "instruction_following_type": [
        "始め・終わり指定",
        "スタイル指定"
      ]
    }
  },
    

“明確な回答が示せない質問”は、存在しないものに対する質問や科学的に解決していない質問などの6種類の回答不能な要素を含む質問から成り、それらに対して回答文では「回答を示せない」という旨を回答します。回答可能な部分は回答するものの、回答が出来ない部分については「わからない」と明示します。

 {
    "ID": "ichikara-instruction2-IDK-002-001-0000448-001",
    "text": "難しい顔で難しいことを言う人にふりかけると一瞬で表情も言葉も柔らかく、その場の雰囲気も楽しいものに変える粉があると聞いたんです。どこで売っていますか?",
    "output": "そのような魔法のような粉は実際には**存在しません。**\n\n実際にそういった魔法の粉が存在するわけではありませんが、日常生活で人々の表情や言葉を柔らかくしたり、雰囲気を変える方法はあります。\nここでは、人々の表情や雰囲気を変える方法について説明します。\n\n### 【ユーモアを取り入れる】\n難しい話題や堅い雰囲気の中でも、軽いジョークやユーモアを交えると、思わず笑顔が生まれることがあります。\nちょっとした冗談や笑い話を共有するだけで、場の空気や相手の気持ちを変えることができます。\n\n### 【話題の転換】\n堅苦しい話題が続いているときに、少し異なる話題に転換することで、場の空気が軽くなり、リフレッシュされることがあります。\n例えば、共通の趣味や興味について話すことで自然と会話が弾み、相手も楽しんでくれるかもしれません。\n\nこれらのコミュニケーションスキルは、ある意味「魔法の粉」のような効果を持っているといえます。\n\nもしお探しの情報でなかった場合、魔法の粉について追加の情報を共有していただければ、他に該当する情報をお探しします。",
    "meta": {
      "output-reference": null,
      "task": "オープン質問",
      "perspective": [
        "客観"
      ],
      "domain": [
        "製品"
      ],
      "alert-type": null,
      "IDK": [
        "Quesiton about non-existent entity"
      ]
    }
  },
    

また、直接回答を出力させるのではなく、理由・根拠を明示して回答を導き出させる“Chain of Thought”。

 {
    "ID": "ichikara-instruction2-CoT-002-001-0000129-001",
    "text": "これから与えられる質問や問題について、一般知識と専門知識をリストアップしてから回答を作成してください。\n\n初代iMacのレッドをメルカリで売ろうと思うのですが、いくらぐらいの価格にすればいいと思いますか。今も動作します。キーボード、マウス、電源コードもあります。箱ありです。送料もかかりますし、できるだけ高く売れればと思っています。",
    "output": "質問に関係する一般常識と専門知識をリストアップしてから回答を作成します。\n\nまず、質問に関する一般常識を列挙します。\n1. メルカリでは、中古品の価格を決める際に過去の取引事例を参考にするのが一般的である。\n2. 出品者が提示する価格は、商品の状態や需要によって変動する。\n3. 出品者は価格を設定する際に、商品の状態や価値、需要などを考慮しなければならない。\n4. 出品者の利益を確保するためには、適正な価格を設定する必要がある。\n5. メルカリで取引されるiMacの相場は、市場での需要や供給の状況によって変化する。\n\n次に、質問に関する専門知識を列挙します。\n1. メルカリの出品における適正価格の重要性\n    - メルカリのようなCtoCのプラットフォームでは、出品者と購入者が直接コミュニケーションを取り、価格交渉が行われることがある。\n    - 出品者は、過去の取引事例を参考に、適正な価格を設定することが求められる。\n2. メルカリで取引されるiMacの相場\n    - 初代iMacのレッドは1998年に発売されたモデルであり、現在も一定の需要がある。\n    - 2024年1月時点では、3000円から34000円の価格帯で取引されている。\n3. 出品者が考慮すべき要素\n    - 商品の状態:新品に近いほど高く、傷や破損がある場合は安くなる傾向にある。\n    - 市場での需要:同じモデルや状態のiMacがどれだけ取引されているかを調べておくと参考になる。\n    - 送料の負担:出品者が送料を負担する場合、価格に送料分を含める必要がある。\n\n回答を作成します。  \n質問の内容から、メルカリで初代iMacのレッドを売る際の適正価格について調べることが求められているとわかりました。そこで、適正価格の考え方や、参考になる過去の取引事例を示し、出品者が価格を決める際の参考となる情報を提供しました。\n\n答え:  \n複数の出品を比較して、同じモデルや状態のiMacがどれくらいの価格で取引されているか確認しておくと、適正な価格を見極めるのに役立ちます。ちなみに、2024年1月時点では3000円から34000円で取引されているようです。",
    "cot-meta": {
      "cot-type": "general_knowledge"
    },
    "original-meta": {
      "ID": "ichikara-instruction-simpleanswer-004-002-0006523-001",
      "text": "初代iMacのレッドをメルカリで売ろうと思うのですが、いくらぐらいの価格にすればいいと思いますか。今も動作します。キーボード、マウス、電源コードもあります。箱ありです。送料もかかりますし、できるだけ高く売れればと思っています。",
      "output": "複数の出品を比較して、同じモデルや状態のiMacがどれくらいの価格で取引されているか確認しておくと、適正な価格を見極めるのに役立ちます。ちなみに、2024年1月時点では3000円から34000円で取引されているようです。",
      "task": [
        "ブレスト"
      ],
      "perspective": [
        "主観"
      ],
      "time-dependency": true,
      "domain": [
        "製品",
        "ビジネス"
      ],
      "source-to-answer": [
        "知識"
      ],
      "output-type": [
        "数値表現",
        "文章"
      ],
      "text-producer": 14,
      "output-producer": 3,
      "output-reference": null,
      "alert-type": []
    }
  },
    

その他子どもが自由に創造した質問、文章のタイトル作成、なぞなぞ、言葉遊びなど様々なたタイプの質問文が含まれています。

さらに、ビジネス、教育、金融機関、行政などの11カテゴリからの成る分野依存の質問が1043件含まれています。1~3のデータについては、弊社独自のタグ情報も付与されています。ご活用ください。


ichikara-multiturn

ichikara-multiturn

4000件の対話データ

向いている課題

複数ターンの対話を通じて、文脈保持・追加質問・意図修正対応などの対話運用能力を強化できるデータセットです。

  • 文脈保持能力の向上(前ターン情報の正確な参照)
  • 曖昧な発話への追加質問生成能力
  • 段階的情報取得による回答精度の向上

複数ターンから成る人とLLMの会話を想定した対話データです。 具体的には、ユーザーから受けた質問をシステム側で追加の情報をリクエストし、より詳細な回答文を出力する形、あるいはその逆といったものになっています。ただし、マルチターンの応答が必要なる要因は多様なため、特定のパターンに偏らないようバリエーションに注力して作成されております。発話数は平均的に3ターン(6発話)となっていますが、継続する方が自然な場合は7発目以降も継続しているデータも存在しています。(最小2ターン、最大10ターン)

ichikara-multiturn_table
 [
  {
    "ID": "ichikara-dialog-002-001-0000506-001",
    "meta": {
      "number_of_utterance": 6,
      "domain": [
        "製品",
        "生活"
      ],
      "reference": [
        "https://www.usque.com/scene/kantan_set-birthday-gift/"
      ]
    },
    "dialog": [
      {
        "id": 1,
        "speaker": "U",
        "utterance": "プレゼントを探しているんだけど"
      },
      {
        "id": 2,
        "speaker": "S",
        "utterance": "どなたに贈るプレゼントですか?友達、家族、恋人、仕事関係の方でしょうか?"
      },
      {
        "id": 3,
        "speaker": "U",
        "utterance": "家族です。"
      },
      {
        "id": 4,
        "speaker": "S",
        "utterance": "家族の中のどなたですか?年齢や趣味など教えていただけたらおすすめをご提案できます。"
      },
      {
        "id": 5,
        "speaker": "U",
        "utterance": "父です。年は50歳で、ゴルフが趣味です。"
      },
      {
        "id": 6,
        "speaker": "S",
        "utterance": "ゴルフが趣味のお父様に喜んでもらえるようなゴルフ関係のプレゼントをご紹介します。\n\n* **オリジナルゴルフボール:** 1,000円程度から、名前や写真、イラスト等を入れてもらえます。\n* **オリジナルゴルフマーカー:** 1,000円程度から、好きなイラストや写真をマーカーに入れてもらえます。\n* **ゴルフウェア:** 機能的で動きやすくおしゃれなウェアがたくさんあります。お好みに合わせて選ぶとよいでしょう。\n* **ゴルフシューズ:** 長時間のラウンドでも疲れにくく歩きやすい高品質のシューズがおすすめです。機能性に優れ、おしゃれなものを選ぶと喜ばれるでしょう。\n\n予算やお好みに合わせてお選びください。お父様の持っているものや、プレイスタイルに合うものが見つかるといいですね。"
      }
    ]
  },
  {
    "ID": "ichikara-dialog-002-001-0000507-001",
    "meta": {
      "number_of_utterance": 6,
      "domain": [
        "食べ物",
        "生活"
      ],
      "reference": [
        "https://delishkitchen.tv/curations/5741"
      ]
    },
    "dialog": [
      {
        "id": 1,
        "speaker": "U",
        "utterance": "ランチのおすすめ"
      },
      {
        "id": 2,
        "speaker": "S",
        "utterance": "近くのランチのお店を探します。和食・中華・イタリアンのどれがお好みですか?"
      },
      {
        "id": 3,
        "speaker": "U",
        "utterance": "外食じゃなくて、家で作るレシピが知りたいです。"
      },
      {
        "id": 4,
        "speaker": "S",
        "utterance": "家で作るレシピですね。では、家で簡単に作れるランチのおすすめレシピを2つお教えしましょう。\n\n**【豆乳キムチそうめん】**  \n**<材料(1人分)>**  \n* そうめん 1束  \n* キムチ 適量(好きなだけ)  \n* 無調整豆乳 1/2カップ  \n* 麺つゆ 大さじ1  \n* あれば、かいわれ大根、ラー油(適量)\n\n**<作り方>**  \n1. そうめんを指定のゆで時間ゆでて、冷水でしめる。\n2. どんぶりに麺つゆと豆乳を入れ、混ぜる。\n3. どんぶりにそうめんを入れ、上にキムチを乗せ、あれば、かいわれ大根をトッピングし、ラー油を垂らしたら出来上がり。

\n\n**【しらすアボカド丼】** \n**<材料>**\n* アボカド 1/2個\n* しらす 適量\n* ごはん 茶碗1杯\n* しょうゆ、わさび、ごま油、刻みのり(適量)\n\n**<作り方>**\n\n1. アボカドの皮を取り、サイコロ状に切り、しょうゆとわさび適量で味を付ける。\n2. どんぶりにご飯を盛り、ごま油を適量垂らし、軽く混ぜる。\n3. ご飯の上にしらすを散らす。\n4. 1を乗せ、あれば、刻みのりを散らして出来上がり。" }, { "id": 5, "speaker": "U", "utterance": "暑いので、豆乳キムチそうめん、いいですね。豆乳は牛乳でも代用できますか?" }, { "id": 6, "speaker": "S", "utterance": "はい、牛乳でも代用できますが、ミルクの風味が出てしまうので、苦手な方は無調整豆乳で作ることをおすすめします。" } ] },




いちからの無償データ HuggingFace公開中

ichikara-exam

ichikara-exam

中学校、高校の5科目の入試データ

向いている課題

中学・高校入試レベルの5教科問題に対し、教科・解答形式・唯一解性・配点などの独自タグを付与した構造化データセットです。

  • 唯一解問題における推論精度・計算正確性の評価強化
  • 文章+数値など複合出力形式への対応力向上
  • 説明付き解答(推論過程生成)の品質改善

中学および高校レベルの入試データ全部で217問から成るデータです。教科は国語、算数・数学、理科、社会、英語。弊社独自のタグ情報も付与しているため、お役立てください。

ichikara-exam_table
 
  {
    "ID": "ichikara-exam-001-001",
    "question-ID": "中学算数-0001-0010",
    "text": "父、母、姉、私、弟の5人が横一列に並ぶとき、
弟が真ん中にくる並び方は何通りありますか。",
    "output": "父、母、姉、私、弟の5人が横一列に並んで、弟が真ん中にくる並び方を考えるとき、\n並ぶ5か所を、左から順にA、B、C、D、E、とおきます。\n弟が真ん中に来るので、「C」が弟の位置となります。\n\nAには弟以外の4人が入ることが出来るので4通り。\nBには弟とAに入った人以外の3人が入ることが出来るので3通り。\nCには弟しか入ることができないので1通り。\nDには、弟とA,Bで入った人を除くので2通り。\nEには最後の1人しか余っていないので1通り。\n\nAに入るそれぞれに対してB,C,D,Eの場合が考えられるので、\n4×3×1×2×1=24通り\nとなります。\n\nよって、答えは\n24通り",
    "meta": {
      "task": [
        "数学"
      ],
      "perspective": [
        "唯一解"
      ],
      "time-dependency": false,
      "domain": [
        "数学"
      ],
      "source-to-answer": [
        "数学"
      ],
      "output-type": [
        "文章",
        "数値表現"
      ],
      "alert-type": [],
      "point-allocation": [
        "5"
      ]
    }
  },
    


ichikara-jmtbench

ichikara-jmtbench

オリジナルで作成した
日本語MT_Benchのデータ

向いている課題

MT_Bench形式(2発話構成)に基づき、単発応答の質とフォローアップ応答の一貫性を評価・強化できるデータセットです。

  • カテゴリ横断的な汎用応答力の評価
  • 2発話目への一貫した文脈追従能力
  • 評価ベンチマーク指標との比較検証

評価で有名なMT_Benchのオリジナルな日本語版です。全部で8カテゴリ437件から成るデータです。2発話のデータであり、1発話目の回答がどんなものであっても、2発話目が成立します。一般的なMT_Benchのデータはユーザー発話のみですが、こちらはシステムの回答もサンプルで入っています。

ichikara-jmtbench_table
  {
    "ID": "ichikara-jmtbench-001-002-0000003",
    "meta": {
      "domain": "writing"
    },
    "history": [
      {
        "user": "自分は雑談が極めて苦手なんですが、雑談力を上げる方法はあるのでしょうか。",
        "bot": "はい、雑談力を上げる方法はいくつかあるといわれています。  \nそもそも、雑談力は決して才能ではなく、誰でも学ぶことができるものであり、上達させることが可能なスキルです。  \n以下の点を念頭に入れながら、会話すると雑談力を磨けるかもしれません。\n\n* 疑問形につながる会話のネタを、普段から準備しておく  \nコミュニケーションをとるうえで最も大事なことは、「相手に関心があることを示すこと」です。  \nですから、相手に質問を投げかける疑問形で終わらせることから始めてみましょう。  \n自分に無関心な人に対して、話を聞いてもらいたい、関係性を構築したいと思う人は多くありません。\n\n    まず第一歩として、イエスかノーの二択で返答できる「クローズドクエスチョン」を活用しましょう。  \nたとえば、「今日は電車で来られたのですか」 「道は混んでいましたか」 「雨は降っていましたか」など、深く考えることなく、咄嗟に答えられる質問がおすすめです。\n\n* 自分の話ばかりしない  \n人は、自分の話を熱心に聞いてくれる人に好感を抱きやすいため、まずは「聞き上手」を目指しましょう。  \nただ相槌を打つだけでなく、適宜聞き返してみたり、質問したりしてみたりすると、前のめりに相手の話を聞いている姿勢を見せることができます。  \n自分から話すことが苦手な場合は、まずは傾聴力を高めることに注力してみましょう。\n\n* 相槌を意識する  \n話している側は、相手の表情や反応を見ながら話を進めるため、ポジティブな感情や表情で相槌をしているだけで、相手の印象はぐっと変わります。  \n特に、話を聞いているときは、相手の話を優しくうけとめるように振る舞うことが、好印象を与えるポイントです。  \n口角を少しあげながらゆっくりとうなずき、「そうなんですね」 「いいですね」など、さまざまな相槌をうちましょう。"
      },
      {
        "user": "職場やビジネスシーンでは、どういう内容のものが効果的ですか?",
        "bot": "ビジネスシーンなど、普段の日常生活とは異なるシーンで雑談力が求められることもありますよね。  \nそういったシーンでは下記の会話のネタを使ってみてください。\n\n* 天気や季節の話題  \n天気や季節の話題は、どのような年代の人でも共通で話しあえる話題です。  \nこれからの天気や気温について話題にした後、相手の反応や話の内容から、その中身を深堀りしたり、違う話題に移ったりすることもできます。  \n「今日は暑くなりそうですね」 「今朝は寒かったですね」など、共感性も得やすい話題のため、活用しやすいでしょう。\n\n* 地域情報  \n近隣の美味しいグルメのお店や出身地の話題も、雑談として適しています。  \n社内でも取引先のオフィスの場合でも、近隣にランチやディナーに行くことは想定されるため、グルメの話題は盛りあがりやすいです。  \nまた、出身地の話題も、その土地の地域性や特色、気候などの話に広げられるため、会話が弾みやすいのが特徴です。  \n「この前〇〇でランチを食べておいしかったですよ」 「〇〇出身なので、この時期は××が恋しくなります」など、興味をもってもらいやすい話題にすることもポイントです。\n\nただし、下記の話題は避けるべきです。\n\n* 政治の話題  \n* 宗教の話題  \nこれらは信条などにかかわる極めてプライベートな領域であり、個人によりとても重要な意味をもつため、避けるようにしましょう。"
      }
    ]
  },
    


ichikara-76Kprompt

7.6万件の一般人による質問データ

向いている課題

一般ユーザーによる自然発話を基にした大規模質問データであり、実運用環境に近い入力耐性と安全性対応能力を強化できるデータセットです。

  • 自然文入力への汎用応答力向上(口語・揺らぎ対応)
  • 曖昧・抽象的質問への解釈能力向上
  • 危険な挙動を学習させない(有害・誹謗中傷除去後データでの健全応答)

ユーザーが有料モデル(当時)のGPT-4を無料で使用できる代わりに、その入力された質問の著作権をいただくというチャットツールを作成、データ収集をしました。そのため、自然な質問文となっている一方で、個人情報や誹謗中傷といった有害情報の質問や重複質問も多く、人手作業でそれを除去した76,638件の質問集となっています。

  {
        "ID":"ichikara-76Kprompts-001-001-0033593",
        "text":"菓子パンが大好きです。\n体によくないのは分かっています。\nどうしたら食べるのをやめられますか?"
    },
    {
        "ID":"ichikara-76Kprompts-001-001-0033594",
        "text":"菓子パンは体に悪いでしょうか。"
    },
    {
        "ID":"ichikara-76Kprompts-001-001-0033595",
        "text":"課金型ゲームはなぜ流行った?なぜ廃れない?"
    },
    {
        "ID":"ichikara-76Kprompts-001-001-0033596",
        "text":"課題は自由で、作文を作ってください"
    },
    {
        "ID":"ichikara-76Kprompts-001-001-0033597",
        "text":"課題を抽出して視点の課題に貢献できますか?"
    },
    {
        "ID":"ichikara-76Kprompts-001-001-0033598",
        "text":"課長試験に合格して頑張っているし、部下からの評価も悪くないのに、出世できないのは何故ですか?"
    },
    {
        "ID":"ichikara-76Kprompts-001-001-0033599",
        "text":"貨客船は何故汽笛を鳴らすのか答えなさい"
    },
    {
        "ID":"ichikara-76Kprompts-001-001-0033600",
        "text":"貨物輸送方法として存続するのは陸路、鉄路、空路のうちどれか"
    },
    {
        "ID":"ichikara-76Kprompts-001-001-0033601",
        "text":"貨幣経済、資本主義経済の限界について\n具体的考察かつ解決案を提示せよ\n"
    },,
    


ichikara-pdf2summary

文書画像を元にした
2種類の要約データ

向いている課題

公的文書PDFからの要約・情報抽出能力を強化できるデータセットです。文章構造の理解や重要情報の識別、表現の簡潔化を通じて、モデルの文書処理力を向上させることができます。

  • 長文・複雑文書からの要点抽出能力向上
  • 文章構造に基づく自然で簡潔な要約生成
  • 官公庁文書特有の表現・形式理解の強化

文書イメージデータからその要点・要約を作るデータが欲しいという声にお応えして作成しました。元となるPDFデータは、著作権の関係から官公庁のものに限定しております。こちらは125件のデータセットとなっております。

ichikara-pdf2summary_table
ichikara-pdf2summary_image.jpg
元となるpdfデータ
  {
        "ID":"ichikara-pdf2summary-001-001-0000001-001",
        "department":"デジタル庁",
        "file":[
            "DigitalAgency/D_1.pdf"
        ],
        "title":"マイナポータルの機能追加について(令和3年10 月)",
        "toWhom":"マイナンバーカードを取得している方",
        "abstract":"マイナポータルの機能追加や暮らしをより良くするためのサービス等について",
        "summary":"マイナポータルで可能な以下の事について書かれています。\n\n医療保険の薬剤情報を確認・取得する流れ\n薬剤情報の表示例\n特定健診情報、後期高齢者健診情報を確認・取得する流れ\n特定健診情報の表示例\n後期高齢者健診情報の表示例\n医療費通知情報を確認・取得する流れ\n医療費通知情報の表示例\n\nまた、マイナポータルの仕組みやマイナンバーカードの利用法についても書かれています。マイナンバーカードの安全性や実際の医療機関・薬局におけるオンライン資格確認の仕組み等についても詳しく書かれています。"
    },
    


ichikara-GSM8Ktest-humantranslation

GSM-8Kの評価部分
約1000件の機械翻訳を意訳

向いている課題

算数・数学の文章題に対する正確な理解と計算プロセスの説明能力を強化できるデータセットです。

  • 数理的思考や論理的説明力の訓練
  • 複数ステップの推論を伴う算数・数学問題への対応力
  • 単位換算や比率・割合の適切な扱い

株式会社ELYZAが機械翻訳で日本語に翻訳した、英語の小学校算数問題(GSM8K)をさらに意訳しました。“mile”、“gallon”といった日本語圏では馴染みのない単位や直訳独特の不自然さや問題文の曖昧性を無くしております。また、自然かつ教科書のような丁寧な日本語の質問文および回答データセット(1309件)となっております。

   {
    "ID": "ichikara-GSM8Ktest-humantranslation-001-001-0000001-001",
    "text": "ますみさんが飼っている鶏は毎日20個の卵を産みます。ますみさんは毎日卵焼きを作るのに卵を5個使い、さらに友人に2個あげます。\n\n残った卵については、毎日市場で1個40円の価格で販売します。卵が全て売れるとしたら、ますみさんは毎日いくら稼いでいるでしょうか?",
    "output": "この問題を解くためにはまず毎日得られる卵の数から、使う卵と友人にあげる卵の数を引き、市場で売ることができる卵の数を求めます。そして、売ることができる卵の数に、卵1個あたりの価格をかけることで、毎日稼ぐ金額を算出することができます。\n\n**◇市場で売ることができる卵の数を求める**  \nますみさんが飼っている鶏は20個の卵を産み、卵焼きを作るのに5個、友人にあげるのに2個使うため  \n$20 - 5 - 2 = 13$  \nとなり、残った**13個**の卵を市場で売ることができます。\n\n**◇市場で売ることができる卵の数に卵1個あたりの価格をかける**  \n卵1個あたりは40円であるため  \n$40\\,\\text{円} \\times 13\\,\\text{個} = 520\\,\\text{円}$\n\nしたがって、ますみさんは毎日**520円**を稼ぎます。"
  },
  {
    "ID": "ichikara-GSM8Ktest-humantranslation-001-001-0000002-001",
    "text": "ワンピースを作るために生地を用意します。花柄の生地は5メートル必要で、無地の生地はその半分の長さが必要です。必要な生地は合計何メートルでしょうか?",
    "output": "この問題は、それぞれの生地の必要な長さを求め、それらを合計することで、回答を導くことができます。\n\n**◇それぞれの生地の長さ**  \n問題文から花柄の生地は**5メートル**必要であることが分かります。  \n無地の生地は花柄の生地の半分が必要であるため  \n$5 \\div 2 = 2.5$  \nとなり、2.5メートル必要です。\n\n**◇合計を求める**  \n花柄の生地と無地の生地の必要な長さを合計すると  \n$5 + 2.5 = 7.5$\n\nしたがって、必要な生地は合計**7.5メートル**です。"
  },
  {
    "ID": "ichikara-GSM8Ktest-humantranslation-001-001-0000003-001",
    "text": "まさとさんは中古物件を1,500万円で購入しました。リフォームを行い、売りに出すと、購入金額よりも45%増で売ることができました。\n\nリフォームには150万円かかっています。まさとさんが中古物件の売買で得られる利益はいくらでしょうか?",
    "output": "まず、まさとさんが中古物件を売った時の価格を求めます。  \n購入金額よりも45%増で売ることができたため  \n$1,500 \\times ( 1 + 0.45 ) = 1,500 \\times 1.45 = 2,175$\n\nよって、まさとさんは中古物件を**2,175万円**で売ることができました。\n\nつぎに、売った金額から購入金額とリフォーム代を引くことで、利益を求めることができます。  \n購入金額は1,500万円、リフォーム代は150万円であったため  \n$2,175 - 1,500 - 150 = 525$\n\nしたがって、まさとさんが中古物件の売買で得られる利益は**525万円**です。"
  },
    




公開中データ一覧表

名称 内容 種別 公開日
1 ichikara-instruction 1.2万件のインストラクション(一般的、丁寧なもの)
商用利用ライセンス
500万円
2024/3/31
2 ichikara-instruction-simpleanswer 上記のうち1.1万件の要約的インストラクション 2024/6/26
3 ichikara-instruction2 1万件のインストラクション(1に含まれないタイプ)
商用利用ライセンス
800万円
2025/2/28
4 ichikara-multiturn 4000件の対話データ
商用利用ライセンス
800万円
2025/2/28
5 ichikara-exam 中学校・高校5科目の入試データ 無償 2025/4/4
6 ichikara-jmtbench オリジナルで作成した日本語MT_Benchのデータ 無償 2025/4/4
7 ichikara-76Kprompt 7.6万件の一般人による質問データ 無償 2025/4/4
8 ichikara-pdf2summary 文書画像を元にした2種類の要約データ 無償 2025/4/4
9 ichikara-rag-data インストラクションの参考URLを元にしたRAGデータ
1の購入者
無償
2025/9/12
10 ichikara-GSM8Ktest-humantranslation GSM-8Kの評価部分、約1000件の機械翻訳を意訳 無償 2025/9/12
11 ichikara-50Khumanquestions 5万件の人手で作成した質問文
金額未定
2025年末
予定



導入や活用における疑問・不安がありましたら、お気軽にご相談ください。
専門家が現状のヒアリングから課題抽出、具体的なソリューション提案まで伴走いたします。



TOP