いちからのデータ Data

株式会社いちからでは、現在11種類のデータセットを公開しています(うち1種類は近日公開予定)。
ichikara-instruction、RAG、マルチターンなどの有償データが6種類、入試データ、オリジナルMT_Bench、大規模プロンプトデータ、文書画像要約データ、数学データなどの無償データが5種類ございます。
用途や目的に応じてご活用ください。

日本語LLMを“実用レベル”へ引き上げる、有償学習データ

Case1: 基礎応答強化

problems_instruction1
  • 日本語LLMの「基礎的な受け答え」が弱い
  • ユーザーの質問ジャンルが読めず
    回答品質にムラがでる
  • 簡潔で一貫した回答が求められるタスク
  • ふわっとした回答ばかり返ってくる
  • ハルシネーションを極力抑えたい
instruction1_arrow instruction1_arrow
ichikara-instruction1 ichikara-instruction-simpleanswer ichikara-rag-data

Case2: 応答制御強化

problems_instruction2
  • 雑談が不自然になってしまう
  • 回答の形式指示を守ってくれない
  • 答えられないことには
    「答えられない」と回答させたい
  • 回答根拠まで示してほしい
  • 専門分野を強化
instruction2_arrow instruction2_arrow
ichikara-instruction2

Case3: 対話持続強化

problems_multiturn
  • 文脈を踏まえた回答をさせたい
  • 段階的な問題解決をしてほしい
  • 人間同士のような
    自然な会話にならない
multiturn_arrow multiturn_arrow
ichikara-multiturn

Hugging Faceにて公開中の無償データ


いちからのデータ一覧(料金表)



導入や活用における疑問・不安がありましたら、お気軽にご相談ください。
専門家が現状のヒアリングから課題抽出、具体的なソリューション提案まで伴走いたします。