matutake

matutake は、summerMC/Sakura をベースに、summerMC/v-Fable を用いて Supervised Fine-Tuning (SFT) した、日本語寄りの Fable系対話・推論モデル です。

このモデルは、coding専用モデルではなく、会話・説明・推論・ロールプレイ・長めの応答生成 などを含む、Fable系のスタイルと応答傾向をSakura上で再現・適応することを目的に調整しています。


1. Model Overview

概要

  • Model name: summerMC/matutake
  • Base model: summerMC/Sakura
  • Training type: Full fine-tuning / SFT
  • Primary dataset: summerMC/v-Fable

主な目的

  • 日本語での自然な会話応答
  • Fable系の応答スタイルへの適応
  • 長めの説明・推論応答の強化
  • instruction following の改善
  • 対話形式での安定した文章生成

matutake は、Fable系トレースデータをもとに、対話の流れを保ちながら自然に返答する能力ある程度まとまった推論や説明を返す能力ロールや文脈に沿った返答を行う能力 を強めることを目的としています。


2. Intended Use

想定ユースケース

このモデルは、以下のような 一般的な対話・生成タスク を想定しています。

Chat / Conversation

  • 日本語での雑談・対話
  • 指示に従った応答生成
  • 長めの会話文・返答文の生成
  • キャラクターや口調を意識した会話

Reasoning / Explanation

  • 質問に対する段階的な説明
  • 要点整理
  • 比較・整理・要約
  • ある程度長い推論を伴う返答

Creative / Roleplay style generation

  • Fable系の会話スタイル再現
  • ロールプレイ風の返答
  • 雰囲気重視の会話生成
  • ストーリー寄りの応答や表現

General instruction following

  • 日本語プロンプトに対する自然な応答
  • 情報整理
  • 文章生成
  • 口調や形式を指定した出力

3. Training Data

本モデルは主に以下のデータセットで学習されています。

Dataset

  • summerMC/v-Fable

v-Fable は Fable系トレースをもとにした対話・推論・スタイル応答を含むデータセットであり、会話の流れ、応答形式、説明調の返答、Fable系の雰囲気を持つ出力を学習するために使用しています。

学習時には主に context -> completion 形式を用い、与えられた文脈に対する応答全体をSFTしています。

主な特徴

  • 対話形式の応答
  • reasoning / explanation を含む返答
  • Fable系のスタイルや雰囲気を持つ出力
  • instruction-following と会話継続の両方を含む構成

4. Training Method

Fine-tuning

  • 方式: Supervised Fine-Tuning (SFT)

  • 学習対象: base model の全パラメータ(full fine-tune)

  • 目的:

    • Fable系の応答傾向への適応
    • 会話の自然さの改善
    • 長めの返答や説明の安定化
    • 日本語での instruction following の向上

学習方針

本モデルでは、単純な短文応答よりも、以下のような性質を重視しています。

  • 文脈を踏まえて返答する
  • 長めの説明や会話を破綻しにくくする
  • Fable系の話し方・返答傾向を反映する
  • 日本語での自然な対話を強化する

5. Prompting / Chat Format

このモデルは chat形式 の入力を想定しています。 ベースモデル Sakura のテンプレートに依存するため、基本的には tokenizer.apply_chat_template(...) を使うことを推奨します。

Transformers example

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = "summerMC/matutake"

tokenizer = AutoTokenizer.from_pretrained(
    model_id,
    trust_remote_code=True,
)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    trust_remote_code=True,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {
        "role": "system",
        "content": "You are matutake, a helpful Japanese conversational assistant."
    },
    {
        "role": "user",
        "content": "最近ちょっと疲れてるんだけど、少し気分が軽くなるように話して。"
    }
]

text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True,
)

inputs = tokenizer(text, return_tensors="pt").to(model.device)

with torch.no_grad():
    outputs = model.generate(
        **inputs,
        max_new_tokens=512,
        do_sample=True,
        temperature=0.7,
        top_p=0.9,
        repetition_penalty=1.05,
    )

print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:], skip_special_tokens=True))

6. Recommended Generation Settings

用途が会話・説明・Fable系の返答寄りなので、まずは以下を推奨します。

会話向け

max_new_tokens = 512
do_sample = True
temperature = 0.7
top_p = 0.9
repetition_penalty = 1.05

少し安定寄りにする場合

max_new_tokens = 512
do_sample = True
temperature = 0.5
top_p = 0.9
repetition_penalty = 1.05

長めの応答を書かせる場合

max_new_tokens = 1024
temperature = 0.7
top_p = 0.95

7. Example Prompts

日常会話

  • 最近ちょっと気分が落ちてるから、少し優しく話してほしい。
  • 今日あったことを聞いてほしい。

説明・整理

  • 量子コンピュータって何か、中学生にもわかるように説明して。
  • この文章を3行で要約して。

ロールプレイ / 雰囲気重視

  • 落ち着いた口調で、夜に話しかけるような感じで返して。
  • 少し物語っぽい雰囲気で励まして。

推論・長文応答

  • A案とB案のメリット・デメリットを比較して整理して。
  • この悩みに対して、考え方を段階的に整理してほしい。

8. Limitations

このモデルは研究・実験用途です。以下の制約があります。

  • 事実性は保証されません
  • 説明がもっともらしくても誤っている場合があります
  • 長い応答では一貫性が崩れることがあります
  • Fable系のスタイルに寄ることで、必要以上に感情的・演出的な返答になる場合があります
  • chain-of-thought風の出力や冗長な説明が出ることがあります

重要な判断に使う場合は、必ず人間が内容を確認してください。


9. Safety / Responsible Use

以下の用途には適しません。

  • 医療・法務・金融など高リスク分野の最終判断
  • 人の状態に関する重大な判断の自動化
  • 真偽確認なしでの事実情報の利用
  • セーフティ確認なしの本番自動応答

モデルの出力は参考情報として扱い、必要に応じて別ソースで確認してください。


10. License

Important

このモデルの利用条件は、ベースモデル summerMC/Sakura のライセンス および 学習データ summerMC/v-Fable のライセンス に依存します。 利用前に必ずそれぞれの配布ページを確認してください。

  • Base model: summerMC/Sakura
  • Dataset: summerMC/v-Fable

特に、学習データに由来するライセンス・利用条件・再配布条件には注意してください。


11. Citation

もしこのモデルや派生物を研究・検証に利用した場合は、ベースモデルと学習データのクレジットも併記してください。

@misc{matutake2026,
  title        = {matutake},
  author       = {summerMC},
  year         = {2026},
  howpublished = {\url{https://huggingface.co/summerMC/matutake}}
}

必要に応じて、ベースモデル・データセットの引用も追加してください。


12. Notes

matutake は、Sakura系列をベースに Fable系の会話・推論・スタイル応答 を強化するための実験モデルです。 ベンチマークスコアの最適化よりも、会話としての自然さ、返答の雰囲気、長めの応答生成 を重視しています。

Downloads last month
106
Safetensors
Model size
2B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for summerMC/matutake

Base model

summerMC/Sakura
Finetuned
(1)
this model
Adapters
1 model

Dataset used to train summerMC/matutake