微调 Mistral Small 3.1 实现社交媒体情感识别教程

在自然语言处理（NLP）不断演进的格局中，从庞大的通用模型转向小型语言模型（SLM）已成为一种显著趋势。虽然像 GPT-4 或 Claude 3.5 Sonnet 这样的大型语言模型（可以通过 n1n.ai 轻松调用）功能极其强大，但对于特定的分类任务来说，它们往往显得过于臃肿且成本高昂。对于开发者和企业而言，微调像 Mistral Small 3.1 这样的 SLM 提供了一个经济高效、响应迅速的替代方案，特别是在处理社交媒体文本情感识别等专门化任务时。本教程将深入探讨如何在包含 15 种不同情感标签且数据分布不均的数据集上微调 Mistral Small 3.1。

为什么在情感识别中选择 Mistral Small 3.1？

Mistral Small 3.1 在参数量和推理能力之间找到了完美的平衡点。社交媒体上的沟通通常充满细微差别、讽刺或大量的网络用语。通用模型可能只能识别出“愤怒”，而经过微调的 SLM 则能精准区分“挫败”、“愤慨”和“烦恼”。通过使用像 n1n.ai 这样的 API 聚合平台，开发者可以将其微调后的本地模型与行业领先模型进行基准测试，以确保性能达到预期水平。

核心挑战：不平衡数据与 15 类标签

现实世界中的社交媒体数据是典型的不平衡数据。在一个 15 种情感（如：喜悦、悲伤、愤怒、恐惧、惊讶、厌恶、信任、期待、爱、乐观、悲观等）的数据集中，“喜悦”和“愤怒”可能占据了绝大部分样本，而“期待”或“悲观”可能只是少数类。如果我们不处理这种不平衡，模型就会产生倾向于多数类的偏差。为了解决这个问题，我们需要在训练过程中引入类别权重。

第一步：环境配置与依赖安装

首先，你需要一个支持 CUDA 的 Python 环境。我们将使用 Hugging Face 的 transformers 库进行模型加载，peft 进行参数高效微调，以及 bitsandbytes 进行量化处理。

# 安装核心库
!pip install -q -U transformers peft bitsandbytes datasets accelerate

第二步：针对不平衡数据的预处理

在处理 15 种情感时，必须计算类别权重，以便在模型误分类少数类时给予更大的惩罚。这对于在所有类别上保持高 F1 分数至关重要。

import pandas as pd
import numpy as np
import torch
from sklearn.utils.class_weight import compute_class_weight

# 加载数据集
df = pd.read_csv("social_media_emotions.csv")
labels = df['emotion_id'].values

# 计算平衡权重
weights = compute_class_weight(
    class_weight='balanced',
    classes=np.unique(labels),
    y=labels
)
class_weights = torch.tensor(weights, dtype=torch.float)

第三步：使用 4-bit 量化加载模型

为了在消费级 GPU 上运行 Mistral Small 3.1，我们采用 QLoRA（量化低秩自适应）技术。这可以在不显著降低准确性的情况下大幅减少显存占用。

from transformers import AutoModelForSequenceClassification, AutoTokenizer, BitsAndBytesConfig

model_id = "mistralai/Mistral-Small-v3.1"

# 配置 4-bit 量化参数
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.bfloat16
)

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSequenceClassification.from_pretrained(
    model_id,
    num_labels=15,
    quantization_config=bnb_config,
    device_map="auto"
)

第四步：配置 LoRA 适配器

LoRA 允许我们仅训练模型参数的一小部分。对于 Mistral Small，我们的目标是注意力层中的查询（query）、键（key）和值（value）投影矩阵。

from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training

model = prepare_model_for_kbit_training(model)

lora_config = LoraConfig(
    r=16, # 秩大小
    lora_alpha=32,
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="SEQ_CLS"
)

model = get_peft_model(model, lora_config)

第五步：自定义损失函数以应对类别不平衡

标准的 Trainer 使用交叉熵损失函数。为了处理 15 种不平衡情感，我们需要在自定义的 Trainer 类中重写 compute_loss 方法。

from transformers import Trainer
import torch.nn as nn

class WeightedTrainer(Trainer):
    def compute_loss(self, model, inputs, return_outputs=False):
        labels = inputs.pop("labels")
        outputs = model(**inputs)
        logits = outputs.get("logits")
        # 引入预先计算好的类别权重
        loss_fct = nn.CrossEntropyLoss(weight=class_weights.to(model.device))
        loss = loss_fct(logits.view(-1, self.model.config.num_labels), labels.view(-1))
        return (loss, outputs) if return_outputs else loss

第六步：训练与评估流程

设置训练参数时，建议使用较低的学习率（如 2e-4），并配合余弦学习率调度器（Cosine Learning Rate Scheduler），以防止模型在微调过程中丢失预训练知识。

from transformers import TrainingArguments

training_args = TrainingArguments(
    output_dir="./mistral-emotion-results",
    learning_rate=2e-4,
    per_device_train_batch_size=8,
    num_train_epochs=3,
    weight_decay=0.01,
    evaluation_strategy="epoch",
    save_strategy="epoch",
    load_best_model_at_end=True,
    fp16=True,
    logging_steps=10,
)

trainer = WeightedTrainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_train,
    eval_dataset=tokenized_val,
    tokenizer=tokenizer,
)

trainer.train()

提升情感识别准确率的专家建议

数据增强 (Data Augmentation)：对于样本极少的稀有情感，可以使用 n1n.ai 提供的 LLM API 生成合成的社交媒体帖子。这能有效帮助模型学习少数类的特征。
上下文窗口优化：社交媒体帖子通常较短。确保将 max_length 设置在合理的范围（如 128 或 256 个 token），这能显著节省显存并加快训练速度。
关注 F1 分数：在处理不平衡数据集时，千万不要只看准确率（Accuracy）。使用 Macro-F1 分数来评估模型在所有 15 种情感上的综合表现，特别是它在少数类上的识别能力。

总结

通过微调 Mistral Small 3.1，我们可以将一个通用的 SLM 转化为能够洞察人类情感复杂性的专业引擎。通过加权损失函数解决数据不平衡问题，并利用 QLoRA 提升训练效率，开发者能够以远低于大型模型的成本部署强大的情感分析工具。对于需要扩展 AI 基础设施或通过统一接口访问多个模型供应商的用户，n1n.ai 提供了必不可少的 API 聚合服务，极大地简化了开发流程。

在 n1n.ai 获取免费 API 密钥。

参考来源：https://towardsdatascience.com/how-to-fine-tune-an-slm-for-emotion-recognition/