ML.NET库学习013：对文本数据进行情感分类

最新推荐文章于 2025-03-01 08:49:49 发布

North_D

最新推荐文章于 2025-03-01 08:49:49 发布

阅读量836

点赞数 27

CC 4.0 BY-SA版权

分类专栏： ML.NET库文章标签：人工智能数据挖掘自然语言处理深度学习神经网络目标检测机器学习

本文链接：https://blog.csdn.net/qq_39813001/article/details/145785209

ML.NET库专栏收录该内容

26 篇文章

订阅专栏

文章目录

ML.NET库学习013：对文本数据进行情感分类

ML.NET库学习013：对文本数据进行情感分类

项目主要目的和原理

项目主要目的

本项目的目标是利用机器学习算法对文本数据进行情感分类（Sentiment Classification），具体任务是从给定的文本中判断其情感倾向（正面或负面）。通过训练一个二元分类模型，我们可以自动化地对大量文本数据进行分类，从而实现高效的情感分析。

项目原理

数据加载与预处理：首先从文件中加载文本数据，并将其划分为训练集和测试集。
特征提取：将文本数据转化为机器学习算法可以理解的数值特征。这里使用了FeaturizeText方法，将文本转化为词袋模型（Bag-of-Words）或其他类似表示。
模型训练：使用逻辑回归（Logistic Regression）作为分类器，通过训练集对模型进行训练。
模型评估：在测试集上验证模型的性能，并输出准确率、精确率等评估指标。
模型保存与预测：将训练好的模型保存为文件，并使用该模型对新的文本数据进行情感预测。

项目概述

实现的主要功能

数据加载：从文件中读取结构化的文本数据。
数据分割：将数据划分为训练集和测试集（80%用于训练，20%用于测试）。
特征提取：将文本转化为数值特征。
模型训练与评估：使用逻辑回归算法对数据进行训练，并在测试集上验证模型性能。
单样本预测：加载保存的模型并对新的文本数据进行情感分类。

主要流程步骤

创建MLContext对象，用于管理整个机器学习工作流。
加载并预处理数据（分割为训练集和测试集）。
构建特征提取管道，并将其与逻辑回归分类器结合。
使用训练集对模型进行训练。
在测试集上评估模型性能。
保存模型到文件中。
加载模型并使用其对单个文本样本进行情感预测。

关键技术

ML.NET：一个开源的机器学习框架，支持多种算法和数据预处理方法。
逻辑回归（Logistic Regression）：一种经典的二元分类算法。
特征提取：将非结构化的文本数据转化为数值特征，便于模型训练。

代码拆解与分析

主函数 `Main()`

static void Main(string[] args)
{
    // 加载并预处理数据
    string dataPath = GetAbsolutePath("data/sentiment_data.csv");
    var mlContext = new MLContext();

    // 数据加载和分割
    IDataView data = mlContext.Data.LoadFromTextFile<SentimentIssue>(dataPath, separatorChar: ',', hasHeader: true);
    var trainTestSplit = mlContext.Data.TrainTestSplit(data, testFraction: 0.2);

    // 特征提取与模型训练
    var pipeline = mlContext.Transforms.Text.FeaturizeText("Features", nameof(SentimentIssue.Text))
        .Append(mlContext.BinaryClassification.Trainers.SdcaLogisticRegression());

    var model = pipeline.Fit(trainTestSplit.TrainSet);

    // 模型评估
    var predictions = model.Transform(trainTestSplit.TestSet);
    var metrics = mlContext.BinaryClassification.Evaluate(predictions, "Label");

    Console.WriteLine($"准确率: {metrics.Accuracy:F4}");
    Console.WriteLine($"精确率: {metrics.Precision:F4}");
    Console.WriteLine($"召回率: {metrics.Recall:F4}");

    // 模型保存
    string modelPath = GetAbsolutePath("model/sentiment_model.zip");
    mlContext.Model.Save(model, trainTestSplit.TrainSet.Schema, modelPath);

    // 单样本预测
    var predEngine = mlContext.Model.CreatePredictionEngine<SentimentIssue, SentimentPrediction>(model);
    var sampleStatement = new SentimentIssue { Text = "I love this movie!" };
    var predictionResult = predEngine.Predict(sampleStatement);

    Console.WriteLine("情感分类结果:");
    Console.WriteLine($"文本: {sampleStatement.Text}");
    Console.WriteLine($"预测: {(predictionResult.Prediction ? "负面" : "正面")}");
    Console.WriteLine($"概率: {predictionResult.Probability:F4}");

    Console.ReadLine();
}

关键代码分析

数据加载与预处理

IDataView data = mlContext.Data.LoadFromTextFile<SentimentIssue>(dataPath, separatorChar: ',', hasHeader: true);
var trainTestSplit = mlContext.Data.TrainTestSplit(data, testFraction: 0.2);

使用LoadFromTextFile方法从CSV文件中加载数据。
将数据划分为训练集和测试集，测试集占总数据的20%。

特征提取与模型训练

var pipeline = mlContext.Transforms.Text.FeaturizeText("Features", nameof(SentimentIssue.Text))
    .Append(mlContext.BinaryClassification.Trainers.SdcaLogisticRegression());

使用FeaturizeText方法将文本特征转化为数值向量。
通过逻辑回归分类器对数据进行训练。

模型评估

var metrics = mlContext.BinaryClassification.Evaluate(predictions, "Label");
Console.WriteLine($"准确率: {metrics.Accuracy:F4}");
Console.WriteLine($"精确率: {metrics.Precision:F4}");
Console.WriteLine($"召回率: {metrics.Recall:F4}");

使用Evaluate方法计算模型的性能指标。

模型保存与预测

mlContext.Model.Save(model, trainTestSplit.TrainSet.Schema, modelPath);
var predEngine = mlContext.Model.CreatePredictionEngine<SentimentIssue, SentimentPrediction>(model);