什么是监督式机器学习?
监督式机器学习的定义
监督式机器学习或监督学习是人工智能 (AI) 应用程序中使用的一种机器学习 (ML),用于使用标记数据集训练算法。通过向算法提供大型标记数据集,监督式机器学习“教会”算法准确预测结果。它是最常用的机器学习类型。
监督式机器学习与所有机器学习一样,都是通过模式识别来实现的。通过分析一组特定的标记数据,算法可以检测模式并在查询时根据这些派生的模式生成预测。为了达到准确的预测阶段,监督式机器学习过程需要收集数据,然后进行标记。然后,在这些标记数据上对算法进行训练,以准确地对数据进行分类或预测结果。输出的质量与数据的质量直接相关:更好的数据意味着更好的预测。
监督式机器学习示例包括图像和物体识别、客户情感分析、垃圾邮件检测和预测分析。因此,监督式机器学习用于医疗保健、金融和电子商务等多个行业,以帮助优化决策和推动创新。
监督式机器学习的工作原理是什么?
监督式机器学习的工作原理是收集和标记数据,然后训练模型并使用新数据集迭代该过程。这是一个两步过程:定义模型要解决的问题,然后收集数据:
- 步骤 1:定义模型要解决的问题。该模型是否用于业务相关预测、自动检测垃圾邮件、分析客户情绪或识别图像?这将确定需要哪些数据,从而进入工作流中的下一步
- 第 2 步:收集数据。一旦数据被标记,就会输入到训练的算法中。然后对模型进行测试、改进和部署,以执行分类或回归任务。
数据收集和标记
收集数据是监督式机器学习的第一步。数据可能来自各种来源,例如数据库、传感器或用户交互。它经过预处理,以确保一致性和相关性。收集后,会为这个大型数据集分配标签。输入数据的每个元素都会收到相应的标签。虽然数据分类可能耗时且昂贵,但有必要教给模型一些模式,以便它能够做出预测。这些标签的质量和准确性直接影响到模型学习和做出相关预测的能力。您的输出质量取决于你的输入质量。
模型训练
在训练期间,该算法会分析输入数据并学习将其映射到正确的输出标签。此过程涉及调整模型的参数,以最小化预测输出与实际标签之间的差异。该模型从训练过程中出现的错误中学习,从而提高其准确性。模型训练完成后,就要对其进行评估。验证数据用于确定模型的准确性。然后再根据结果进行必要的微调。
理论上,模型吸收的数据越多,学习的模式就越多,其预测也就越准确。持续学习是机器学习的基石:随着不断从标记的数据集中学习,模型性能会得到提高。
一旦部署完毕,监督式机器学习可以完成两类任务:分类和回归。
分类依赖于为给定的离散数据点或数据集分配类别的算法。换句话说,它可以区分数据类别。在分类问题中,决策边界划分了不同类别。
回归依赖于一种算法来理解连续型因变量和自变量之间的关系。在回归问题中,决策边界确定了最佳拟合线或概率接近度。
监督式机器学习算法
在监督式机器学习中,用于分类和回归任务的算法和技术多种多样,从文本分类到统计预测不等。
决策树
决策树算法是一种非参数监督式学习算法,由根节点、分支、内部节点和叶节点组成。输入从根节点经过分支到达内部节点,算法在内部节点处理输入并做出决策,输出叶节点。决策树可用于分类和回归任务。它们是有用的数据挖掘和知识发现工具:用户可以通过它们追踪输出结果或做出决策的原因。但是,决策树容易出现过度拟合;他们难以处理更复杂的情况。因此,较小的决策树更有效。
线性回归
线性回归算法根据一个变量(即自变量)的值来预测另一个变量(即因变量)的值。预测基于变量之间的线性关系的原则,或者认为连续变量(如薪水、价格或年龄)之间存在“直线”联系。线性回归模型被广泛应用于生物学、社会科学、环境科学和行为科学等领域以及商业领域中的预测分析。
神经网络
神经网络使用由输入、权重、阈值(有时称为偏差)和输出组成的节点。这些节点按照输入层、隐藏层和输出层的结构排列,这种结构类似于人脑,因此被称为“神经”网络。神经网络被视为深度学习算法,它从标记的训练数据中构建知识库。因此,它们可以识别数据中的复杂模式和关系。它们是一个适应性系统,能够从错误中“学习”以持续改进。神经网络可用于图像识别和语言处理应用程序。
随机森林
随机森林算法是一种由一组不相关的决策树算法组成的集合(或森林),通过编程从多个输出中生成单一结果。随机森林算法参数包括节点大小、树的数量和特征数量。这些超参数是在训练之前设置的。它们对装袋和特征随机方法的依赖确保了决策过程中的数据多样性,并最终产生更准确的预测。这是决策树和随机森林之间的主要区别。因此,随机森林算法具有更高的灵活性,特征装袋有助于估计缺失值,从而确保在某些数据点缺失的情况下仍能保持准确性。
支持向量机 (SVM)
支持向量机 (SVM) 最常用于数据分类,偶尔用于数据回归。对于分类应用程序,SVM 会构造决策边界,以帮助区分或分类数据点,例如水果与蔬菜,或哺乳动物与爬行动物。SVM 可用于图像识别或文本分类。
朴素贝叶斯
朴素贝叶斯是一种基于贝叶斯定理的概率分类算法。它假定数据集中的特征是独立的,并且每个特征(或预测因子)在结果中的权重是均等的。这种假设被称为“天真”,因为它在现实世界中往往会被反驳。例如,句子中的下一个单词取决于前面的单词。尽管如此,每个变量的单一概率使朴素贝叶斯算法的计算效率很高,特别是对于文本分类和垃圾邮件过滤任务。
K 最近邻
K-最近邻,也称为 KNN,是一种监督式学习算法,它利用变量之间的接近程度来预测输出。换句话说,它假定相似的数据点会彼此相邻。在标注数据上进行训练后,该算法会计算查询与它所记忆的数据(即它的知识库)之间的距离,并做出预测。KNN 可以使用各种距离计算方法(曼哈顿、欧几里得、闵科夫斯基、汉明)来建立预测所依据的决策边界。KNN 可用于分类和回归任务,包括相关性排序、相似性搜索、模式识别和产品推荐引擎。
监督式机器学习的挑战和局限性
虽然监督式机器学习可以实现高精度预测,但它是一种资源密集型机器学习技术。它依赖于昂贵的数据标记过程,需要大型数据集,因此很容易出现过度拟合。
- 标记数据的成本:监督式学习面临的主要挑战之一是需要大量准确标记的数据集。这些标签的准确性与模型的准确性成正比,因此质量至关重要。这是一项耗时的工作,有时还需要专业知识(取决于数据和模型的预期用途),而这可能非常昂贵。在医疗保健或金融等涉及敏感复杂数据的领域,获取高质量的标记数据集尤其具有挑战性。
- 对大型数据集的需求:监督式学习模型对大型数据集的依赖可能是一项重大挑战,原因有两个:收集和标记大量高质量数据是资源密集型工作,而在过多数据和足够好的数据之间找到适当的平衡点非常棘手。大型数据集对于有效训练是必要的,但过于广泛的数据集会导致过度拟合。
- 过度拟合:过度拟合是监督式学习中的常见问题。当模型接触过多的训练数据并捕获噪音或无关的细节时,就会发生这种情况,例如数据过多的情况。这会影响其预测质量,并在处理未见过的新数据时导致性能不佳。为了应对或避免过度拟合,工程师依赖于交叉验证、正则化或修剪技术。
预处理数据是这些挑战的核心。这可能既耗时又昂贵,但有了正确的工具,就能缓解成本、质量和过度拟合带来的挑战。
监督式机器学习与非监督式机器学习
机器学习可以是监督式、非监督式和半监督式。每种数据训练方法都能达到不同的效果,并用于不同上下文。监督式机器学习需要标记的数据集来训练数据,但它可以通过大量高质量的数据来提高准确性。
相比之下,非监督式机器学习使用未标记的数据集来训练预测模型。该模型会自行识别未标记数据点之间的模式,有时会降低准确性。非监督式学习通常用于聚类、关联或降维任务。
半监督式机器学习
半监督式机器学习是监督式和非监督式学习技术的结合。半监督式学习算法在少量已标记数据和大量未标记数据上进行训练。这比标记样本较少的无监督式学习模型取得了更好的结果。半监督学习是一种混合方法,在标记大型数据集不切实际或成本高昂的情况下特别有用。
了解这些机器学习方法之间的区别,对于为当前任务选择正确的解决方案至关重要。
使用 Elastic 让机器学习变得简单
机器学习始于数据,这正是 Elastic 的优势所在。
借助 Elastic 机器学习,您可以分析数据以查找异常、执行数据框分析并分析自然语言数据。Elastic 机器学习无需数据科学团队、从头开始设计系统架构或将数据移动到第三方框架进行模型训练。作为搜索 AI 平台,我们的功能可让您使用数据采集、理解和构建模型,或者依靠我们开箱即用的无监督模型进行异常和异常值检测。
了解有关 Elastic 如何通过机器学习帮助您应对数据挑战的更多信息。