<label id="zohzt"></label>
    1. <var id="zohzt"></var>
      <input id="zohzt"><label id="zohzt"><rt id="zohzt"></rt></label></input>

      1. 电子发烧友网 > 人工智能 > 正文

        机器学习如何做好分布外异常检测?

        2020年01月16日 09:39 ? 次阅读

        对于机器学习而言,区分异常数据或有显著差异数据至关重要。谷歌在 NeurIPS 2019 论文中提出并发布了针对基因组序列 OOD 检测的现实基准数据集,进而提出一种基于似然比的解决方案,可显著提高 OOD 检测的准确性。AI 科技评论将谷歌对该方法的官方解读编译如下。

        深度学习科学家要成功部署机器学习系统,需要系统能够区分出异常数据或与训练中使用的数据有显着差异的数据。

        由于深度神经网络分类器可能会将以高置信度将分布外(ODD)的输入分类到分布内的类别中,因此区分异常数据或有显著差异数据是十分重要的。当我们利用这些预测为现实决策提供依据时,异常数据检测将尤为重要。

        例如,将机器学习模型应用于基于基因组序列的细菌检测,就是一项具有挑战性的现实应用。细菌检测对于败血症等传染病的诊断和治疗,以及食源性病原体的鉴定都非常关键。

        近些年来,随着新细菌种类不断被发现,虽然基于已知分类训练的神经网络分类器通过交叉验证达到了很高的测量准确性,但部署模型仍具有高的挑战性,因为现实数据在不断进化发展,并且将不可避免地包含以往训练数据中从未出现过的基因组(OOD 输入)。

        图1 近些年来,随着新的细菌种类逐渐地被发现。将已知的分类数据输入基于已知分类数据训练的分类器能够达到很高的准确性,这是因为输入的分类数据是已知的,但它可能将已知分类数据中混合了未知分类数据(如:ODD 数据)的输入进行错误的分类,并且具有很高的置信度。

        在 NeurIPS 2019 发表的论文《分布外检测的似然比》(Likelihood Ratios for Out-of-Distribution DetecTIon)中,谷歌受到上述新细菌种类检测这类现实问题的启发,提出并发布了针对基因组序列 OOD 检测的现实基准数据集。

        论文地址:https://arxiv.org/abs/1906.02845

        实现代码 GitHub 地址:https://github.com/google-research/google-research/tree/master/genomics_ood

        他们利用基于基因组序列的生成模型测试了 OOD 检测的现有方法,发现似然值——即输入来自使用分布不均数据进行估算的分布数据的模型概率——通常是错误的。在最近的图像深度生成模型研究工作中,他们也观察到了这种现象,并通过统计背景影响来解释这种现象,进而提出一种基于似然比的解决方案,可以显著地提高 OOD 检测的准确性。

        一、为什么密度模型无法应用于 OOD 检测?

        为了模拟实际问题并系统地评估不同的方法,他们建立了一个新的细菌数据集,使用的数据来自美国国家生物技术信息中心(NCBI )对外开放的原核生物目录基因组序列数据。

        为了模拟测序数据,他们将基因组片段化为当前测序技术通常使用的 250 个短序列长度的碱基对。然后,其将分布内和分布外的数据按发现日期进行分离,以便截止时间之前被发现的细菌种类被定义在分布内,在之后发现的被定义为分布外(OOD) 。

        然后,他们基于分布内的基因组序列训练深度生成模型,通过绘制似然值曲线,检验模型辨别输入的分布内和分布外数据的能力。 OOD 序列似然值的直方图与分布内序列似然值高度重合,则表明生成模型无法区分在两个种类之间进行的 OOD 检测结果。

        在图像深度生成模型的早期研究中(相关阅读参考:https://arxiv.org/abs/1810.09136)也得到了类似的结论。例如,利用 Fashion-MNIST 数据集(由衣服和鞋类的图像组成)训练 PixelCNN ++ 模型,比来自 MNIST 数据集(包括数字0-9的图像)的 OOD 图像分配了更高的似然值。

        图2 左:分布内和分布外(OOD)基因组序列的似然值直方图。 似然值未能分辨出分布内和OOD基因组序列。 右:Fashion-MNIST 数据集训练模型、MNIST 数据集估计的似然值直方图。 模型在OOD(MNIST)图像上比在分布内图像分配了更高的似然值。

        在研究这种失败模型时,他们观察到背景统计可能影响了似然值的计算。为了更直观地理解该现象,假设输入由两个部分组成:(1)以背景统计为特征的背景成分,(2)以指定于分布内数据专用的模式为特征的语义成分。

        例如,可以将 MNIST 图像建模为背景加语义。当人类解读图像时,可以轻松地忽略背景信息而主要关注语义信息,例如下图中的“ /”标记。但是当为图像中的所有像素计算似然值时,计算结果中同时包括了语义像素和背景像素。虽然他们只需使用语义的似然值进行决策,但原始的似然值结果中可能大多数都是背景成分。

        图3 左上:Fashion-MNIST 的示例图像。 左下:MNIST 的示例图像。 右:MNIST 图像中的背景和语义成分。

        二、OOD 检测的似然比

        他们提出了一种去除背景影响并专注于语义成分的似然比方法。

        首先,受遗传突变的启发,他们利用扰动输入方法训练背景模型,并通过随机选择输入值的位置,将其替换为另一个具有相等概率的值。为了成像,他们从从256个可能的像素值中随机选择输入值;针对DNA 序列,他们从四个可能的核苷酸(A,T,C或G)中选出输入值。此过程中,适量的扰动会破坏数据的语义结构,导致只能捕获到背景。

        接着,他们计算完整模型与背景模型之间的似然比,去掉了背景成分,这样就只保留了语义的似然值。似然比是背景对比得分,即它抓住了语义与背景对比的意义。

        为了定性评估似然值与似然比之间的差异,他们绘制了在 Fashion-MNIST 数据集和 MNIST 数据集中每个像素的似然值和似然比值,创建了与图像相同的尺寸的热图。

        这使他们可以分别直观地看到哪些像素对于这两项值的贡献最大。从对数似然热图中可以看到,对于似然值而言,背景像素比语义像素的贡献更多。

        事后看来这并不足为奇,这是由于背景像素主要由一连串零组成,因此很容易被模型学习。

        MNIST 和 Fashion-MNIST 热图之间的比较则说明了为什么 MNIST 返回更高的似然值——仅仅是因为它包含了更多的背景像素!相反,似然比的结果更多地集中在语义像素上。

        图4 左:Fashion-MNIST 和 MNIST 数据集的对数似然热图。 右:Fashion-MNIST 和 MNIST 数据集的似然比热图,具有更高值的像素会具有更浅的阴影。 似然值主要由“背景”像素决定,而似然比则集中在“语义”像素上,因此更适合用于 OOD 检测。

        这种似然比方法修正了背景影响。他们基于 Fashion-MNIST 训练 PixelCNN ++ 模型,然后在 MNIST 图像数据集进行 OOD 检测,实验结果得到了显著改善,AUROC 评分从 0.089 提高至 0.994 。

        当他们将似然比方法应用于基因组基准数据集这一极具挑战的问题时,对比其它 12 种基线方法,该方法表现出了最佳性能。

        不过他们也表示,尽管该似然比方法在基因组数据集上达到了最先进的性能,但离将模型部署到实际应用中的高准确性要求仍存在一定距离。 他们鼓励研究人员努力去解决这一重要问题,并改善当前的最新技术。

        下载发烧友APP

        打造属于您的人脉电子圈

        关注电子发烧友微信

        有趣有料的资讯及技术干货

        关注发烧友课堂

        锁定最新课程活动及技术直播

        电子发烧友观察

        一线报道 · 深度观察 · 最新资讯
        收藏 人收藏
        分享:

        评论

        相关推荐

        第一届中国AI与机器学习研讨会

        活动内容  人工智能技术将在未来对传统产业产生重大颠覆性影响,人工智能将在各行各业为创新设计带来新的动力,它也将催生新的
        发烧友学院发表于 2018-03-29 00:00? 227次阅读
        第一届中国AI与机器学习研讨会

        CFA二级思维导图分享:机器学习

        在机器学习中,训练模型的算法数据集包括:训练样本(Trainning Sample),检验样本(va....
        发表于 2020-01-16 09:25? 14次阅读
        CFA二级思维导图分享:机器学习

        阿里巴巴在GitHub上发布了其Alink平台的...

        贾指出,中国技术供应商是GitHub上十大贡献者之一,他说:“我们致力于在我们的软件开发周期中尽早与....
        发表于 2020-01-16 09:16? 2次阅读
        阿里巴巴在GitHub上发布了其Alink平台的...

        读懂NeurIPS2019最佳机器学习论文

        们先重述标题。本文的研究讨论了一种用于学习半空间的算法,该算法在与分布无关的PAC模型中使用,且研究....
        发表于 2020-01-16 09:03? 14次阅读
        读懂NeurIPS2019最佳机器学习论文

        新华三在人工智能、机器学习领域的创新实力

        当前,在机器学习等技术创新的驱动下,以行业+AI为基石的智能化应用正在加速各行各业的数字化转型,开启....
        发表于 2020-01-16 08:20? 31次阅读
        新华三在人工智能、机器学习领域的创新实力

        应聘机器学习工程师岗位你需要知道的12个基础面试...

        假设一个简单的层计算公式 y = (Wx + b),y 在 W 上的导数就是这样:dy=dWx。因此....
        发表于 2020-01-16 08:17? 29次阅读
        应聘机器学习工程师岗位你需要知道的12个基础面试...

        机器学习预测计算机芯片执行来自各种应用程序的代码...

        研究人员通过一种特殊的神经网络模型,它以“基本块”(计算指令的基本摘要)形式训练标记的数据,以自动预....
        发表于 2020-01-16 08:13? 23次阅读
        机器学习预测计算机芯片执行来自各种应用程序的代码...

        《机器学习实战-基于Sophon平台的机器学习理...

        本书由星环科技人工智能平台研发团队合著,凝聚了来自算法专家及一线软件工程专家的实战经验。相比于国内学....
        发表于 2020-01-16 08:11? 17次阅读
        《机器学习实战-基于Sophon平台的机器学习理...

        Rokid新一代Rokid Glass 2 AR...

        Rokid于今日发布了最新一代AR眼镜Rokid Glass 2。
        发表于 2020-01-15 17:13? 193次阅读
        Rokid新一代Rokid Glass 2 AR...

        网络安全领域的AI泡沫变小了?

        机器学习不应将公司的网络安全作为单一防御层来支撑,而应将人员、流程和技术结合在一起,成为多层和全面安....
        发表于 2020-01-15 17:11? 44次阅读
        网络安全领域的AI泡沫变小了?

        换脸技术打开的“潘多拉魔盒”,人工智能亟待突破“...

        目前,“人人都怕换脸术”的恐慌,已引起国家有关部门的高度关注。今年1月1日起施行的《网络音视频信息服....
        发表于 2020-01-15 14:01? 388次阅读
        换脸技术打开的“潘多拉魔盒”,人工智能亟待突破“...

        机器学习中有哪一些算法是经常用的

        人工神经网络(ANN)以大脑处理机制作为基础,开发用于建立复杂模式和预测问题的算法。
        发表于 2020-01-15 11:49? 24次阅读
        机器学习中有哪一些算法是经常用的

        人工智能可以解决“三体问题”吗

        研究人员并未打算让这套神经系统独挑大梁,他们认为最好让Brutus之类的程序做大部分“苦力活”,而神....
        发表于 2020-01-15 10:55? 39次阅读
        人工智能可以解决“三体问题”吗

        商业中的AI需要如何去对待

        现在有一种评估人工智能(AI)的趋势,即评估它如何改善消费者购物旅程中的离散元素,而不是评估人工智能....
        发表于 2020-01-15 10:47? 16次阅读
        商业中的AI需要如何去对待

        清华人工智能研究院院长张钹:从“让数据说话”到引...

        深度学习兴起之后,学界将目标转移至数据,提出“让数据说话”。张钹认为,这种强调对深度学习的发展起到积....
        发表于 2020-01-15 10:41? 136次阅读
        清华人工智能研究院院长张钹:从“让数据说话”到引...

        人工智能的介入在文学艺术圈制造了持久的喧哗

        工智能的介入在文学艺术圈制造了持久的喧哗,各种观点错杂交叠。欣然接受人工智能的作家不多,反对人工智能....
        发表于 2020-01-15 10:37? 275次阅读
        人工智能的介入在文学艺术圈制造了持久的喧哗

        人工智能与金融业务是如何融合的

        由于人工智能技术的应用对于很多金融机构与银行而言还属于新兴事物,而且在技术方面更具有很强的专业性,因....
        发表于 2020-01-14 15:53? 25次阅读
        人工智能与金融业务是如何融合的

        人类的发明模式受到了人工智能怎样的影响

        随着人工智能和机器学习开始在影像识别和语言理解方面取得令人印象深刻的成就,已经有许多科学家认为其可以....
        发表于 2020-01-13 16:59? 39次阅读
        人类的发明模式受到了人工智能怎样的影响

        边缘处理的机器学习处理的特定领域SoC逐渐成为主...

        通过SiFive的DesignShare计划进行的联合芯片开发,结合了两家公司的IP和设计优势,可为....
        发表于 2020-01-13 16:14? 141次阅读
        边缘处理的机器学习处理的特定领域SoC逐渐成为主...

        人工智能如何和加密货币创造新的商机

        随着加密货币的兴起,以及可能与人工智能结合在一起,因而人工智能越来越受欢迎,不但进入主流媒体,也成为....
        发表于 2020-01-13 16:02? 34次阅读
        人工智能如何和加密货币创造新的商机

        清华大学发布人工智能全球2000位最具影响力学者...

        从国家角度看,美国学者人数的占比最高,有1128人,占比61.4%,超过总人数的一半,独自领跑第一梯....
        发表于 2020-01-13 15:12? 226次阅读
        清华大学发布人工智能全球2000位最具影响力学者...

        云计算领域在2020年是怎样的展望

        随着5G的扩张,我们将看到手机游戏发展将进一步加速,因为5G提供了强大的连接、低延迟和带宽能力,需要....
        发表于 2020-01-13 10:04? 32次阅读
        云计算领域在2020年是怎样的展望

        GPU技术的关键参数有哪些和应用场景详细说明

        随着云计算,大数据和人工智能技术发展,边缘计算发挥着越来越重要的作用,补充数据中心算力需求。计算架构....
        发表于 2020-01-12 10:25? 278次阅读
        GPU技术的关键参数有哪些和应用场景详细说明

        Unlearn机器学习平台可加快阿尔茨海默氏症药...

        查尔斯·费舍尔(Charles K. Fisher)博士说:“我们今天发布的结果令我们感到兴奋,因为....
        发表于 2020-01-11 10:50? 180次阅读
        Unlearn机器学习平台可加快阿尔茨海默氏症药...

        机器学习在库存管理中有哪一些应用

        人工智能(特别是在在线零售行业中)的常见用途之一是使用自主机器人与客户进行交互。
        发表于 2020-01-10 15:13? 72次阅读
        机器学习在库存管理中有哪一些应用

        AI发明家申请专利为什么被拒绝了

        人工智能成为科技行业最大热点,包括语音识别、图像识别等技术得到了更加广泛的应用,人工智能技术的能力也....
        发表于 2020-01-10 14:27? 339次阅读
        AI发明家申请专利为什么被拒绝了

        目前机器人的行为是多种多样并且不可预测的

        很多人都说家庭机器人为儿童、家庭和老人提供帮助和陪伴。设计有表现力的眼睛和头部姿势的机器是特别感兴趣....
        发表于 2020-01-10 11:12? 116次阅读
        目前机器人的行为是多种多样并且不可预测的

        IBM的研究表明模拟芯片可为机器学习而大幅加速

        人工智能或许能解决一些科学和行业最棘手的挑战,但要实现人工智能,需要新一代的计算机系统。
        发表于 2020-01-09 15:15? 111次阅读
        IBM的研究表明模拟芯片可为机器学习而大幅加速

        人工智能技术可帮助企业采用更多的解决方案

        企业人工智能(AI)有多种形式,从强大的语音助手和聊天机器人技术到机器学习(ML)和计算机视觉解决方....
        发表于 2020-01-09 11:11? 258次阅读
        人工智能技术可帮助企业采用更多的解决方案

        专为高中生打造的人工智能教材今年出版

        为推动完善人工智能教育体系,清华大学交叉信息研究院在图灵奖得主、院长姚期智院士的带领下,在计算机科学....
        发表于 2020-01-08 14:45? 356次阅读
        专为高中生打造的人工智能教材今年出版

        如今的人工智能已经可以识别医疗死亡风险

        根据Geisinger的发布,Geisinger研究人员最近发现,人工智能可以检查心电图(ECG)测....
        发表于 2020-01-08 11:12? 276次阅读
        如今的人工智能已经可以识别医疗死亡风险

        主编的教材《人工智能(高中版)》,在清华大学举办...

        姚期智表示,《人工智能(高中版)》编委全部来自清华大学交叉信息研究院计算机科学实验班(姚班)和人工智....
        发表于 2020-01-08 11:08? 609次阅读
        主编的教材《人工智能(高中版)》,在清华大学举办...

        恩智浦首次推出带有专用神经处理引擎的i.MX应用...

        面向边缘计算应用的全新i.MX 8M Plus异构应用处理器,搭载专用神经网络加速器、独立实时子系统....
        发表于 2020-01-08 08:30? 212次阅读
        恩智浦首次推出带有专用神经处理引擎的i.MX应用...

        瑞萨电子高效电源管理IC应用于Google Co...

        瑞萨电子株式会社(TSE:6723)宣布其ISL91301B电源管理IC(PMIC),应用于最新Go....
        发表于 2020-01-08 07:47? 172次阅读
        瑞萨电子高效电源管理IC应用于Google Co...

        先考虑AI带来的好处还是带来的忧患

        AI 以及机器学习等,由于需要通过收集大量数据以完成机器学习的过程,因此在企业角度来说,稍一不慎便很....
        发表于 2020-01-07 17:11? 84次阅读
        先考虑AI带来的好处还是带来的忧患

        人工智能风险不得不去思考一下

        人工智能与机器学习将于未来几年造成约700万个工作机会消失,并同时创造出200万个新创的工作机会。
        发表于 2020-01-07 17:08? 59次阅读
        人工智能风险不得不去思考一下

        如今不起眼的微处理器也能实现机器学习了

        来自谷歌、微软、高通、三星和6所大学的一组研究人员齐聚加州圣何塞,讨论将机器学习带到网络最远端的挑战....
        发表于 2020-01-07 15:40? 376次阅读
        如今不起眼的微处理器也能实现机器学习了

        如何让汽车有自我思考的能力

        世界各国的各地政府正在朝着一个长期目标迈进,那就是让智慧城市拥有自动驾驶和高度自动化的车辆,并将其集....
        发表于 2020-01-07 15:32? 94次阅读
        如何让汽车有自我思考的能力

        哪些领域要关注人工智能带来的改变

        将数据与带有人工智能技术的学习程序一起使用,有助于提升人的体验,而不是取代人的体验,这是我们听到的与....
        发表于 2020-01-07 14:47? 66次阅读
        哪些领域要关注人工智能带来的改变

        机器设计会如何受到AI的影响

        人工智能如今应用越来越广泛。在大多数情况下,健壮和自适应的人工智能可以为人类的专业知识提供补充,而不....
        发表于 2020-01-07 14:38? 58次阅读
        机器设计会如何受到AI的影响

        神经符号人工智能如何书写未来

        符号人工智能和神经网络还是完完全全的两个世界,相互对立。人工智能领域的大佬们常常各执一词,在支持一种....
        发表于 2020-01-07 13:38? 274次阅读
        神经符号人工智能如何书写未来

        限制 AI 软件出口是为了什么

        使用经过训练的深度卷积神经网络,通过将正样本中的旋转模式与地理空间图像中目标的旋转模式进行匹配,来识....
        发表于 2020-01-07 11:33? 731次阅读
        限制 AI 软件出口是为了什么

        物联网顾问要具备怎样的特质

        能够利用机器学习的能力使领导者能够快速解读数据,从而了解其客户使用产品或服务的行为模式。
        发表于 2020-01-07 10:01? 51次阅读
        物联网顾问要具备怎样的特质

        AI 工程师主要是干什么的

        他们不仅创建具体的指令,而且能使人工智能自我学习和自我改进。
        发表于 2020-01-06 13:56? 127次阅读
        AI 工程师主要是干什么的

        一篇机器学习综述,总结了当前机器学习研究的几个方向,并以统计机器学习为重点梳理了几个核心原则

        发表于 2019-12-14 00:44? 434次阅读
        一篇机器学习综述,总结了当前机器学习研究的几个方向,并以统计机器学习为重点梳理了几个核心原则

        机器学习的十大经典算法,附有详细原理说明,有助于机器学习的学习和运用

        发表于 2019-12-14 00:42? 244次阅读
        机器学习的十大经典算法,附有详细原理说明,有助于机器学习的学习和运用

        BP模糊神经网络纯电动汽车电机控制

        针对传统比例积分(PI)控制在电机控制中控制效果不良的问题,设计了一种基于向后传播算法(BP)模糊神经网络的P...
        发表于 2019-12-10 16:32? 378次阅读
        BP模糊神经网络纯电动汽车电机控制

        史上最全AI人工智能入门+进阶学习视频全集(200G)【免费领取】

        近几年来,人工智能(AI)概念很火热,几乎人人都在学习人工智能,AI市场人才的抢夺也非常的激烈。根据百科的解释...
        发表于 2019-11-27 12:10? 782次阅读
        史上最全AI人工智能入门+进阶学习视频全集(200G)【免费领取】

        BiLSTM模型的CRF层是怎么工作的?

        BiLSTM模型中CRF层的运行原理-1
        发表于 2019-11-06 09:26? 124次阅读
        BiLSTM模型的CRF层是怎么工作的?

        平衡Winnow算法在短信过滤系统上有什么应用?

        手机短信以其短小、迅速、简便、价格低廉等优点成为一种重要的通信和交流方式,受到众多人士的青睐。然而, 手机短信与...
        发表于 2019-11-01 07:04? 150次阅读
        平衡Winnow算法在短信过滤系统上有什么应用?

        机器学习的回归任务

        常见线性回归理论与算法实现
        发表于 2019-10-29 11:09? 124次阅读
        机器学习的回归任务

        浅析监督学习算法MLPClassifier

        sklearn 神经网络 MLPClassifier简单应用与参数说明...
        发表于 2019-10-23 10:46? 147次阅读
        浅析监督学习算法MLPClassifier

        ZCU102,ZCU104和ZCU106有什么区别?

        嗨, 看起来ZCU104是ZCU102和ZCU106的升级版本,具有支持机器学习的额外功能,但更便宜? 最好的祝愿, 花...
        发表于 2019-10-22 09:19? 319次阅读
        ZCU102,ZCU104和ZCU106有什么区别?

        深入浅出学习机器学习

        万万没想到,枯燥的“机器学习”还可以这样学!...
        发表于 2019-10-18 14:17? 155次阅读
        深入浅出学习机器学习
        电子发烧友网