加入收藏 | 设为首页 |

梦见蛇缠身-21 个有必要知道的机器学习开源东西!

海外新闻 时间: 浏览:213 次

本文将介绍21种用于机器学习的开源东西。

作者 | SebastianScholl

译者 | 刘静,责编 | 郭芮

以下为译文:

你必定现已了解盛行的开源东西,如R、Python、Jupyter笔记本等。可是,除了这些盛行的东西之外还有一个国际——一个隐藏在机器学习东西下的当地。这些并不像他们的同行那样超卓,但能够成为许多机器学习使命的救星。

在本文中,咱们将介绍21种用于机器学习的开源东西。我强烈建议你花一些时刻阅读我说到的每个类别。除了咱们通常在课程和视频中学到的东西之外,还有许多需求学习的当地。

面向非程序员的开源机器学习东西

关于来自非编程和非技术布景的人来说,机器学习看梦见蛇缠身-21 个有必要知道的机器学习开源东西!起来很杂乱。这是一个宽广的范畴,我能够幻想第一步或许会多么令人生畏。没有编程经历的人能否在机器学习中取得成功?

事实证明,你能够!这里有一些东西能够协助你跨过距离并进入闻名的机器学习国际:

  • 优步路德维希:路德维希答应咱们练习和测验深度学习模型,而无需编写代码。您需求供给的仅仅一个包含数据的CSV文件,一个用作输入的列的列表,以及一个用作输出的列的列表——Ludwig将完结剩余的作业。
  • KNIME:KNIME答应您运用拖放界面创立整个数据科学作业流程。这种可视化完成整个模型作业流的办法十分直观,在梦见蛇缠身-21 个有必要知道的机器学习开源东西!处理杂乱的问题陈说时十分有用。

  • Orange:您不用知道怎么编码以便能够运用Orange发掘数据,处理数据并取得洞察力。

有许多风趣的免费和开源软件能够供给很好的机器学习功用,而无需编写(很多)代码。

另一方面,你能够考虑一些开箱即用的付费服务,例如Google AutoML、Azure Studio、Deep Cognition和Data Robot。

用于模型布置的开源机器学习东西

布置机器学习模型是最简略被忽视但重要的使命之一,它简直必定会在采访中呈现,所以你或许也很熟悉这个论题。

以下是一些结构,能够更轻松地将你的项目布置到实践国际的设备中。

  • MLFlow:MLFlow被规划用于运用任何机器学习库或算法,并办理整个生命周期,包含试验、重现性和机器学习模型的布置。

  • Apple的CoreML:CoreML是一个盛行的结构,它可用于将机器学习模型集成到你的iOS / Apple Watch / Apple TV / MacOS运用程序中。关于CoreML的最好的部分是你不需求有关神经网络或梦见蛇缠身-21 个有必要知道的机器学习开源东西!机器学习的广泛常识,双赢!

  • TensorFlow Lite:TensorFlow Lite是一组东西,可协助开发人员在移动设备(Android和iOS),嵌入式和物联网设备上运转TensorFlow模型。
  • TensorFlow.JS - TensorFlow.JS能够成为你在网络上布置机器学习模型的首选。它是一个开源库,可让你在阅读器中构建和练习机器学习模型。

适用于大数据的开源机器学习东西

大数据是一个研讨怎么剖析、体系地从数据会集提取信息,或许处理传统数据处理运用软件无法处理的太大或太梦见蛇缠身-21 个有必要知道的机器学习开源东西!杂乱的数据集的范畴。幻想一下,每天处理数百万条推文进行情感剖析。吊顶这是一项艰巨的使命,不是吗?

别忧虑!这里有一些东西能够协助你处理大数据。

  • Hadoop:运用大数据最重要和最相关的东西之一是Hadoop项目。Hadoop是一个结构,它答应运用简略的编程模型跨计算机集群分布式处理大型数据集。

  • Spark:Apache Spark被以为是Hadoop用于大数据运用程序的天然继承者。这个开源大数据东西的要害点在于它填补了Apache Hadoop在数据处理方面的空白。风趣的是,Spark能够处理批量数据和实时数据。
  • Neo4j:关于一切与数据相关的大问题,Hado梦见蛇缠身-21 个有必要知道的机器学习开源东西!op或许不是正确的挑选。例如,当你需求处理很多网络数据或图形相关问题(如交际网络或人口统计方式)时,图形数据库或许是最佳挑选。

用于计算机视觉,NLP和音频的开源机器学习东西

“假如咱们想要机器考虑,咱们需求教他们看。”——Fei-Fei Li博士的计算机视觉。

  • SimpleCV:假如你从事任何计算机视觉项目,有必要运用OpenCV。但你有遇到过SimpleCV吗?SimpleCV能够拜访几个高性能的计算机视觉库,如OpenCV——无需首要了解位深度、文件格局、颜色空间、缓冲区办理、特征值或矩阵与位图存储,这使计算机视觉变得简略。

  • Tesseract OCR:你是否运用过构思运用程序,经过运用智能手机的相机扫描文档或购物账单,或许仅仅经过给支票摄影就能够把钱存入银行账户?一切这些运用程序都称之为OCR或光学字符辨认软件。Tesseract便是这样一种OCR引擎,能够辨认100多种言语,也能够练习辨认其他言语。
  • Detectron:Detectron是Facebook AI Research的软件体系,它完成了最先进的物体检测算法,包含Mask R-CNN。它是用Python编写的,由Caffe2深度学习结构供给支撑。

  • StanfordNLP:StanfordNLP是一个Python天然言语剖析包,关于这个库的最好的部分便是它支撑超越70种人类言语!

  • BERT即服务:你们一切的NLP爱好者都会听说过BERT这一来自谷歌的突破性NLP架构,但你或许还没有遇到过这个十分有用的项目。Bert-as-a-service运用BERT作为语句编码器,并经过ZeroMQ将其作为服务保管,答应你仅用两行代码将语句映射到固定长度的表明方式。
  • Google Magenta:此库供给了用于处理源数据(主要是音乐和图画)的实用程序,运用此数据来练习机器学习模型,最终从这些模型生成新内容。
  • LibROSA:LibROSA是一个用于音乐和音频剖析的Python包。它供给了创立音乐信息检索体系所需的构建块。当咱们运用深度学习等语音到文本的运用程序时,它在音频信号预处理中被很多运用。

用于强化学习的开源东西

当谈到机器学习时,RL是最近的热门论题。强化学习(RL)的方针是培育能够与环境互动并处理杂乱使命的智能署理,完成机器人、自动驾驶轿车等范畴的实践运用。以下是一些对RL最有用的练习环境:

  • 谷歌研讨足球:谷歌研讨足球环境是一个新颖的RL环境,署理商的方针是把握国际上最受欢迎的运动——足球。这种环境为你供给了很多的操控来练习RL署理。
  • OpenAI Gym:Gym是一个用于开发和比较强化学习算法的东西包。它支撑教育署理从步行到玩乒乓球或弹球戏等游戏。鄙人面的gif图片中,你能够看到一个正在学习走路的机器人。

  • Unity ML署理:Unity机器学习署理东西包(ML-Agents)是一个开放源码Unity插件,能够将游戏和仿照作为练习智能署理的环境。经过一个简略易用的Python API,能够运用强化学习、仿照学习、神经进化或其他机器学习办法来练习agent。

  • Malmo项目:Malmo渠道是一个根据Minecraft构建的杂乱AI试验渠道,旨在支撑人工智能的基础研讨,由Microsoft开发。

最终指出

正如上面的一组东西能够显着看出,当咱们考梦见蛇缠身-21 个有必要知道的机器学习开源东西!虑数据科学和人工智能相关的项目时,开源是一条正确的路途。我或许仅仅触及了冰山一角,可是有许多东西可用于各种使命,使你作为数据科学家的日子更轻松,你只需求知道在哪里查找即可。

你以为哪些东西应该列在这个清单上?鄙人面写下你的独爱,以便社区了解!

原文:https://medium.com/analytics-vidhya/21-must-know-open-source-tools-for-machine-learning-you-probably-arent-using-but-should-f605b94d9b06

本文为 CSDN 翻译,转载请注明来历出处。