谁在使用 scikit-learn?#


Scikit-learn 是摩根大通 Python 机器学习工具箱中不可或缺的一部分。它在银行的各个部门广泛用于分类、预测分析以及许多其他机器学习任务。其简洁的 API、广泛的算法和高质量的文档相结合,使得 scikit-learn 既易于上手又非常强大。

斯蒂芬·西蒙斯,副总裁,雅典娜研究,摩根大通

Spotify


Scikit-learn 提供了一个包含多种先进模型实现的工具箱,并使其易于集成到现有应用中。我们在 Spotify 的音乐推荐方面大量使用它,我认为这是迄今为止我见过的设计最好的机器学习包。

埃里克·伯恩哈德松,音乐发现与机器学习工程经理,Spotify

法国国家信息与自动化研究所


在法国国家信息与自动化研究所,我们使用 scikit-learn 支持许多团队的领先基础研究: Parietal 用于神经影像学, Lear 用于计算机视觉, Visages 用于医学图像分析, `Privatics

Inria Privatics 团队 <https://team.inria.fr/privatics>`_ 致力于安全研究。该项目是一个出色的工具,用于在学术环境中解决机器学习中的难题,因为它既高效又多功能,同时易于使用且文档齐全,非常适合研究生使用。

Gaël Varoquaux, Parietal 研究团队

betaworks#

Betaworks 是一个位于纽约的创业工作室,致力于构建新产品、发展公司并投资其他公司。在过去的8年里,我们推出了一些社交数据分析驱动的服务,如 Bitly、Chartbeat、digg 和 Scale Model。betaworks 的数据科学团队一直使用 Scikit-learn 来处理各种任务。从探索性分析到产品开发,它都是我们工具包中的重要组成部分。最近的应用包括 digg 的新视频推荐系统 和 Poncho 的 动态启发式子空间聚类

Gilad Lotan, 首席数据科学家

Hugging Face#

在 Hugging Face,我们使用自然语言处理和概率模型来生成有趣的对话式人工智能。尽管我们的一些 自然语言处理任务 使用了深度神经网络,如 从 Keras 到 PyTorch 理解情感,scikit-learn 仍然是

我们日常机器学习工作流程的核心。界面的易用性和可预测性,以及在你需要时提供的直接数学解释,是它的杀手级功能。我们在生产中使用了多种scikit-learn模型,它们在操作上也非常令人愉快。

Julien Chaumond, 首席技术官

Evernote#

构建分类器通常是一个迭代过程,包括探索数据、选择特征(被认为在某种程度上具有预测性的数据属性)、训练模型,最后评估它们。对于这些任务中的许多,我们依赖于优秀的scikit-learn Python包。

阅读更多

Mark Ayzenshtat, 增强智能副总裁

Télécom ParisTech#

在Télécom ParisTech,scikit-learn用于入门和高级机器学习课程的实践环节和家庭作业。这些课程面向本科生和硕士生。scikit-learn的巨大好处是其快速的学习曲线,这使得学生能够迅速开始处理有趣且激励人心的问题。

Alexandre Gramfort, 助理教授

Booking.com#

在Booking.com,我们使用机器学习算法来处理许多不同的应用,例如向客户推荐酒店和目的地、检测欺诈性预订或安排我们的客户服务代理。Scikit-learn是我们实现预测任务标准算法时使用的工具之一。它的API和文档非常出色,使用起来很方便。Scikit-learn的开发者们很好地将最先进的实现和新算法整合到包中。因此,Scikit-learn提供了广泛的算法访问,并允许我们轻松找到适合工作的正确工具。

Melanie Mueller, 数据科学家

AWeber#

Scikit-learn工具包对于AWeber的数据分析和管理团队来说是不可或缺的。它使我们能够完成一些如果没有时间或资源就无法实现的出色工作。文档非常优秀,允许新工程师快速评估并将许多不同的算法应用于我们的数据。在处理AWeber大量电子邮件内容时,文本特征提取工具非常有用。随机PCA实现以及流水线和特征联合功能,使我们能够高效可靠地开发复杂的机器学习算法。

任何对AWeber如何在生产环境中部署Scikit-learn感兴趣的人,都应该查看AWeber在PyData Boston的演讲。 Michael Becker 可在 mdbecker/pydata_2013 获取。

Michael Becker,软件工程师,数据分析与管理专家

Yhat#

一致的API、详尽的文档以及顶尖的实现使得scikit-learn成为我们在Python中最喜爱的机器学习包。scikit-learn使得在Python中进行高级分析变得对任何人来说都触手可及。在Yhat,我们使得将这些模型集成到你的生产应用中变得简单,从而消除了在生产分析工作中遇到的冗余开发时间。

Greg Lamp,联合创始人

Rangespan#

Python的scikit-learn工具包是Rangespan数据科学团队的核心工具。其大量且文档齐全的模型和算法使得我们的数据科学家团队能够快速原型化并迅速迭代,以找到解决我们学习问题的正确方案。我们发现scikit-learn不仅是原型设计的正确工具,其谨慎且经过良好测试的实现也给了我们在生产环境中运行scikit-learn模型的信心。

Jurgen Van Gael,数据科学总监

Birchbox#

在Birchbox,我们面临一系列典型的机器学习问题,

电子商务:产品推荐、用户聚类、库存预测、趋势检测等。Scikit-learn 让我们能够尝试多种模型,尤其是在新项目的探索阶段:数据可以以一致的方式传递;模型易于保存和重用;更新让我们了解模式发现研究社区的新进展。Scikit-learn 是我们团队的重要工具,以正确的语言正确地构建。

Thierry Bertin-Mahieux,数据科学家

Bestofmedia Group#

Scikit-learn 是我们 Bestofmedia 进行所有机器学习任务的首选工具包。我们利用它进行多种任务(例如,打击垃圾邮件、广告点击预测、各种排名模型),得益于其打包的各种先进算法实现。在实验室中,它加速了复杂管道的原型设计。在生产中,我可以证明它已经证明足够健壮和高效,可以部署在业务关键组件中。

Eustache Diemert,首席科学家

Change.org#

在 change.org,我们自动化使用 Scikit-learn 的 RandomForestClassifier 在我们的生产系统中,以推动每周向全球数百万用户发送的电子邮件定位。在实验室中,Scikit-learn 的易用性、性能以及所实现的算法多样性已被证明是无价的。

为我们提供了一个单一可靠的来源,以满足我们的机器学习需求。

Vijay Ramesh, Change.org 数据/科学领域的软件工程师

PHIMECA Engineering#

在 PHIMECA Engineering,我们使用 scikit-learn 估计器作为昂贵评估数值模型(主要是但不限于有限元机械模型)的替代品,以加速我们基于模拟的决策框架中涉及的密集后处理操作。Scikit-learn 的 fit/predict API 及其高效的交叉验证工具大大简化了选择最佳拟合估计器的任务。我们还使用 scikit-learn 在我们的培训课程中说明概念。尽管机器学习的理论复杂性明显,但学员们总是对 scikit-learn 的易用性印象深刻。

Vincent Dubourg, PHIMECA Engineering, 博士工程师

HowAboutWe#

在 HowAboutWe,尽管团队规模较小,scikit-learn 让我们能够实施广泛的机器学习技术,用于分析和生产。我们使用 scikit-learn 的分类算法来预测用户行为,使我们能够(例如)在用户刚加入我们网站时早期估计来自特定流量来源的潜在客户价值。此外,我们用户的个人资料主要由非结构化数据(对开放式问题的回答)组成,因此我们使用

scikit-learn的特征提取和降维工具将这些非结构化数据转化为我们的匹配系统输入。

Daniel Weitzenfeld,HowAboutWe的高级数据科学家

PeerIndex#

在PeerIndex,我们使用科学方法构建影响力图谱——一个独特的数据集,使我们能够识别谁真正具有影响力以及在何种情境下。为此,我们必须解决一系列机器学习和预测建模问题。Scikit-learn已成为我们开发原型和快速进展的主要工具。从预测缺失数据和分类推文到聚类社交媒体用户社区,scikit-learn在多种应用中被证明是有用的。其非常直观的界面和与其他Python工具的出色兼容性使其成为我们日常研究工作中不可或缺的工具。

Ferenc Huszar,Peerindex的高级数据科学家

DataRobot#

DataRobot正在构建下一代预测分析软件,以提高数据科学家的生产力,而scikit-learn是我们系统的重要组成部分。scikit-learn提供的多种机器学习技术与坚实实现的结合,使其成为一站式购物库,适用于机器学习。

在Python中。此外,其一致的API、经过充分测试的代码和宽松的许可允许我们在生产环境中使用它。Scikit-learn实际上为我们节省了数年的工作,否则我们将不得不自己完成这些工作,以将我们的产品推向市场。

杰里米·阿钦,CEO & 联合创始人,DataRobot Inc.

OkCupid#

我们在OkCupid使用scikit-learn来评估和改进我们的匹配系统。它拥有的功能范围,特别是预处理工具,意味着我们可以将其用于各种项目,并且它的性能足以处理我们需要筛选的数据量。文档也非常详尽,这使得库非常易于使用。

大卫·柯 - OkCupid高级数据科学家

Lovely#

在Lovely,我们努力提供最好的公寓市场,尊重我们的用户和房源。从理解用户行为、提高数据质量和检测欺诈,scikit-learn是我们收集洞察、预测建模和改进产品的常规工具。易于阅读的文档和直观的API架构使得机器学习对广泛的Python开发者来说既可探索又可访问。我不断推荐更多的开发者和科学家尝试scikit-learn。

西蒙·弗里德 - Lovely数据科学家,负责人

Data Publica#

Data Publica 为商业和营销团队构建了一个新的预测销售工具,称为 C-雷达。我们广泛使用 scikit-learn 来通过聚类构建客户细分,并根据过去的合作成功或失败来预测未来的客户。我们还通过 scikit-learn 及其机器学习算法实现,根据公司的网站沟通对其进行分类。最终,机器学习使得能够检测传统工具无法看到的弱信号。所有这些复杂的任务都得益于 scikit-learn 框架的出色质量,以简单直接的方式执行。

Guillaume Lebourgeois & Samuel Charron - Data Publica 的数据科学家

Machinalis#

Scikit-learn 是 Machinalis 所有机器学习项目的基石。它具有一致的 API,广泛的算法选择和大量的辅助工具来处理样板代码。我们已经在各种项目中使用它在生产环境中,包括点击率预测、 信息提取 ,甚至数羊!

事实上,我们使用得如此之多,以至于我们开始将我们的常见用例冻结为 Python 包,其中一些是开源的,比如 FeatureForge 。Scikit-learn 一句话:棒极了。

Rafael Carrascosa, 首席开发人员

../_images/machinalis.png

solido#

Scikit-learn 通过 Solido 正在推动摩尔定律的发展。Solido 创建了计算机辅助设计工具,这些工具被大多数排名前20的半导体公司和晶圆厂用于设计智能手机、汽车等产品中的尖端芯片。Scikit-learn 帮助 Solido 的算法进行罕见事件估计、最坏情况验证、优化等。在 Solido,我们特别喜欢 Scikit-learn 的高斯过程模型、大规模正则化线性回归和分类库。Scikit-learn 提高了我们的生产力,因为对于许多机器学习问题,我们不再需要“自己编写”代码。 这个 PyData 2014 演讲 有详细信息。

Trent McConaghy,创始人,Solido Design Automation Inc.

INFONEA#

我们利用 scikit-learn 进行快速原型设计和定制化的数据科学解决方案,这些解决方案基于我们的内存内业务智能软件 INFONEA®。作为一个文档齐全且全面的先进算法和流水线方法集合,scikit-learn 使我们能够提供灵活且可扩展的科学分析解决方案。因此,scikit-learn 在实现数据科学技术与自助式商业分析的强大集成方面具有极大的价值。

Thorsten Kranz,数据科学家,Coma Soft AG.

Dataiku#

我们的软件Data Science Studio(DSS)使用户能够创建结合了 ETL 与机器学习的数据服务。我们的机器学习模块集成了许多scikit-learn算法。scikit-learn库与DSS完美集成,因为它为几乎所有业务案例提供了算法。我们的目标是提供一个透明且灵活的工具,使优化构建数据服务、准备数据和在各种数据上训练机器学习算法的时间消耗方面变得更加容易。

Florian Douetteau, CEO, Dataiku

Otto Group#

在Otto Group,全球五大B2C在线零售商之一,我们正在使用scikit-learn进行日常工作的各个方面,从数据探索到机器学习应用的开发,再到这些服务的生产部署。它帮助我们解决了从电子商务到物流的机器学习问题。其一致的API使我们能够围绕它构建 Palladium REST-API框架 ,并持续交付基于scikit-learn的服务。

Christian Rammig, Head of Data Science, Otto Group

Zopa#

在Zopa,全球首家P2P借贷平台,我们广泛使用scikit-learn来运营业务并优化用户体验。它支持我们的机器学习模型,涉及信用风险、欺诈风险、市场营销和定价,并已用于发放至少10亿英镑的Zopa贷款。它文档齐全、功能强大且易于使用。我们感谢它提供的功能,以及让我们实现使命——让金钱变得简单和公平。

Vlasios Vasileiou, 数据科学负责人, Zopa

MARS#

Scikit-Learn是MARS机器学习生态系统的核心部分。无论是设计更好的宠物食品配方还是仔细分析我们的可可供应链,Scikit-Learn都被用作快速原型设计和生产工具。这使我们能够更好地理解和满足全球消费者的需求。Scikit-Learn丰富的工具集易于使用,并为我们的同事提供了他们每天面临的业务挑战所需的解决能力。

Michael Fitzke, 下一代技术高级领导者, Mars Inc.

BNP Paribas Cardif#

BNP Paribas Cardif在其生产中的多个机器学习模型中使用scikit-learn。自2015年以来,我们的内部开发人员和数据科学家社区一直在使用scikit-learn,原因有几个:其质量, 发展、文档和贡献治理,以及庞大的贡献社区规模。我们甚至明确提到在我们内部模型风险治理中使用scikit-learn的管道作为降低操作风险和过拟合风险的良好实践之一。为了支持开源软件开发,特别是scikit-learn项目,我们决定自2018年成立以来参与La Fondation Inria的scikit-learn联盟。

Sébastien Conort, 首席数据科学家, BNP Paribas Cardif