Merge pull request #28914 from wxy/20221206.3-️-A-data-scientist's-guide-to-open-source-community-analysis

RP:published/20221206.3 ️ A data scientist's guide to open source community analysis.md
This commit is contained in:
Xingyu.Wang 2023-03-19 15:53:22 +08:00 committed by GitHub
commit 4c7a6afccb
No known key found for this signature in database
GPG Key ID: 4AEE18F83AFDEB23

View File

@ -3,24 +3,28 @@
[#]: author: "Cali Dolfi https://opensource.com/users/cdolfi"
[#]: collector: "lkxed"
[#]: translator: "Chao-zhi"
[#]: reviewer: " "
[#]: publisher: " "
[#]: url: " "
[#]: reviewer: "wxy"
[#]: publisher: "wxy"
[#]: url: "https://linux.cn/article-15640-1.html"
数据科学家的开源社区分析指南
======
![][0]
> 研究一下这个框架,来建立你自己的开源项目的数据分析。
在数据分析的黄金时代,开源社区也不能免俗。大家都热衷于将一些华丽的数字放到演示幻灯片上,但如果你掌握了正确的分析方法,这些信息可以为你带来更大的价值。
或许你认为作为一名[数据科学家][1],我会告诉你数据分析和自动化能为你的社区决策提供信息。但实际上,情况恰恰相反。利用数据分析来建立你现有的开源社区知识,吸收其他的知识,并发现潜在的偏见和没有考虑的观点。你或许是实施社区活动的专家,而你那些同事则是代码方面的专家。当你们每个人都在自己的知识背景下开发可视化时,你们都可以从这些信息中受益。
或许你认为作为一名 [数据科学家][1],我会告诉你数据分析和自动化能为你的社区决策提供信息。但实际上,情况恰恰相反。利用数据分析来建你现有的开源社区知识,吸收其他的知识,并发现潜在的偏见和没有思考过的观点。你或许是实施社区活动的专家,而你那些同事则是代码方面的专家。当你们每个人都在自己的知识背景下将信息可视化时,你们都可以从这些信息中受益。
让我们来面对现实吧。每个人都有一千零一件事情要做,而且总感觉一天的时间永远不够用。如果要得到关于你的社区的答案需要几个小时,你就不可能有足够的精力去解决这些事情。但是,花时间创建一个全面发展的可视化项目,可以帮助你时刻掌握你所关心的社区的不同方面,这就将你从精疲力尽中解放了出来。
让我们来面对现实吧。每个人都有一千零一件事情要做,而且总感觉一天的时间永远不够用。如果几个小时才能得到你的社区的答案,你就不可能有足够的精力去解决这些事情。但是,花时间创建一个全面发展的可视化项目,可以帮助你时刻掌握你所关心的社区的不同方面,这就将你从精疲力尽中解放了出来。
随着“数据驱动”思维的盛行,围绕开源社区的信息宝库可能是一种祝福,也可能是一种诅咒。下面我将分享一些方法,告诉你如何从数据干草堆中挑出有价值的信息。
### 你的预期是什么?
当考虑一个指标时,首先要明确你的目的和需求。以下是几个可能涉及的概念:
当考虑一个指标时,首先要明确你想提供的观点。以下是几个可能涉及的概念:
**告知性和影响性的行动:** 你的社区是否存在某个领域尚未被理解?你是否已迈出第一步?你是否试图确定特定方向?你是否正在衡量现有倡议的效果?
@ -42,11 +46,11 @@
假设你开始进行分析,并且已经知道你将要研究的内容对你或你的社区是有用的。那么你该如何提高分析的价值呢?这里的想法是建立在“传统”的开源社区分析基础之上。假设你的数据表明,在项目的整个生命周期内,你共有 120 个贡献者。这是你可以放在幻灯片上的价值,但你不能从中做出决策。从仅有一个数字到获得洞见,逐步采取措施。例如,你可以从相同的数据中将贡献者分为活跃和流失的贡献者(那些已经有一段时间没有做出贡献的贡献者),以获得更深入的了解。
#### 场景 2社区活动影响测量
#### 场景 2社区活动影响测量
![目标和影响][3]
考虑聚会、会议或其他任何社区外联活动。你如何看待你的影响力和目标?这两个步骤实际上互相影响。一旦你确定了活动的目标,就要确定可以用什么来检测效果。这些信息有助于设定活动的目标。在活动开始时,很容易陷入模糊的计划而非具体的计划的陷阱中。
针对聚会、会议或其他任何社区外联活动,你如何看待你的影响力和目标?这两个步骤实际上互相影响。一旦你确定了活动的目标,就要确定可以用什么来检测效果。这些信息有助于设定活动的目标。在活动开始时,很容易陷入模糊的计划而非具体的计划的陷阱中。
#### 场景3形成新的影响分析区
@ -56,13 +60,13 @@
#### 第一步:分解关注区和视角
首先,想象一下魔法 8 球——你可以问任何问题,摇一摇,就能得到答案的玩具。考虑你的分析。如果你能立即得到任何答案,那会是什么?
首先,想象一下魔法 8 球——你可以问任何问题,摇一摇,就能得到答案的玩具。考虑你的分析领域。如果你能立即得到任何答案,那会是什么?
接下来,考虑数据。从你的魔法 8 球问题中,哪些数据源可能与问题或关注领域有关?
在数据背景下,哪些问题可以回答,让你更接近你提出的魔法 8 球问题?需要注意的是,如果你试图将所有的数据汇集在一起,你必须考虑到所做出的假设。
在数据背景下,哪些问题可以回答,让你更接近你提出的魔法 8 球问题?需要注意的是,如果你试图将所有的数据汇集在一起,你必须考虑到所做出的假设。
#### 第二步:将问题转化为度量标准
#### 第二步:将问题转化为指标
以下是第一步中每个子问题的处理过程:
@ -74,7 +78,7 @@
#### 第三步:分析实践
这一步是你开始处理你所创建的度量标准或可视化的影响的地方
这一步是你开始处理你所创建的指标或可视化的影响
首先要考虑的是,这个度量标准是否符合当前对社区的了解。
@ -83,7 +87,7 @@
一旦你确定你的分析足够稳定,可以开始在信息上实施社区倡议。当你正在进行分析以确定下一步最佳步骤时,你应该确定衡量倡议成功的具体方法。
现在,观察这些由你的度量标准提供信息的社区倡议。确定是否可以用你之前建立的成功衡量指标观察到影响。如果没有,可以考虑以下几点:
现在,观察这些由你的指标提供信息的社区倡议。确定是否可以用你之前建立的成功衡量指标观察到影响。如果没有,可以考虑以下几点:
- 你是否在衡量正确的事情?
- 倡议战略是否需要调整?
@ -104,7 +108,7 @@
这个问题的目的是先看看新的贡献者在做什么。
**数据:** GitHub上的首次贡献随时间推移的数据(问题、PR、评论等
**数据:** GitHub 上的首次贡献随时间推移的数据(议题、PR、评论等
![每季度首次贡献图表][5]
@ -121,16 +125,16 @@
**行动项目:**
- 给 "好的第一个问题 "贴上一致的标签,并将这些问题链接到贡献文档中。
- 给 “好的第一个问题” 贴上一致的标签,并将这些问题链接到贡献文档中。
- 在这些问题上添加一个 PR 伙伴。
**子问题 2** "我们的代码库真的依赖于路过的贡献者吗?"
**子问题 2** “我们的代码库真的依赖于路过的贡献者吗?”
**数据:** GitHub 的贡献数据。
![贡献者类型随时间变化的图表][7]
**可视化:** "贡献总额:按路过和重复贡献者的贡献进行细分。"
**可视化:** “贡献总额:按路过和重复贡献者的贡献进行细分。”
**根据这一信息可能采取的行动。**
@ -138,7 +142,7 @@
### 分析:吸取教训
数字和数据分析并不是“事实”它们可以支持任何观点。因此在处理数据时内部怀疑者应该非常积极并进行反复迭代以带来真正的价值。你不希望你的分析只是一个“yes man”因此花点时间退一步评估你所做的假设。
数字和数据分析并不是“事实”,它们可以支持任何观点。因此,在处理数据时,内部怀疑者应该非常积极,并进行反复迭代,以带来真正的价值。你不希望你的分析只是一个 “yes man”因此花点时间退一步评估你所做的假设。
如果一个指标只是指出了调查的方向,那也是一个巨大的胜利。你不可能看清或想到所有的事情,兔子洞可以是一个好事,对话的起点可以把你带到一个新的地方。
@ -178,7 +182,7 @@ via: https://opensource.com/article/22/12/data-scientists-guide-open-source-comm
作者:[Cali Dolfi][a]
选题:[lkxed][b]
译者:[Chao-zhi](https://github.com/Chao-zhi)
校对:[校对者ID](https://github.com/校对者ID)
校对:[wxy](https://github.com/wxy)
本文由 [LCTT](https://github.com/LCTT/TranslateProject) 原创编译,[Linux中国](https://linux.cn/) 荣誉推出
@ -199,3 +203,4 @@ via: https://opensource.com/article/22/12/data-scientists-guide-open-source-comm
[13]: https://www.redhat.com/en/resources/data-intensive-applications-hybrid-cloud-blueprint-detail?intcmp=7013a000002CxqkAAC
[14]: https://opensource.com/downloads/mariadb-mysql-cheat-sheet?intcmp=7013a000002CxqkAAC
[15]: https://opensource.com/tags/data-science?intcmp=7013a000002CxqkAAC
[0]: https://img.linux.net.cn/data/attachment/album/202303/19/155043lcx6bxqw5ci5gpgi.jpg