From ca396b569f4e758881b2b9f369f0cb7623cae8a0 Mon Sep 17 00:00:00 2001 From: Xingyu Wang Date: Wed, 13 Apr 2022 23:05:16 +0800 Subject: [PATCH] RP @lkxed https://linux.cn/article-14470-1.html --- ...7 Gitbase: Exploring Git repos with SQL.md | 47 +++++++++---------- 1 file changed, 23 insertions(+), 24 deletions(-) rename {translated/tech => published}/20181107 Gitbase: Exploring Git repos with SQL.md (58%) diff --git a/translated/tech/20181107 Gitbase: Exploring Git repos with SQL.md b/published/20181107 Gitbase: Exploring Git repos with SQL.md similarity index 58% rename from translated/tech/20181107 Gitbase: Exploring Git repos with SQL.md rename to published/20181107 Gitbase: Exploring Git repos with SQL.md index 64c65ee3f2..a8ab2cb36f 100644 --- a/translated/tech/20181107 Gitbase: Exploring Git repos with SQL.md +++ b/published/20181107 Gitbase: Exploring Git repos with SQL.md @@ -3,49 +3,50 @@ [#]: author: "Francesc Campoy https://opensource.com/users/francesc/" [#]: collector: "lkxed" [#]: translator: "lkxed" -[#]: reviewer: " " -[#]: publisher: " " -[#]: url: " " +[#]: reviewer: "wxy" +[#]: publisher: "wxy" +[#]: url: "https://linux.cn/article-14470-1.html" -Gitbase: 使用 SQL 探索 Git 仓库 +Gitbase:使用 SQL 探索 Git 仓库 ====== -Gitbase 是一个由 Go 驱动的开源项目,它使得我们可以在 Git 仓库上运行 SQL 查询。 -![][1] -图源:Jason Baker,遵循 CC BY-SA 4.0 国际协议。 + +> Gitbase 是一个由 Go 驱动的开源项目,它使得我们可以在 Git 仓库上运行 SQL 查询。 + +![](https://img.linux.net.cn/data/attachment/album/202204/13/230413ddcpm87p2bds18db.jpg) Git 已经成为了代码版本控制的事实标准。虽然 Git 已经很流行了,但想用它来对源代码仓库的历史和内容进行深度分析,仍然是一件复杂的事情。 另一方面,SQL 则是一个经过实际检验、适合查询大型代码库的的语言,毕竟 Spark 和 BigQuery 等项目都采用了 SQL 作为查询语言。 -因此,在 source{d},我们顺理成章地结合了这两种技术来创建 gitbase:一个用 SQL 对 git 仓库进行大规模分析的“代码即数据”解决方案。 +因此,在 source{d} 公司,我们顺理成章地结合了这两种技术来创建了 Gitbase:这是一个用 SQL 对 Git 仓库进行大规模分析的“代码即数据”解决方案。 [Gitbase][2] 是一个完全开源的项目,它站在一系列巨人的肩膀上,是它们使 Gitbase 的发展成为可能。本文旨在指出其中的主要部分。 ![][3] -[gitbase playground][4] 提供了一种可视化的方式来使用 gitbase。 +*[Gitbase 试验场][4] 提供了一种使用 Gitbase 的可视化方式。* ### 使用 Vitess 解析 SQL -Gitbase 把 SQL 作为用户接口。这意味着我们需要解析基于 MySQL 协议传输的 SQL 请求,并理解它们。幸运的是,我们在 YouTube 的朋友和他们的 [Vitess][5] 项目已经实现了这一点。Vitess 是一个数据库集群系统,用于 MySQL 的水平扩展。 +Gitbase 将 SQL 作为用户接口。这意味着我们需要解析基于 MySQL 协议传输的 SQL 请求,并理解它们。幸运的是,我们在 YouTube 的朋友和他们的 [Vitess][5] 项目已经实现了这一点。Vitess 是一个数据库集群系统,用于 MySQL 的水平扩展。 -我们直接截取一些重要的代码片段,并把它做成了一个[开源项目][6]。这个项目允许任何人在几分钟内编写一个 MySQL 服务器(正如我在 [justforfunc][7] 的专题:[CSVQL-用 SQL 服务 CSV][8]中所展示的那样)。 +我们直接截取一些重要的代码片段,并把它做成了一个 [开源项目][6]。这个项目允许任何人在几分钟内编写一个 MySQL 服务器(正如我在 [justforfunc][7] 的专题:[CSVQL - 用 SQL 处理 CSV][8] 中所展示的那样)。 -### 用 go-git 读取 git 储存库 +### 用 go-git 读取 Git 储存库 -当成功解析了一个请求,我们还需要读取数据集里的 git 仓库,才能够知道该如何回复它。为此,我们集成了 source{d} 最成功的仓库 [go-git][9]。Go-git 是一个高度可扩展的纯 Go 语言的 Git 实现。 +当成功解析了一个请求,我们还需要读取数据集里的 Git 仓库,才能够知道该如何回复它。为此,我们集成了 source{d} 最成功的仓库 [go-git][9]。go-git 是一个高度可扩展的纯 Go 语言的 Git 实现。 -这使得我们能够轻松地分析存储在磁盘上的源代码仓库,它们通常是 [siva][10] 文件(它也是一个 source{d} 的开源项目),或是直接使用 git clone 克隆的仓库。 +这使得我们能够轻松地分析以 [siva][10] 文件格式存储在磁盘上的源代码仓库(siva 也是一个 source{d} 的开源项目),或是直接使用 `git clone` 克隆的仓库。 -### 使用 enry 检测编程语言,使用 babelfish 解析文件 +### 使用 Enry 检测编程语言,使用 Babelfish 解析文件 -Gitbase 并没有将其分析能力局限于 git 历史记录上。它还使用我们的开源项目 [enry][11] 集成了语言检测功能,并使用 [babelfish][12] 实现了程序解析的功能。Babelfish 是一个用于通用源代码解析的自托管服务器,它可以将代码文件转化为通用抽象语法树(UAST)Abstract Syntax Trees。 +Gitbase 并没有将其分析能力局限于 Git 历史记录上。它还使用(显然也是)我们的开源项目 [Enry][11] 集成了语言检测功能,并使用 [Babelfish][12] 实现了程序解析的功能。Babelfish 是一个用于通用源代码解析的自托管服务器,它可以将代码文件转化为通用抽象语法树Universal Abstract Syntax Trees(UAST)。 -这两个功能在 gitbase 中被暴露为用户函数 `LANGUAGE` 和 `UAST`。结合使用两个函数,许多查询请求都成为了可能,比如“找到上个月修改次数最多的函数名称”。 +这两个功能在 Gitbase 中呈现为用户函数 `LANGUAGE` 和 `UAST`。结合使用两个函数,许多查询请求都成为了可能,比如“找到上个月修改次数最多的函数名称”。 ### 让它快速运行 -Gitbase 经常要分析非常大的数据集,比如公共 Git 档案,其中有来自 GitHub 的 3TB 源代码([公告][13])。为了做到这一点,每个 CPU 周期都很重要。 +Gitbase 经常要分析非常大的数据集,比如公共 Git 档案,其中有来自 GitHub 的 3TB 源代码(见 [公告][13])。为了做到这一点,每份 CPU 处理能力都很重要。 这就是为什么我们又集成了另外两个项目:Rubex 和 Pilosa。 @@ -59,18 +60,16 @@ Rubex 的高性能得归功于高度优化的 C 语言库 [Oniguruma][15],它 索引基本上是每个关系型数据库的众所周知的特性,但 Vitess 却没有实现索引,因为它不是真正需要。 -还好开源的 [Pilosa][17] 再一次拯救了我们,它是一个用 Go 实现的分布式位图索引,使得 gitbase 可以用于大规模的数据集。Pilosa 是一个开源的分布式位图索引,它极大地加快了对多个海量数据集的查询。 +还好开源的 [Pilosa][17] 再一次拯救了我们,它是一个用 Go 实现的分布式位图索引,使得 Gitbase 可以用于大规模的数据集。Pilosa 是开源的,它极大地加快了对多个海量数据集的查询。 ### 总结 -我想通过这篇博文,亲自感谢开源社区,是他们让我们在如此短的时间内创建了 gitbase,这是谁也没想到的。在 source{d},我们是开源的坚定信仰者,`github.com/src-d` 下的每一行代码(包括我们的 OKRs 和投资者委员会)都可以证明这一点。 +我想通过这篇博文,亲自感谢开源社区,是他们让我们在如此短的时间内创建了 Gitbase,这是谁也没想到的。在 source{d} 公司,我们是开源的坚定信仰者,`github.com/src-d` 下的每一行代码(包括我们的 OKR 和投资者委员会)都可以证明这一点。 -你想尝试一下 gitbase 吗?最快、最简单的方法就是使用 source{d} 引擎。从 `sourced.tech/engine` 下载它,只需一个命令就能让 gitbase 运行起来。 +你想尝试一下 Gitbase 吗?最快、最简单的方法就是使用 source{d} 引擎。从 `sourced.tech/engine` 下载它,只需一个命令就能让 Gitbase 运行起来。 想了解更多吗?请查看我在 [Go SF meetup][18] 的演讲录音。 -![][19] - 这篇文章 [最初发表在][20] Medium 上,经授权后在此重新发布。 -------------------------------------------------------------------------------- @@ -80,7 +79,7 @@ via: https://opensource.com/article/18/11/gitbase 作者:[Francesc Campoy][a] 选题:[lkxed][b] 译者:[lkxed](https://github.com/lkxed) -校对:[校对者ID](https://github.com/校对者ID) +校对:[wxy](https://github.com/wxy) 本文由 [LCTT](https://github.com/LCTT/TranslateProject) 原创编译,[Linux中国](https://linux.cn/) 荣誉推出