Add bfs benchmark on pokec dataset

Reviewers: ipaljak, mferencevic Reviewed By: ipaljak, mferencevic Subscribers: pullbot Differential Revision: https://phabricator.memgraph.io/D1533
2018-08-10 14:35:43 +02:00 · 2018-08-10 14:35:43 +02:00 · 158f97206d
commit 158f97206d
parent cd3210fb9b
9 changed files with 188 additions and 11 deletions
--- a/tests/macro_benchmark/clients.py
+++ b/tests/macro_benchmark/clients.py
@ -78,11 +78,12 @@ class QueryClient:
 class LongRunningClient:
-    def __init__(self, args, default_num_workers):
+    def __init__(self, args, default_num_workers, workload):
        self.log = logging.getLogger("LongRunningClient")
        self.client = jail.get_process()
        set_cpus("client-cpu-ids", self.client, args)
        self.default_num_workers = default_num_workers
        self.workload = workload
    # TODO: This is quite similar to __call__ method of QueryClient. Remove
    # duplication.
@ -114,7 +115,9 @@ class LongRunningClient:
        client_args = ["--port", database.args.port,
                       "--num-workers", str(num_workers),
                       "--output", output,
-                       "--duration", str(duration)]
+                       "--duration", str(duration),
                       "--db", database.name,
                       "--scenario", self.workload]
        return_code = self.client.run_and_wait(
            client, client_args, timeout=600, stdin=config_path)
--- a/tests/macro_benchmark/clients/bfs_pokec_client.cpp
+++ b/tests/macro_benchmark/clients/bfs_pokec_client.cpp
@ -0,0 +1,122 @@
 #include <array>
 #include <chrono>
 #include <fstream>
 #include <iostream>
 #include <queue>
 #include <random>
 #include <sstream>
 #include <unordered_map>
 #include <unordered_set>
 #include <vector>
 #include <gflags/gflags.h>
 #include <glog/logging.h>
 #include <json/json.hpp>
 #include "io/network/utils.hpp"
 #include "utils/algorithm.hpp"
 #include "utils/timer.hpp"
 #include "long_running_common.hpp"
 using communication::bolt::Edge;
 using communication::bolt::Value;
 using communication::bolt::Vertex;
 class BfsPokecClient : public TestClient {
 public:
  BfsPokecClient(int id, const std::string &db)
      : TestClient(), rg_(id), db_(db) {
    auto result = Execute("MATCH (n:User) RETURN count(1)", {}, "NumNodes");
    CHECK(result) << "Read-only query should not fail";
    num_nodes_ = result->records[0][0].ValueInt();
  }
 private:
  std::mt19937 rg_;
  std::string db_;
  int num_nodes_;
  int RandomId() {
    std::uniform_int_distribution<int64_t> dist(1, num_nodes_);
    auto id = dist(rg_);
    return id;
  }
  void BfsWithDestinationNode() {
    auto start = RandomId();
    auto end = RandomId();
    while (start == end) {
      end = RandomId();
    }
    if (FLAGS_db == "memgraph") {
      auto result = Execute(
          "MATCH p = (n:User {id: $start})-[*bfs..15]->(m:User {id: $end}) "
          "RETURN nodes(p) AS path LIMIT 1",
          {{"start", start}, {"end", end}}, "Bfs");
      CHECK(result) << "Read-only query should not fail!";
    } else if (FLAGS_db == "neo4j") {
      auto result = Execute(
          "MATCH p = shortestPath("
          "(n:User {id: $start})-[*..15]->(m:User {id: $end}))"
          "RETURN [x in nodes(p) | x.id] AS path;",
          {{"start", start}, {"end", end}}, "Bfs");
      CHECK(result) << "Read-only query should not fail!";
    }
  }
  void BfsWithoutDestinationNode() {
    auto start = RandomId();
    if (FLAGS_db == "memgraph") {
      auto result = Execute(
          "MATCH p = (n:User {id: $start})-[*bfs..15]->(m:User) WHERE m != n "
          "RETURN nodes(p) AS path",
          {{"start", start}}, "Bfs");
      CHECK(result) << "Read-only query should not fail!";
    } else {
      auto result = Execute(
          "MATCH p = shortestPath("
          "(n:User {id: $start})-[*..15]->(m:User)) WHERE m <> n "
          "RETURN [x in nodes(p) | x.id] AS path;",
          {{"start", start}}, "Bfs");
      CHECK(result) << "Read-only query should not fail!";
    }
  }
 public:
  virtual void Step() override {
    if (FLAGS_scenario == "with_destination_node") {
      BfsWithDestinationNode();
      return;
    }
    if (FLAGS_scenario == "without_destination_node") {
      BfsWithoutDestinationNode();
      return;
    }
    LOG(FATAL) << "Should not get here: unknown scenario!";
  }
 };
 int main(int argc, char **argv) {
  gflags::ParseCommandLineFlags(&argc, &argv, true);
  google::InitGoogleLogging(argv[0]);
  communication::Init();
  Endpoint endpoint(FLAGS_address, FLAGS_port);
  ClientContext context(FLAGS_use_ssl);
  Client client(&context);
  if (!client.Connect(endpoint, FLAGS_username, FLAGS_password)) {
    LOG(FATAL) << "Couldn't connect to " << endpoint;
  }
  std::vector<std::unique_ptr<TestClient>> clients;
  for (auto i = 0; i < FLAGS_num_workers; ++i) {
    clients.emplace_back(std::make_unique<BfsPokecClient>(i, "memgraph"));
  }
  RunMultithreadedTest(clients);
  return 0;
 }
--- a/tests/macro_benchmark/clients/long_running_common.hpp
+++ b/tests/macro_benchmark/clients/long_running_common.hpp
@ -22,6 +22,7 @@
 const int MAX_RETRIES = 30;
 DEFINE_string(db, "", "Database queries are executed on.");
 DEFINE_string(address, "127.0.0.1", "Server address");
 DEFINE_int32(port, 7687, "Server port");
 DEFINE_int32(num_workers, 1, "Number of workers");
@ -35,6 +36,7 @@ DEFINE_string(group, "unknown", "Test group name");
 DEFINE_string(scenario, "unknown", "Test scenario name");
 auto &executed_queries = stats::GetCounter("executed_queries");
 auto &executed_steps = stats::GetCounter("executed_steps");
 auto &serialization_errors = stats::GetCounter("serialization_errors");
 class TestClient {
@ -59,6 +61,7 @@ class TestClient {
    runner_thread_ = std::thread([&] {
      while (keep_running_) {
        Step();
        executed_steps.Bump();
      }
    });
  }
@ -185,6 +188,7 @@ void RunMultithreadedTest(std::vector<std::unique_ptr<TestClient>> &clients) {
    }
    out << "{\"num_executed_queries\": " << executed_queries.Value() << ", "
        << "\"num_executed_steps\": " << executed_steps.Value() << ", "
        << "\"elapsed_time\": " << timer.Elapsed().count()
        << ", \"queries\": [";
    utils::PrintIterable(
--- a/tests/macro_benchmark/databases.py
+++ b/tests/macro_benchmark/databases.py
@ -40,6 +40,7 @@ class Memgraph:
        self.config = config
        self.num_workers = num_workers
        self.database_bin = jail.get_process()
        self.name = "memgraph"
        set_cpus("database-cpu-ids", self.database_bin, args)
    def start(self):
@ -90,6 +91,7 @@ class Neo:
        self.args, _ = argp.parse_known_args(args)
        self.config = config
        self.database_bin = jail.get_process()
        self.name = "neo4j"
        set_cpus("database-cpu-ids", self.database_bin, args)
    def start(self):
--- a/tests/macro_benchmark/groups/bfs_pokec/config.json
+++ b/tests/macro_benchmark/groups/bfs_pokec/config.json
@ -0,0 +1,4 @@
 {
    "duration": 30,
    "client": "bfs_pokec_client"
 }
--- a/tests/macro_benchmark/groups/bfs_pokec/download_dataset
+++ b/tests/macro_benchmark/groups/bfs_pokec/download_dataset
@ -0,0 +1,6 @@
 #!/bin/bash -e
 working_dir="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"
 cd ${working_dir}
 wget -nv -O pokec_small.setup.cypher http://deps.memgraph.io/pokec_small.setup.cypher
--- a/tests/macro_benchmark/groups/bfs_pokec/run.json
+++ b/tests/macro_benchmark/groups/bfs_pokec/run.json
@ -0,0 +1 @@
 {}
--- a/tests/macro_benchmark/long_running_suite.py
+++ b/tests/macro_benchmark/long_running_suite.py
@ -34,34 +34,38 @@ class LongRunningSuite:
        runner.stop()
        measurements = []
-        summary_format = "{:>15} {:>22}\n"
+        summary_format = "{:>15} {:>22} {:>22}\n"
        self.summary = summary_format.format(
-                "elapsed_time", "num_executed_queries")
+                "elapsed_time", "num_executed_queries", "num_executed_steps")
        for result in results:
            self.summary += summary_format.format(
-                    result["elapsed_time"], result["num_executed_queries"])
+                    result["elapsed_time"], result["num_executed_queries"],
                    result["num_executed_steps"])
            measurements.append({
                "target": "throughput",
                "time": result["elapsed_time"],
                "value": result["num_executed_queries"],
                "steps": result["num_executed_steps"],
                "unit": "number of executed queries",
                "type": "throughput"})
-        self.summary += "\n\nThroughtput: " + str(measurements[-1]["value"])
+        self.summary += "\n\nThroughput: " + str(measurements[-1]["value"])
        self.summary += "\nExecuted steps: " + str(measurements[-1]["steps"])
        return measurements
    def runners(self):
        return {"MemgraphRunner": MemgraphRunner, "NeoRunner": NeoRunner}
    def groups(self):
-        return ["pokec", "card_fraud"]
+        return ["pokec", "card_fraud", "bfs_pokec"]
 class _LongRunningRunner:
-    def __init__(self, args, database, num_client_workers):
+    def __init__(self, args, database, num_client_workers, workload):
        self.log = logging.getLogger("_LongRunningRunner")
        self.database = database
        self.query_client = QueryClient(args, num_client_workers)
-        self.long_running_client = LongRunningClient(args, num_client_workers)
+        self.long_running_client = LongRunningClient(args, num_client_workers,
                                                     workload)
    def start(self):
        self.database.start()
@ -93,6 +97,9 @@ class MemgraphRunner(_LongRunningRunner):
                          help="Number of workers")
        argp.add_argument("--num-client-workers", type=int, default=24,
                          help="Number of clients")
        argp.add_argument("--workload", type=str, default="",
                          help="Type of client workload. Sets \
                          scenario flag for 'TestClient'")
        self.args, remaining_args = argp.parse_known_args(args)
        assert not APOLLO or self.args.num_database_workers, \
            "--num-database-workers is obligatory flag on apollo"
@ -101,7 +108,8 @@ class MemgraphRunner(_LongRunningRunner):
        database = Memgraph(remaining_args, self.args.runner_config,
                            self.args.num_database_workers)
        super(MemgraphRunner, self).__init__(
-                remaining_args, database, self.args.num_client_workers)
+                remaining_args, database, self.args.num_client_workers,
                self.args.workload)
 class NeoRunner(_LongRunningRunner):
@ -115,9 +123,13 @@ class NeoRunner(_LongRunningRunner):
                          help="Path to neo config file")
        argp.add_argument("--num-client-workers", type=int, default=24,
                          help="Number of clients")
        argp.add_argument("--workload", type=str, default="",
                          help="Type of client workload. Sets \
                          scenario flag for 'TestClient'")
        self.args, remaining_args = argp.parse_known_args(args)
        assert not APOLLO or self.args.num_client_workers, \
            "--client-num-clients is obligatory flag on apollo"
        database = Neo(remaining_args, self.args.runner_config)
        super(NeoRunner, self).__init__(
-                remaining_args, database, self.args.num_client_workers)
+                remaining_args, database, self.args.num_client_workers,
                self.args.workload)
--- a/tests/macro_benchmark/run_bfs_pokec
+++ b/tests/macro_benchmark/run_bfs_pokec
@ -0,0 +1,23 @@
 #!/bin/bash -e
 script_dir="$( cd "$( dirname "${BASH_SOURCE[0]}" )" && pwd )"
 # Run bfs pokec bench (download dataset, run neo and memgraph, plot the results).
 cd ${script_dir}
 mkdir -p .results/bfs_pokec/
 ${script_dir}/groups/bfs_pokec/download_dataset
 ./harness LongRunningSuite MemgraphRunner --groups bfs_pokec --workload with_destination_node
 mv .harness_summary ${script_dir}/.results/bfs_pokec/memgraph_bfs_1.summary
 ./harness LongRunningSuite NeoRunner --groups bfs_pokec --workload with_destination_node
 mv .harness_summary ${script_dir}/.results/bfs_pokec/neo4j_bfs_1.summary
 ./harness LongRunningSuite MemgraphRunner --groups bfs_pokec --workload without_destination_node
 mv .harness_summary ${script_dir}/.results/bfs_pokec/memgraph_bfs_2.summary
 ./harness LongRunningSuite NeoRunner --groups bfs_pokec --workload without_destination_node
 mv .harness_summary ${script_dir}/.results/bfs_pokec/neo4j_bfs_2.summary