OrientDB ETL：如何跳过重复的顶点，但创建边缘

问题描述：

我正在创建一个通信图。
每条消息都有一个msgid，每个人都有一个userid。
我已经创建了消息顶点，现在我想创建用户顶点和将消息顶点连接到用户顶点的边。
用户可以获得多条消息（显然）。
我的文件包括：
MSGID，用户ID，（和其他一些信息，我会分配到边缘）OrientDB ETL：如何跳过重复的顶点，但创建边缘

是我遇到的isssue的是，在我的文件，我有重复的用户ID（因为用户可以得到多条消息），我不想用用户ID创建另一个顶点，所以我skipDuplicates。但如果我跳过重复的边缘也不会创建。我确实需要多条边到同一个用户顶点，因为每条边代表一条消息。

我如何保持用户顶点唯一但创建边缘？

我目前的ETL .json文件可以正常工作，但我上面已经详细说明了这一点。

{ 
"source": { "file": { "path": "msgs.txt" } }, 
    "extractor": { "row": {} }, 
    "transformers": [ 
    { "csv": {"separator": "\t"} }, 
     { "vertex": { "class": "user", "skipDuplicates": true } }, 
    { "edge": { "class": "sent_to", "joinFieldName": "msgid", "lookup":"message.id","direction": "in" } }, 
    "edgeFields": { "n": "${input.n}" } 


    ], 
    "loader": { 
    "orientdb": { 
     "dbURL": "remote:/localhost/databases/communication", 
     "dbType": "graph", 
     "classes": [ 
     {"name": "user", "extends": "V"}, 
     {"name": "message", "extends": "V"}, 
     {"name": "sent_to",  "extends": "E"} 
     ], "indexes": [ 
     {"class":"user", "fields":["id"], "type":"UNIQUE" } 
     ] 
    } 
    } 
}

答

好的，这是我做的，它似乎工作。
首先我创建了消息顶点（如上所述，在q中）。
然后我创建了用户顶点。
然后创建边缘，它们之间我跑的是有一个文件的以下ETL {用户ID，MSGID，...}

{ 

    "source": { "file": { "path": "msgs1.txt" } }, 
    "extractor": { "row": {} }, 
    "transformers": [ 
    { "csv": {"separator": "\t"} }, 
    { "merge": {"joinFieldName": "userid", "lookup": "user.id"} }, 
    { "vertex": { "class": "user", "skipDuplicates": true } }, 
    { "edge": { "class": "sent_to", 
       "joinFieldName": "msgid", 
       "lookup":"message.id", 
       "direction": "in", 
       "edgeFields": { "n": "${input.n}", "date": "${input.date}"} 
       } 
    } 

    ], 
    "loader": { 
    "orientdb": { 
     "dbURL": "remote:/localhost/databases/communication", 
     "dbType": "graph", 
     "classes": [ 
     {"name": "user", "extends": "V"}, 
     {"name": "message", "extends": "V"}, 
     {"name": "sent_to",  "extends": "E"} 
     ], 
     "indexes": [ 
     ] 
    } 
    } 
}

这创造了所有的边缘，即使有一个以上的边缘指向用户。
希望这会帮助别人

你能发表几行输入数据吗？ – Pete

OrientDB ETL：如何跳过重复的顶点，但创建边缘

相关推荐