這篇文章給大家分享的是有關(guān)數(shù)據(jù)庫(kù)中怎么使用batch-import工具向neo4j中導(dǎo)入海量數(shù)據(jù)的內(nèi)容。小編覺(jué)得挺實(shí)用的,因此分享給大家做個(gè)參考,一起跟隨小編過(guò)來(lái)看看吧。
泉港網(wǎng)站制作公司哪家好,找創(chuàng)新互聯(lián)公司!從網(wǎng)頁(yè)設(shè)計(jì)、網(wǎng)站建設(shè)、微信開(kāi)發(fā)、APP開(kāi)發(fā)、成都響應(yīng)式網(wǎng)站建設(shè)公司等網(wǎng)站項(xiàng)目制作,到程序開(kāi)發(fā),運(yùn)營(yíng)維護(hù)。創(chuàng)新互聯(lián)公司成立于2013年到現(xiàn)在10年的時(shí)間,我們擁有了豐富的建站經(jīng)驗(yàn)和運(yùn)維經(jīng)驗(yàn),來(lái)保證我們的工作的順利進(jìn)行。專注于網(wǎng)站建設(shè)就選創(chuàng)新互聯(lián)公司。
1、batch-import原始項(xiàng)目地址:https://github.com/jexp/batch-import
這個(gè)工具是neo4j的作者之一Michael Hunger所編寫,是在neo4j自帶批量導(dǎo)入工具基礎(chǔ)之上做的進(jìn)一步優(yōu)化,但是它在導(dǎo)入.gz壓縮文件時(shí),會(huì)出現(xiàn)關(guān)系無(wú)法導(dǎo)入的情況,所以如果要使用.gz壓縮包進(jìn)行導(dǎo)入,請(qǐng)使用我修改過(guò)的版本:https://github.com/mo9527/batch-import
2、環(huán)境準(zhǔn)備
jdk:7以上
內(nèi)存:8G以上,導(dǎo)入數(shù)據(jù)多的話會(huì)非常消耗內(nèi)存,我自己導(dǎo)入的是將近1.5億節(jié)點(diǎn),3億關(guān)系,用的是32G內(nèi)存
3、導(dǎo)入步驟
a)從github上clone下代碼,并使用maven進(jìn)行打包,打完包后的jar文件,與項(xiàng)目本身的依賴jar一起放到lib文件夾下,batch.properties文件和執(zhí)行導(dǎo)入的腳本放在lib同級(jí)目錄下,***的目錄結(jié)構(gòu)如下圖:

ps:file文件夾是我自己將要導(dǎo)入的csv文件和.gz壓縮包。
b)組裝csv文件
說(shuō)起這一步,可能需要你們根據(jù)自己的實(shí)際業(yè)務(wù)需求,手動(dòng)寫代碼導(dǎo)csv文件了,這里我只講一下csv文件格式一些要點(diǎn):
1)、節(jié)點(diǎn)csv文件
節(jié)點(diǎn)csv文件的***列是固定的,列值為此節(jié)點(diǎn)的label名稱,第二列是index,它的列頭是id:string:indexName 這種格式,解釋一下,id是這一列的property名字,可以根據(jù)需要自己命名,string為字段的數(shù)據(jù)類型,indexName是neo4j數(shù)據(jù)庫(kù)中將要導(dǎo)入的索引名稱,我自己的文件格式如下:

然后,后面的列就是節(jié)點(diǎn)的property了,沒(méi)什么特別的要求
2)、關(guān)系csv文件
先看下我的關(guān)系csv文件:

關(guān)系的csv文件前兩列要特別注意,***列是關(guān)系的起始節(jié)點(diǎn),第二列是關(guān)系的結(jié)束節(jié)點(diǎn),第三列是關(guān)系類型,后面的列是關(guān)系的property,可以隨意了。他github上的說(shuō)明沒(méi)有說(shuō)出一些注意點(diǎn),這里要特別標(biāo)明:
***列的起始節(jié)點(diǎn)的列頭,也就是id:string:buyerId這個(gè)東西,這個(gè)玩意一定要和節(jié)點(diǎn)csv文件(上圖)中定義的一模一樣,第二列也是如此,要和結(jié)束節(jié)點(diǎn)的csv文件里的一樣,不然他會(huì)找不到對(duì)應(yīng)的關(guān)系。
3)、修改batch.properties文件
主要修改兩個(gè)地方,
如果是在現(xiàn)有的neo4j數(shù)據(jù)庫(kù)中進(jìn)行導(dǎo)入,請(qǐng)?jiān)O(shè)置:
batch_import.keep_db=true
將節(jié)點(diǎn)csv文件中所有的索引名稱加入到文件中,例如上面這個(gè)節(jié)點(diǎn)csv文件中的索引名稱是buyerId,那就在文件中加入batch_import.node_index.buyerId=exact
以下是我本人的配置文件:

4、導(dǎo)入
linux和win環(huán)境的導(dǎo)入都差不多,只不過(guò)執(zhí)行的腳本不一樣,這里以win環(huán)境為例。
文件都準(zhǔn)備好了,現(xiàn)在開(kāi)始導(dǎo)入了。
打開(kāi)cmd,cd到導(dǎo)入腳本的目錄,也就是import.bat所在目錄,執(zhí)行命令:
import.bat test.db node.csv rel.csv
解釋一下命令的幾個(gè)參數(shù):***個(gè)參數(shù)是數(shù)據(jù)庫(kù)的目錄,可以絕對(duì)路徑指定到任意位置,第二個(gè)參數(shù)是節(jié)點(diǎn)csv文件,多個(gè)csv文件用逗號(hào)分隔,如果是壓縮包,一定要注意,這里有個(gè)坑,不能把所有類型的node都放到一個(gè)壓縮包中,一定要每個(gè)類型的node分開(kāi)壓縮,不然它只會(huì)導(dǎo)入***個(gè)類型的node節(jié)點(diǎn),同理,關(guān)系的壓縮包也要分開(kāi)壓縮,然后導(dǎo)入時(shí)用逗號(hào)分隔.gz文件。
好了,如果你的csv文件沒(méi)有問(wèn)題,內(nèi)存足夠用的話,現(xiàn)在就開(kāi)始等待吧。
如果想修改導(dǎo)入工具的Heap大小,可以修改腳本文件中的 set HEAP=4G

溫馨提示:如果節(jié)點(diǎn)文件中有中文的話,導(dǎo)入會(huì)非常慢的,除非你內(nèi)存有128G,我有一個(gè)節(jié)點(diǎn)文件,里面只有一列是中文,而且中文最長(zhǎng)不超過(guò)4個(gè)漢字,2000多萬(wàn)記錄導(dǎo)了2個(gè)小時(shí),注意我是32G內(nèi)存,其他4000多萬(wàn)的節(jié)點(diǎn),沒(méi)有漢字的,基本上不超過(guò)2分鐘。
感謝各位的閱讀!關(guān)于“數(shù)據(jù)庫(kù)中怎么使用batch-import工具向neo4j中導(dǎo)入海量數(shù)據(jù)”這篇文章就分享到這里了,希望以上內(nèi)容可以對(duì)大家有一定的幫助,讓大家可以學(xué)到更多知識(shí),如果覺(jué)得文章不錯(cuò),可以把它分享出去讓更多的人看到吧!
網(wǎng)站名稱:數(shù)據(jù)庫(kù)中怎么使用batch-import工具向neo4j中導(dǎo)入海量數(shù)據(jù)
文章路徑:http://www.chinadenli.net/article10/piidgo.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供虛擬主機(jī)、面包屑導(dǎo)航、微信小程序、微信公眾號(hào)、全網(wǎng)營(yíng)銷推廣、品牌網(wǎng)站制作
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶投稿、用戶轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)