欧美一区二区三区老妇人-欧美做爰猛烈大尺度电-99久久夜色精品国产亚洲a-亚洲福利视频一区二区

如何使用Spark分析拉勾網(wǎng)招聘信息

這篇文章主要為大家展示了“如何使用Spark分析拉勾網(wǎng)招聘信息”,內容簡而易懂,條理清晰,希望能夠幫助大家解決疑惑,下面讓小編帶領大家一起研究并學習一下“如何使用Spark分析拉勾網(wǎng)招聘信息”這篇文章吧。

創(chuàng)新互聯(lián)建站是一家專注于成都做網(wǎng)站、網(wǎng)站制作與策劃設計,臨海網(wǎng)站建設哪家好?創(chuàng)新互聯(lián)建站做網(wǎng)站,專注于網(wǎng)站建設十載,網(wǎng)設計領域的專業(yè)建站公司;建站業(yè)務涵蓋:臨海等地區(qū)。臨海做網(wǎng)站價格咨詢:18980820575

如果用傳統(tǒng)編程語言工具?

假設我們從數(shù)據(jù)的采集,存儲到數(shù)據(jù)的讀取與使用,都是使用傳統(tǒng)的語言工具,比如nodejs.

我們如果想知道到底有不同的薪水段有多少招聘職位并從多到少排序,我們可能需要:

  1. 新建對象,存儲各個公司的數(shù)據(jù);

  2. 循環(huán)讀取數(shù)據(jù),豐富各個公司的數(shù)據(jù);

  3. 以薪水為分組,記錄各個公司各個職位的信息;

  4. 以招聘數(shù)量為標準排序;

步驟,還算簡單.暫且不提數(shù)據(jù)集再大些時,內存是極有可能吃不消;但是第2,3步的邏輯細節(jié),就需要不少代碼判斷,比如如何循環(huán)讀取文件數(shù)據(jù)?如果文件名命名是不規(guī)律的呢?如果文件數(shù)據(jù)是損壞的不規(guī)律數(shù)據(jù)呢?文件數(shù)據(jù)的json,并不是一個直接可用的職位數(shù)組,json結構轉換的操作,邏輯上對你來說好實現(xiàn)嗎?

誠然,用編程語言,沒有什么做不了的,只是時間問題;既然談到了時間,如果有另外一種明顯快的多的方式,你會不用嗎?

使用Spark進行分析

使用Spark實現(xiàn)上述同樣的邏輯.以下操作,基于交互編程工具Zeppelin:

1.讀取數(shù)據(jù)
val job = sqlContext.read.json("jobs")
job.registerTempTable("job")
job.printSchema()

如何使用Spark分析拉勾網(wǎng)招聘信息

2.獲取各個薪水段職位數(shù)量,并排序
%sql
SELECT  postionCol.salary,COUNT(postionCol.salary) salary_count
FROM job
LATERAL VIEW explode(content.positionResult.result) positionTable AS postionCol
WHERE content.positionResult.queryAnalysisInfo.positionName="ios" 
GROUP BY postionCol.salary
ORDER BY salary_count  DESC

如何使用Spark分析拉勾網(wǎng)招聘信息

真的可以直接使用類似于SQL的語法,進行半結構數(shù)據(jù)的復雜查詢,不知道各位看官,看完有何感想?

如果你的SQL功底,不是特別好,我的建議是:有空多看看文檔,有需求時先打英文關鍵詞google

幾個你可能感興趣的數(shù)據(jù)的sparkSQL示例查詢

送給有需要的童鞋:

按公司名顯示某職位的招聘數(shù)量
%sql
SELECT  postionCol.companyFullName,COUNT(postionCol.companyFullName) postition_count
FROM job
LATERAL VIEW explode(content.positionResult.result) positionTable AS postionCol
WHERE content.positionResult.queryAnalysisInfo.positionName="ios" 
GROUP BY postionCol.companyFullName
ORDER BY postition_count  DESC

如何使用Spark分析拉勾網(wǎng)招聘信息

顯示某一職位對工作年限的要求
%sql
SELECT  postionCol.workYear,COUNT(postionCol.workYear) workYears
FROM job
LATERAL VIEW explode(content.positionResult.result) positionTable AS postionCol
WHERE content.positionResult.queryAnalysisInfo.positionName="ios" 
GROUP BY postionCol.workYear
ORDER BY workYears  DESC

如何使用Spark分析拉勾網(wǎng)招聘信息

顯示某一職位對學歷的要求
%sql
SELECT  postionCol.education,COUNT(postionCol.education) education_count
FROM job
LATERAL VIEW explode(content.positionResult.result) positionTable AS postionCol
WHERE content.positionResult.queryAnalysisInfo.positionName="ios" 
GROUP BY postionCol.education
ORDER BY education_count  DESC

如何使用Spark分析拉勾網(wǎng)招聘信息

顯示某一職位各個公司的規(guī)模
%sql
SELECT  postionCol.companySize,COUNT(postionCol.companySize) company_size_ount
FROM job
LATERAL VIEW explode(content.positionResult.result) positionTable AS postionCol
WHERE content.positionResult.queryAnalysisInfo.positionName="ios" 
GROUP BY postionCol.companySize
ORDER BY company_size_ount  DESC

如何使用Spark分析拉勾網(wǎng)招聘信息

以上是“如何使用Spark分析拉勾網(wǎng)招聘信息”這篇文章的所有內容,感謝各位的閱讀!相信大家都有了一定的了解,希望分享的內容對大家有所幫助,如果還想學習更多知識,歡迎關注創(chuàng)新互聯(lián)行業(yè)資訊頻道!

文章標題:如何使用Spark分析拉勾網(wǎng)招聘信息
轉載注明:http://www.chinadenli.net/article14/pejdde.html

成都網(wǎng)站建設公司_創(chuàng)新互聯(lián),為您提供關鍵詞優(yōu)化搜索引擎優(yōu)化網(wǎng)站設計ChatGPT手機網(wǎng)站建設營銷型網(wǎng)站建設

廣告

聲明:本網(wǎng)站發(fā)布的內容(圖片、視頻和文字)以用戶投稿、用戶轉載內容為主,如果涉及侵權請盡快告知,我們將會在第一時間刪除。文章觀點不代表本網(wǎng)站立場,如需處理請聯(lián)系客服。電話:028-86922220;郵箱:631063699@qq.com。內容未經允許不得轉載,或轉載時需注明來源: 創(chuàng)新互聯(lián)

h5響應式網(wǎng)站建設