這篇“如何用Python實(shí)現(xiàn)一個(gè)論文降重工具”文章的知識(shí)點(diǎn)大部分人都不太理解,所以小編給大家總結(jié)了以下內(nèi)容,內(nèi)容詳細(xì),步驟清晰,具有一定的借鑒價(jià)值,希望大家閱讀完這篇文章能有所收獲,下面我們一起來(lái)看看這篇“如何用Python實(shí)現(xiàn)一個(gè)論文降重工具”文章吧。
西峰ssl適用于網(wǎng)站、小程序/APP、API接口等需要進(jìn)行數(shù)據(jù)傳輸應(yīng)用場(chǎng)景,ssl證書(shū)未來(lái)市場(chǎng)廣闊!成為成都創(chuàng)新互聯(lián)公司的ssl證書(shū)銷(xiāo)售渠道,可以享受市場(chǎng)價(jià)格4-6折優(yōu)惠!如果有意向歡迎電話(huà)聯(lián)系或者加微信:13518219792(備注:SSL證書(shū)合作)期待與您的合作!
首先需要輸入appid以及key,這些可以在百度翻譯開(kāi)放平臺(tái)申請(qǐng)一個(gè)賬號(hào),可以免費(fèi)申請(qǐng)一個(gè)賬號(hào)。接著將需要進(jìn)行降重的文本內(nèi)容復(fù)制到相應(yīng)的輸入框內(nèi),點(diǎn)擊開(kāi)始按鈕,即可輸出不同但意思相近的語(yǔ)句,即達(dá)到降重去重的作用。點(diǎn)擊復(fù)制按鈕便可以將得到的新文本復(fù)制到剪貼板上,點(diǎn)擊清楚按鈕可以重新輸入需要降重的文本,并且循環(huán)往復(fù)地進(jìn)行。

論文查重的粒度是句子,兩個(gè)句子的相似度主要取決于句子包含哪些詞,以及詞在句子中的位置。句子相似度只是文字上的對(duì)比,不考慮語(yǔ)義上的相近。
正因如此,我們可以采取的措施便是變換句子結(jié)構(gòu),使用近似詞替換。
為了完成這些句子的自動(dòng)替換,從而達(dá)到降重的目的,這里很容易便想到利用不同語(yǔ)種之間的互相轉(zhuǎn)換來(lái)生成新文本。比如在本工具中,我采用了中文→英文→韓文→中文的策略,你也可以采取更長(zhǎng)的轉(zhuǎn)換路徑,但那樣似乎會(huì)在很大程度上降低文本的可讀性。
語(yǔ)句的翻譯我采用了百度翻譯開(kāi)放平臺(tái)的接口,簡(jiǎn)單地申請(qǐng)之后就可以獲取每個(gè)月200萬(wàn)的免費(fèi)字符翻譯權(quán)限。
此API的接入方式略微有些麻煩,需要生成簽名sign并且拼接完整的url。
def translate(q,lan_from,lan_to):
url = 'http://api.fanyi.baidu.com/api/trans/vip/translate'
salt = random.randint(1, 65536)
sign = hashlib.md5((str(appid)+str(q)+str(salt)+str(key)).encode('utf-8')).hexdigest()
params = {
'from' :lan_from,
'to' :lan_to,
'salt' : salt,
'sign' : sign,
'appid' : appid,
'q': q
}
r = requests.get(url,params=params)
txt = r.json()
if txt.get('trans_result', -1) == -1:
print('ERROR Code:{}'.format(txt))
return q
return txt['trans_result'][0]['dst']以上就是關(guān)于“如何用Python實(shí)現(xiàn)一個(gè)論文降重工具”這篇文章的內(nèi)容,相信大家都有了一定的了解,希望小編分享的內(nèi)容對(duì)大家有幫助,若想了解更多相關(guān)的知識(shí)內(nèi)容,請(qǐng)關(guān)注創(chuàng)新互聯(lián)行業(yè)資訊頻道。
分享題目:如何用Python實(shí)現(xiàn)一個(gè)論文降重工具
標(biāo)題網(wǎng)址:http://www.chinadenli.net/article2/iphsic.html
成都網(wǎng)站建設(shè)公司_創(chuàng)新互聯(lián),為您提供外貿(mào)網(wǎng)站建設(shè)、做網(wǎng)站、品牌網(wǎng)站建設(shè)、ChatGPT、網(wǎng)站改版、電子商務(wù)
聲明:本網(wǎng)站發(fā)布的內(nèi)容(圖片、視頻和文字)以用戶(hù)投稿、用戶(hù)轉(zhuǎn)載內(nèi)容為主,如果涉及侵權(quán)請(qǐng)盡快告知,我們將會(huì)在第一時(shí)間刪除。文章觀點(diǎn)不代表本網(wǎng)站立場(chǎng),如需處理請(qǐng)聯(lián)系客服。電話(huà):028-86922220;郵箱:631063699@qq.com。內(nèi)容未經(jīng)允許不得轉(zhuǎn)載,或轉(zhuǎn)載時(shí)需注明來(lái)源: 創(chuàng)新互聯(lián)