123,123,123

6.1.1 命名實體識別研究的定量分析

具體研究數(shù)據(jù)的搜集與處理如下:在國外分析方面,所采集的數(shù)據(jù)來源于Web of ScienceTM核心合集數(shù)據(jù)庫,檢索時間截止到2019年9月25日,以TS=(“named entity recognition” OR “named entity identification”)進行檢索,共獲取文獻1 671篇。在國內(nèi)分析方面...[繼續(xù)閱讀]

知識挖掘的平行句法語料庫

字?jǐn)?shù)： 1946

9.2.3 余弦距離計算問句相似度

借助Python的gensim模塊,計算tfidf的函數(shù),我們將分詞且去除停用詞后的問句向量化,通過公式9-7的余弦距離來表征兩個向量之間的相似度。計算出的余弦值越接近1,就表明兩個問句向量的夾角越接近0度,也就是兩個向量越相似。通過這種...[繼續(xù)閱讀]

知識挖掘的平行句法語料庫

字?jǐn)?shù)： 211

6.3.2 分析古白史書姓名的分布情況

將古文人名識別的最優(yōu)模型用于古籍古文部分的人名識別,并且統(tǒng)計不同古籍中識別出的人名詞頻及其排序,結(jié)果見表6-26。由表6-26可知:《漢書》整體篇幅最大,語料本身篇幅最大,因此識別出的人名相對而言是最多的,占《漢書》篇幅的...[繼續(xù)閱讀]

知識挖掘的平行句法語料庫

字?jǐn)?shù)： 965

4.1.1 自動分詞研究的定量研究

在上述對自動分詞所涉及的研究領(lǐng)域進行分析的基礎(chǔ)上,本研究制定了與之相關(guān)的檢索詞:英文主要包含Chinese Word Segmentation、 Chinese segmentation、the Chinese phrase Separation和Automatic word segmentation;漢語的檢索詞為中文分詞、文本分詞和自動...[繼續(xù)閱讀]

知識挖掘的平行句法語料庫

字?jǐn)?shù)： 2700

4.3.1 深度學(xué)習(xí)模型及其原理

(1) LSTM模型循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)工作時一個重要的優(yōu)點在于:能夠在輸入和輸出序列之間的映射過程中利用上下文相關(guān)信息。但常規(guī)的RNN存在的一個問題是無法解決“長期依賴”(Long-term Dependency)問題,即有用信息和預(yù)測點相隔較遠(yuǎn)。以詞...[繼續(xù)閱讀]

知識挖掘的平行句法語料庫

字?jǐn)?shù)： 2182

8.5 小結(jié)

文中基于支持向量機、條件隨機場和雙向長短時記憶神經(jīng)網(wǎng)絡(luò)進行了先秦典籍問句的自動分類研究,其中特征詞是利用TF-IDF算法獲得。語料庫中共包含1 200條問句,按照十折交叉的方式訓(xùn)練和在測試集上進行開放測試,除了支持向量機的...[繼續(xù)閱讀]

知識挖掘的平行句法語料庫

字?jǐn)?shù)： 251

4.2 自動分詞研究概述

基于自動分詞的基本概念,結(jié)合自動分詞技術(shù)目前最常見的三類算法,根據(jù)對相關(guān)探究所涉及的研究內(nèi)容,本部分?jǐn)M從基于詞典的分詞方法——機械匹配分詞、基于統(tǒng)計的分詞方法——最大概率分詞、基于人工智能技術(shù)——模擬分詞這...[繼續(xù)閱讀]

知識挖掘的平行句法語料庫

字?jǐn)?shù)： 134

第1章引言

中國歷史典籍浩如煙海,在歷史發(fā)展的長河中賦予了中華民族特有的個性和民族身份感。對歷史典籍中的優(yōu)秀文化進行深度挖掘,把這些優(yōu)秀的歷史文化介紹給世界,是促進世界對中國的了解和接受,實現(xiàn)中外文化交流,達(dá)到世界文化融合...[繼續(xù)閱讀]

知識挖掘的平行句法語料庫

字?jǐn)?shù)： 541

9.4 小結(jié)

結(jié)合已構(gòu)建的典籍平行語料庫和所構(gòu)建的相應(yīng)分詞、詞性、實體和短語標(biāo)注模型,融合知識圖譜的相應(yīng)方法和技術(shù),本章構(gòu)建了典籍自動問答系統(tǒng)。所構(gòu)建的典籍問答系統(tǒng)涵蓋了實體知識抽取、知識圖譜構(gòu)建和相應(yīng)具體語義知識點的呈...[繼續(xù)閱讀]

知識挖掘的平行句法語料庫

字?jǐn)?shù)： 159

6.2.2 實驗過程

實驗利用CRF模型、Bi-LSTM模型和Bi-LSTM-CRF模型三種模型,基于《史記》預(yù)先處理過的語料訓(xùn)練出姓名實體標(biāo)注的模型,然后用這個模型,對后續(xù)沒有標(biāo)注的史書,包括《三國志》《漢書》《后漢書》,完成實體標(biāo)注。同樣地,現(xiàn)代漢語是基于...[繼續(xù)閱讀]

知識挖掘的平行句法語料庫

字?jǐn)?shù)： 5888

6.1.1 命名實體識別研究的定量分析

9.2.3 余弦距離計算問句相似度

6.3.2 分析古白史書姓名的分布情況

4.1.1 自動分詞研究的定量研究

4.3.1 深度學(xué)習(xí)模型及其原理

8.5 小結(jié)

4.2 自動分詞研究概述

第1章 引言

9.4 小結(jié)

6.2.2 實驗過程

第1章引言