久久综合久久美丽坚合_特级a毛片免费无码看_国产成人啪精品视频网站_87亚洲午夜福利网

心肺復蘇模型

從話語學角度看詞嵌入模型

從話語學角度看詞嵌入模型

發(fā)布日期:2022-11-10 作者:康為 點擊:

本文為 AI 研習社編譯的技術博客,原標題 :

Moving beyond the distributional model for word representation.

作家 | Tanay Gahlot

翻譯 | 喬叔叔

校對 | 醬番梨 整理 | 菠蘿妹

原文鏈接:

https://towardsdatascience.com/https-medium-com-tanaygahlot-moving-beyond-the-distributional-model-for-word-representation-b0823f1769f8

從話語學角度看詞嵌入模型


1.jpg


在任意1個基于機械學習的自然話語解決(NLP)流水線中,詞的向量化是此中典型的1個方法,由于咱們不可直接給計算機“喂單詞”。在詞的向量化流程中,咱們?yōu)?個單詞指定1個N維的向量,拿來表示它的詞義。結果,這成了解決流程中最為首要的1個方法之一,由于1個“壞的”表示會造成落敗并且為接下來的NLP任務帶來不愿看見的牽連。

在詞向量化的最常用的技術之一就是詞的散布式表示模型。它基于的1個如果是1個詞的意義可以從它所在的高低文中推理出去。大部份深度學習論文應用基于該散布式理論而來的詞向量,由于它們是“任務普適”(它們不是對于特定任務)況且“話語普適”(它們不是對于特定話語)。不幸的是,散布式方式并非是詞向量化任務的魔效兵器。在本博文中,咱們會指出這個方式的許多問題并供應許多潛在的處理計劃,以改進詞向量化的流程。


2.jpg


散布式表示模型有下列的問題,讓人感覺十分苦痛:

稀有詞:針對在語料中顯現(xiàn)頻率過低的詞,它們不能通過度布式表示學習獲得1個較好的表示。

多義混雜:它們將1個詞的一切詞義混成1個表示。比如,單詞“bank”,在英文中能夠指“河岸”或者是“金融機構(銀行)”。散布式模型卻將一切的這類詞義混合在1個表示中。

形式缺失:在表示學習的時候,它們并沒有參考1個單詞多種形式。例如,“evaluate”和“evaluates”擁有類似的意義,可是散布式表示模型卻將它們視為2個不同的單詞。(譯者注:在英語中,1個單詞也許有多種形式,特別是動詞,偶爾態(tài)、人稱、被動主動等相應的不同形式。在本例中evaluates是evaluate的第三人稱雙數(shù)的通常如今時的形式。)

幸運的是,為了解決這類問題,大家進行了十分全面的研發(fā)。大抵上,這類處理方法能夠劃為3個首要類型。咱們將會根據(jù)以下的次序一一簡介:

形式敏感嵌入

在詞嵌入中,將話語或性能束縛進行加強。

多詞義解決

形式敏感嵌入

這類技術在學習詞嵌入的時候,將詞的形式進行了參考。Fasttext就是這類技術的1個典型代表。它將1個單詞表示成了n-grams(n元模子)字符的匯總。比如單詞where就能夠表示成

在應用這類方式(下表的sisg)對許多詞匯形式充足的話語,例如德語(De)、法語(FR)、西班牙語(ES),俄語(RU)和捷克語(Cs),進行話語建模的時候,經(jīng)評價,相較于沒有應用預訓練詞向量的LSTM,并且應用了預訓練詞向量卻沒有有關詞根數(shù)據(jù)的LSTM模型(下表的sg),成效都有了改進。


3.jpg


況且,既然fasttext將單詞表示為n元字符(n-gram)的組合,因而它就能為那些語料庫中從來沒有顯現(xiàn)過的詞供應嵌入。在許多行業(yè)如生命科學行業(yè),因為詞匯表十分有限(長尾情況),語料中大部份的單詞都納入到未知類型中,該技術就顯得特別有用。

Morphfitting供應了此外1個技術選項拿來將詞的形式填寫到詞嵌入模型中。在這項工作中,他們用“相吸相斥”(Attract-Repel)方式來“后解決”(post-process)詞嵌入,該方式“聚焦”波折形式(通過詞的形態(tài)改變來表示有意思的句法數(shù)據(jù),例如動詞時態(tài),卻不變化詞義),而“排擠”派生形式(新形態(tài)的單詞顯現(xiàn)同時詞義也產(chǎn)生遷移改變)。在下一部份咱們會全面研討“相吸相斥”方式。


4.jpg


通過注入話語形式學的束縛,Morphfitting在SimLex和SimVerb2個信息集上的有關系數(shù)評價中都超越了下表給出的10個規(guī)范嵌入模型。


5.jpg


在詞嵌入中,將話語或性能束縛進行加強

此外一種詞空間定論的方式是在詞嵌入的后解決中進行話語/性能束縛。在上一節(jié)中咱們已然看見這種方式的1個例子—Morphfitting。在這一節(jié),咱們將會開拓一下Morphfitting中應用的定論詞嵌入的方式—相吸相斥法(Attract-Repel)。

相吸相斥法(Attract-Repel)是一類后解決技術,它依據(jù)話語束縛將預訓練的詞嵌入進行進一步定論。比如,在Morphfitting中,話語束縛是以兩類合集的形態(tài)來表示,再次給出表格2如下:

表格的上半部份是“相吸合集”(譯者注:由多個詞義相近的單詞對構成的合集),下半部份是“相斥合集”(譯者注:由多個詞義不同的單詞對構成的合集)。借用這類合集,1個迷你批次就生成了,它能夠拿來優(yōu)化以下的損失函數(shù): 

損失函數(shù)中的第一項相應的是相吸合集,第二項相應的是相斥合集。第三項則保留了散布式表示。況且,前面兩項也會引入負樣例,這是采取了PARAGRAM模型的主意。損失函數(shù)(又:本錢函數(shù))的前兩項由下式給出:

第三項由下式給出:

人們能夠用“相吸相斥”法注入用相吸相斥集來表示的話語束縛,例如“同義與反義”或者“波折形式與派生形式”。而對應地,那些不能借用話語束縛來表示的“類似性”或者“非類似性”,人們就不可進行詞嵌入定論了。比如,不同“治愈”型號的聯(lián)系,就不能用相吸相斥法來捕捉。為了順應如此的性能聯(lián)系,咱們簡介此外一類方式叫做“性能改裝”(Functional Retrofitting)。

在性能改裝方式中,聯(lián)系的語義學習與詞空間的學習是同步進行的。而獲取這一點的方式,首要是將相吸相斥法中的點積更換成1個優(yōu)化學習流程得來的函數(shù)。

上式中的第一項保留了散布式嵌入,第二項和第三項則引入了常識圖譜中的正向聯(lián)系空間(E+)與負向聯(lián)系空間(E-)(譯者注:負向聯(lián)系空間是沒有在常識圖譜中表明的聯(lián)系的合集),最終一項在學習函數(shù)中施行正則化性能。

通過在國際體系醫(yī)學術語集(SNOMED-CT)之上預判2個實體(i,j)之間的聯(lián)系(r)而做的鏈路預判,性能改裝方式的語義學習成效獲得了驗證。四種不同型號的性能改裝方式分別對四種聯(lián)系( “擁有發(fā)掘部位Has Finding Site”、 “擁有病理流程Has Pathological Process”、 “誘因Due to”、 “病癥Cause of”)進行了預判,其結果如下表所示:


6.jpg


更多對于性能改裝的數(shù)據(jù),你能夠考慮一篇由Christopher Potts寫的優(yōu)質(zhì)blog。假設你須要性能或話語束縛來進一步定論你的詞嵌入,請試用Linked Open Data Cloud上優(yōu)質(zhì)的、擁有互聯(lián)聯(lián)系的本體匯編。

上述的方式刷新了各次匯報的詞嵌入。假設你對定論全部詞空間感興致,你能夠用反向傳遞來如此做,正如Ivan Vuli?和Nikola Mrk?i?在EMNLP 2018論文中倡議的那樣(Adversarial Propagation and Zero-Shot Cross-Lingual Transfer of Word Vector Specialization)。


7.jpg


多詞義解決

最終一種詞嵌入定論技術是參考詞的多義性,或者是參考詞的高低文,或者是借用詞義庫。讓咱們先以前一種方式開啟 – ELMO。

在ELMO中,詞是基于高低文而被向量化的。因而為了可以用向量表示1個詞,人們也須要指定某個詞顯現(xiàn)的高低文。與那些沒有參考高低文的向量化技術相較為,這個方式已然證實是十分有效的。下例較為了ELMO(biLM)和Glove的較近鄰。


8.jpg


ELMO背后的根本意識是得出雙向話語模型(BiLM)逐個旁邊層的內(nèi)部狀況加權匯總并且最終一層的字符卷積網(wǎng)絡表示。

ELMO的詞嵌入在3個下游任務SQuAD、SNLI和SRL中進行了測驗,相較于基準它有了明顯的改善。


9.jpg


更多對于ELMO的數(shù)據(jù),請考慮這篇AllenNLP寫的博文。假設你想從散布式詞表示中應用詞匯資源來壓縮語義,你能夠用DECONF。在這個方式中,Mohammad Taher Pilehvar提出了一類體制來應用以下的優(yōu)化規(guī)范,進而從散布式嵌入中壓縮語義嵌入:

上式中,第一項保留了語義散布表示的近似,第二項會將詞義嵌入向產(chǎn)生偏移的詞義推得愈加挨近許多。這個流程能夠很清楚地用下圖來描繪。


10.jpg


偏移詞集是用1個定制的Page Rank算法基于1個詞匯術語(借用詞匯資源創(chuàng)立而來)的語義網(wǎng)絡計算而來的。

咱們應用4個單詞類似度基準方式分別做了皮爾森有關有關性和斯皮爾曼有關性評價,DECONF在絕大多數(shù)任務中都獲得了最超前的結果,如下表所示:


11.jpg


論斷

假設如處在沒有充足訓練信息來重新學習詞嵌入的景況,我高度舉薦應用上面提及的詞表示的方式來獲得許多百分比的改進。對于本話題更深入的研討,我高度舉薦Ivan Vuli?在ESSLLI 2018中Word vector specialisation的課程。

要想持續(xù)查閱該篇文章有關鏈接和考慮文獻?

長按鏈接點擊翻開或點擊【從話語學角度看詞嵌入模型】:

https://ai.yanxishe.com/page/TextTranslation/1181

AI研習社每天刷新精彩內(nèi)容,觀看更多精彩內(nèi)容:

這5種計算機視覺技術,更新你的世界觀遷移學習:怎樣將預訓練CNN當做特點提煉器新人必讀:深度學習是什么?它的工作原理是什么?Python頂級方法:用一行代碼減小一半內(nèi)存占用

等你來譯:雷鋒網(wǎng)雷鋒網(wǎng)雷鋒網(wǎng)

預訓練模型及其運用 一文帶你讀懂線性分類器 (Python)3D人臉解決工具face3d 讓你的電腦具有“視力”,用卷積神經(jīng)網(wǎng)絡就能夠!



本文網(wǎng)址:http://m.veggoos.com/news/1863.html

相關標簽:體系醫(yī)學術語集

最近瀏覽:

相關產(chǎn)品:

相關新聞:

在線客服
分享