久久亚洲国产精品视频,中国AV片,最近中文字幕免费大全,国产亚洲精品久久久999功能介绍,欧美色女人

金融情報(bào)局網(wǎng)

搜狗獲全球口語(yǔ)翻譯大賽冠軍 成機(jī)器翻譯標(biāo)桿

當(dāng)前位置:金融情報(bào)局網(wǎng)>資訊 > 頭條 > 正文  2018-11-13 13:40:31 來(lái)源:TechWeb

11月7日,在2018IWSLT(International Workshop on Spoken Language Translation)全球頂級(jí)口語(yǔ)機(jī)器翻譯評(píng)測(cè)大賽上,搜狗憑借BLEU(BLEU是機(jī)器翻譯自動(dòng)評(píng)價(jià)方法,其數(shù)值越大意味著越準(zhǔn)確)值28.09的成績(jī)奪得冠軍,超過(guò)第二名1.6個(gè)BLEU。在如此重量級(jí)賽事中斬獲冠軍足以凸顯搜狗在口語(yǔ)機(jī)器翻譯領(lǐng)域的領(lǐng)先地位。

IWSLT作為全球最具影響力的口語(yǔ)機(jī)器翻譯評(píng)測(cè)比賽,今年是第15屆,共有10支隊(duì)伍參賽。除了全球領(lǐng)先的學(xué)校、科研機(jī)構(gòu),今年也有包括美國(guó)APPTEK、國(guó)內(nèi)科大訊飛、阿里巴巴在內(nèi)的“大廠”參賽。

TechWeb近日和搜狗參賽核心成員進(jìn)行了近距離溝通,從中或許可以窺見(jiàn)搜狗機(jī)器翻譯能力快速突破的訣竅。

兩年兩項(xiàng)領(lǐng)域奪冠 成機(jī)器翻譯標(biāo)桿

在機(jī)器翻譯領(lǐng)域,這已不是搜狗第一次獲得冠軍。

在去年的2017WMT(Workshop on Machine Translation)機(jī)器翻譯頂級(jí)評(píng)測(cè)大賽上,搜狗就獲得中英和英中翻譯雙向冠軍,其機(jī)器翻譯的準(zhǔn)確率和速度受到業(yè)界矚目。

搜狗機(jī)器翻譯負(fù)責(zé)人王宇光介紹,本屆IWSLT2018評(píng)測(cè)比賽中,考評(píng)的是將英語(yǔ)演講語(yǔ)音翻譯成對(duì)應(yīng)的德語(yǔ)文本,難度系數(shù)更高。

IWSLT2018大賽共分了2大賽道,其一是Baseline Model(基線模型賽道),這是業(yè)內(nèi)最主流最實(shí)用的語(yǔ)音翻譯應(yīng)用技術(shù)。另一賽道是End-to-End(端到端賽道),為本屆大賽新增設(shè)賽道。

baseline模型對(duì)應(yīng)的語(yǔ)音翻譯方案,包含語(yǔ)音識(shí)別、機(jī)器翻譯兩大模塊,采用多步流水線設(shè)計(jì),即語(yǔ)音信號(hào)先輸入語(yǔ)音識(shí)別系統(tǒng)得到源語(yǔ)言的識(shí)別文本,然后再將識(shí)別文本送入機(jī)器翻譯系統(tǒng)輸出目標(biāo)語(yǔ)言的對(duì)應(yīng)譯文。

End-to-End模型則是輸入語(yǔ)音,基于深度神經(jīng)網(wǎng)絡(luò)模型直接輸出譯文,并不會(huì)產(chǎn)生源語(yǔ)言的識(shí)別中間結(jié)果。

搜狗參加的是baseline模型賽道比拼,并最終奪得冠軍。

從比賽結(jié)果BLEU數(shù)據(jù)來(lái)看,搜狗的BLEU最高,達(dá)到28.09。第二名是科大訊飛BLEU26.47,相差1.6個(gè)BLEU。搜狗語(yǔ)音技術(shù)負(fù)責(zé)人陳偉表示,從BLEU上來(lái)看二者差距已經(jīng)比較明顯,這種差距從用戶層面上已經(jīng)是可感知程度。

新增賽道End-to-End模型賽道的最高BLEU僅為19.4,與baseline模型結(jié)果相差甚遠(yuǎn),End-to-End模型離能實(shí)際商用解決用戶翻譯需求還有很大差距。

多模型融合 細(xì)節(jié)打磨成制勝法寶

王宇光介紹,IWSLT201大賽,搜狗共投入近17人的團(tuán)隊(duì),耗時(shí)近3個(gè)月時(shí)間打磨整合聲學(xué)模型、機(jī)器翻譯、語(yǔ)音增強(qiáng)、語(yǔ)言模型、解碼器等領(lǐng)域技術(shù)能力。

搜狗語(yǔ)音技術(shù)負(fù)責(zé)人陳偉表示,“這次IWSLT評(píng)測(cè)數(shù)據(jù)體系是真實(shí)場(chǎng)景下的,而且又涉及到跨語(yǔ)言(英德)的現(xiàn)象,檢驗(yàn)了我們能力,也證明我們?cè)诓煌Z(yǔ)種之間的遷移能力。”

陳偉介紹,在baseline模型的語(yǔ)音識(shí)別、機(jī)器翻譯兩大模塊方面,從技術(shù)實(shí)驗(yàn)上看,在語(yǔ)言識(shí)別上,目前搜狗和訊飛水平基本持平,在文本翻譯上搜狗做的更好。但是,他也強(qiáng)調(diào)“做好語(yǔ)音翻譯這件事,除了單拼語(yǔ)音識(shí)別、單拼翻譯以外,主要還是拼細(xì)節(jié)。”

在IWSLT201大賽競(jìng)技中,陳偉透露,為了確??谡Z(yǔ)翻譯準(zhǔn)確率更好,無(wú)論是語(yǔ)音識(shí)別還是機(jī)器翻譯,都采用了多個(gè)不同模型融合去做,包括不同的語(yǔ)料、時(shí)間點(diǎn)、數(shù)據(jù)、特征等。每個(gè)模型優(yōu)勢(shì)不同,多個(gè)模型做磨合,讓多個(gè)專家一起做決策,這樣能保證準(zhǔn)確率有進(jìn)一步的提升。僅語(yǔ)音識(shí)別方面,搜狗團(tuán)隊(duì)就用了用包括TDNN、BiLSTM、Deep-CNN在內(nèi)的多個(gè)模型融合。

語(yǔ)音識(shí)別場(chǎng)景往往存在很多問(wèn)題,如演講者口語(yǔ)化現(xiàn)象、現(xiàn)場(chǎng)噪聲問(wèn)題,翻譯方面有選詞、一詞多義問(wèn)題。怎么去應(yīng)對(duì)這些問(wèn)題,很多是在細(xì)節(jié)上打磨。除了把語(yǔ)音識(shí)別和機(jī)器翻譯做好,還需要解決語(yǔ)音翻譯結(jié)合部分的工作,如語(yǔ)音順順滑、斷句等等工作。

此外,搜狗已經(jīng)向大眾推出了翻譯機(jī)、同傳等產(chǎn)品,搜狗同傳產(chǎn)品在網(wǎng)球公開(kāi)賽、游泳世界杯等多場(chǎng)景下進(jìn)行了實(shí)踐使用。這些來(lái)源于實(shí)際產(chǎn)品的經(jīng)驗(yàn)和用戶反饋,也幫助搜狗語(yǔ)音翻譯技術(shù)不斷迭代突破。目前在噪音相對(duì)小的情景下,搜狗語(yǔ)音識(shí)別準(zhǔn)確率可達(dá)95%,以5分制評(píng)價(jià),機(jī)器翻譯能維持在4分左右。在陳偉看來(lái),這些都成為搜狗口語(yǔ)翻譯冠軍實(shí)力的注解。

加速語(yǔ)音翻譯技術(shù)商業(yè)化落地

基于搜狗語(yǔ)音翻譯實(shí)力,目前搜狗打造的同傳、旅行翻譯狗、錄音翻譯筆等產(chǎn)品已經(jīng)落地多個(gè)場(chǎng)景,并不斷迭代升級(jí)。

搜狗同傳目前已支持過(guò)很多科技大會(huì),具備了很強(qiáng)的科技屬性?,F(xiàn)在開(kāi)始嘗試在網(wǎng)球、游泳比賽、專業(yè)學(xué)術(shù)會(huì)議等領(lǐng)域做同傳適配,未來(lái)將向更多領(lǐng)域拓展。

陳偉表示,盡管語(yǔ)音翻譯技術(shù)已經(jīng)有了突破性發(fā)展,但是和成熟的人工同傳相比還有很大差距。預(yù)計(jì)到2020年左右,機(jī)器同傳的水平可以達(dá)到一般水平速記的程度。目前搜狗同傳希望能夠更好地配合人、幫助人,并不是替代人。

此外,陳偉透露后續(xù)會(huì)有多款圍繞語(yǔ)音翻譯技術(shù)的硬件產(chǎn)品發(fā)布,搜狗在語(yǔ)音合成技術(shù)方面近期也會(huì)有新的產(chǎn)品發(fā)布。

關(guān)鍵詞: 搜狗 口語(yǔ)翻譯

相關(guān)內(nèi)容