新聞熱線:0971-6263111 投稿信箱:cns0971@163.com
【法·歐洲時報網】中國初步建成大規模藏語數據資源庫
2024年10月04日 11:03
來源:中國新聞網
中新社西寧5月25日電 (記者 孫睿)記者25日從青海師范大學省部共建藏語智能信息處理及應用國家重點實驗室獲悉,該實驗室已初步建成600TF算力的智算平臺和面向多領域多用途的大規模藏語數據資源庫。
青海師范大學省部共建藏語智能信息處理及應用國家重點實驗室2021年2月經中國科技部批準建設,是中國唯一的藏語信息處理領域國家重點實驗室。實驗室擁有5000平方米的科研用房和1.5億元人民幣的專業研發設備。
該實驗室主任趙海興介紹,近年來,實驗室構建了藏文百科知識、新聞、經濟、文化藝術等多領域文本語料40G以上,藏語語音數據15000小時、各類文化資源近2萬件,規模達到1600GB,是目前國內外最大的基于國標的大型標注語料庫,對中國涉藏地區教育、語言研究以及社會文化發展起到積極推動作用。
同時,該實驗室還構建了大規模藏漢平行語料庫,并通過迭代式回譯策略等進行數據增強及質量評價,訓練了融合單語語言模型和注入雙語詞典信息的深度神經網絡翻譯模型,在新聞、法律等領域準確率達90%以上。
此外,該實驗室還搭建藏文文獻資源數字化協同工作平臺,構建文獻圖文對照數據150余萬文本行,復雜場景圖文資源220萬個,開展藏文印刷字體、復雜場景藏文區域檢測研究,自動檢測視頻幀中的文字區域,并將其分割成單個字符或行文本。利用深度學習對分割處理后的文本進行識別,實現了藏文文獻標準體和手寫體掃描識別系統、藏語視頻流復雜場景中的藏文識別。(完)
編輯:甘曉玲
本網站所刊載信息,不代表中新社和中新網觀點。 刊用本網站稿件,務經書面授權。
未經授權禁止轉載、摘編、復制及建立鏡像,違者將依法追究法律責任。
[網上傳播視聽節目許可證(0106168)] [京ICP證040655號] [
京公網安備 11010202009201號] [京ICP備05004340號-1] [互聯網宗教信息服務許可證:京(2022)0000118;京(2022)0000119]
違法和不良信息舉報電話:15699788000 舉報郵箱:jubao@chinanews.com.cn 舉報受理和處置管理辦法 總機:86-10-87826688
違法和不良信息舉報電話:15699788000 舉報郵箱:jubao@chinanews.com.cn 舉報受理和處置管理辦法 總機:86-10-87826688
Copyright © 1999-2023 chinanews.com. All Rights Reserved