成人毛片100部免费看_亚洲中文字幕无码专区_国产精品视频网站在线观看_欧美成人高潮一二区在线看_18禁免费观看网站_熟妇人妻va精品中文字幕 _国产视频一区二区三区在线播放_99视频在线免费_日韩中文字幕三区_免费看欧美黑人毛片_国产成人在线免费看_国产欧美在线一区

中國西藏網 > 即時新聞 > 時政

大模型發展亟需高質量“教材”相伴

發布時間:2024-01-19 10:29:00來源: 科技日報

  科技日報記者 羅云鵬

  1月5日,美國人工智能公司OpenAI表示,正在與數十家出版商洽談達成文章授權協議,以獲取內容來訓練其人工智能模型。2023年12月27日,《紐約時報》起訴OpenAI和微軟公司,指控這兩家公司未經許可使用其數百萬篇文章訓練人工智能模型。而早在2023年3月,就有消息顯示谷歌Bard模型的部分訓練數據來源于ChatGPT。

  這些事件劍指同一個問題——大模型高質量語料短缺。“對于從頭開始訓練的模型,語料短缺會在非常大的程度上限制大模型發展。”近日,哈爾濱工業大學(深圳)計算機科學與技術學院教授邵睿在接受科技日報記者采訪時說:“增加語料對于提升大模型能力的邊際效益正在減弱,高質量語料的缺乏正日益成為限制大模型發展的瓶頸。”

  大模型訓練語料短缺問題嚴重

  科技部新一代人工智能發展研究中心2023年發布的《中國人工智能大模型地圖研究報告》顯示,從全球已發布的大模型數量來看,中國和美國大幅領先,占全球總數的80%以上。

  雖然大模型發展如火如荼,但大模型高質量語料短缺已成為全球共性問題。公開資料顯示,大模型對數據供給要求極高。比如,訓練GPT-4和Gemini Ultra大概需要4萬億至8萬億個單詞。麻省理工學院等高校研究人員預測,到2026年之前,機器學習數據集可能會耗盡所有可用的高質量語料數據。研究機構EpochAI亦公開表示,最早在2024年,人類就可能會陷入訓練數據荒,屆時全世界的高質量訓練數據都將面臨枯竭。OpenAI也公開表達過對數據告急的擔憂。

  值得注意的是,當前大模型數據集主要為英文。中文語料面臨的短缺問題更加嚴峻。

  中國工程院院士、鵬城實驗室主任高文曾公開表示,全球通用的50億大模型數據訓練集里,中文語料占比僅為1.3%。

  上海數據交易所市場發展部副總經理章健此前公開表示,當前大模型行業存在語料供應不足的問題,特別是在垂直細分領域,一些共享、免費下載的語料數量雖然大,質量卻不高。“我們在追求語料數量增長的同時,也要重視質量。”章健說。

  高質量語料應具備七大特征

  那么,何為高質量語料?記者采訪時,包括騰訊、商湯科技、哈爾濱工業大學(深圳)等企業和高校專業人士均給出一致答案:高質量語料應具備多樣性、大規模、合法性、真實性、連貫性、無偏見和無害等七大特征。

  邵睿表示,高質量語料應具有多樣性高、句式流暢的特點。騰訊機器學習平臺算法負責人康戰輝認為,語料的多樣性是保證語料質量的基礎,要通過不同的途徑采集新聞、小說、詩歌、科技文章等不同類型的語料。這有助于大模型學習到更豐富的語言表達。

  同時,高質量語料要具有較大規模,因為大模型需要大量語料來學習語言規律并提高泛化能力。只有擁有充足的語料,大模型才能更好地捕捉細微的語言特征。

  此外,高質量語料應是合法且無害的。不合法或有害的語料可能導致模型產生不恰當的回答或建議,或無意中泄露他人隱私。

  “高質量語料還應該具有真實性和連貫性,以便讓大模型更好地理解語境并生成符合邏輯的回答。”康戰輝說,語料庫應該充分反映語料的多樣性并避免偏見,這樣大模型在不同場景下回答不同用戶的問題時才能做到盡可能科學客觀。

  完善相關機制提高語料質量

  記者在采訪中了解到,目前訓練大模型的語料有一部分是從數據公司購買的,也有一部分是從網絡公開語料或者公開數據集中獲取并整理的。“從數據公司購買的語料質量較高,并且大多是垂域數據,但其數據量較少且價格較貴。”邵睿說,“網絡公開語料通用性較好,數據量大,但數據質量無法保證,數據格式難以統一。”

  “人類產生的有效信息,包括大量高價值信息可能不一定是互聯網數據,而是沉散在各行各業里的數據。”商湯科技發言人說,“怎樣更多匯聚數據,設計更多、更好的網絡結構,用更多的計算資源去支撐更大容量的高質量語料,產生更強的智能,是一個至關重要的問題。”這位發言人認為,要解決語料問題,不僅要靠增加語料總量,還需要提高語料質量,甚至要考慮完善數據交換機制,推動人工智能數據基礎設施化。

  正如這位發言人所說,目前業界正在采取一些措施,推動數據交換機制的建設。記者梳理發現,2023年7月,深圳數據交易所聯合近50家單位成立開放算料聯盟。該聯盟將圍繞高質量中文訓練數據和多模態訓練數據,協調數據要素、數據治理、訓練數據、數據標注、合成數據等相關標準制定,協助數據交易所增加與大模型相關的新品類和新專區。

  同樣是2023年7月,在2023世界人工智能大會現場,中國大模型語料數據聯盟成立。同年8月,上海人工智能實驗室宣布,聯合中國大模型語料數據聯盟成員單位共同開源發布“書生·萬卷”1.0多模態預訓練語料。這次開源的數據總量超過2TB,包含超5億個文本、2200萬個圖文交錯文檔、1000個影像視頻。

  除了建設更為完善的體制機制,數據清洗等技術手段也能在一定程度上解決高質量語料短缺難題。但要看到,這些技術手段有較高門檻。商湯科技發言人透露,該公司在數據清洗的過程中投入了上千塊GPU的算力。OpenAI在無數場合介紹過GPT-4訓練的經驗,但從未公開過數據清洗的經驗。

(責編:李雨潼)

版權聲明:凡注明“來源:中國西藏網”或“中國西藏網文”的所有作品,版權歸高原(北京)文化傳播有限公司。任何媒體轉載、摘編、引用,須注明來源中國西藏網和署著作者名,否則將追究相關法律責任。

成人毛片100部免费看_亚洲中文字幕无码专区_国产精品视频网站在线观看_欧美成人高潮一二区在线看_18禁免费观看网站_熟妇人妻va精品中文字幕 _国产视频一区二区三区在线播放_99视频在线免费_日韩中文字幕三区_免费看欧美黑人毛片_国产成人在线免费看_国产欧美在线一区
亚洲综合另类| 中文无码日韩欧| 麻豆精品一区二区综合av| 久久99久久久精品欧美| 亚洲女同一区| 视频一区在线视频| 亚洲成人不卡| 国产一区2区在线观看| 中文日韩欧美| 丝袜av一区| 国产精品探花在线观看| 丝瓜av网站精品一区二区| 一区二区三区四区日本视频| 在线精品观看| 99视频精品全国免费| 久久精品一区二区国产| 一区二区国产在线观看| 国产二区精品| 视频福利一区| 日韩福利一区| 久久伊人久久| 国产麻豆精品久久| 日韩国产一区二| 亚洲欧洲专区| 丝袜美腿成人在线| 亚洲深夜福利| 伊人影院久久| 亚洲国产不卡| 国产精品久久久久久久久久白浆 | 久久三级毛片| 国产免费久久| 国产日产精品_国产精品毛片 | 亚洲午夜久久久久久尤物| 日韩国产在线观看一区| 蜜臀久久99精品久久久久久9| 亚洲成av在线| 久久精品国语| 日韩av免费| 亚洲国产一区二区在线观看| 欧美另类专区| 伊人成人在线视频| 亚洲免费专区| 亚洲+小说+欧美+激情+另类| 好吊视频一区二区三区四区| 欧美1区免费| 99亚洲视频| 亚洲一区二区三区免费在线观看 | 视频二区不卡| 午夜久久美女| 日韩午夜视频在线| 在线看片不卡| 日韩国产欧美在线视频| 欧美激情网址| 亚洲欧美综合| 亚洲一级在线| 国产精品伊人| 成人午夜亚洲| 国产高清一区| 亚洲影院天堂中文av色| 亚洲一区二区免费看| 日韩成人av影视| 精品亚洲自拍| 久久国产主播| 日韩和欧美一区二区三区| 国产极品久久久久久久久波多结野 | 日本国产亚洲| 欧美二三四区| 日韩精品亚洲aⅴ在线影院| 国产精品网址| 韩日一区二区三区| 欧美精品三级在线| 欧美丝袜一区| 久久99偷拍| 日av在线不卡| 久久亚洲精品中文字幕蜜潮电影| 亚洲人成在线影院| 99久久九九| 免费日韩成人| 在线免费观看亚洲| 免费观看亚洲| 久久av日韩| 中文视频一区| 婷婷精品进入| 日韩大片免费观看| 欧美亚洲三区| 久久精品成人| 国产精品任我爽爆在线播放 | 中文字幕成在线观看| 亚洲专区视频| 日韩精品中文字幕第1页| 日韩在线成人| 亚洲欧美一区在线| 久久69成人| 蜜桃一区二区三区在线观看| 欧美韩日一区| 日韩激情av在线| 亚洲综合专区| 国产亚洲在线观看| 日韩视频久久| 91精品蜜臀一区二区三区在线| 国产精品日本一区二区三区在线| 亚洲欧美日韩国产一区| av资源亚洲| 国产欧美日韩一级| 日韩久久99| 日本亚州欧洲精品不卡| 午夜在线一区| 欧美在线亚洲| 婷婷精品视频| 亚洲二区免费| 欧美天堂视频| 亚洲精品网址| 亚洲一级在线| 麻豆亚洲精品| 欧美在线影院| 亚洲自拍另类| 免费人成网站在线观看欧美高清| 亚洲精品电影| 亚洲一区日本| 日韩一区精品| 久久精品一区| 91日韩免费| 国产一区二区三区精品在线观看 | 18国产精品| 日韩精品三级| 国产高清精品二区| 国产91欧美| 日韩精品专区| 免费av一区二区三区四区| 亚洲午夜精品久久久久久app| 国产午夜久久| 亚洲资源在线| 久久99免费视频| 亚洲欧洲美洲av| 免费观看久久av| 亚洲美洲欧洲综合国产一区| 一区二区日韩免费看| 日本va欧美va精品发布| 久久99久久久精品欧美| 樱桃视频成人在线观看| 精品中文字幕一区二区三区av| 免费人成黄页网站在线一区二区| 日韩av一区二区三区| 深夜福利视频一区二区| 另类av一区二区| 美女国产一区二区三区| 天堂中文在线播放| 男女男精品视频网| 国产a亚洲精品| 日韩午夜免费| 一区二区91| 天堂8中文在线最新版在线| 午夜在线观看免费一区| 国产精品1区在线| 婷婷中文字幕一区| 国产精品久av福利在线观看| 激情丁香综合| 欧美久久亚洲| 久久国产欧美| 国产亚洲精品美女久久| 国产网站在线| 久久在线视频免费观看| 亚洲三级精品| 亚洲欧洲高清| 日韩综合小视频| 久久精品免费一区二区三区| 美女精品一区| 精品国产乱码| 中文日韩在线| 亚洲成人一区在线观看| 亚洲男人在线| 91久久中文| 蜜桃av.网站在线观看| 欧美在线91| 999精品一区| 国产欧美精品久久| 妖精视频成人观看www| 日本蜜桃在线观看视频| 日韩不卡一区二区三区| 免费不卡中文字幕在线| 欧美a在线观看| 日韩精品亚洲aⅴ在线影院| 91精品福利| 高清不卡亚洲| 国产精品不卡| 亚洲资源在线| 国产亚洲综合精品| 99久精品视频在线观看视频| 久久精品国产网站| 国产一卡不卡| 91亚洲无吗| 中文不卡在线| 久久成人一区| 亚洲国产一区二区三区在线播放 | 欧美一区久久| 日本成人在线一区| 日韩综合一区二区三区| 中文字幕一区二区三区在线视频| 久久三级视频| 成人日韩精品|