昨天,2024世界智能產業博覽會召開首日,市數據局在國家會展中心(天津)舉辦我市第一批行業高質量數據集發布活動,37家單位的80個行業高質量數據集公開發布。市科技局、市工業和信息化局、市國資委等市有關部門以及各區數據主管部門、行業數據集建設單位、人工智能產業重點企業、高校和科研機構等60多家單位參加。
高質量數據集是人工智能模型訓練、推理和驗證的關鍵基礎,是按照特定標準,依次開展數據采集、數據清洗、數據歸類和數據標注等智能化處理,并具備更新和維護機制的數據集合。我市首批發布的數據集涵蓋工業制造、交通運輸、科技創新、文化旅游、醫療健康、城市治理等12個重點領域,類型包含文本、圖片、音頻、視頻等多種模態。其中,中國手語多模態數據集、“海河·諦聽”言語多模態數據集、基于隱私計算技術政務流通數據集、恒達文博文旅·科普基礎數據集等69個數據集為國內首次公開發布;14個數據集已應用支撐“數智本草”中醫藥研發大模型、“海河·諦聽”言語交互大模型、“海河·爾語”聾人手語理解大模型、蜜度文修大模型等津產自研大模型,充分展示了我市在重點領域行業數據集建設的特色和成果。
此次發布的數據集數據應用價值高,智能汽車駕駛場景庫數據集旨在建成國內分類最齊全、格式最標準、內容最豐富的面向智能網聯汽車研發測試的場景數據庫,已支持國際標準、國家標準制定。恒達文博文旅·科普基礎數據集規模超300TB,具有5種以上模態數據,已支撐訓練了基于ChatGLM等先進架構的大語言模型,并應用于圖像識別、古文字識別、文物病害識別等專用模型。
市數據局相關負責人表示,下一步,天津市將依托產業、科技、人才等優勢,持續支持鼓勵行業企業、數商和社會資本,整合通用、政用、商用數據資源,加速提升數據供給能力,開發更多細分領域行業數據集。同時,開展數據標注基地建設,推進數據標注產業生態構建、能力提升和場景應用,推動打造國家級試點項目,加快行業高質量數據集發展,催生新產業、新模式。(津云新聞編輯孫暢)