联合实验室专家陈雷:希望大湾区成为数据安全使用典范
吃瓜电子官网最新热点:联合实验室专家陈雷:希望大湾区成为数据安全使用典范
更新时间: 浏览次数:6889
生成式人工智能是引领新一代科技革命和产业革命的核心驱动力,是😜加快培育和发展新质生产力的重要引擎,为经济高质量发展注入新动🌟能,与此同时,各类难以预知的风险和挑战也伴生而来。 安😆全是发展的基石,为进一步创新筑牢根基。2025年9月15日,🌟粤港澳大湾区生成式人工智能安全发展联合实验室揭牌成立。其将构😊建“政产学研用”深度融合的创新生态,致力服务企业发展、推动产😴业落地、加强安全监管,努力实现属地企业安全合规成本全国最低、😴安全能力水平全国领先,助力粤港澳大湾区成为全国生成式人工智能🤔安全发展服务最优区域。 南方都市报、南都大数据研究院推😢出“湾区AI安全发展新引擎”系列报道,深度对话参与联合实验室😴建设的专家,一同憧憬大湾区AI安全发展新未来。 “在大🌟模型训练过程中,数据质量是最重要的一环”……香港科技大学(广😅州)信息枢纽院长、数据科学与分析学域讲座教授,联合实验室专家🥳陈雷主要研究数据驱动的人工智能、知识图谱、区块链、数据私隐、😀众包、空间和时间数据库,以及对大型图形和概率数据库的查询优化😡。他接受南都访谈时表示,人工智能发展到现在,最重要的是数据问👏题,期待粤港澳大湾区生成式人工智能安全发展联合实验室(简称“😢联合实验室”)把各高校研究力量整合起来,从政策、制度层面引导🤩正确使用数据。 要通过联合实验室整合数据 南方都😂市报(以下简称南都):您是世界数据科学与分析领域的领军学者,👍能否结合数据领域深入研究,谈谈对粤港澳大湾区生成式人工智能安😁全发展联合实验室发挥自身优势,更好服务人工智能安全发展的期望😎? 陈雷:粤港澳大湾区制造业很强,要把人工智能运用到传😁统行业,数据非常重要。通过实验室联合大湾区各类高校,汇聚所有🤗数据,做成大数据平台,供大家使用,做相应大模型测试。或者由联❤️合实验室推出数据测试平台,让各类大模型通过平台测试性能,找出😂不足,加以改进。 南都:如何确保数据质量,联合实验室能😆做些什么? 陈雷:数据质量是全世界都想解决的问题,首要⭐的问题是获取到的数据是不是有用?而且数据量要大,量不大就没有😅所谓数据质量。 数据质量包括无监督、有监督。无监督的数🎉据质量就是通过无监督的机器学习,发现一些质量偏差较远的数据,🙌或者叫异常数据分析。有监督的数据质量一般需要找专家或专业人士👍对数据打标签,然后用机器学习的方法找出那些较差的数据。我觉得🌟联合实验室可以尝试新的方法,特别是从工业界获取合作项目,整合😘大湾区人工智能人才以及研究团队,做一些能落地产品或者服务累积😉高质量数据。期待联合实验室发挥纽带作用,把各高校研究力量整合😅起来。单打独斗已是过去式,一个人强没用,一定通过联合实验室整🙌合数据。 智联体要落地首先得涉及数据关联 南都:🌟在粤港澳三地制度差异背景下,在推动数据跨境流动过程中,您对建😍立大湾区数据安全、人工智能安全协同治理体系有哪些建议? 😴 陈雷:数据安全是一个非常难的问题,既要把数据整合起来、用起😡来,又要保证数据安全,里面有很多技术方法手段,例如同态加密、🤯隐私计算等,使用加密数据做相应 AI训练。 展开全文 😡 举例而言,大湾区有很多好医院,要做数据共享,才能做更好😀病理诊断医疗诊断。如果把病人名字、年龄、性别隐藏,数据是不是😉就没问题了,可以安全使用?这是误区,很多时候通过病人其他信息😂还是可以转换映射病人是谁。但是,假如隐去年龄,性别这些信息,⭐可能对根据年龄和性别对病情诊断又失去价值。这是有意思的问题,❤️建议联合实验室可以研究怎么建立数据安全的保护机制,不仅是通过❤️技术手段解决,还需要从政策、制度层面,引导正确使用数据,签订👏相应数据共享、保密协议。 南都:在数据驱动跨学科研究方😎面,您曾带领团队为港科大(广州)实现许多第一的突破。如何通过😂数据驱动大模型,赋能产业,构建良性循环协同? 陈雷:大👍模型赋能产业,最重要的是真正用起来。大模型在文字处理能力特别😂高,以保险业为例,假如出了一个理赔案,原来保险员要查所有文件❤️、规章,通过匹配才知道要赔多少,谁的责任,其实这些可以使用大😆模型,通过大模型文件处理能力来操作。 大模型重要应用就😀是智能体,垂直运用到各行各业。但怎么让人接受,让人用起来,这🤩是最大的问题。假如你休假,会让智能体帮忙订酒店、订机票,预订🤯所有活动吗?我发现主要还是手动抢便宜机票、便宜酒店,以及符合🙄家人出行习惯的活动。为什么智能体做不到这点,技术难题就是智能😊体之间没有协同,数据没有串通起来。要智能体垂直应用落地,首先💯要设计好数据直接的互联,同时不要贪大贪多,要让大家体会到具体❤️使用的好处。 培养AI人才不应圈在学校 南都:您❤️能否从自身研究出发,为联合实验室在AI人才培养、技术合作等方🙌面提出一些具体建议? 陈雷:关于AI人才教育培养,我们🌟一直在谈论培养社会、工业需要的人才。但怎么做到这点,目前大学😘四年,多数是老师在上面讲,学生在底下听,考试考核通过后就颁发🚀证书,等到学生进入社会,两眼一抹黑,发现学的知识与实际工作场😜景要用的存在差距。香港科技大学(广州)今年第一届AI理学硕士😆毕业生有40多人,100%找到工作,都在大厂做算法工程师或者💯AI工程师,怎么做到的?我们打造的就是“1+1”模式,一年在🌟学校集中系统学习 AI知识,强化学习动手能力,一年后送进大厂😘或者科技企业实践。一年在学校,一年在工业界,他们没有任何不适⭐应,毕业就能在企业独挡一面。培养AI人才不应圈在学校里,应该😢让他们走出去,只有在工业界实打实的做,才能学到怎么做。联合实🤯验室是很好的平台,希望打造属于自己的“1+1”模式,即一年在💯联合实验室,一年在联合实验室合作的工业企业,在实践中学习知识⭐,理论与实践全部结合起来。 让大湾区成数据安全使用典范👍 南都:联合实验室确实可以在AI人才培养发挥资源整合作😡用。展望未来,您对实验室建设运行又有哪些期待? 陈雷:🤯希望联合实验室成立更多联盟,通过签订协议,助力数据安全使用。😅让参与者获取实实在在的好处,达到共赢,他们自然而然就会把数据❤️安全使用起来,更加注重数据安全、隐私保护。积累安全的数据越来😎越多,通过开放共享,让更多企业使用,实现良性循环,让粤港澳大😢湾区成为数据安全使用的典范。 南都:刚才您谈的主要是数😜据安全,在人工智能安全发展方面,实验室能发挥什么作用? 😢 陈雷:大模型训练的时候,需要很多数据,肯定会涉及到很多商业😡或者个人隐私信息。这样,我们就要设计模型的保护机制,对于一些😆敏感问题,我们怎么保证大模型回答的正确性。实际上,大模型面临👍很多网络攻击新风险,数据投毒危害值得警惕。我们需要想办法保证🙄大模型安全的输出,而不是输出内容失当或者不可控的东西,这也是🎉我们经常讨论研究的模型安全问题,希望联合实验室联合大湾区众多😎高校,在这方面多做研究,起到枢纽作用,在赋予AI更多能力同时😀,将更多精力投入在AI安全之上,确保大模型可信、可靠、可控。😀 同题问答 在您看来,粤港澳大湾区生成式人工智能😊安全发展联合实验室能发挥哪些独特作用? 陈雷:人工智能⭐发展到现在,最重要的不是算力、算法问题,而是数据问题,期待粤😎港澳大湾区生成式人工智能安全发展联合实验室与大湾区众多高校合😘作,在数据方面发力,建设大数据平台、数据测试平台,让各类大模😍型通过平台测试性能,找出不足,加以改进。 监制:戎明昌😅 刘江涛 策划:王卫国 邹莹 统筹:凌慧珊 李伟😊锋 陈实 付可 关健明 撰文:南都研究员 李伟锋 孔令🌟旖 唐静怡 陈袁 谢小清 南都N视频记者 熊润淼 袁炯😉贤 伍曼娜 曾俊豪 视频:陈杰豪 赵炎雄 冷锋 🎉视效:AI数据工作室 张许君 郭文哲 原毅 设计:林泳😀希 尹洁琳 蔡沐晗 严丽萍 实习生:朱恺熙 程佳丽 😆 出品:南都大数据研究院返回搜狐,查看更多
北京市:市辖区:(东城区、西城区、朝阳区、丰台区、石景山区、海淀区、门头沟区、房山区、通州区、顺义区、昌平区、大兴区、怀柔区、平谷区、密云区、延庆区)
天津市:市辖区:(和平区、河东区、河西区、南开区、河北区、红桥区、东丽区、西青区、津南区、北辰区、武清区、宝坻区、滨海新区、宁河区、静海区、蓟州区)
河北省:石家庄市:(长安区、桥西区、新华区、井陉矿区、裕华区、藁城区、鹿泉区、栾城区、井陉县、正定县、行唐县、灵寿县、高邑县、深泽县、赞皇县、无极县、平山县、元氏县、赵县、石家庄高新技术产业开发区、石家庄循环化工园区、辛集市、晋州市、新乐市)
唐山市:(路南区、路北区、古冶区、开平区、丰南区、丰润区、曹妃甸区、滦南县、乐亭县、迁西县、玉田县、河北唐山芦台经济开发区、唐山市汉沽管理区、唐山高新技术产业开发区、河北唐山海港经济开发区、遵化市、迁安市、滦州市)
秦皇岛市:(海港区、山海关区、北戴河区、抚宁区、青龙满族自治县、昌黎县、卢龙县、秦皇岛市经济技术开发区、北戴河新区)
邯郸市:(邯山区、丛台区、复兴区、峰峰矿区、肥乡区、永年区、临漳县、成安县、大名县、涉县、磁县、邱县、鸡泽县、广平县、馆陶县、魏县、曲周县、邯郸经济技术开发区、邯郸冀南新区、武安市)
邢台市:(襄都区、信都区、任泽区、南和区、临城县、内丘县、柏乡县、隆尧县、宁晋县、巨鹿县、新河县、广宗县、平乡县、威县、清河县、临西县、河北邢台经济开发区、南宫市、沙河市)
保定市:(竞秀区、莲池区、满城区、清苑区、徐水区、涞水县、阜平县、定兴县、唐县、高阳县、容城县、涞源县、望都县、安新县、易县、曲阳县、蠡县、顺平县、博野县、雄县、保定高新技术产业开发区、保定白沟新城、涿州市、定州市、安国市、高碑店市)
张家口市:(桥东区、桥西区、宣化区、下花园区、万全区、崇礼区、张北县、康保县、沽源县、尚义县、蔚县、阳原县、怀安县、怀来县、涿鹿县、赤城县、张家口经济开发区、张家口市察北管理区、张家口市塞北管理区)
承德市:(双桥区、双滦区、鹰手营子矿区、承德县、兴隆县、滦平县、隆化县、丰宁满族自治县、宽城满族自治县、围场满族蒙古族自治县、承德高新技术产业开发区、平泉市)
沧州市:(新华区、运河区、沧县、青县、东光县、海兴县、盐山县、肃宁县、南皮县、吴桥县、献县、孟村回族自治县、河北沧州经济开发区、沧州高新技术产业开发区、沧州渤海新区、泊头市、任丘市、黄骅市、河间市)
中国大模型,首登Nature封面。 9月17日,在最新🙄一期的国际权威期刊Nature(自然)中,DeepSeek-🔥R1推理模型研究论文登上了封面。该论文由DeepSeek团队🤩共同完成,梁文锋担任通讯作者,首次公开了仅靠强化学习就能激发🎉大模型推理能力的重要研究成果。这是中国大模型研究首次登上Na😅ture封面,也是全球首个经过完整同行评审并发表于权威期刊的😀主流大语言模型研究,标志着中国AI技术在国际科学界获得最高认🤯可。 Nature在其社论中评价道:“几乎所有主流的大😊模型都还没有经过独立同行评审,这一空白终于被DeepSeek❤️打破。” 中国AI大模型的“Nature时刻” 😘自大模型浪潮席卷全球以来,技术发布、性能榜单层出不穷,但始终👍缺乏一个权威的“科学认证”机制。OpenAI、谷歌等巨头虽屡🙄有突破,但其核心技术多以技术报告形式发布,未经独立同行评审。🎉 DeepSeek以其公开性和透明性打破了这一局面。D😆eepSeek-R1模型的研究论文最早于今年年初发布在预印本🙄平台arXiv上。自今年2月14日向Nature投递论文至今🙄,历经半年,8位外部专家参与了同行评审,DeepSeek-R👍1推理模型研究论文终获发表,完成了从预印本到Nature封面🤗的“学术跃迁”。审稿人不仅关注模型性能,更对数据来源、训练方🤔法、安全性等提出严格质询,这一过程是AI模型迈向更高的透明度😅和可重复性的可喜一步。 因此,Nature也对Deep🤩Seek的开放模式给予高度评价,在其社论中评价道:“几乎所有😜主流的大模型都还没有经过独立同行评审,这一空白终于被Deep🌟Seek打破。”全球知名开源社区Hugging Face机器🙌学习工程师Lewis Tunstall也是DeepSeek论😢文的审稿人之一,他强调:“这是一个备受欢迎的先例。如果缺乏这😡种公开分享大部分研发过程的行业规范,我们将很难评估这些系统的😅潜在风险。” 据了解,DeepSeek本次在Natur🤔e上发表的论文较今年年初的初版论文有较大的改动,全文64页,🤯不仅首次披露了R1的训练成本,而且透露了更多模型训练的技术细😂节,包括对发布初期外界有关“蒸馏”方法的质疑作出了正面回应,😴提供了训练过程中减轻数据污染的详细流程,并对R1的安全性进行😂了全面评估。 其中,在训练成本方面,R1-Zero和R⭐1都使用了512张H800GPU,分别训练了198个小时和8😀0个小时,以H800每GPU小时2美元的租赁价格换算,R1的👏总训练成本为29.4万美元(约合人民币209万元)。不到30🤯万美元的训练成本,与其他推理模型动辄上千万美元的花费相比,可👍谓实现了极大的降本。 关于R1发布最初时所受到的“蒸馏🚀”质疑,DeepSeek介绍,其使用的数据全部来自互联网,虽😀然可能包含GPT-4生成的结果,但并非有意而为之,更没有专门😜的蒸馏环节。所谓“蒸馏”,简单理解就是用预先训练好的复杂模型😘输出的结果,作为监督信号再去训练另外一个模型。R1发布时,O😀penAI称它发现DeepSeek使用了OpenAI专有模型😁来训练自己的开源模型的证据,但拒绝进一步透露其证据的细节。 😍 R2何时问世引发关注 自今年年初发布R1以来,D🙄eepSeek在全球树立了开源模型的典范,但过去数月,外界对😎于R2何时发布始终保持高度关注,相关传言一直不断。不过,R2💯的发布时间一再推迟,外界分析R2研发进程缓慢可能与算力受限有👍关。 展开全文 值得注意的是,今年8月21日,D🤩eepSeek正式发布DeepSeek-V3.1,称其为“迈🚀向Agent(智能体)时代的第一步”。据DeepSeek介绍🚀,V3.1主要包含三大变化:一是采用混合推理架构,一个模型同🤗时支持思考模式与非思考模式;二是具有更高的思考效率,能在更短🙄时间内给出答案;三是具有更强的智能体能力,通过后训练优化,新😜模型在工具使用与智能体任务中的表现有较大提升。 由于R🥳1的基座模型为V3,V3.1的升级也引发了外界对于R2“在路🎉上”的猜测。V3.1的升级更深刻的意义在于,DeepSeek🤯强调DeepSeek-V3.1使用了UE8M0 FP8 Sc🚀ale的参数精度,而UE8M0 FP8是针对即将发布的下一代🙄国产芯片设计。这也表明未来基于DeepSeek模型的训练与推🌟理有望更多应用国产AI芯片,助力国产算力生态加速建设。这一表🎉态一度带动国产芯片算力股股价飙升。 中国银河证券研报指😘出,DeepSeek从V3版本就开始采用FP8参数精度验证了😎其训练的有效性,通过降低算力精度,使国产ASIC芯片能在成熟😅制程(12-28nm)上接近先进制程英伟达GPU的算力精度,😁DeepSeek-V3.1使用UE8M0 FP8 Scale😅参数精度,让软件去主动拥抱硬件更喜欢的数据格式,“软硬协同”😉的生态技术壁垒逐渐成为AI浪潮下新范式,未来国产大模型将更多😜拥抱FP8算力精度并有望成为一种新技术趋势,通过软硬件的协同😍换取数量级性能的提升,国产算力芯片将迎来变革。 责编:👏万健祎 校对:王朝全 版权声明 " Typ😡e="normal"@@--> 证券时报各平台所有原创⭐内容,未经书面授权,任何单位及个人不得转载。我社保留追究相关🙌行为主体法律责任的权利。 转载与合作可联系证券时报小助👍理,微信ID:SecuritiesTimes " Ty👏pe="normal"@@-->返回搜狐,查看更多
推荐阅读
国务院国资委:央企管理人员与业绩挂钩的浮动工资占比超过60%
1232
78人!财政部公布第一届企业财务咨询专家名单
3347
河南1~8月房地产市场基本情况公布
3014
中央企业资产总额已超过90万亿元
5567
刚刚!河南省8月份经济运行情况公布
8850
安阳市政府党组成员、副市长王新亭主动投案
7625
邓州国控集团4亿元公司债完成发行,利率3.38%
6278
国家网信办:头部企业需扛起“卡脖子”技术攻关责任,研发自主可控安全芯片
6061
弘星相和完成近亿元Pre-A轮融资
4954
央行开展4185亿元7天期逆回购操作,净投放1145亿元
7317
国家药监局局长:持续提高过评品种覆盖面,让质优价廉的好药惠及更多患者
7588
5500亿元!前8个月河南省进出口规模创历史同期新高
9577
立方风控鸟·早报(9月17日)
5244
隔夜欧美·9月17日
9149
豫晋陕签订黄河流域横向生态保护补偿协议
1570
河南省最新金融运行情况公布
8272
万科A再获20亿借款!年内深铁集团借款已超250亿元
4740
罕见!头部券商独董被解职
6255
国家网信办等部门拟出台新规!强化未成年人网络保护
5723
财政部拟发行200亿元记账式贴现国债,期限28天
5832
聚焦低空经济与绿色交通,平安产险在服贸会首发多项创新保险方案
4513