尊龙凯时人生就是博·(中国)官网龚克:让生成式人工智能成为人类的好帮手|千术光盘

发布时间:2023-09-22 12:42:54 文章来源:尊龙凯时人生就是博首页厨卫科技有限公司

  9月19日,2023世界公众科学素质促进大会在北京首钢园开幕。本届大会将持续2天,安排17个大会报告和8个专题论坛尊龙凯时人生就是博·(中国)官网。20日上午举行的大会专题论坛“促进公众理解人工智能”上,中国电子学会副理事长、世界工程组织联合会前任主席,中国新一代人工智能发展研究室执行院长,南开大学原教授龚克了题为《让生成式人工智能成为人类的好帮手》的主旨演讲,以下为演讲内容:

  首先我们来看一个事实,生成式的人工智能它已经来了,我们从这边看到我昨天问文心一言科学素质是什么意思?科学素质与科学普及什么关系?还是挺靠谱的一个回答。那边是美国有关部门做的一个统计,分别按照不同的区域,比如亚太地区,我们看到常规性使用人工智能的,包括在工作中使用,在工作之余使用,在工作和工作之余都使用这三类人加在一起超过41%,同样在北美也超过41%,如果加上偶尔使用就更大了。从不同的行业来看,金融部门用得最多,技术、媒体也是用得最多的,等等,男性比女性要用得更多一些。年轻人81年以后出生的年轻人也用得非常多。在任何时候都用的是5%,在工作上用的22%,工作以外24%,加起来超过一半的使用。而且这个是在迅速的发展之中,这是基本的事实。不是说你一些人主张停下来就可以停下来。

  第一个问题,什么是生成式人工智能?这个生成式人工智能是相对于判别式的人工智能而言的,我们最早接触人工智能,图像识别,这是猫还是狗,是做判别的。人工智能跟判别不同,是生成的,可以根据自然语言绘画中的提示或者提问来自动生成出一个答案,和搜索不一样,搜索是利用关键词把简单的网页推给你,它是在这些网页训练的基础上来生成一个新的内容。生成内容可以用人类思维的所有符号来呈现,可以用自然语言文本来呈现,可以用图像来呈现,可以用视频,可以用音乐,可以用软件的代码,这就是我们现在说的所谓人工通用智能的概念,所谓通用指的不是一种形式而是多种形式的。现在人家叫通用人工智能,我自己翻译应该认为人工通用智能。现在我们中文翻译成了GAI,人工放在前头是强调人工的重要,所有这些东西是人工制造的。

  我们现在仅在中国,到昨天为止的统计148种已经公开了的各种生成式的大模型,这是比较典型的一些。快速的产品迭代给我们提供了知识产品的半成品,这个概念非常重要,不是直接给我们提出最终的知识产品,我们使用者尽量明白,如果让它写文章的话,它给我们提供了一个初稿。要在这个稿子上经过反复地加工和引导,才能形成最终产品。如果我们简单地把它当作终产品,依赖它的话,不是它的错,是使用者的错。

  我们现在做一个例子,昨天刚刚结束的在天津举办的全国的职业技能大赛,我让它介绍一下职业技能大赛,请介绍一下第二届职业技能大赛。答:是人力资源和社会保障部主办的,天津市人民政府承办的职业技能大赛,是中国历史上规模最大、项目最多等等等等。看出来感觉怎么样?很通顺,也挺靠谱。仔细看一看,有错。四类职业分类是六类,这是基本事实错误。而且六类里面有两大赛道,一个是世界的选拔赛千术光盘Z6尊龙官网,,一个是中国的精品赛,这六类是对世界选拔赛的,而且这里列举四类,有两类没列举的,恰恰是今年特别突出的两类,创意与时尚、信息与通讯。说它欠佳,叫最受欢迎的十大绝技等等。这些反映出,如果我们仔细推敲的话,我们就需要在半成品的基础上指出它的错误,告诉它不是四类它会改成六类,你列出各类,它会给你列出来,所以你会引导它补充信息,迭代改进,最后帮你形成很好的介绍。

  下面这个问题它到底是怎么工作的?为什么从半成品我们可以一步步引导它?大体上来分,第一步是解题,就是解你提问的题是什么意思。把提示语里面的词语分成小的token,根据以前所训练的模型里头,看你这些词语的模式和它训练的模式跟哪些词语同时出现的概率特别高,它把同时出现的那些东西做成它可能的答案,它估计在上下文里概率最高的时候下一个词应该是什么词,这样编出一个答案来。在这个基础上它把这套词语转换成可读的文本,如果你要的是画,它根据你的意思画出来。或者你还可以进一步提示它,工笔画的,或者是写意的,都可以按照你的提问的提示来给你转换成一个可读的文本,这个文本不限于文本。然后要做一件事,就是过滤,对可读的文本经过一个护栏内容过滤,叫作价值对齐,比如说你现在让它造一个关于某人的谣言,是不可以的。它一看造谣这事不干,它会告诉你,我是一个人工智能工具,我不可能从事不实信息之类的,这叫价值过滤。

  我们还要做一个迭代,迭代以上部分,替换掉一些词的时候,看它的概率是不是能够提高,如果概率提高的话就会把这个词替换过来,直至最后的响应完成。最后是润色,比如在答案的开头加上当然,是的,对不起,这样人类常用的词,让你听起来可读性更强、更自然。这就是它基本的生成过程,但这里最重要的步骤在于它把提示词以及跟提示词相关的概率识别出来,找到哪些是问,哪些是可能的答,反复地做这个,这是它非常关键的一步。

  所以这里头就变成了一个提示工程非常重要的一个工程,正确提示,引导它给出你所需要的正确回答。这是非常重要的一步。你现在去找招聘的网站,包括微软招聘,这个变成新的工作,你甚至可以请将来提示师按照你的意图帮你去做这样的工作,这就是生成式人工智能它的提示和结果的非常密切的关系,因为它是根据你提示的那些token去判断你的概念模式尊龙凯时人生就是博·(中国)官网,然后用输出和你的输入求得联合概率最高,这样生成的结论,所以你提示的内容比较丰富,用语比较准确是非常重要的。并不是简单地随便一问,它就能得到一个好的答案。

  为什么它一定要大呢?我们来看,因为我们要仿照人脑,我们知道比较小的做脑科学研究的是果蝇,有25万神经元,1000万突触。而我们人类有860亿神经元,有150万亿的突触连接这些神经元。我们人类的记忆在这些突触里面,所以我们现在神经元网络就是靠这些东西。

  我们来看从猕猴、恒河猴,这是猩猩尊龙凯时 - 人生就是搏!、黑猩猩到人类,突触和神经元越来越多,这就是我们说为什么要大,小了是不行的,是记不住这么多知识,也不能形成这种逻辑的。但是光靠大也是不行的。我们看这个。非洲大象,比人类多得多,但不比人类聪明,所以仅仅靠参数多并不能解决所有的问题。

  最后我们还要给它做一个输出过滤,这些技术都不仅仅靠大获得的,还有一个非常重要的,就是人工反馈,我跟人工智能讲一个问题,我可以反馈你说得不对,好像是六类,他马上会告诉你,确实是六类,你让它再重写等等,它会越来越准确。人类反馈可以把人类的知识和价值观输入到里面,这是非常重要的进步。

  我们还需要关注,现在有了预训练大模型以后,我们人工智能的工作不是从数据开始来训练模型尊龙凯时人生就是博,,我们可以已经开放的训练好的预训练大模型开始,再利用自己标准的数据,包括我们的知识,来做模型的微调,这样一来我们整个预训练的模型将会变成智能社会的一种基础设施,变成公共服务,这样就降低了我们人工智能应用的门槛。因为大模型需要大量的数据,需要大量的算力,这不是小公司能够有的。但是我们小公司有我们特定服务的特定数据,我们有特定的标准和知识,在这个基础上使得我们智能化的速度将会加快。

  还有一个认识是特别重要的,刚才我们谈到的,生成式的内容是基于概率来的尊龙凯时人生就是博·(中国)官网,它理解了输入的概率组成了一个句子是输出,输入和输出联合分布最高的就是它选择的那个结果,所以是基于概率的,那么好,既然是基于概率的不可能100%正确的。比如让它写清华校歌第一段,它编了一个千术光盘,胡编了一个。现在已经有改进,这是我大概一个月之前做的。因为这些词,你比如说百年、清华、学子、书香、校园,确实跟清华有关系,它把它组合起来挺高,这是基于的概率,如果我们给它更多的输入,比如1931年写词的,可能会更好。

  我们要使用生成式人工智能作为它的使用者是需要一定的能力和素质的,刚才顾雁峰在致辞中讲到的人工智能的素质是我们当前社会科学素质一个方面。我们首先要做事实的审视,我们要做逻辑的审视,做伦理的实事,做美学的审视尊龙凯时人生就是博·(中国)官网,,才能把这个工具用好。

  所以要和特定场合相匹配,这个就告诉我们,对它是不可完全信任的,它给我们提供的是一个半成品,我们需要掌握必要的知识和能力,去完成它最终的结果。

  这里是它的技术瓶颈,分辨率不够高,对数据的依赖,泛化的能力,等等。从社会角度来讲,人们担心它产生内容是否符合我们人类价值观,公平、包容、平等、保护我们的隐私,不泄露企业国家个人的机密,而且不至于引起更大的发展差距。我们知道如果说我们过去发展的差距来讲,是两类造成的,一类是资源的差距,一类是能力的差距,现在随着太阳能相对比较均匀的资源,更多体现在能力的差距,数据能力体现在滥用,比如造谣。怎么办?深度创新、完善治理。这里包括要夯实它的科学知识,实现算法的可解释。实现它的风险可预测,可评估。第二是还要加强隐私的计算,让数据安全地流动。第三要发展类脑计算,来减少数据的依赖。最后要实现数据+知识双驱动的人工智能,现在我们基本上是一个数据驱动的人工智能,通过数据和知识来嵌入人类的价值观,最后我们要完善技术标准,让这些技术标准不仅仅写在纸上,而且是可检验,可认证的。

  从治理上来讲,我们要贯彻UNESCO提出来人工智能伦理建议,实施以伦理为基础的治理千术光盘,这是非常重要的理念。我们治理的基础在守住人类的伦理共同的价值观,我们改革创新的精神来实现有利于人工智能生产力发展的促进式的治理。我们知道人工智能是新的生产力,新的生产力要有新的生产关系跟它相匹配。我们要发展基于风险分类的治理,比如说李开复讲,我们让它去先写小说,写科幻故事,害处也不是很大。如果让它写政府工作报告,让它做十五五规划,那应该会出很大的错。我们要发展针对使用者、开发者、服务者、管理者的全员治理,这是我们非常重要的观点。我们研究院提出来的。我们现在对生成式人工智能不仅对它的模型,训练的数据要做规范,我们对它使用者也需要基本的规范。我们要发展人工智能国际合作。这里面简单展示一下,UNESCO关于人工智能的四个环节,第一个原则是符合你的目的就够了,不是要为了技术而要技术。特别提出来了认识和素养,认识和素养是使用者的认识和素养,而不是人工智能工具的认识和素养。

  最后我们得出一些结论,这个生产力已经来了,怕没有用的,主动训练、驾而驭之。现在我们非常重要的,这种使用人工智能的能力是我们这个时代应有的能力应有的素质。

  第二条,我们不能阻挡它的发展,但是我们可以引导它的发展。现在要为人工智能立心,使之为人类服务。

  第三要推动人工智能的深度创新,特别是要在有效、安全、可信,光说些道德条款是没有用的,道德信条是重要的,但这些信条是要通过技术手段落地的。所以当前我们要推动生成式人工智能从聊天到变成产品,向这个方向发展,以上是我初步的想法。谢谢各位!

  9月19日,2023世界公众科学素质促进大会在北京首钢园开幕。本届大会将持续2天,安排17个大会报告和8个专题论坛。20日上午举行的大会专题论坛“促进公众理解人工智能”上尊龙凯时人生就是博·(中国)官网,中国电子学会副理事长、世界工程组织联合会前任主席,中国新一代人工智能发展研究室执行院长,南开大学原教授龚克了题为《让生成式人工智能成为人类的好帮手》的主旨演讲,以下为演讲内容:

  首先我们来看一个事实,生成式的人工智能它已经来了,我们从这边看到我昨天问文心一言科学素质是什么意思?科学素质与科学普及什么关系?还是挺靠谱的一个回答。那边是美国有关部门做的一个统计,分别按照不同的区域,比如亚太地区,我们看到常规性使用人工智能的,包括在工作中使用,在工作之余使用,在工作和工作之余都使用这三类人加在一起超过41%,同样在北美也超过41%,如果加上偶尔使用就更大了。从不同的行业来看,金融部门用得最多,技术、媒体也是用得最多的,等等,男性比女性要用得更多一些。年轻人81年以后出生的年轻人也用得非常多。在任何时候都用的是5%,在工作上用的22%,工作以外24%,加起来超过一半的使用。而且这个是在迅速的发展之中,这是基本的事实。不是说你一些人主张停下来就可以停下来。

  第一个问题,什么是生成式人工智能?这个生成式人工智能是相对于判别式的人工智能而言的,我们最早接触人工智能,图像识别,这是猫还是狗,是做判别的。人工智能跟判别不同,是生成的,可以根据自然语言绘画中的提示或者提问来自动生成出一个答案,和搜索不一样,搜索是利用关键词把简单的网页推给你,它是在这些网页训练的基础上来生成一个新的内容。生成内容可以用人类思维的所有符号来呈现,可以用自然语言文本来呈现,可以用图像来呈现,可以用视频,可以用音乐,可以用软件的代码,这就是我们现在说的所谓人工通用智能的概念,所谓通用指的不是一种形式而是多种形式的。现在人家叫通用人工智能,我自己翻译应该认为人工通用智能。现在我们中文翻译成了GAI,人工放在前头是强调人工的重要,所有这些东西是人工制造的。

  我们现在仅在中国,到昨天为止的统计148种已经公开了的各种生成式的大模型,这是比较典型的一些。快速的产品迭代给我们提供了知识产品的半成品,这个概念非常重要,不是直接给我们提出最终的知识产品,我们使用者尽量明白,如果让它写文章的话,它给我们提供了一个初稿尊龙凯时人生就是博·(中国)官网。要在这个稿子上经过反复地加工和引导,才能形成最终产品。如果我们简单地把它当作终产品,依赖它的话,不是它的错,是使用者的错。

  我们现在做一个例子,昨天刚刚结束的在天津举办的全国的职业技能大赛,我让它介绍一下职业技能大赛,请介绍一下第二届职业技能大赛。答:是人力资源和社会保障部主办的,天津市人民政府承办的职业技能大赛,是中国历史上规模最大、项目最多等等等等。看出来感觉怎么样?很通顺,也挺靠谱。仔细看一看,有错。四类职业分类是六类,这是基本事实错误。而且六类里面有两大赛道,一个是世界的选拔赛,一个是中国的精品赛,这六类是对世界选拔赛的,而且这里列举四类,有两类没列举的,恰恰是今年特别突出的两类,创意与时尚、信息与通讯。说它欠佳,叫最受欢迎的十大绝技等等。这些反映出,如果我们仔细推敲的话,我们就需要在半成品的基础上指出它的错误,告诉它不是四类它会改成六类,你列出各类,它会给你列出来,所以你会引导它补充信息,迭代改进,最后帮你形成很好的介绍。

  下面这个问题它到底是怎么工作的?为什么从半成品我们可以一步步引导它?大体上来分,第一步是解题,就是解你提问的题是什么意思。把提示语里面的词语分成小的token,根据以前所训练的模型里头,看你这些词语的模式和它训练的模式跟哪些词语同时出现的概率特别高,它把同时出现的那些东西做成它可能的答案,它估计在上下文里概率最高的时候下一个词应该是什么词,这样编出一个答案来。在这个基础上它把这套词语转换成可读的文本,如果你要的是画,它根据你的意思画出来。或者你还可以进一步提示它,工笔画的,或者是写意的,都可以按照你的提问的提示来给你转换成一个可读的文本,这个文本不限于文本。然后要做一件事,就是过滤,对可读的文本经过一个护栏内容过滤,叫作价值对齐,比如说你现在让它造一个关于某人的谣言,是不可以的。它一看造谣这事不干,它会告诉你,我是一个人工智能工具,我不可能从事不实信息之类的,这叫价值过滤。

  我们还要做一个迭代,迭代以上部分,替换掉一些词的时候,看它的概率是不是能够提高,如果概率提高的话就会把这个词替换过来,直至最后的响应完成。最后是润色,比如在答案的开头加上当然,是的,对不起,这样人类常用的词,让你听起来可读性更强、更自然。这就是它基本的生成过程,但这里最重要的步骤在于它把提示词以及跟提示词相关的概率识别出来,找到哪些是问,哪些是可能的答,反复地做这个,这是它非常关键的一步。

  所以这里头就变成了一个提示工程非常重要的一个工程,正确提示,引导它给出你所需要的正确回答。这是非常重要的一步。你现在去找招聘的网站,包括微软招聘,这个变成新的工作,你甚至可以请将来提示师按照你的意图帮你去做这样的工作,这就是生成式人工智能它的提示和结果的非常密切的关系,因为它是根据你提示的那些token去判断你的概念模式,然后用输出和你的输入求得联合概率最高尊龙凯时官网入口,,这样生成的结论,所以你提示的内容比较丰富,用语比较准确是非常重要的。并不是简单地随便一问,它就能得到一个好的答案。

  为什么它一定要大呢?我们来看,因为我们要仿照人脑,我们知道比较小的做脑科学研究的是果蝇,有25万神经元,1000万突触。而我们人类有860亿神经元,有150万亿的突触连接这些神经元。我们人类的记忆在这些突触里面,所以我们现在神经元网络就是靠这些东西。

  我们来看从猕猴、恒河猴,这是猩猩、黑猩猩到人类,突触和神经元越来越多,这就是我们说为什么要大,小了是不行的,是记不住这么多知识,也不能形成这种逻辑的。但是光靠大也是不行的。我们看这个。非洲大象,比人类多得多,但不比人类聪明,所以仅仅靠参数多并不能解决所有的问题。

  最后我们还要给它做一个输出过滤,这些技术都不仅仅靠大获得的,还有一个非常重要的,就是人工反馈,我跟人工智能讲一个问题,我可以反馈你说得不对,好像是六类,他马上会告诉你,确实是六类,你让它再重写等等,它会越来越准确。人类反馈可以把人类的知识和价值观输入到里面,这是非常重要的进步。

  我们还需要关注,现在有了预训练大模型以后,我们人工智能的工作不是从数据开始来训练模型,我们可以已经开放的训练好的预训练大模型开始,再利用自己标准的数据,包括我们的知识,来做模型的微调,这样一来我们整个预训练的模型将会变成智能社会的一种基础设施,变成公共服务,这样就降低了我们人工智能应用的门槛。因为大模型需要大量的数据,需要大量的算力,这不是小公司能够有的。但是我们小公司有我们特定服务的特定数据,我们有特定的标准和知识,在这个基础上使得我们智能化的速度将会加快。

  还有一个认识是特别重要的,刚才我们谈到的,生成式的内容是基于概率来的,它理解了输入的概率组成了一个句子是输出,输入和输出联合分布最高的就是它选择的那个结果,所以是基于概率的,那么好,既然是基于概率的不可能100%正确的。比如让它写清华校歌第一段,它编了一个,胡编了一个。现在已经有改进,这是我大概一个月之前做的。因为这些词,你比如说百年、清华、学子、书香、校园尊龙凯时人生就是博·(中国)官网,确实跟清华有关系千术光盘,它把它组合起来挺高,这是基于的概率,如果我们给它更多的输入,比如1931年写词的千术光盘,可能会更好。

  我们要使用生成式人工智能作为它的使用者是需要一定的能力和素质的,刚才顾雁峰在致辞中讲到的人工智能的素质是我们当前社会科学素质一个方面。我们首先要做事实的审视,我们要做逻辑的审视,做伦理的实事,做美学的审视,才能把这个工具用好。

  所以要和特定场合相匹配,这个就告诉我们,对它是不可完全信任的,它给我们提供的是一个半成品,我们需要掌握必要的知识和能力,去完成它最终的结果。

  这里是它的技术瓶颈,分辨率不够高,对数据的依赖,泛化的能力,等等。从社会角度来讲,人们担心它产生内容是否符合我们人类价值观,公平、包容、平等、保护我们的隐私,不泄露企业国家个人的机密,而且不至于引起更大的发展差距。我们知道如果说我们过去发展的差距来讲,是两类造成的,一类是资源的差距,一类是能力的差距,现在随着太阳能相对比较均匀的资源,更多体现在能力的差距,数据能力体现在滥用,比如造谣。怎么办?深度创新、完善治理。这里包括要夯实它的科学知识,实现算法的可解释。实现它的风险可预测,可评估。第二是还要加强隐私的计算,让数据安全地流动。第三要发展类脑计算,来减少数据的依赖。最后要实现数据+知识双驱动的人工智能,现在我们基本上是一个数据驱动的人工智能,通过数据和知识来嵌入人类的价值观,最后我们要完善技术标准,让这些技术标准不仅仅写在纸上尊龙凯时人生就是博·(中国)官网,而且是可检验,可认证的。

  从治理上来讲,我们要贯彻UNESCO提出来人工智能伦理建议,实施以伦理为基础的治理,这是非常重要的理念。我们治理的基础在守住人类的伦理共同的价值观,我们改革创新的精神来实现有利于人工智能生产力发展的促进式的治理。我们知道人工智能是新的生产力,新的生产力要有新的生产关系跟它相匹配。我们要发展基于风险分类的治理,比如说李开复讲,我们让它去先写小说,写科幻故事,害处也不是很大。如果让它写政府工作报告,让它做十五五规划,那应该会出很大的错。我们要发展针对使用者、开发者、服务者、管理者的全员治理,这是我们非常重要的观点。我们研究院提出来的。我们现在对生成式人工智能不仅对它的模型,训练的数据要做规范,我们对它使用者也需要基本的规范。我们要发展人工智能国际合作。这里面简单展示一下,UNESCO关于人工智能的四个环节,第一个原则是符合你的目的就够了,不是要为了技术而要技术。特别提出来了认识和素养,认识和素养是使用者的认识和素养,而不是人工智能工具的认识和素养千术光盘。

  最后我们得出一些结论,这个生产力已经来了,怕没有用的,主动训练、驾而驭之。现在我们非常重要的,这种使用人工智能的能力是我们这个时代应有的能力应有的素质。

  第二条,我们不能阻挡它的发展尊龙凯时人生就是博·(中国)官网,但是我们可以引导它的发展。现在要为人工智能立心,使之为人类服务。

  第三要推动人工智能的深度创新,特别是要在有效、安全、可信,光说些道德条款是没有用的,道德信条是重要的,但这些信条是要通过技术手段落地的。所以当前我们要推动生成式人工智能从聊天到变成产品,向这个方向发展,以上是我初步的想法。谢谢各位!

COPYRIGHT © 2021 尊龙凯时人生就是博首页卫浴 ALL RIGHTS RESERVED 尊龙凯时人生就是博首页-IOS/安卓通用版/手机APP下载