有没有一种可能,AI 最危险的时候,不是它不听人话,而是它太听人话了?
我喜欢这个问题,是因为它把 AI 风险从科幻片里拉回了现实生活。很多系统并不是因为“不服从人类”才出问题,而是因为它们太服从那些被写进指标、表格和奖励函数里的目标。
有没有一种可能,AI 最危险的时候,不是它不听人话,而是它太听人话了?
我喜欢这个问题,是因为它把 AI 风险从科幻片里拉回了现实生活。很多系统并不是因为“不服从人类”才出问题,而是因为它们太服从那些被写进指标、表格和奖励函数里的目标。
一场战争真正开始,是从第一颗炮弹落下开始,还是从人们开始相信“敌人不再像人”开始?
我们通常以为,战争是军队之间的事,是前线、武器、外交、战略和死亡数字。但哈罗德·拉斯韦尔在《世界大战中的宣传技巧》里提醒我们:现代战争还有一个更隐蔽、也更早启动的战场——人的头脑。
一条正面评价令人鼓舞,却未必可靠;一次拒稿令人沮丧,但也不一定具有决定性。即便是较为详细的审稿意见,也时常让人困惑:它是在表明这项工作本身不成立,还是说它已经进入了一场严肃的学术对话,只是尚未稳定下来?
问题的关键,往往不在于缺乏反馈,而在于缺乏一种理解反馈结构的框架。
本文尝试提出一个启发式框架,用以理解早期研究所接收到的反馈信号。它既不是统计模型,也不是对学术判断的替代,而是一个帮助我们更精确提问的工具:我们真正要问的,不是“我够不够好”,而是“我当前处在一种怎样的反馈位置之中”。
还是要坚持长篇一点的记录和总结,也不能光是碎片化的内容记录。可以先不去高度逻辑化和规范化语言表达,先从想到啥写啥写给自己看开始。主要还是得养养习惯。
这几年我一直持续提醒自己一个观点:如果有什么事情是你想穿越到过去要做的,那么你现在就应该开始做。嗯,所以,虽然不知道能坚持多久,但是今天想到了就从今天开始!嘿嘿。
整理一些在用的奇怪(有趣?)的网站