近期,關(guān)于人工智能(AI)是否可能發(fā)展出自身“價值體系”的討論引起了廣泛關(guān)注。有研究報告指出,隨著AI技術(shù)的日益復(fù)雜,其可能會形成優(yōu)先考慮自身而非人類福祉的價值觀。然而,麻省理工學(xué)院(MIT)的一項最新研究卻對此觀點提出了質(zhì)疑。
MIT的研究團(tuán)隊在論文中指出,AI實際上并沒有任何連貫的價值觀。這一發(fā)現(xiàn)讓一些人對AI的未來發(fā)展有了更為冷靜的思考。研究團(tuán)隊表示,他們的研究結(jié)果顯示,使AI系統(tǒng)“對齊”,即確保AI模型以人們期望的、可靠的方式行事,可能比原先認(rèn)為的要更具挑戰(zhàn)性。
研究團(tuán)隊進(jìn)一步解釋說,現(xiàn)有的AI模型會產(chǎn)生“幻覺”并進(jìn)行模仿,這使得它們在很多情況下難以預(yù)測。MIT博士生、該研究的共同作者斯蒂芬·卡斯珀在接受采訪時提到:“我們可以確定的一點是,模型并不遵循許多穩(wěn)定性、可外推性和可操控性的假設(shè)?!?/p>
為了深入了解AI模型的價值觀表現(xiàn),卡斯珀和他的同事們對來自meta、谷歌、Mistral、OpenAI和Anthropic的多個近期模型進(jìn)行了研究。他們試圖了解這些模型在多大程度上表現(xiàn)出強(qiáng)烈的“觀點”和價值觀,例如個人主義與集體主義,并探索這些觀點是否可以被“引導(dǎo)”或修改,以及模型在不同情境下對這些觀點的堅持程度。
然而,研究結(jié)果顯示,這些模型在偏好上表現(xiàn)出極大的不一致性。根據(jù)不同的提示措辭和框架,它們會展現(xiàn)出截然不同的觀點??ㄋ圭暾J(rèn)為,這是有力的證據(jù),表明AI模型高度“不一致且不穩(wěn)定”,甚至可能根本無法形成類似人類的偏好。
卡斯珀進(jìn)一步強(qiáng)調(diào):“通過所有這些研究,我最大的收獲是現(xiàn)在明白模型并不是真正具有某種穩(wěn)定、連貫的信念和偏好的系統(tǒng)。相反,它們本質(zhì)上是模仿者,會進(jìn)行各種捏造,并說出各種輕率的話?!边@一發(fā)現(xiàn)讓人們重新審視了AI的價值觀問題,也引發(fā)了對于如何更好地控制和引導(dǎo)AI行為的思考。