把演算法稱為黑箱,是為了騙你相信只要打開箱子就能找到真相

 

「黑箱」一詞源自於二戰期間英國移交關鍵戰略科技的「蒂澤德任務」,這個詞彙於是具有強烈的政治隱喻,它假設有真正的關鍵事實存在於箱子裡。不過問題是,萬一真正重要的,是「不在箱子裡」的東西呢?

 

「黑箱」一詞源自於二戰期間英國移交關鍵戰略科技的「蒂澤德任務」,這個詞彙於是具有強烈的政治隱喻,它假設有真正的關鍵事實存在於箱子裡。

 

文|泰娜‧布策(Taina Bucher,奧斯陸大學傳播研究學者)

 

  黑箱的概念被廣泛應用於所有我們(似乎)不懂的事物上。黑箱指的是一個不透明的機械裝置,我們只能看到輸入和輸出。黑箱的象徵和祕密的歷史有關,顧名思義就是一個黑色的箱子,第二次世界大戰時用來裝戰事所需的機器和雷達設備。

 

  在蒂澤德任務(Tizard Mission)中從英國送交美國,尋求技術支援,開發新科技以贏得戰爭。這個黑箱被送到了麻省理工學院的放射實驗室,裡面還裝了另一個黑箱,內有磁控管。戰時,關鍵科技都必須祕密進行以免落入敵手。反過來,如果看到了敵人的黑箱,你也要假設這個箱子有自我毀滅裝置,所以貿然打開很危險。因此,在這個機密的文化底下,黑箱輕易地用來比喻祕密、隱匿、未知。在我們的日常用語中,從大腦到市場和國家,任何事都可以比擬為黑箱。演算法也一樣。

 

  演算法被比擬成黑箱的時候,同時產生了「未知」的問題。當演算法被當作未知的事物,不只表示我們缺乏相關的知識或資訊。黑箱的概念特指一種未知的情況。關於演算法和營業祕密的透明度與問責度,普遍的論述認為演算法是「可知的已知未知」(knowable known unknows)──意思就是,只要給予正確的資源就是可知,我們只需要找到方法來打開黑箱就行了。

 

  「黑箱」?先丟棄這個詞彙試試看 

 

  打開黑箱的訴求可見於「審計型社會」(audit society)裡,呼籲要有更高的透明度與問責度。在審計的氛圍下,組織愈來愈常被要求要公開他們運作的方式。例如,大學要製作更多文件,包括評估紀錄、研究成果、還有資金列表。這些人相信,資訊愈多就有愈高的公理值。審計的概念也延伸到演算法的領域,認為必須對演算法進行研究,才能偵測出並對抗演算法的差別待遇。

 

  這樣的努力當然很值得欽佩,但我想要檢視的,就是這種把希望寄託在更高透明度,以求理解演算法的觀念。要理解演算法的方法很多,不限於打開黑箱,逐一閱讀所有演算法給機器的程式指令。把演算法當成黑箱的普遍概念,可能會造成聲東擊西、調虎離山的效果──讓我們沒注意到其他(或許更急迫的)問題和議題。大家太常不假思索就用黑箱來批評演算法,卻沒有仔細檢視這個比喻本身有沒有問題。

 

  把一樣東西說成是黑箱,這可能就不是在陳述事實。黑箱把未知轉變成是一個認識論的問題,未知的事物(包括黑箱)會有問題,是因為阻擋了視線,最終阻礙了啟蒙運動必備的精神「敢於認識」和「擁有認知的勇氣與無畏」。對啟蒙運動最卓越的哲學家康德來說,「不知」就是不成熟,表示大眾盲目地跟隨了別人的領導權威。唉呀,如果有個東西被刻意地遮掩了,啟蒙大師的任務就是要挖掘真相、水落石出。批評啟蒙視角的人往往針對「暴露或解構內部運作」的觀點,好像有個真相的核心,正等著一個成熟又理性的人(通常又指男人)來挖掘。從康德的觀念來看,認知的勇氣不只是和理性主義有關,也會連結到真知的追求。在這個思維下,黑箱威脅到了發現真理的可能。

 

  黑箱可能害我們得不到似乎潛藏在底下的真理,黑箱的這個概念也代表一個職責結束後,會釋出理性主體的裝置,如康德所述,這個主體可以「結束」大家不成熟的思維。麥克‧卡隆(Micheal Callon)與布魯諾‧拉圖(Bruno Latour)建議,「黑箱包含了事實,不必再多想了」。關於技術或商業黑箱與透明度的討論中,捍衛黑箱最常見的論述就是必須隱匿細節。科學歷史學家蓋里森在寫到營業秘密時,指出機密受法律保障為「反認識論」的一種形式,成為一種必須被遮掩的知識,才能保護商業配方等等。確實,整個黑箱的比喻都奠基在反認識論的概念上。沒有了機密,系統就無法妥善運作。

 

  從更技術性的觀點來看,隱匿內部運作的方式可以避免系統被玩弄。約書亞‧克羅爾(Joshua A. Kroll)等人指出,「機密會打消系統內參與者策略行為,並避免眾人違法洩漏資料」。最後,從工程的觀點來看,隱藏大部分的程式或刻意讓程式顯得隱晦難解,是軟體開發過程中很必要的步驟。加洛威指出,「混淆或『隱藏資訊』是為了要讓程式更模組化、更抽象,因此更容易維護」(Galloway, 2006)。換句話說,讓程式變成黑箱,減少了程式設計師的認知負荷,讓他們能寫新的程式,或設計新功能,而不必把心力耗費在系統運作的每個小細節。

 

  當演算法在現行的論述中被當作黑箱,通常是為了要凸顯演算法的問題,看出演算法可能會造成的傷害或差別待遇。尤其是法律圈不斷呼籲要打開演算法的黑箱。帕斯奎認為「若不知道 Google 在進行網站排行時到底怎麼進行,我們就無法衡量 Google 什麼時候是依善意在幫助用戶,什麼時候是為了商業利益而更動排序結果」(Pasquale, 2015)。帕斯奎擔心的是黑箱社會裡固有的知識不對稱現象,或他所稱的知識「單向鏡」:「這是歷史上第一次,重要企業可以掌握我們日常生活中的所有小事,而我們卻幾乎不知道他們如何運用這些資訊,來影響我們──和他們──所做的重要決策」。這種知識不對稱影響了新的權力關係──不只是企業掌握了愈來愈多這些被監控的大眾的資訊,企業之間最終也會破壞彼此之間的良性競爭。因此法界學者(尤其是美國)更強力呼籲要提高透明度,要求企業讓他們的運作更透明。帕斯奎義憤填膺地說,「有黑箱在,你不可能建立一段互信關係」。

 

  對於「演算法社會」裡技術細節都普遍藏在黑箱裡,又有哪些被提出的解決方法呢?對帕斯奎來說,黑箱必須要攤在陽光下,才能杜絕系統可能包含的惡行、歧視或偏見:「演算法應該開放受檢──如果不讓一般大眾檢驗,至少也要讓可以信任的審計人員檢查」。在這裡,打開黑箱指的可能只是讓大家能看到原始碼。丹妮爾‧希倫(Danielle K. Citron)和帕斯奎在討論如何偵測信用評分系統裡的偏差時,表示「要確實了解,我們當然需要存取原始碼、程式設計師的註解,和信用評分系統最核心的演算法,才能測試人為偏差,但我們當然無法獲得」。

 

  其他人比較懷疑是否真的有需要透明的原始碼,並指出這樣的呼籲沒有考慮到,其實沒必要讓所有的細節都完全透明。不過,打開演算法的黑箱可能也代表著放開條件,讓演算法可以被外部合法檢驗。研究員桑德維格和他的同事,在美國聯邦法院近期的一樁訴訟案中作證表示,法律也構成了另外一道獲取資訊的障礙,在這個案件中「導致研究員無法收集數據,判斷網路演算法是否造成歧視」。很多要求更高透明度的呼籲未必有價值,要理解演算法不一定得打開黑箱。事實上,在思考演算法的本體論與認識論時,黑箱或許不是最合適的概念。

 

臉書究竟是怎麼推薦跟過濾資訊的,又是怎麼使用用戶資料的,諸如此類的疑點讓他們被告了一次又一次。(Jeff Chiu/AP)

 

  「可惡!怎麼做決定的會是人類」

 

  將能動性看作是分散的觀點很重要。當我們聽到「演算法會產生歧視和差別待遇」,或「歧視與差別待遇已經被加進演算法裡了」,這些話很容易被理解成演算法擁有能動性去產生歧視。像 Google「黑猩猩事件」,Amazon 在當日宅配的選項裡,預先排除了黑人區的郵遞區號,或 Google 在用戶搜尋黑人常見的姓名時,就列出可進一步搜索犯罪紀錄的廣告,在這些例子裡,究竟是誰或什麼人產生了歧視其實很複雜,沒有像媒體標題寫的那麼直觀。

 

  臉書就曾因為「趨勢」功能引發爭論。二○一六年五月,臉書又上了新聞,原來他們的趨勢功能並不是「中立客觀的演算法執行的結果」,而是人為篩選和監控。臉書雇用新聞系畢業生,不斷查看演算法產生的趨勢話題(trending topics),讓相關的題目和標題能有更高的能見度。問題在於這群受僱監控趨勢話題的人類編輯,正好在政治立場上偏左。根據新聞報導,編輯的立場可以從哪些動態愈來愈「熱門」的趨勢中觀察出來。開第一槍的 Gizmodo網站在報導中表示,「換句話說,臉書的新聞版面操作和傳統的新聞編輯室一樣,反映出員工的偏見和企業的制度與規則」。

 

  在這試驗過程中,還是少了適當的詞彙來討論演算法到底在做什麼,或演算法能做什麼,就像在這個例子裡,偏見究竟來自演算法還是涉案人員。偏見、中立、操弄、主觀等文字滿天飛,讓這樁爭議正好很適合討論能動性發生在哪裡。關於這起事件最主要的論述似乎都著眼於臉書不應該宣稱運用演算法來決策,但實際上由人來做出決策。當然,這些論述都忽略了其實演算法本來就是人類打造和維護的。不過,如果是有責任感的人在負責,那麼未來就會比較容易控制,或規範這種「操作」和「主觀排序」。從關係的角度來看,要判斷行動的根源,好像這些行動只會有一個來源,這也會產生誤解。這案子裡的舞台顯然包含了無數參與者,包括了新聞系畢業生、職業文化、政治立場、工作指導方針、趨勢話題的產品團隊、臉書高階主管、管理階層、演算法、用戶、新聞通訊社等等。

 

  那麼演算法流程的偏見呢?約翰‧諾頓(John Naughton)教授研究大眾對科技的理解,他曾經在《衛報》的專欄中,表示偏見或人類價值打一開始就嵌入了演算法裡,因為工程師也是人:

 

任何要做選擇的演算法都有設計者所明定的條件。這些條件表現了人類的價值。工程師可能會覺得他們很「中立」,但過去的經驗已經證實了他們在政治、經濟與意識形態的樹林裡還是小嬰兒。

 

  當然,透過機器學習演算法,有些人或許會想要主張,因為系統的工程師和設計者不見得是人類,所以人類價值或偏見所產生的影響,似乎不是什麼太大的問題。不過,就像演算法可能「研習了先前決策者的偏見」,也有可能「反映出社會整體所存留的普遍偏見」。如果要理解臉書趨勢話題爭議中的偏見存在於哪裡,知道其演算法如何運作當然會有幫助。舉例來說,這點可以協助我們知道在爭議期間,臉書依賴幾個新聞出處來判斷「一個主題有沒有新聞價值」。點閱率較高的新聞媒體,如「紐約時報」和「有線電視新聞網」(CNN)等傳統媒體機構,在決定一個事件熱不熱門的過程中,有較大的影響力。臉書洩漏的內部趨勢話題編輯工作指南中可以看到:「這份文件指定了十個新聞出處為核心,指示編輯只要根據多少刊物把這則報導放在頭版,就將該新聞主題註記為『全國新聞』或『重大新聞』」。這份指南和有關編輯工作的內容,與他們在註記報導有沒有新聞價值時,必須做出的決策類別,這些資訊讓我們看到了不同的價值、機制和意識形態,在這看似中立客觀的決策過程中互動。不僅如此,這也有助於了解用戶的角色在形塑演算法的成果時多麼核心。記者以斯拉‧凱恩(Ezra Klein)說,用戶是「臉書最偏頗的策展人」。用戶很重要因為是他們的資料、點閱行為、偏好、人脈關係和溝通行為提供了演算法數據,演算法才能執行。

 

  臉書在動態消息的部分也有人為干預。二○一四年夏天,臉書成立了一個「動態消息品質專題討論小組」,在田納西州諾克斯維爾集合了數百人,由臉書出資,請他們針對所看到的動態消息內容,提供詳細的回饋。之後,臉書將這個調查小組擴展到全國,付費請具有代表性的少數用戶,每天根據他們在動態消息所看到的內容評分、評價。他們甚至將調查小組拓展到海外。近期,臉書發布了一項調查,要求一小群用戶看兩則並列的貼文,選出最吸引他們的一則。臉書並不是唯一將演算法系統「人力化」的平台。例如,網飛也雇用了多元的「標註員」(taggers),他們的工作就是要評估影片類別、基調、風格,協助判斷用戶接下來可能會想要看什麼。

 

  提到音樂的推薦,人力也同樣出現在決策過程中,因為音樂經常代表了電腦不見得能「理解」的內容類別。Apple 在二○一五年夏天推出自行開發的音樂串流服務 Apple Music。這項服務就非常依賴策展人和廣播電台主持人來提供推薦,而不只是靠演算法。Apple 執行長提姆‧庫克在接受《華爾街日報》(採訪的時候,說這項串流服務裡「大家都很喜歡人類策劃的內容」。Spotify 的品味檔案負責人阿傑‧卡立亞(Ajaj Kalia)認為「像音樂這麼充滿情緒的東西……一定要有人類參與」。因為電腦「不懂得真正欣賞音樂」,Spotify 在全球各地雇用了三十二位音樂專家規劃播放清單,每週持續更新。差不多就在 Apple Music 上線的時候,Spotify 推出了「每週新發現」(Discover Weekly),這是個由演算法產生的播放清單,比較接近破解人類品味的情緒標準。「每週新發現」背後的演算法,每週一根據用戶獨特的品味檔案推出建議的播放清單,將用戶的品味和其他喜歡同一位歌手或音樂家的播放清單來比較,加以彙整。假設他們會喜歡相同的音樂,接下來,演算法會檢視其他人加了哪些該用戶沒聽過的音樂到他們的播放清單裡,推薦給用戶。

 

  這些例子不只讓我們看出人類一直都被包含在演算法裡,不管是終端用戶提供了資料數據讓演算法可以學習,或是人類專家雇用來協助演算法運算出音樂品味或影片基調,也讓我們看到了若是把能動性歸屬於人類或演算法,都會有瑕疵。這裡的重點不是我們必須抉擇能動性究竟屬於誰,或哪樣事物。能動性並非伴隨著設計者、用戶,或演算法。演算法擁有一個多變的本體,表示對於能動性在哪裡運作的問題,不能給出一個決定性的答案。需要解釋的是變化的連續體。

 

  「我不知道啊,那是機器做的」


  臉書的熱門主題爭議和其他「演算法人力化」的例子,不只是讓我們質疑能動性的來源,還暗示了我們要問一個政治意味更強烈的問題:什麼時候會產生能動性?要代表誰?目的是什麼?真正的爭議不是臉書雇用了新聞系畢業生,干涉演算法的決策過程,加入他們自己的人為偏見,判斷新聞價值。爭議在於選擇性的人類與非人類能動性。大眾對於臉書熱門主題爭議的反應中,明顯看到演算法只有在部分時候很重要。

 

  為什麼有時候演算法會因為歧視而受到責備,可是在相似卻不同的場合裡,人類會因為偏見而被「指控」?臉書雇用新聞系畢業生來策劃趨勢話題,為什麼會有爭議,而在新聞機構,不雇用新聞系畢業生才有問題?換個方式想,為什麼臉書可以運用演算法來處理新聞,但如果是新聞機構用演算法而不用人力,就會變成問題呢?這些問題和類似的問題不能靠本質論來回答。

 

  演算法並不是被安排好的;演算法不是數學表式,或人類意圖的表現,而是在一定狀況下持續的成就。也就是說,演算法會變得比較非人性(科技),或是比較貼近人性(社會),端看演算法和什麼有關。在臉書趨勢話題事件中,演算法因為爭議改變了配置。面對各界指控人類編輯的主觀偏見,臉書決定辭掉這二十六位受僱編輯,並為趨勢話題模組撰寫簡述的新聞系畢業生。為了減少偏見,臉書宣布會用機器人來取代他們。這個案件中值得注意的不是趨勢話題究竟由演算法或人類所管理,而是不同標準如何被援引,並與爭議的內容建立關係。也就是說,「演算法」看似中立客觀,而人類主觀又有偏見。問題是演算法打一開始就不中立,人類也不是打一開始就有偏見,這些描述性的標誌都有一定的脈絡和背景。去除了這些脈絡,也就沒有這些標誌了。

 

  從關係物質主義(relational materialism)的觀點來看,最重要的問題「不是哲學性質的問題,是政治的」。在當代社會要理解演算法怎麼會產生重要性,不是要定義演算法是什麼、在什麼時間點運作,而是要問演算法如何被制定,又如何合作,創造出不同版本的真實。許多爭議都和演算法與人類的連續體有關,這麼多例子對照後,顯示的是演算法並非天生是好或壞、中立或偏頗的機制,而是會根據不同的因素、利益、利害關係者、策略和政治,而顯得好或壞、中立或偏頗。「本體論政治學」這個詞就是要強調真實永遠不是被安排好的,而是透過互動所形塑、出現。我們不是要判斷誰採取了行動(或在這個例子裡是誰產生了歧視與差別待遇),最值得探究的問題是,行動者什麼時候會做出特定的行為。

 

《被操弄的真實:演算法中隱藏的政治與權力》中文版書封。

 

  當我們把注意力從能動性是什麼、發生在哪裡,轉移到什麼時候會有能動性、能動性在特定狀況下屬於誰,我們或許會開始看到將演算法比喻為黑箱的概念,不只是個本體學或認識學的主張,而是一個政治的主張。把一樣東西比喻成黑箱有很多功能。演算法的黑箱不只是未知,而且在很多狀況下構成了林賽‧麥克高伊(Linsey McGoey)所稱的「策略性未知」,策略性未知強調「對組織和個人來說,培養無知通常比培養知識更有利」。以災難控制來說,專家宣稱無知,可以緩和大眾對於災難或醜聞究責。有策略地動員未知,組織和個人可以堅持他們不可能提早知道,或偵測到災難。這種無知往往在演算法和軟體的論述中也會用到。

 

  事實上,機器學習和人工智慧的領域,似乎常常看起來像是一個策略性未知的領域。在最基礎的層次上,機器學習演算法的運作似乎杜絕了所有形態的確定性。因為機器會「自行」學習,不需要刻意透過程式設定去學習,所以沒有辦法知道究竟特定的結果是什麼造成的。

 

  確實,在機器學習的脈絡中,決策規則來自「分析後的特定數據,但分析方式沒有人類可以說明」。雖然這些基礎的不確定性,可能會讓那些想理解演算法的人覺得很討厭,但這不確定性也可以用來重建麥克高伊所稱的「知識不在場證明」(knowledge alibis),即「可以利用高層專家的無知來辯稱自己無知的能力」。麥克高伊寫道:

 

知識不在場證明有一個特質,那就是應該知情的專家在不知情的時候,特別好用。這是因為透過他們的專業,某個現象不可能得知的主張就有了合理性,而不會只是因為無知所以無從得知。如果專家都不知道,沒有人會知道。

 

  大家往往辯稱他們缺乏有關演算法的知識時,拐彎抹角地提到他們沒辦法更早知道,因為根本沒人辦得到。《大西洋》雜誌近期有一篇文章的標題就直白地說:「就連寫演算法的人都沒辦法真正清楚演算法的運作方式」。這個不可知的概念的真實程度有多高?儘管要說明資料數據中有哪些圖型,被機器學習演算法的模型利用確實很難,但這些系統的大原則和運作邏輯都很清楚。這就是為什麼最初要使用演算法。主張沒有人類能真正說明演算法運作的方式,或圖型辨識中的決策規則,或許是更著重於軟體的組織建構,而非演算法本身。

 

  大規模的機器學習系統,其實是機器學習演算法的組合網絡,串接在一起運算出新興的特性(例如,搜尋)。當我們在面對動態消息或搜尋引擎時,我們面對從來都不是一套套從數據表中,訓練單一模型的演算法,而是如同樂高般拼湊堆疊的機械學習系統。往往,許多機器學習系統都在處理同樣的工作,但是用戶只會看到表現最好的前三套演算法,所聚合出來的結果。如果前三名當中有一套演算法的成效很差,就會自動被淘汰。我們必須牢記的是,這些階層和結構是由團隊裡的成員所打造,一個人要了解一切的能力很有限,就如同一個人要理解哥本哈根大學如何運作,充滿挑戰。但同時間,團隊可以從試錯的過程中理解演算系統,感覺到演算法系統可能故障的原因,或什麼造成瓶頸的產生,他們就能完成自己的工作。

 

  然後,高層專家的無知不應該影響我們不同地去理解。如果演算邏輯精確的設定方式無法輕易追溯──例如,檢驗機器在類神經網絡中的不同層級裡學到什麼,這點也不應該阻止我們質疑其本身的古怪之處,尤其是當平台只要以無知為藉口,就能便宜行事的時候。克里斯提‧桑維(Christian Sandvig)表示:「平台供應商往往推廣說他們的演算法,可以在沒有人為干預的狀態下運作,而且這些演算法不是經過設計,而是被『發現』或發明出來的,這種說法簡直成為那個領域內科學與工程研究的邏輯顛峰。」當事情不照原本計畫發展,或平台被指控進行言論審查、差別待遇或偏見,演算法作為策略性未知就是一個很方便的理由了。

 

  當然,如同卡隆和拉圖巧妙地提醒我們:「黑箱永遠都不會完全關起來,或好好地釘牢……但是宏觀行動者可以讓黑箱彷彿是一個幽暗密閉的容器」。若一筆特定交易被認為很可疑,或信用卡公司無法解釋為什麼演算法做了這種判斷,那當然很奇怪。不過,理解演算法式的事件不見得可以解開原因,因為演算法有能力可以創造出確定的「秩序和失序」。當一個事件的身分不確定時,就有機會可以詢問新的問題。在信用卡公司的例子裡,這個問題不見得是「為什麼演算法會有這個結論」,而是「這個結論顯示人們在使用演算法時,這些演算法的實踐,對不同的人造成什麼影響,會出現什麼樣的真實」。

 

  關於演算法,我們需要了解的或許不是演算法本身,而是我們自己的理解限制。或許我們不只應該擔心演算法出錯了,還要問演算法是不是做了原本該做的事?為什麼臉書審查了一張小女孩的裸照就會被指責,而事實上,這本來就是演算法被期待要做的事?或許就像以克諾爾—賽蒂娜的方式質疑「負面知識」,我們要試著層層剝開類神經網絡,或進入真正的原始碼。換句話說,當我們試著理解演算法的時候,我們也必須考量到哪些事情會干擾我們的認知、我們對哪些事情沒有興趣、我們不想知道哪些事情,以及為什麼。

 

 

書籍資訊

書名:《被操弄的真實:演算法中隱藏的政治與權力》 If...Then: Algorithmic Power and Politics

作者:泰娜‧布策(Taina Bucher)

出版:臺灣商務

日期:2021

[TAAZE] [博客來]

 

你可能會喜歡

後設的後設:《蘇菲的世界》

絕望死的勞動階級白人投給川普,你卻說那只不過是種族歧視:桑德爾《成功的反思》

我們破碎且愉快的日常:《娛樂至死》

稀罕且非比尋常的片刻:《眺望時間的盡頭》