民團招開記者會 質疑AI草擬判決的三大疑問與三大風險

據報載司法院為減輕司法負擔,積極建置以TMT5語言模型為基礎的「生成式語言模型系統」(即俗稱的「AI系統」)。第一階段,司法院投入「提供帳戶」(即幫助詐欺罪、幫助洗錢罪)及「不能安全駕駛」兩種案件使用,9月底前即將驗收完成、進入試辦;並於日後繼續投入至「民事交通損害賠償」、「消債更生、清算」等事件中。

對AI系統引發的社會關注及產生的問題,全國律師聯合會、台北律師公會、臺中律師公會等民團體於9月26日招開記者會提出呼籲如下:

  1. 資訊充分揭露:司法院應說明AI生成系統建置、監督訓練的範圍與方式
  2. 加強風險評估:司法院應審慎評估AI生成系統使用方式,避免判斷錯誤、複製偏誤及司法信任風險
  3. 強化社會溝通:司法院應召開公聽會、建立符合國際標準的使用AI規範後,始開放法官使用,勿讓系統「先上線後補票」

  1. 資訊充分揭露:司法院應充分說明AI生成系統建置、訓練的方式,以及個資保護、生成判決及其監督的機制

    根據司法院的新聞稿,該系統已順利完成開發,並即將進入試運行階段。此系統建立於TMT5語言模型的基礎上,且特地經過監督式訓練以生成裁判書草稿。

    據此說明,所謂的「生成式語言模型」並非「單純的例稿生成器」,而是能「以對應起訴書為生成素材,即時分析犯罪事實、證據等段落資料」的智慧化工具。由此可知,此一系統會對法官重要審判核心工作「書寫判決」產生重大運作模式的轉變。但司法院就此重大政策的說明,仍有諸多不足如下:

    1. 根據9月21日司法院新聞採訪,此系統在訓練階段的主要素材是大量的起訴書及對應的裁判書資料,所謂大量,指涉的資料時間區段為何?又起訴書部分,是由法務部協助提供「去識別化」的檢察書類。然而,如僅提供裁判書及起訴書,而未使用案件的卷宗資料,如何達成司法院所稱,該系統得以「即時分析犯罪事實、證據等段落資料」,從而生產出如新聞截圖的判決書草稿?

    2. 此套系統的建置是委外進行。該委外廠商訓練資料的資料庫如何建置?資料如何保存?資料係保存於廠商,或由司法院負責管理?該委外廠商在相關參數微調的過程中,如何避免因資料不足或資料偏差的問題?司法院與該委外廠商契約中,如何處理後續如發生相關爭議時的責任歸屬?

    3. 縱司法院新聞稿中指出「認定事實、適用法律及決定量刑等核心事項,仍完全由法官自行決定」,但法官使用該系統生成判決時,系統是否能記錄法官使用的情形?如何確保「判斷事項」仍為法官所把關?

    為釐清公眾的疑慮,我們呼籲司法院應就以上疑問做更進一步的說明,尤應先行公布訓練時使用的資料集,並一併公開與律師、檢察官等利害關係人一併試用,以供大眾得進一步檢視、評估可能的資料偏誤及風險。

  2. 加強風險評估:司法院應審慎評估AI生成系統的使用方式,避免判斷錯誤、複製偏誤及司法信任風險

    人工智慧迅速發展,帶來工作效率提升的可能性,但也因為發展的速度之快,放眼世界,它潛在的、未知的「風險」也無人保證已經全盤掌握。歐盟的人工智慧專法《AI Act》草案,即已將AI在執法與法律解釋的應用列為「高風險項目」,需要進行嚴格的事前、事後審查。同時,美國的「國家人工智慧諮詢委員會」(NAIAC)也在其年度報告中特別提到司法議題的特殊性,並建議進行專門的政策評估。

    另外,雖國際上目前也有使用AI協助訴訟的案例(如美國使用的《COMPAS》系統)。但國外的司法機構使用AI時,亦僅止於協助「證據整理」的階段,尚不涉及擬定判決書及協助法官判斷的程度;且事後亦有查核機制,以確保經AI協助的案件,不會因程式偏差而導致整理內容不符。

    惟若依司法院新聞稿及新聞使用的說明圖顯示,司法院此次開發及預計投入使用的此系統,已超脫「協助整理」的範圍,而能夠「協助法官判斷」,則至少將可能產生三種風險:

    1. 判斷錯誤的風險

      根據國外文獻,AI可能會產生人工幻覺(Artificial Hallucination)現象,以致於生成內容產生錯誤。且據美國普渡大學(Purdue University)發表的研究發現,在AI系統的正確率在未達5成的情況下,會有高達4成的使用者無法察覺系統的錯誤。

      據新聞圖片,目前此系統於生成判決草稿時,是先讓法官勾選「認罪與否」、「使用何條規定處理案件」等選項後,系統即會自動生成草稿。此關鍵之處在於,雖然結果係為法官所決定,但判決中最重要的理由,是由此系統自動協助生成。如此一來,當AI生成的內容倘若包含使用者無法察覺的錯誤,是否可能直接產生判斷錯誤的風險?

      司法院於9月21日新聞採訪中提到,此系統並不會如同ChatGPT一樣浮現「幻覺」、「張冠李戴」的狀況,評估的標準與過程為何?如無法完全避免系統產生風險,法官在使用時,該如何避免此狀況?法官使用過程中可能之風險,又如何在試辦時找出問題、持續監測?

    2. 複製系統偏誤的風險

      AI目前仍未具備理解人類的能力,而僅能依據訓練資料回答經統計後的結果,且AI亦可能因原始資料不均或不足而產生偏差。學者有提出警告,美國近年在法院廣泛運用由商業公司開發的AI,幫助法官評估被告的再犯風險為量刑準據;但該系統的運作基礎,複製了過往司法系統中已存在的偏見和不平等(如種族岐視),其系統偏誤的風險,極需注意。

      據司法院新聞稿稱,此系統目前係以現存的判決書及起訴書做為訓練資料,故同樣也會面臨此風險。司法院於建置臺灣使用的此系統時,是否已評估過系統可能產生的偏誤風險?評估的結果為何?預計監控、降低風險的策略為何?

    3. 司法信任的風險

      審理案件並非單純的法律解讀,它還涉及到文化差異、當下情境以及當事人的真實想法。畢竟,這些複雜的人性考量,以及每個人生命經驗所累積的判斷,並無法透過單純的書類與文件提供給AI模型進行訓練,因而對目前的AI來說,這樣的判斷仍是一大挑戰。以司法院預計先使用的「提供帳戶」為例,要判定當事人是否故意提供帳戶,此一主觀要件的判斷,非僅單純根據某套數據模型即可作出。人民很難知悉法官如何使用AI的輔助,如此一來,如何才能不傷害人民對於司法的信任,亦不可不慎。

      況且,行政院之指引明訂使用AI時須明確揭露其使用範疇。倘若司法院使用AI的規範,與行政院的指引採用同樣標準,則法官如何在判決中清晰說明AI的參與度和作用,以確保公眾的知情權並保障對司法的信心,亦需要充分討論。

      綜上,民間團體呼籲,司法院應對外清楚說明上述風險,否則難以消除社會各界對司法院使用此系統的疑慮。

  3. 加強社會溝通:司法院應召開公聽會、建立符合國際標準的使用AI規範後,始開放法官使用,勿讓系統「先上線後補票」!

    固然,優化法官書寫判決的流程、減輕法官書寫判決的負擔,可以讓法官將時間,留給重要的判斷事項,以提升司法的裁判品質。民間司改會亦曾就「簡化判決書」或「明文規定得由法官助理代為起草判決的範圍及權責」等方式提出草案。是以,運用AI系統協助法官,如能適時減少法官不必要的勞力時間成本,亦為人民所樂見、提升司法品質所必要;然而,相關的風險亦須謹慎評估。

    是故,民間團體在此共同呼籲,司法院於制定規範時,應召開公聽會,且應廣邀律師、檢察官、技術社群等利害關係人與會,以廣納各界意見。於擬定使用規範時,應參考現行國際的標準,並使我國的司法AI應用能與國際上的監管標準接軌後,始開放予法官使用,以降低或避免可能的系統性風險,確保AI的應用能夠服膺人民基本權利保障,與「負責任人工智慧」(Trustworthy AI)的國際發展趨勢相符。【記者曾齡僾報導】