透過 AI 視訊 面試 – 預測溝通技巧和人格特質的智能視訊面試研究顯示,AI 面試 可準確預估應徵者的溝通技巧與部分人格特質 (開放性、親和性與情緒穩定性) ,雖然無法完整預測五大人格特質 (外向性與盡責性) ,但對於要求溝通技巧與部分人格特質的工作職務已具有意義。

「今天下大雨,應徵者又 No Show…」

「事情都做不完了,面試一整天還沒看到一個合適的應徵者…」

「疫情還沒有穩定,大量面試還是有一定程度風險,如何有效精準面試?」

身為招募甄選專業人員應對於上述對話心有所感!在過往企業徵才過程中,實際面對面面試為最常使用的甄選工具,透過此方法 HR 可以看到應徵者有別於履歷紙上的一面,不過換來的是次次不確定的面談經驗,也導致面談成本難以控制,決定甄選品質的好壞也非 HR 能夠控制 …..

本研究在文末說明目前僅採集人類的面部表情資料作為訓練內容,未來將再加上語氣、聲音等其他非語言訊息,如此一來能更完整精準判斷人格特質的各個面向;而值得注意的是 AI 面試 隨著資料持續的累積,人格特質預測的準確度也大幅提升,對於人格特質、溝通技巧與面部表情之間的關係掌握度越來越高。準備好迎接 AI 面試官了嗎?

研究撰文者:
孫弘岳, Hung-Yue Suen, https://orcid.org/0000-0002-6796-2031
洪國恩, Kuo-En, Hung, https://orcid.org/0000-0003-2091-2747
林建良, Chien-Liang Lin, http://orcid.org/0000-0001-7728-2008
備註:ORCID – 研究學者身分證
期刊名:Human-centric Computing and Information Sciences volume 10, Article number: 3 (2020)

研究摘要

在產業和組織心理學以及影響力評估中,如何預測評估個人的人際溝通技巧和人格特質是至關重要的議題。在本研究中,我們邀請包括 57 名訪問者(面談主管)和 57 名受訪者(求職者)在內的 114 名參與者,收集受訪者的溝通技巧和人格特質,這些資料是真實人類在結構化的行為式面談法過程中所記錄的。

我們基於 TensorFlow 開發了具有人工智能(AI)決策代理的非同步視訊面談(AVI)平台卷積神經網絡(convolutional neural network, CNN),稱為 AVI-AI ,於就業篩選的初始階段,可部分取代人類面談者的工作,並成功預測應聘者的溝通技巧和人格特質。

實驗結果表明,AVI-AI 不僅可以預測應聘者的人際交往能力,而且可以預測候選人的開放性,友善性和情緒穩定性,預測程度跟有經驗的人力資源專業人員所觀察的結果一致性極高。我們所測試的信效度值均可支持地本文論點。但 AVI-AI 無法預測本研究中真實人類面試主管所感知的盡責性和外向性。

背景介紹

溝通技巧和人格特質已被確定為工作績效和組織有效性的關鍵成功因素。

溝通技巧使職場成員通過口頭和非口頭訊息有效地交換,共享和反饋給不同的利益相關者(stakeholder)。言語訊息用於傳達準確的單詞,非言語訊息(例如手勢,面部表情,姿勢和語氣)有助於理解潛在的情緒,態度和感覺。

人格特質是指個人的思維,情感和行為模式,可用於預測個人是否適合特定的工作環境或組織環境。面對面訪談是一種常見的招募與就業方法,這種方法是一種有效的評估工具,可以結構化的方式衡量人際交往能力。面試主管根據面試過程中的非語言交流來判斷應聘者的人格特質,而這種判斷可能會影響錄用決定。

然而當面試人數極多時,邀請每個求職者參加面對面的面試並不符合成本效益。非同步視訊面試(AVI)可作為其替代方法:求職者到面試平台登錄,通過其手機,平板或電腦的錄影設備和麥克風記錄他們對面試問題的回答,並分析他們的答案,之後由人類面試主管在以後的時間運用。

AVI 允許求職者在任何時間,任何地點記錄和回答問題。因為可以在不要求安排當面面談的情況下,面試評估人員可隨時共享和面談視訊記錄,AVI 可以加快選擇過程。

如有一些可用的面談標準來評估面談績效,那麼一些學者或企業可能對訪談是否可以自動化,部分(或全部)取代傳統的人類面談感到興趣。

先進的生物特徵識別和面部檢測技術,可在有限的計算資源快速準確地從近紅外線圖像中採集多種模型所需資料。隨著人工智能(AI)出現,許多計算機科學家將 AI決策代理,生物特徵識別,和面部識別技術結合起來,開發出基於 AVI 的自動面試平台(稱為 AVI-AI)。

AVI-AI 技術已在計算機科學和人力資源領域引起了相當大的關注,尤其在自動評估溝通交流技能和人格特質。

人工智能是計算機科學的一個分支,人類正在尋求一種類似於人類智能的新型智能機器。機器學習(ML)是實現AI的一種常見方法,而深度學習(DL)是一種用於實現 ML 的技術之一。深度學習 DL 可自動(而不是手動)執行特徵採集。

存在深度學習 DL 的三種主要方法:監督學習,非監督學習和半監督學習。研究表明,半監督學習可以通過使用相對少量的未標記數據加上一些用於模式識別的標記數據來實現。

卷積神經網絡(CNN)已被證明是自動分類圖像記錄中模式的高性能模型,CNN 也是最常用的分類器,可對其訓練以準確檢測和識別面部特徵而無需人工採集。

我們使用基於 TensorFlow 的半監督 DL 和 CNN 分類器來開發 AVI-AI,可自動評估求職者的溝通技巧,並根據求職者的面部表情預測應聘者的五種人格特質。

TensorFlow 是一種常見的開源 DL 框架,可移植到跨設備和平台(包括行動裝置和桌機)的不同系統上。在視訊面談中,基於 TensorFlow 的 CNN 框架有望實現良好的人臉識別效果。這項研究測試了使用AVI-AI評估人際溝通技巧和感知到的五個主要人格特質的有效性和準確性。

針對溝通技巧和性格的結構化 AI 視訊 面試

根據產業和組織心理學,結構化面試技巧比非結構化面試更為可靠和有效。事先定義結構化的面試問題,並向所有候選人提出相同的預定和即跟進問題集。根據相同的量表評分受測者。

在非結構化面試中,問題是容易隨機觸發的,每個候選人的問題可能不同,並且需要單獨評估,因此沒有標準化常模,且不可靠。

結構化面試可以分為情境式和行為式:情境面試讓求職者描述他們在模擬情境中的行為,而行為面試則讓求職者描述他們在相似情境中的表現。

行為面試法顯示出更高的有效性,因這種面試反映出候選人很可能會在執行工作中如何與他人互動,而不僅是候選人知道如何做這項工作。

在 AVI 的設定,使用基於行為的結構化面試格式來評估候選人的人際溝通技能,這些技能與自我評價的工作績效和組織任職時間顯著相關。

除了評估每個訪談問題的受訪者答案外,許多訪談者還會在結構化訪談中根據受訪者的表達來推斷受訪者的人格特質,『主觀地』判斷受訪者的特質是否符合工作環境的要求(稱為個人和工作適合度,P–J 適合度,person and job fit, P–J fit)和組織文化(稱為個人和組織適合度,P–O 適合度,person and organizational fit, P–O fit)。

然而,面試問題並不能直接評估人格特質,因為人格特質暗示著個人對不同情況的反應。

參考行為式面談法:
https://hiproficiency.com/interview-beharvior-star/

用於溝通技巧和個性分析的非語言線索

社會訊息理論意味著應聘者可通過人際溝通技巧來證明自己過去的行為,這表明他/她既具有非語言溝通能力,又具有語言溝通能力,因為非語言溝通比語言溝通具有更大的影響力。

人類互動元素包括了手勢,姿勢,面部微表情,眼睛的運動,以及聲音變化。根據布倫斯威克的《鏡頭模型 – Lens Model》,人們在互動過程中除了聽與分析口頭訊息外,還觀察和解釋非語言訊息。

這些非語言訊息可以提供溝通提示和其他訊息,以及高於語言訊息的含義。一些統計表明,大約 70% 至 80% 的有效溝通是非語言的。

過去的研究發現,面部表情是最重要的非語言訊息,可以更好地掌管人際溝通的品質。與其他形式的非語言交流不同(如手勢,點頭搖頭等),面部表情具有普遍性,可傳達人類情感,計算機可以高度準確地識別這些表情。

與圖1所示的鏡頭模型 – Lens Model 一致,受訪者將其基本特徵外部化為可觀察到的非言語暗示,例如 AVI 中的面部表情和動作;而人類面談主管或評估者對受訪者的性格特徵和溝通技巧進行歸因或推斷,除了與工作有關的行為和訊息外,在面試過程中同時根據非語言提示進行分析。因此,受訪者的面部表情和動作決定了面談主管或評估者對他們感知到的人格特質。

ai 面試 結構

圖1 – AVI 中面談主管或評估者對受訪者的溝通技巧和個人特質的判斷過程

先前的研究發現,當面談主管或評估者可獲取有關受訪者個性的特質(在 Lens 模型中也稱為“準確性”)時,訪問者和受訪者的自我評價會達成高度的共識。

面談主管可在零相識情況下,通過短暫的(約 15 分鐘)採訪過程來了解受訪者的明顯特徵,其程度近乎其親密朋友了解的程度。研究表明,他人評量的人格特質結果,遠優於自我評量的人格特質結果。因為自我評量結果容易具有社會期望偏差(自己對自己的期望),特別是在工作申請過程中。

AI 面試評估 – 溝通交流技巧和人格

Pooja Rao及其同事的一項研究表明,在基於 AVI 和 ML 的自動溝通技能評估界面中,使用行為式的結構化面談法,發現自動採集的非語言特徵可以準確地預測候選人的溝通技巧,這是由人類面談人員打分的結果。

Social Computing(目前無合適中文翻譯,https://en.wikipedia.org/wiki/Social_computing)和社交訊息處理中的類似研究成果表明,高級 ML 有助於機器理解人類非語言訊息如何影響其溝通能力和人際互動的有效性。

換句話說,我們可以使用 ML 加訊息處理功能,根據受訪者的非語言訊息自動預測其人際溝通技巧,而不必通過 AVI 設置中的人類評分者來評估其反應(即過去的行為發生)。此外,人格特質分析計算領域的研究人員已採用 AVI 和 ML 在面談人員與受訪者之間的零相識的情況下,基於 Lens 模型預測受訪者的人格特質。

AI 評估的相關工作是基於傳統的 ML 或監督的 DL 開發的,這需要大量的人工來做行為註釋和標記。

儘管可以採用無監督的 DL 來自動學習正確的模式而無需預先定義標籤,但這種方法需要大量的數據來學習建立模式。

半監督的 DL 可減少所需的標記工作,同時保持較高的準確性。由於 CNN 可有效地從 AVI 圖像記錄中對模式進行分類,而 TensorFlow 引擎可用於提高預測準確性,因此具有 TensorFlow 引擎,可基於人員面部表情來預測受訪者的屬性與特質的 CNN,將是理想的學習模型。

與先前的工作一致,我們的研究旨在使用帶有 TensorFlow 的 CNN 開發基於 AVI 和半監督 DL 的智能視訊面談系統,以採集面部表情特徵。

透過解析受訪者的面部表情與他們的溝通技巧和性格特徵之間的關係,根據受訪者的 AVI 記錄自動預測受訪者的性格來建立一個模型,而無需使用任何工具來評估其性格特徵。此後,我們檢查了受訪者的溝通技巧和人格特質,來檢驗其有效性和準確性。

方法與建模 – 數據採集

我們邀請了 57 位人類面談主管和 57 位受訪者(面試者)參加了我們的實驗。所有人力資源評估者都是人力資源專業人員,他們的平均工作經驗為 12.49 年(標準差 SD = 7.19),平均有 5.81 年面談求職者的經驗。

受訪者是正在尋找人力資源(HR)領域全職或兼職工作機會的應屆畢業生或學生。受訪者的平均工作經驗為 2.28 年(SD = 4.73)。

受訪者在任何android或iOS移動設備上註冊軟件應用程序,受訪者可自行決定何時準備開始自動化採訪。該軟件會逐步引導他們採訪,並且告知,他們的答案和回應(包括音頻和視訊訊息)將通過我們的 AI 演算法記錄和分析。

針對受訪者的問題以一標準模式進行規劃,每個受訪者都回答了以行為式面談為導向設計來評估人際溝通技巧的相同五個問題。

問題顯示在螢幕上,在每個問題宣布後允許1分鐘的思考時間。進入回答螢幕後,視聽功能自動啟動。有 3 分鐘時間來回答每個問題。

如受訪者在3分鐘內完成問題,他們可以選擇跳到下一題,否則系統在3分鐘後自動轉到下一題。每個受訪者的整個視訊面談過程約為 20 分鐘。在所有受訪者都完成了視訊面談之後,隨機選擇一位人類評估者來評估三名受訪者的溝通技巧和人格特質。

數據標籤
人際溝通技巧評分由三個人類評分者的機械平均評分組成(無加權),其中五個訪談問題的計分法為 5 分制,如表 1 所示。

表 1 – 結構化 AI 視訊 面試題和評分量表

Cronbach α 值為 0.901(一般簡稱 α 係數,檢測信度的方法 ),這表明五個問題項具有相對較高的內部一致性(α 大於 0.7)。

組內相關係數(ICC)為 0.641。ICC 的範圍是 0 到 1; 大於 0.75 的值被認為是極好的,介於 0.6 到 0.74 之間的值是好的,介於 0.4 到 0.59 之間的值是合理的,而小於 0.4 的值則很差。在這項研究中,人際溝通技巧的信度很好。

此外我們要求人類評估者根據 Goldberg 國際人格項目庫(IPIP)隨機判斷三個受訪者的人格特徵,該項目有 50 個,用於衡量人格特徵的五個主要方面:對新體驗的開放性(具有創造力和有想像力),盡責性(有組織和自律),外向性(自信和善於交際),可親性(寬容,誠實和無私)和情緒穩定性(易受頻繁的強烈負面情緒影響)。

根據受訪者自我表現的主觀感知,與三個人類評估者對受訪者的五個人格特質得分合併(平均)。五個主要特徵的 Cronbach’s α 值都是可接受的(大於 0.7):
開放性(α= .93),
盡責性(α= .94),
外向性(α= .93),
可親性(α= .90),和
情緒穩定性(α= .88)。

這五項特質的 ICC 值分別為:
開放性(ICC = .68),
盡責性(ICC = .74),
外向性(ICC = .71),
可親性(ICC = .67)和
情緒穩定性(ICC = .50) ,表明所有五個大特質可靠性都可以接受(大於 0.4)。

特徵採集和建模
為了開發可用於預測人類評估者感知的人際溝通技巧和人格特質的 AVI-AI 軟件,我們構建了一個三階段模型,如圖2所示:視訊數據處理,分類器(classifier)訓練和分類器驗證。

圖2 – 視訊數據處理,分類器訓練和分類器驗證

在視訊數據處理階段,我們開發了一個 AVI,可以從 FFmpeg 中的數據集每個圖幀中採集受訪者的面部表情。使用 OpenCV 和 Dlib 通過每幀跟踪 86 個面部標點來檢測面部特徵。

從每位受訪者的 AVI 記錄中以 5 s 的間隔採集每個圖幀中的所有面部特徵。透過預先處理以減少特徵採集中的不良噪訊,如由頭髮和化妝品引起的干擾。

我們檢測並裁剪了人臉圖像,如圖 3 所示,它說明如何獲取原始人臉圖像,檢測人臉界標以及裁剪人臉圖像以訓練分類器。

之後我們將裁剪後的圖像轉換為灰度模型,以減少照明的影響並突出面部表情和運動特徵。接著我們找到了圖 4 中綠色顯示的 86 個面部標誌。將無法檢測到的任何圖幀刪除。

圖3 – 人臉檢測和裁剪

圖 4 – 將裁剪的臉部圖像轉換為灰度並定位臉部界標

在分類器培訓階段,我們將 57 名受訪者的標籤數據與他們採集的特徵相結合,以訓練溝通技巧和五種人格特質的預測模型。

該模型是基於 TensorFlow 的 CNN 模型,如圖5所示,其中神經網絡的結構包括四個卷積層(convolutional layers),三個池化層(pooling layers),十個混合層(mixed layers),一個完全連接層和一個 softmax 層作為輸出。

輸入圖像為 640 像素(僅寬度),可通過處理面部圖像標準化,因裁剪後的圖像在旋轉和移動方面可能會發生變化,並且固定的像素比率(VGA:640 * 480)可能會有所不同而扭曲原始面部圖像。

我們使用採集受訪者面部表情特徵作為輸入(參見圖6),並將三個人類評分者感知的溝通技巧得分和五個大特質作為神經網絡的輸出。

除了輸入之外,每個層還包含訓練參數(連接權重)。我們還使用了整流非線性單元(ReLU )來解決可能在S形函數中出現的梯度消失問題。模型的最後一層是 softmax 層,具有 60 個可能的輸出。

圖5 – CNN 模型的架構

圖6 – 將特徵圖像輸入到 CNN 中

在分類器驗證(classifier validation)階段,隨機抽樣獲得訓練組(50%)和驗證組(50%)。每個受訪者都有六個不同的特徵,包含一個溝通技巧得分和五個人格特質。我們進行了4000次訓練迭代(training iterations),其中學習率為0.01,評估頻率為10,訓練批次大小為256。

研究結果

我們使用皮爾森相關係數(Pearson correlation coefficient – R),解釋變量(R^2)和均方誤差(MSE)來衡量 AVI-AI 的同時效度或稱共時效度(concurrent validity)。

R^2 代表可以由自變量預測的因變量的方差。R^2 越高(完美狀態為 1),預估值就越好。相反,MSE 較低(完美狀態為 0)表示預估值誤差較小。

表 2 顯示,通過 AVI-AI 成功地學習並預測了人類評分者所感知的人際溝通技巧,開放性,可親性和情緒穩定性,但無法預測人類評分者所感知的盡責性和外向性。

結果建議得知,受訪者的面部表情模式反映了人力資源專業人員根據結構化行為面試得分的溝通技巧。

此外,預測模型可學習如何在面試過程中判斷受訪者是否可能是開放的,可親的和情緒穩定性的。由於人類評分者對於受評者的盡責性和外向性無法有效鑑別出,透過AI 系統判斷與受訪者自評比較,則有高度的信效度(2021/5/19, 洪國恩博士, Kuo-En, Hung 補充)。

ai 面試 信效度分析

表2 – 實驗結果

AI 非同步 視訊 面試 – 討論與結論

在這項研究中,我們開發了基於 TensorFlow 的半監督 CNN 模型,以自動預測受訪者的溝通技巧和人格特質,其結果支持社會訊息理論和 Lens 模型,並表明人類評估者可根據非語言交流訊息判斷受訪者的溝通技能和一些明顯的個人特徵。

而不同的人類評估者可能具有相似的評估角度來解讀非語言訊息,並詮釋受訪者個性。因此,我們採用 AVI 採集受訪者的面部表情,使用 AI 嵌入 AVI,以學習用於預測受訪者的溝通技巧和性格特徵。

儘管如果職位空缺需要人際溝通能力和特定的人格特質,例如開放,樂於助人和情緒穩定性程度,我們的 AVI-AI 可以用來幫助篩選大量求職者,但這項研究在解釋實驗結果時存在一些局限性,應予以考慮。

首先,僅少數參與者同意參與這項研究,這可能會影響 DL 模型的預測能力,可概括性(普遍性)和模型性能。因此未來的研究會邀請更多的參與者,並檢查是否可以將 AVI-AI 設計為直接評估工作績效標準,以及是否可提高預測效度。

其次,我們僅使用面部表情和動作作為預測溝通技巧和五種人格特質的特徵,但其他一些非語言暗示(例如手勢,身體韻律,注視行為和上身動作等)可能會影響面談主管的歸因處。

在未來的工作中,我們可能包括更多的參與者,以開發 DL 模型並採集其他形式的非語言消息(例如聲音訊號),以提高有效性和準確性。

這些局限性可以解釋為什麼 DL 模型無法基於面部特徵來預測受訪者的盡責性和外向性,因為面試官可能會感知其他線索來推斷出這些特徵,進而干擾其結果。未來的研究可能會通過在聲音訊號和文字訊息其他線索採集編碼,從純粹的視覺模式擴展到多模式。

第三,本研究採用一種自動人格知覺(APP, automatic personality perception)方法來訓練我們的智能面試機器人,其學習目標不是被訪者的真實人格,而是由面談主管賦予的人格。

因此,如果通過偏見和歸因訓練模型,AI 機器人可能會重現人為偏見。與 APP 相比,自動人格識別(APR, automatic personality recognition)方法側重於受訪者自我評估的人格特質的外部化,這些特徵從非言語行為證據中反映出個人的真實人格。

儘管過去的研究表明,他人評估的人格特質結果(例如 APP)可能比自我評估的人格特質(例如 APR)更可取,因訪談員的這種歸因已被證明與自我評估相吻合,而他人評估可避免應聘者的社交慾望和偽造行為。

未來的工作可能會結合 APP 和 APR 方法來訓練 DL 模型,從而通過多組分析和比較不同評估者(例如,自我評估和朋友的評估)中的結果來從不同角度預測受訪者的性格。

最後,心理學家發現求職者可能對不同的面試官(包括 AI 面試機器人)表現出不同的行為,例如預期印象行為(impression management)和社會期望行為(socially desirable behavior),不同的面試官也可能會在面試過程中引發不同的反應。

這種互動可能會進一步影響面試官如何評估受訪者的人格特質。未來的工作可能包括一項比較研究,以檢查在不同訪談環境(例如 AI 與非 AI 或同步視訊訪談與 AVI)中訪談者對被訪者的性格感知的準確性。

有許多關於『面部表情檢測工具來自動評估求職者特徵』的研究,但這些研究集中於『如何』(即評估方法)而不是“什麼”(要評估的結構),後者對於重要人員選擇,人選評估的有效性,可解釋性和可接受性來說,極為重要。

相比之下,本項研究不僅開發了一種檢測工具,而且還評估了求職者的溝通技巧和人格特質,這些已被確定為就業選擇的重要標準。

常用的選擇工具包括結構化採訪,包括面對面採訪,電話採訪以及會議或同步視訊面談,這需要大量的人力,時間和間接的財務成本。

隨著 AI 的出現,人們可能會想像 AI 面試 機器人可以像一群經驗豐富的面試官一樣自動執行工作,使招聘過程(對於雇主和應聘者)都更加高效。

除了自動化帶來的成本效益外,還可以採用 AI 決策代理來減少人為偏見(內隱或外在的),這種偏見可能會影響對受訪者線索的解釋方式,因為 AI 機器人會以相同的標準來評估所有受訪者。可以使溝通技巧和人格特質的判斷更加一致和公正。

本項 AI 視訊 面試 研究應用了一種嶄新的高同步有效性和準確性的 DL 模型,來自動預測受訪者的溝通技巧和人格特質,在選才評估和以人為本的科學計算下,這可能是整合人類想像力與計算機能力之間的鴻溝,並實現數據驅動型 AI 潛力的關鍵途徑。

本文由本論壇翻譯自,Intelligent video interview agent used to predict communication skill and perceived personality traits:
https://hcis-journal.springeropen.com/articles/10.1186/s13673-020-0208-3

 

推薦閱讀: