種子教師研究分享:「Developing AI Models for Understanding the Coherence Structure of Earnings Conference Call Transcripts」
發佈日期:2023-03-16 
瀏覽數:1351
 2023-03-17 更新
臺大管理學院於2022年12月22日舉辦「種子教師研究計畫-成果分享會」,本次很榮幸邀請到資管系盧信銘老師擔任主講人,分享與團隊成員李家岩老師、林聖典研究助理合作的「Developing AI Models for Understanding the Coherence Structure of Earnings Conference Call Transcripts」,此研究主要運用自然語言處理(natural language processing)的方法,對上市公司法說會逐字稿的連貫性(coherence)進行分析。

法說會是投資人取得上市公司第一手資訊的重要管道之一,無論是公司管理階層對於該季業務、財務表現的說明,或是受邀分析師的提問,都是投資者關注的重要資訊。過去法說會逐字稿的研究,大多與公司披露的語氣(disclosure tone)、敘述結構(narrative structure)和分析師的選角(casting of analysts)有關,也就是聚焦於管理階層準備敘述(management prepared narrative, MPN)或問答環節(question and answer section, Q&A)的其中一部分,很少研究聚焦在MPN與Q&A兩者之間的連貫性。然而,公司管理階層的資訊揭露與分析師提問可能存在差距或不一致性,同時,問(Q)與答(A)之間也可能出現差距或不一致性,也就是管理階層的回應是否和分析師的提問之間有著連貫性,這些都是投資人感興趣的重點。

對此,研究團隊提出使用深度學習模型去分析MPN與Q&A之間、以及Q與A之間的連貫性,發展適合的自然語言處理方法,對法說會逐字稿主要章節間的連貫性進行分析。首先,需要對逐字稿進行人工標註,將逐字稿主要章節的段落串聯,建構成連貫性資料集,以產生訓練用與預測用資料,同時需要定義不同連貫程度的規則,包括:二元連貫標籤(binary coherent label)與連貫性分數(coherence score)。另一方面,為了增加訓練模型的資料量,協助模型有更佳的預測表現,此研究使用了度量學習(metric learning)中的triplet loss,利用正負樣本之間的成對相似度設計了輔助任務(auxiliary task),進一步提升模型的效能。

至於分析連貫性的模型,此研究發展一個基於RoBERTa Transformer的自然語言處理框架,稱作Transformer for Coherence Recognition (TraCR),模型中所使用的Transformer引入了自我注意力機制(self-attention mechanism),能夠偵測序列中相互影響與相互依賴的文字或資訊,在訓練模型時使用了多任務學習損失函數(multi-task learning loss),包括均方誤差損失函數(MSE loss)與交叉熵損失函數(cross entropy loss),使模型能同時達成「預測二元連貫標籤」與「預測連貫性分數」這兩項任務。

本研究的實驗結果顯示,透過輔助任務進行預訓練(pre-trained)的TraCR模型,其分辨連貫性與預測連貫性程度的表現,優於基準模型(baseline model)和其他現有的模型。盧老師也表示,未來研究團隊將延伸此一主題,研究是否MPN與Q&A之間的連貫性、Q與A之間的連貫性,會影響法說會後的市場反應與公司股價表現,並研究可能會透過何種方式去進行影響。


 

資料來源: 台大管院院行政辦公室
撰文者/資管所博士班 黃富纖