當前位置 > 首頁 > 技術(shù)文章 > 內(nèi)部效度、統(tǒng)計結(jié)論效度、外部效度與構(gòu)念效度對眼動實驗結(jié)果影響概述

選型 | 市場 | 應(yīng)用 | 使用 | 法規(guī) | 技術(shù) | 其他

內(nèi)部效度、統(tǒng)計結(jié)論效度、外部效度與構(gòu)念效度對眼動實驗結(jié)果影響概述

瀏覽次數(shù)：2536　發(fā)布日期：2022-6-27　來源：EyeLink 博潤視動官網(wǎng)微信

王均松,錢家駿,郭亞玲. 翻譯過程研究中的眼動實驗效度：問題與對策[J]. 外國語, 2022, 45(2): 93-101. Junsong WANG,Jiajun QIAN,Yaling GUO. The Validity of Eye-movement Experiments in Translation Process Research: Problems and Solutions[J]. Journal of Foreign Languages, 2022, 45(2): 93-101.

http://jfl.shisu.edu.cn/CN/abstract/abstract624.shtml

摘要：實驗效度反映了實驗結(jié)果的準確性與有效性，是衡量實驗成敗優(yōu)劣和科學(xué)化水平的核心指標。本文基于Cook & Campbell(1979)提出的實驗效度分類框架，從內(nèi)部效度、統(tǒng)計結(jié)論效度、外部效度、構(gòu)念效度四個方面, 探討了翻譯過程研究中眼動實驗效度的各種影響因素，并提出一系列應(yīng)對措施與建議, 以期規(guī)范翻譯眼動實驗設(shè)計，提高眼動實驗質(zhì)量，為后續(xù)研究提供借鑒與參考。
關(guān)鍵詞: 翻譯過程研究, 眼動實驗, 實驗效度, 影響因素

1 引言

近年來，可重復(fù)性(replicability)不僅成為心理學(xué)研究的熱議問題(胡傳鵬等2016)，也引起了翻譯學(xué)界的重視(Olalla-Soler 2020)。實驗結(jié)果的可重復(fù)性在一定程度上受實驗研究效度的影響(Porte & McManus 2019)。在實驗心理學(xué)領(lǐng)域，效度是指實驗方法能夠達到實驗?zāi)康牡某潭�，它反映�?ldquo;實驗結(jié)論的真實性程度和有效性程度，是衡量實驗成敗優(yōu)劣的核心指標”(李欣、石文典2009)。目前，已有學(xué)者開始將眼動追蹤技術(shù)運用至翻譯過程研究中，并對翻譯眼動實驗研究中存在的方法論問題進行探討(Alves et al.2009; O’Brien 2009; 王一方2017)，但鮮有學(xué)者針對翻譯眼動實驗的效度(validity)問題進行批判性反思。鑒于此，本文在文獻調(diào)研的基礎(chǔ)上，結(jié)合我們在實驗過程中的發(fā)現(xiàn)，圍繞翻譯眼動實驗效度的影響因素開展研究，以期規(guī)范翻譯眼動實驗設(shè)計，提升研究質(zhì)量。

2 實驗效度

實驗效度(validity of experiments)一詞最早由美國著名心理學(xué)家Campbell于1957年提出，他將實驗效度分為“內(nèi)部效度”(internal validity)和“外部效度”(external validity)兩個方面。“內(nèi)部效度”指自變量與因變量之間關(guān)系的明確程度，或者說實驗中自變量的效應(yīng)能被準確估計的程度；而“外部效度”指當被試、場景、處理、結(jié)果測量發(fā)生變化時推斷因果關(guān)系成立的有效性，即實驗結(jié)果能夠被概括推廣到樣本總體和其他同類現(xiàn)象中的程度。Cook & Campbell(1979)對這一分類進行了拓展，他們從內(nèi)部效度中分離出“統(tǒng)計結(jié)論效度”(statistical conclusion validity)，從外部效度中分離出“構(gòu)念效度”(construct validity)，進一步豐富和完善了這一分類體系。

自實驗效度的問題提出以來，學(xué)者們圍繞實驗效度的影響因素開展了一系列研究和探索(Cook & Campbell 1979; Shadish et al.2002)。其中，Shadish et al.(2002)的研究最為系統(tǒng)和全面，他們繼承和發(fā)展了Cook & Campbell(1979)的效度分類體系，并提供了一份詳盡的效度威脅(threats to validity)清單。本文在借鑒前人研究的基礎(chǔ)上，針對翻譯眼動實驗的特殊性，構(gòu)建了翻譯眼動實驗效度的影響因素框架(見圖 1)。需要指出的是，影響實驗效度的因素紛繁復(fù)雜，限于篇幅，本文只列出了與翻譯眼動實驗密切相關(guān)的影響因素。下文將對這些因素進行逐一介紹和分析，并提出針對性的控制措施與建議。

圖1 翻譯眼動實驗效度影響因素

3 翻譯眼動實驗效度的影響因素

3.1 內(nèi)部效度影響因素

在實驗研究中，除了研究者設(shè)置的自變量，眾多無關(guān)變量也會對因變量產(chǎn)生影響。對這些無關(guān)變量的控制就成為決定實驗內(nèi)部效度的關(guān)鍵�？傮w而言，影響翻譯眼動實驗內(nèi)部效度的無關(guān)變量主要來自以下三方面：

(1) 被試選擇偏差

在翻譯眼動實驗中，被試的選擇是影響實驗內(nèi)部效度的一個重要因素。除了語言水平和翻譯能力，被試的一些固有的和習(xí)得的差異都可能會對研究結(jié)果產(chǎn)生一定的影響。一方面，由于眼動實驗的特殊性，被試的某些生理特征對于實驗結(jié)果會產(chǎn)生較大的影響。比如，被試睫毛膏(mascara)、眼瞼下垂(droopy eyelids)都會影響眼動數(shù)據(jù)的收集和數(shù)據(jù)質(zhì)量(Holmqvist et al.2011: 177)。另一方面，被試的盲打能力也是影響實驗內(nèi)部效度的潛在因素。理論上來講，翻譯過程研究選取的被試都應(yīng)具有良好的盲打能力，但實際上被試之間的盲打能力很難達到完全一致(Hvelplund 2011: 72)。如果被試盲打能力較差，他們在翻譯過程中就會時不時地將目光轉(zhuǎn)向鍵盤，這不僅會降低翻譯速度，而且會影響眼動數(shù)據(jù)采集，影響數(shù)據(jù)質(zhì)量。此外，工作記憶容量也是影響實驗結(jié)果的一個重要因素(Vieira 2014)。在篩選被試的過程中，如果不對這些因素進行控制，那么有可能會出現(xiàn)選擇性偏差，導(dǎo)致被試的個體因素與自變量效應(yīng)發(fā)生混淆，降低實驗的內(nèi)部效度。

(2) 文本熟悉度與翻譯難度

在翻譯眼動實驗中，實驗材料的選擇是影響實驗內(nèi)部效度的一個潛在變量。在選取實驗文本時，研究者應(yīng)首先考慮被試對文本類型和主題的熟悉度，盡量選擇被試都不熟悉的話題，從而減少因話題熟悉程度不同所造成的實驗結(jié)果偏差。除了文本熟悉度，文本材料的翻譯難度也是影響實驗結(jié)果的一個重要因素。在被試內(nèi)設(shè)計實驗中，研究者往往通過操縱各種自變量(如時間限制、翻譯模式、翻譯方向等)來比較被試在完成翻譯任務(wù)時的表現(xiàn)。此類實驗的前提條件是所有任務(wù)的材料難度基本保持一致，除非文本的翻譯難度本身就是實驗的自變量。如果實驗文本的翻譯難度不具有可比性，那么就很難確定眼動指標的變化是由實驗設(shè)計的自變量還是由實驗材料的不同難度所引發(fā)。目前，測量翻譯難度的客觀指標主要是基于源語文本的可讀性指標，但這一指標與翻譯難度之間的相關(guān)系數(shù)較低(Sun & Shreve 2014: 112)。因此，確定源語文本的熟悉度與翻譯難度也是研究者必須面臨的挑戰(zhàn)之一。

(3) 順序效應(yīng)與疲勞效應(yīng)

在重復(fù)測量的實驗中，任務(wù)的先后順序?qū)嶒灲Y(jié)果的影響尤其值得重視。如果研究者沒有對任務(wù)順序進行事先設(shè)計，所有的被試都采取同樣的任務(wù)順序，那么就可能產(chǎn)生順序效應(yīng)和疲勞效應(yīng)。一方面，首先完成的翻譯任務(wù)不可避免地會對后續(xù)開展的任務(wù)產(chǎn)生影響，使得后續(xù)任務(wù)的加工和處理相對容易。多項研究結(jié)果表明，實驗任務(wù)的順序會對翻譯任務(wù)的持續(xù)時間產(chǎn)生系統(tǒng)性影響，大多數(shù)參與者在執(zhí)行第一項翻譯任務(wù)時會花費更多的時間(Alves et al.2009；馮佳2018)。另一方面，由于翻譯是一項高強度的腦力活動，再加上眼動實驗過程中活動受限，因此如果眼動實驗的任務(wù)量大、持續(xù)時間較長，被試很容易出現(xiàn)疲勞效應(yīng)，從而影響他們在完成后續(xù)翻譯任務(wù)時的表現(xiàn)。

3.2 統(tǒng)計結(jié)論效度影響因素

統(tǒng)計結(jié)論效度與內(nèi)部效度密切相關(guān)，它主要關(guān)注因統(tǒng)計方法適切性引起的結(jié)論有效性程度。在數(shù)據(jù)統(tǒng)計和分析過程中，測量誤差、異常值處理、違反統(tǒng)計條件等都會對實驗的統(tǒng)計結(jié)論效度造成較大的影響。

(1) 測量誤差

在評估眼動實驗的測量誤差時，兩個重要參數(shù)是空間準確度(spatial accuracy)和采樣率(sampling rate)�？臻g準確度是指視線的實際落點與眼動儀采集到的位置之間的平均誤差。在翻譯眼動實驗中，實驗材料通常是文本而非單句，而為了提高生態(tài)效度，研究者往往會選擇遙測式眼動儀。由于被試可以自由移動身體和頭部，因此很容易產(chǎn)生測量誤差，即注視點很有可能偏離既定的興趣區(qū)，落到相鄰的詞、句上，導(dǎo)致系統(tǒng)誤差(systematic errors)。雖然Translog-II采用了注視點和注視詞匹配的算法(Gaze-to-Word Mapping, GWM)來減少系統(tǒng)誤差，但翻譯眼動實驗中的系統(tǒng)誤差仍然普遍存在(Carl 2013)。如圖 2所示，被試注視原文第一行的注視點被錯誤地匹配到了原文第二行，如果研究者想考察原文第一行某一個興趣區(qū)的譯文質(zhì)量和該興趣區(qū)對應(yīng)的認知努力之間的關(guān)系，那眼動數(shù)據(jù)的系統(tǒng)誤差勢必會影響這兩個變量之間的關(guān)系。而采樣率是指眼動傳感器每秒采集眼球圖像的次數(shù)。一般而言，眼動儀的采樣率越高，采集的眼動數(shù)據(jù)越豐富，數(shù)據(jù)的精度也會越高；而眼動儀的采樣率越低，越容易忽略兩個采樣點之間的眼動細節(jié)特征，尤其是微眼跳或其他微小的注視細節(jié)。雖然在翻譯眼動實驗中，眼動儀的采樣率沒有統(tǒng)一要求，但有一點可以肯定，即采樣率如果低于150Hz則會影響統(tǒng)計的效應(yīng)量(effect size)(Holmqvist et al.2011: 30)。

圖2 Translog-II中眼動數(shù)據(jù)的系統(tǒng)誤差(Carl 2013)

(2) 異常值處理

根據(jù)Baayen(2008: 27)的定義，異常值(outliers)是指所有數(shù)據(jù)中異常偏大或偏小的數(shù)據(jù)點(data points)。目前在翻譯過程研究中，還沒有統(tǒng)一的眼動數(shù)據(jù)異常值處理標準，剔除異常值很大程度上取決于研究者的個人經(jīng)驗。在翻譯眼動實驗過程中，可能會出現(xiàn)由于被試沒有看眼動儀屏幕或身體移動范圍過大導(dǎo)致無效數(shù)據(jù)比例較高，或觀測值異常偏小。不同研究者對于屏幕注視時間(Gaze Time on the Screen, GTS)所設(shè)定的最低閾值(threshold)有較大的差異，有的研究者將最低標準定為70%(O’Brien 2009: 257)，有的研究者將最低標準定為40%(盧植、孫娟2018)，還有一些研究者則剔除落在樣本均值左側(cè)1個標準差以外的數(shù)據(jù)(Hvelplund 2011: 104)。在剔除過短注視點的標準上，研究者們的做法也不盡相同，一些研究將最短注視時長(minimum fixation duration)的標準定為100毫秒(如歐盟EYE-to-IT項目；Hvelplund 2011: 110)，而使用Translog-II收集到的眼動數(shù)據(jù)，進行在線或離線注視點與詞匹配的過程中，則自動剔除70毫秒以下的注視點(轉(zhuǎn)引自馮佳2018: 105)。在剔除異常偏大數(shù)據(jù)點方面，有的研究者采用模型診斷(model criticism)的方法(Baayen 2008: 188)，剔除標準化殘差的絕對值超過2.5倍標準差的數(shù)據(jù)點(Vieira 2014)；而有的研究者則基于箱線圖(box plot)在擬合模型前便剔除異常偏大的數(shù)據(jù)點(Sun et al.2020: 141-142)。異常值處理方法的不同不僅會影響實驗的統(tǒng)計結(jié)果，而且會造成研究結(jié)果間可比性不強。

(3) 違反統(tǒng)計條件

除了測量誤差和異常值處理方式，統(tǒng)計方法的選擇也會對實驗結(jié)果產(chǎn)生較大的影響。在認知心理學(xué)實驗中，析因設(shè)計(factorial design)和方差分析(ANOVAs)是最常用的統(tǒng)計分析方法和手段。但是，上述方法的前提條件是實驗中的無關(guān)變量可以得到嚴格的控制，因而較適用于嚴格的實驗設(shè)計。而翻譯過程研究往往采取準實驗設(shè)計，為了盡可能提高生態(tài)效度，眼動實驗往往在較為自然的情境下開展，這使得研究者很難對實驗中相關(guān)變量進行嚴格的控制。如果不考慮無關(guān)變量的干擾，直接采取析因設(shè)計和方差分析，那么就很難排除實驗結(jié)果的顯著差異是由無關(guān)變量(如被試的個體差異、實驗材料的翻譯難度等)引起的可能性。另外，翻譯眼動實驗通常會面臨數(shù)據(jù)丟失的情況(如被試看鍵盤，導(dǎo)致注視屏幕時間偏低)，出現(xiàn)許多缺失數(shù)據(jù)(missing data)。對于不平衡的實驗數(shù)據(jù)，如果只使用方差分析，那么可能會影響實驗結(jié)果的準確性(Baayen 2008: 265)。

3.3 外部效度影響因素

外部效度主要反映實驗結(jié)果的代表性和適用性，翻譯眼動實驗外部效度的影響因素包括以下三方面：

(1) 被試數(shù)量有限①

被試數(shù)量太少是目前眼動研究存在的普遍性問題。一般而言，在量化研究中，被試人數(shù)越多，樣本量越大，研究結(jié)論就越具有代表性和適用性。但是，在翻譯過程研究中，眼動實驗的被試人數(shù)普遍較少。其主要原因在于，在實驗材料或興趣區(qū)數(shù)量本身就相對較大的情況下，每增加一名被試都會產(chǎn)生大量眼動數(shù)據(jù)，而且與眼動追蹤結(jié)合使用的其他記錄方法(如鍵盤記錄)也會產(chǎn)生大量行為數(shù)據(jù)。繁重的數(shù)據(jù)處理和分析任務(wù)使得研究者不得不盡可能減少參與實驗的被試人數(shù)。然而，用較少的被試數(shù)量完成大量實驗材料得出的結(jié)論并不等同于使用大量被試完成少量實驗材料得出的結(jié)論，因為前者的結(jié)論傾向于推廣至實驗材料總體，而后者的結(jié)論更傾向于推廣至被試的總體(Balling & Hvelplund 2015: 173)。近年來，翻譯眼動實驗的被試對象數(shù)量有所增多(如馮佳2018)，但是總體仍然偏少, 如Vieira(2017)的研究僅有19名被試參與了眼動實驗，這在一定程度上影響了實驗結(jié)論的外部效度。

(2) 實驗情境人為性

由于種種條件的限制，翻譯眼動實驗中的實驗材料和任務(wù)要求往往與真實情境下的翻譯活動并不一致。一方面，在翻譯眼動實驗中，由于種種限制，源語文本材料的篇幅都過短(英語源文本通常少于200詞)。然而，翻譯篇幅如此短小的文本在翻譯活動中并不常見。尤其在職業(yè)翻譯領(lǐng)域，職業(yè)譯者往往以項目形式開展翻譯活動，翻譯文本的篇幅往往在數(shù)萬甚至幾十萬字/詞以上，需要花費幾天甚至是數(shù)周的時間才能夠完成。因此，這種基于簡短或節(jié)略文本得出的實驗結(jié)論很難推廣到實驗以外的大多數(shù)情境(O’Brien 2009: 261-262)。另一方面，為避免外部資源使用對眼動數(shù)據(jù)收集和分析的干擾，眼動實驗一般不允許被試使用詞典、語料庫、網(wǎng)絡(luò)搜索引擎等外部資源。然而，除非在進行測試的情況下，很少有譯者會在沒有任何外部資源輔助的條件下開展翻譯。Hvelplund(2017)的研究發(fā)現(xiàn)在線資源查詢行為在整個翻譯過程中的占比高達25%�？梢�，盡管從簡化眼動數(shù)據(jù)收集和分析的角度來看，“不使用外部資源”的要求具有一定的合理性，但從這種“純凈”數(shù)據(jù)記錄中得出的發(fā)現(xiàn)和結(jié)論的代表性和適用性有待商榷。

(3) 實驗處理的變異

在實驗研究中，研究者們可能會采取相同的實驗處理，但是同一種實驗處理可能會存在不同的水平或條件上的變異(treatment variation)，這種變異不僅會影響實驗結(jié)果，而且會影響實驗結(jié)論的推廣性。同樣的情形也存在翻譯眼動實驗研究中。比如，在考察機器翻譯譯后編輯認知努力的研究中，有的研究者要求被試進行完全譯后編輯(full post-editing)，盡可能多地使用機器翻譯的初始譯文，避免偏好性修改(preferential changes)(如Carl et al.2015)；而有的研究者雖然也要求被試做完全譯后編輯，但并沒有告知被試要避免偏好性修改(如Vardaro et al.2019)。雖然都是進行完全譯后編輯，但是由于具體要求有所不同，因而調(diào)查得出的眼動數(shù)據(jù)也存在一定的差異。因此，研究者必須根據(jù)特定的實驗條件做出有限推論，否則就可能出現(xiàn)過度概括實驗結(jié)論的現(xiàn)象。

3.4 構(gòu)念效度影響因素

構(gòu)念效度主要涉及操作性定義和構(gòu)念之間的匹配程度，翻譯眼動實驗構(gòu)念效度的影響因素主要體現(xiàn)在以下兩方面：

(1) 被試界定過寬或過窄

在翻譯眼動實驗中，研究者經(jīng)常會招募不同經(jīng)驗水平的被試(如翻譯新手、職業(yè)譯者、半職業(yè)譯者)進行對比研究。但是，目前學(xué)界對譯者的身份界定缺乏統(tǒng)一標準，加之譯者這一概念本身也具有模糊性，這使得研究者們只能根據(jù)各自的標準進行界定，可能出現(xiàn)被試代表性過寬或過窄的現(xiàn)象。比如，職業(yè)譯者可能是一個具有十年全職翻譯經(jīng)驗的自由譯者，也可能是一個剛到翻譯公司工作不滿一年的畢業(yè)生，雖然二者都可以被稱為職業(yè)譯者，但是他們無論是在能力還是經(jīng)驗方面都相差甚遠(O’Brien 2009: 254)。再如，在界定半職業(yè)譯者時，有的研究者提供的操作性定義為“接受過職業(yè)化的翻譯訓(xùn)練，且臨近畢業(yè)的碩士生”(Krings 2001: 2)；而有的研究者界定較為寬泛，即“必須有3年以上的業(yè)余翻譯經(jīng)驗，但不具備全職翻譯經(jīng)驗”，因此一些畢業(yè)之后從事兼職翻譯的被試也歸為半職業(yè)譯者(鄭冰寒2012: 135)。一般而言，如果被試的操作性定義過窄，解釋的范圍就越小，普遍性也就越��；而如果操作性定義過寬，失之籠統(tǒng)，則研究結(jié)果易流于偏狹。

(2) 測量指標的有效性

在翻譯過程研究中，測量認知努力的常見指標包括注視時長、注視次數(shù)和瞳擴值等(劉艷梅等2013)。然而，大多數(shù)眼動指標只能反映認知活動的某個側(cè)面，而且指標變化受一系列因素的影響，僅憑某一類指標對譯者的認知努力大小進行推論具有一定的風(fēng)險性。比如，Hvelplund(2011: 221-224)曾嘗試驗證譯者分配在平行加工過程中的認知資源是所有加工類型中最少的這一假設(shè)，雖然注意單位時長(AU duration)這一指標結(jié)果與假設(shè)一致，但總注意時長(TA duration)并不完全支持上述假設(shè)。又如，在英譯漢過程中譯者的認知資源分配模式研究中，王一方、鄭冰寒(2020)發(fā)現(xiàn)，就目的語處理的認知注意力所占比例方面，眼-鍵指標與被試的主觀反省數(shù)據(jù)的發(fā)現(xiàn)相反。其中一個可能的原因是在英譯漢過程中，被試在中文輸入框中選詞的眼動數(shù)據(jù)也被認為是目的語處理過程中的認知加工。因此，僅僅根據(jù)單一種類眼動指標或僅用眼動指標推測譯者的認知努力有可能會導(dǎo)致實驗結(jié)論不可靠。

4 翻譯眼動實驗效度的控制

提高實驗效度的目的是確保研究結(jié)論的準確性和有效性，因而在實驗設(shè)計和實施時要盡可能控制威脅實驗效度的各種因素。本文在前人研究的基礎(chǔ)上，結(jié)合我們所做的系列翻譯眼動實驗，建議從以下幾方面采取措施：

(1) 規(guī)范實驗設(shè)計，嚴格控制無關(guān)變量，提高實驗內(nèi)部效度。

要提高眼動實驗內(nèi)部效度，關(guān)鍵的問題在于控制無關(guān)變量，盡量排除某些伴隨著自變量變化的無關(guān)變量的混淆。在翻譯眼動實驗設(shè)計時，研究者可以預(yù)先將可能影響實驗結(jié)果的變量排除于實驗條件之外，盡量避免或控制這些潛在的威脅。首先，嚴格篩選實驗對象，確保被試眼部生理結(jié)構(gòu)和矯正視力正常，不會影響數(shù)據(jù)的收集。同時，根據(jù)實驗設(shè)計，盡可能使被試在除自變量以外的其他變量保持相等或接近。比如，通過問卷或測試調(diào)查被試的專業(yè)背景、翻譯經(jīng)驗、語言水平、盲打能力、工作記憶容量等，并根據(jù)調(diào)查結(jié)果對被試進行篩選和分組。其次，在選取實驗材料時，為了防止由于翻譯難度不同而造成與自變量效應(yīng)發(fā)生混淆，研究者要考察被試對源語文本類型和主題的熟悉度，確保不同任務(wù)材料在難度上具有可比性。在操縱翻譯難度這一變量時，既可以采取客觀指標(如可讀性公式、詞頻、非字面意義表達的數(shù)量)，也可以邀請專家對翻譯難度進行主觀評分。再次，在重復(fù)測量的實驗設(shè)計中，研究者可采取抵消平衡法(counter-balancing methods)，如拉丁方設(shè)計(Latin square design)，以減少潛在的順序效應(yīng)和疲勞效應(yīng)。

(2) 擴大被試數(shù)量，減少實驗人為因素，提升研究結(jié)論的推廣性。

目前，翻譯眼動實驗的被試數(shù)量普遍較少，在一定程度上限制了實驗結(jié)論的推廣性。為了克服這一弊端，研究者可通過計算統(tǒng)計效力來確定實驗的樣本量(胡傳鵬等2016)，也可以利用現(xiàn)有翻譯眼動實驗數(shù)據(jù)庫進行研究。在這方面，Michael Carl與Arnt Lykke Jakobsen的做法值得借鑒，該團隊開發(fā)的“翻譯過程研究數(shù)據(jù)庫”(簡稱CRITT TPR-DB)收集了大量的翻譯過程行為數(shù)據(jù)，并采用了統(tǒng)一標準進行加工和標注，這使得研究者不僅可以對同一實驗的數(shù)據(jù)進行不同層次和維度的分析，還可在不同語言對間進行對比研究。但需要注意的是，被試數(shù)量不是越多越好，因為樣本量過大會使一些細小的效應(yīng)也變得顯著，導(dǎo)致出現(xiàn)一類錯誤(Type I error)(Holmqvist et al.2011: 86)。另外，為了提高實驗的外部效度，后續(xù)研究在開展翻譯眼動實驗時應(yīng)盡量減少人為因素，使實驗情景接近于自然。首先，選取實驗材料時要遵循“真實性”和“完整性”的原則，盡量避免刪減或修改。其次，為了保證翻譯過程在真實、自然的情境下進行，主試應(yīng)允許被試使用各種在線資源。在這方面，研究者可以參照Cui & Zheng(2021)的做法將屏幕分為兩個區(qū)域，其中左側(cè)區(qū)域供原文呈現(xiàn)和譯文輸入，右側(cè)區(qū)域設(shè)置為瀏覽器界面供譯者查詢檢索。最后，盡量選用對翻譯活動干擾較小的遙測式眼動儀進行數(shù)據(jù)采集，同時在實驗過程中，主試要與被試保持一定的距離，盡量減少提醒的次數(shù)，避免出現(xiàn)“霍桑效應(yīng)”(Hawthorne effect)。

(3) 提高眼動數(shù)據(jù)質(zhì)量，合理利用統(tǒng)計分析手段，確保統(tǒng)計效度。

眼動實驗結(jié)束后，研究者可以通過數(shù)據(jù)篩選和統(tǒng)計建模等手段來排除無關(guān)變量的干擾，提高統(tǒng)計效度。一方面，在收集眼動數(shù)據(jù)之后，研究者首先需要對眼動數(shù)據(jù)進行篩選，以避免數(shù)據(jù)質(zhì)量不佳而影響實驗結(jié)果。翻譯過程研究通常會采用平均注視時長(Mean Fixation Duration, MFD)、屏幕注視時間(Gaze Time on the Screen, GTS)和凝視/注視比(Gaze Sample to Fixation Percentage, GFP)等指標來衡量眼動數(shù)據(jù)的質(zhì)量，但這些指標僅僅能滿足興趣區(qū)為原文區(qū)或譯文區(qū)的情況。如果興趣區(qū)在句子或句子以下層面，那么就有必要對注視點偏移現(xiàn)象進行核查和修正，并根據(jù)回放的掃視路徑(scanpath)剔除精確度較差的眼動數(shù)據(jù)(Holmqvist et al.2011: 34)。另一方面，實驗結(jié)束后，研究者還可以運用統(tǒng)計分析手段對影響實驗結(jié)果的無關(guān)變量進行控制。近年來，越來越多的研究者開始在翻譯眼動實驗研究中采用混合效應(yīng)模型進行統(tǒng)計分析(Balling & Hvelplund 2015)。相比于方差分析，混合效應(yīng)模型更適合于準實驗研究，其優(yōu)勢在于既可以考察自變量引起的固定效應(yīng)(fixed effects)，也可以考察被試和實驗材料的隨機效應(yīng)(random effects)。通過建立混合效應(yīng)模型，研究者也可以將那些預(yù)計可能對實驗結(jié)果有影響而又難以嚴格控制的因素作為協(xié)變量(如任務(wù)順序)納入到統(tǒng)計模型中(吳詩玉2020)。

(4) 準確界定實驗變量，靈活選擇測量指標，確保實驗操作與理論構(gòu)念的一致性。

在翻譯眼動實驗研究中，被試的代表性和測量指標的有效性是影響構(gòu)念效度的關(guān)鍵因素。一方面，鑒于目前學(xué)界對于譯者身份缺乏統(tǒng)一的界定標準，研究者需要在研究設(shè)計中對被試做出準確、具體的操作性定義。如果采用“職業(yè)譯者”“半職業(yè)譯者”“翻譯新手”等術(shù)語或標簽，界定時需要參考前期研究中的標準，并提供具體的量化指標或條件，如翻譯年限、周/日翻譯量、翻譯質(zhì)量反饋、全職還是兼職等。然而，關(guān)于職業(yè)化(professionalism)，目前學(xué)界仍缺乏一套科學(xué)的量化指標(Nitzke 2019: 268)。另一方面，在測量指標的選擇上，研究者需首先明確不同眼動指標反映認知努力的有效性和局限性，避免使用單一眼動指標(尤其是不穩(wěn)定的瞳擴值)進行推論。為了得到比較可靠的研究結(jié)果，研究者可以考察多項指標對實驗結(jié)果進行多元互證，同時還可以結(jié)合被試譯后即時回溯報告來進行檢驗，從而確保眼動數(shù)據(jù)可以恰當?shù)胤从逞芯繕?gòu)念。

5 結(jié)語

近年來，隨著翻譯眼動實驗研究的迅速發(fā)展，實驗效度的重要性也日益凸顯。本文重點探討了影響翻譯眼動實驗效度的各種潛在因素，并嘗試提出了一些應(yīng)對措施和建議。但是，這還只是一個初步的策略系統(tǒng)，有待進一步豐富和完善。例如，若主試允許被試使用外部資源，那被試分配在原文區(qū)和譯文區(qū)的注意資源總量與不允許被試使用外部資源的情況是否有顯著差異？實驗效度的影響因素十分復(fù)雜，一些因素在前文中雖未提及，但也有可能對實驗效度造成潛在的威脅。例如，從認知工效學(xué)角度來看，原文區(qū)和譯文區(qū)的不同布局模式(即以上下布局和左右平行布局)是否會對眼動數(shù)據(jù)產(chǎn)生影響？另外，在選取因變量進行統(tǒng)計建模時，原文區(qū)或譯文區(qū)注視時長和注視次數(shù)的相對值(即占總興趣區(qū)的比例)與絕對值之間對實驗結(jié)論的影響有何差異，還有待進一步探索(馮佳2018)。這些問題與實驗效度密切相關(guān)，建議后續(xù)研究針對上述問題開展實證研究，從而推動翻譯眼動實驗的不斷成熟和發(fā)展。

① “被試數(shù)量有限”也可以歸為統(tǒng)計結(jié)論效度影響因素，而此處主要關(guān)心的是翻譯眼動實驗的結(jié)果是否可推廣至被試總體。

6 參考文獻
略。

作者簡介：
1. 王均松，西北工業(yè)大學(xué) 外國語學(xué)院，陜西西安 710129
2. 錢家駿[通訊作者], 上海外國語大學(xué) 英語學(xué)院，上海 200083
3. 郭亞玲，河北師范大學(xué) 外國語學(xué)院，河北石家莊 050024
基金項目：

國家社科基金重點項目“認知翻譯學(xué)視閾下的認知翻譯過程研究”（19AYY014）

致謝：
美國肯特州立大學(xué)翻譯與翻譯技術(shù)研究與創(chuàng)新中心（CRITT）的Michael Carl教授、上海交通大學(xué)外國語學(xué)院吳詩玉教授和SR Research中國代表處宋昌霖工程師在本文撰寫過程中提供了學(xué)術(shù)指導(dǎo)，特此致謝！

索取資料

來源：北京博潤視動科技有限公司
聯(lián)系電話：13811508092
E-mail：sales@bjbrainvision.com

【點擊可查看北京博潤視動科技有限公司相關(guān)產(chǎn)品】

標簽：問題與對策翻譯

分享到：QQ空間新浪微博騰訊微博微信

【所有文章】【本類新聞】【相關(guān)產(chǎn)品】【關(guān)閉窗口】

本類文章

本類新聞

內(nèi)部效度、統(tǒng)計結(jié)論效度、外部效度與構(gòu)念效度對眼動實驗結(jié)果影響概述

內(nèi)部效度、統(tǒng)計結(jié)論效度、外部效度與構(gòu)念效度對眼動實驗結(jié)果影響概述