題:
我和同事一起給考試打分,但不同意他們的評分。我該怎麼辦?
Bollehenk
2018-10-24 12:30:27 UTC
view on stackexchange narkive permalink

最近,我已經與另一個部門的同事一起為考試(50個)評分。我覺得我的同事由於錯誤/不完整的答案而給了太多積分。例如,僅將問題信息(值和參數單位)寫在答題紙上的獎勵積分;或將評分錶中的一個公式複製到答案表中而未在評分模板中具體說明的獎勵積分

在考試評分期間,我與同事討論了這一問題,並決定主要遵循他的“積分授予系統”,這樣就不會在總人口的子群體之間造成不公平的評分。之後,我再次進行了討論,但是我覺得我的同事不希望改變他的評分方式。

我接下來可以採取什麼措施?

ps:這所大學應該具有相同的分級風格嗎?

ps:這門課程是由他們的系提供的,從今年開始,我一直在提供幫助,因為它與我的專業知識重疊。它的合格率為〜50%。

ps2:這並不是說他的積分授予系統如此鬆散,以至於3/10的學生會突然被授予6/10,但肯定會改變部分學生通過課程的結果。

為什麼您覺得您的同事給的積分太多?人們會不同意,這只是生活中的事實,除非您能為他太“輸”提供客觀,客觀的論據(我認為在評分時這是不可能的,因為不同的人對答案的不同部分的重視程度不同)就像你只需要同意不同意
示例包括:僅在答題紙上寫問題信息(值和參數單位)的獎勵積分。或將分數表中的一種公式複製到答案表中而未在評分模板中具體描述的獎勵積分。
@Bollehenk-這是什麼級別的研究?授予部分標記以識別正確的技術(公式)並不一定*聽起來不合理,儘管根據值的提取工作量和學習水平,提取值/單位可能是有爭議的。
他來這裡問同樣的問題,但說您“為錯誤/不完整的答案提供的分數太少了”,是否同樣有效?
這將有助於知道這是什麼領域。在某些學科(古典,哲學)中,主觀性要比在其他學科(機械工程等)中高得多。
@J ...鑑於示例是值,單位,參數和公式,因此我可能會在STEM字段中進行猜測。
您如何看待另一個部門要求您更改自己的課程評分方式?
@Kevin我在問題中沒有看到任何有關此內容的信息,但現在我看到它已在註釋中註明。應該將那些細節編輯成問題。
七 答案:
Ben
2018-10-24 14:43:35 UTC
view on stackexchange narkive permalink

每個人給不同的問題 評分,而不是不同的學生

評分的一致性很重要,如果學生的評分不公平成績很大程度上取決於他們將工作分配給評分員的程度。因此,如果您必須與另一位同事針對特定的評估項目分配評分職責,則最好將問題的評分職責劃分為 ,而不是對學生的評分劃分為 em>。因此,例如,一個人對所有論文的評分為Q1-3 ,而另一個人對所有論文的評分為Q4-6 。這樣,每個學生都可以由同一人為同一問題評分。 (從邏輯上講,你們每個人都應該在一半的論文上給您的問題打分,然後交換。)

聽起來這艘船已經航行了,您犯了新手錯誤地為學生分等級,不同的人標記不同的學生。聽起來您也曾嘗試與同事討論此問題,但您已經竭盡全力嘗試更改他的評分。在那種情況下,即使您自己的評分風格優於您的同事,適應他的評分水平進行此評估也可能是合理的第二好的選擇,只是保持所授予的評分水平的一致性。將來,請嘗試通過對問題而不是對學生進行分級來避免所有問題。

必須在這里達成共識,將問題分解成FAR比將學生分解成FAR更好,並且過去都嘗試過。
奇怪的是,這種方法不是大學強制性/強制性的
在我寫的第一筆數學考試中,評分是在24小時內使用“裝配線”完成的,每個TA評分一個問題。一旦第一個助教為第一項考試的第一道題打分,第二位助教就可以開始處理第一項考試的第二道題,將周轉時間降到最低,並且在交換過程中任何地方都不會漏查任何考試。然後,教授的私人助理只對這些要點進行總結,然後教授簽署了考試。
我的一個朋友正在加拿大做助教,他們使用這個確切的系統。實際上,紙張被掃描,軟件將圖像分為不同的問題,並為一個問題分配了一個技術支持,並且他們可以並行在線進行評分,因此誰更快誰不必在獲得其他技術支持之前就等待考試成績。顯然,需要一個非常好的系統來進行掃描和拆分,否則是不可行的。
正是由於這個原因,我們使用裝訂的答題紙,其中每個問題的答案都必須在一張單獨的紙上提供。交完考試後,我們將考試拆開,然後將問題分發給各年級學生,以便一名年級學生收到所有包含特定問題的紙
@damian感謝您終於使我意識到為什麼我必須在(某些)考試的每一頁上寫下我的姓名/ ID。
恕我直言,評分的一致性幾乎是不可能的。它的假設是自負的。但是-拆分問題確實是一件好事。
@mbrig並不一定是因為有很多人在分開的頁面上標記,在每張紙上貼上您的名字可以確保即使頁面由於某種原因而鬆動,仍然可以與正確的學生匹配。
值得指出的是,這仍然不是理想的選擇:如果考試的題目是A型和B型,而您只糾正B型,那麼可能會發生技能水平相近的學生,但是A級的成績很好,而另一項是B好,獲得不同的成績。因此,如果可能的話,我認為最好不要根據問題類型拆分問題
@David這種方法不是強制性的一些原因。一種是對於大班(數百人)來說是不可行的。另一個是擁有多個標記可以進行審核,從而防止一個問題與另一個問題完全不同地被評分。但是,如果您有一個問題的多個標記,則必須有一個所有標記都同意並遵循的標記方案(儘管它會隨著遇到不同的有效答案而發展)。
@DaveCousineau可能不錯,但是如果要求您每頁做一次練習或類似的練習,我想前面的評論是正確的...
雖然這確實解決了學生在同一問題上獲得相同評分的現實性,但並沒有解決首先是其他人的評分方案不令人滿意的問題;它也不能解決當前的問題:兩個人用不同的方法給同一個問題評分。此解決方案可以防止出現此問題,但是一旦發生就無法解決
R.M.
2018-10-24 20:04:24 UTC
view on stackexchange narkive permalink

由記錄老師最終負責課程的實施,包括評分*。聽起來您不是錄音指導者,而只是幫助評分的人,所以確定什麼是或不合適的評分並不是您真正的位置。

如果您不同意另一位評分者如何標記考試,卻無法使用已經提供給您的信息來解決它(您說評分模板不足以解決這個問題),那麼最好與負責該課程的人一起學習(記錄講師),看看他們對此有何評論。

現在,您當然不想讓他們對每個小小的分級細節感到困擾,但如果是大規模差異的情況,那麼您應該評分方式上的差異會大大改變學生的成績,這正是課程負責人應該進行的調解。

請注意,如果這是一門團隊教學的課程,那麼事情會變得有些複雜,那裡有許多“初級”教練。但是,在這種情況下,通常是每位講師帶頭主持某個主題的情況。因此,應將其視為針對其主題特定問題的主要觀點。 (涉及多個主題的問題應在“主要”講師的共同同意下確定。)


*)前提是某些課程必須符合部門或認證標準。但是即使在這種情況下,也要由記錄指導負責確保遵循這些標準。

這個答案似乎使行政責任概念與學術責任概念混淆了。簡而言之,即使我不是正式的模塊負責人,我也不喜歡模塊中的評估不公和學術實踐不佳。
@DmitrySavostyanov我當然不是在暗示您應該忍受不公平的做法,或者,如果您不是記錄講師,則不應對您的行為承擔學術責任。我只是說,最終負責課程運行方式的人是在課程目錄中標有其姓名的人。-OP的問題是在如何解釋模棱兩可的標題方面存在誠實的哲學差異的兩個人之一。我只是指出他們應該諮詢負責人。
kwah
2018-10-25 05:02:02 UTC
view on stackexchange narkive permalink

在我所在的機構中,通常出於標準化/審核的目的,對20%的提交內容加雙標記。

這可能意味著80%的標記為單標記,而20%的標記為雙標記,或者這可能意味著兩個標記分別評估了60%(重疊率是10%的2倍)。對於低權重評估,這被視為推薦的最佳實踐,而對於高權重評估則是強制性的。

如果您的機構中不存在這樣的標準化/降低分數的安排,也許

在不知道您所在部門的情況下,很難說建議這樣做是適當(或可行)的。


關於此過程的一些注意事項,出於好奇: >

在任何提交的多個標記之間都存在差異的地方,則標記必須以一個商定的標記為依據。如果無法確定商定的商標,那麼它將在部門內升級以進行調解。

如果確定了多個提交中多個標記之間的顯著差異,則必須對整個同類群組進行雙重標記(並且如上所述,必須對標記的任何差異進行協調)。我們的“顯著差異”基準是平均偏差(校正)大於等於7%。

einpoklum
2018-10-25 04:06:50 UTC
view on stackexchange narkive permalink

首先, @Ben的建議垂直而不是水平地劃分等級-問題而不是學生-不管其他問題如何,都是很好且實用的。您可以考慮以下幾點:

  1. 放棄幻想,或者也許更好地說:自負,分級是一致的。原因不勝枚舉,原因不是:考試難度不一;學生的能力分佈與等級曲線的塑造不同步;對於同一個人,第一次接觸和以後接觸的錯誤嚴重程度有所不同;情緒改變;無意識的偏見(例如:反對草率的人);等等。
  2. 在下一次考試(下學期?)之前,嘗試安排所有評分者和考試作者的評分政策討論。在該討論中,提出了一些需要更好地判斷的特定方案,而不是簡單地“為一個問題分配多少點”。
  3. 考慮為該過程中的粗粒度分級爭論不休。我是通過/失敗(或通過/失敗/優秀)的粉絲,並且不喜歡數字刻度,尤其是0..100或分數等級。我可以自信地看著某人說:“是的,您了解我們在這裡教過的內容,您通過了。”或“不,您不了解-您失敗。”如果某人處於臨界狀態,那麼是否通過或失敗將是一個政策問題(我個人傾向於失敗)。但是我真的不能證明為什麼有人是63,而另一個人是64.7。我覺得我只是通過將這些數字分配給人們來幫助某種任意的工業大眾操縱機制。
  4. ol>

    PS-這三個建議大多是正交的。

“ *放棄[幻想/自負]分級是一致的。不是*“。確實。在這個線程中,但在大學中,這都沒有得到足夠的代表。評分可能會影響某人的一生:不是每個人都是直接A或完全失敗,因此對於許多學生而言,這些差異會產生影響。通常,對我個人而言,這很好,但是我看到很多學生努力工作,然後在同齡人通過的時候就沒通過課程,即使這些同等人可能會變得更好也可能變得更糟。不僅是評分樣式/偏見,甚至研究正確的頁面也會產生差異。
@Luc:,我想您是在解釋分級的方式並不總是_pertinent_,而不是_consistent_。我說的是提交作品的等級,人們可以說它的質量相同,代表著對材料的相同要求。
評分不一致,但這是一件壞事。最好嘗試增加一致性而不是降低一致性。
fjack
2018-10-26 05:19:14 UTC
view on stackexchange narkive permalink

您已經獲得的答复確實很棒。我只想添加一個小觀察。您說您一直在與其他部門的同事

評分這些考試

該課程由他們的部門提供,並且自今年以來我一直在提供幫助,因為它與我的專業知識重疊

您自己錄取了,或多或少是他們部門的客人,通過幫忙幫忙。這意味著成績最終不是您的責任。

Dmitry Grigoryev
2018-10-24 20:25:07 UTC
view on stackexchange narkive permalink

如果相當數量的完整作品已由不同的人評分,則可以考慮添加更正,以使每個評分者完成的作品具有相同的平均評分(理想情況下,具有相同的方差)。這並不能消除所有不一致之處,但至少可以使評分在統計上是公平的。

從理論上講聽起來不錯,但是如何實現呢?
統計公平性僅對統計報告有利。對於學生,您必須解釋為什麼獎勵/取消積分,並提供有用的反饋和改進建議。
afrothetics
2018-10-26 03:23:29 UTC
view on stackexchange narkive permalink

精彩的討論,並喜歡閱讀評論。作為一名本科生,我在頭兩年的評分中面臨兩種極端的偏見。只有通過兩位教授的毅力和指導,我才能克服它。因此,在我自己的教學生涯中,主要的管理原則是讓學生根據自己的成就成敗

就像@einpokum一樣,我討厭鐘形曲線,因為它既過時又不公平。教室裡的大猩猩是這樣一個事實,即每個校園中的一些學生(主要是通過各種組織,尤其是希臘字母組織的學生)比非聯繫在一起的學生可以參加考試和考試。作為一名研究生,我丟失了許多由教授評分的論文,這些論文被留在部門辦公室之外。而且,作為教授,我認為提交給我的幾篇論文被been竊了。維護學生評估的公正性是一項機構責任。

根據我的經驗,在大學一年級的教學中,我建立了我所說的發展等級教師有責任提供一個框架,讓所有學生都有成功的機會。這是我在托兒所時從兩位非常聰明的老師那裡學到的一個概念,此後一直保持在我的意識中。它們的應用完全是環境方面的。我使用的方法也是環境方法,但側重於學生評估,分為三個階段:

  1. 學生參加了考試,該考試由我評分,後來由其他人評分普通課程中的學生人數從剛開始時的不到20名增加到100多名。

  2. 一旦知道了年級,學生可以再次申請參加一半的考試他們在初試中“遺漏”的每個問題的分數。這些將被添加到其較早的年級。

  3. 如果仍然不滿意,他們可以在全班之前進行口試,然後他們會評估他們的表現。

  4. ol>

    儘管有些人選擇了#2,沒有一個選項3。我希望至少有一個選項可以確定學生的反應方式。

    僅在第二階段完成後,班級才一起通過考試來分享他們的想法關於每個問題和預期的答案。後來,對它進行了修改,以使學生可以根據課程與學生助手或其他教授一起參加考試。

    我評估的第二個原則是學生最終了解到的,那就是以前的三門考試較少對期末成績的影響要大於對綜合期末成績的影響;並且,這些考試和後續討論旨在幫助他們在決賽中表現更好。實際上,學生在所有其他考試中的成績可能會很差(除非出勤率低或以其他方式未能達到最低要求),在期末考試中獲得A並獲得成績A。毫無疑問,對於一些學生來說,它看起來像是禮物,但他們的成績卻更好。為什麼?我認為,決賽的目的不是要相對於所有其他標準取得分數的百分比,而是要測試他們全面對課程主題的整體了解。對期末考試進行評分是我的基本樂趣之一,也是我為使我順利通過而品嚐的美味咖啡。 :)

    我可能會補充說,考試不是進入期末評估的唯一因素,而是書評,關於演講者或校園活動的報告與他們在課堂上不問問題而觸發的課堂或測驗密切相關在每節課結束時,我的問題都會提示您-是否有任何問題?我懷疑像你們中的許多人一樣,教學涉及學習複雜的概念並將其降低到8年級,以便大多數一年級到二年級的學生可以理解我們在說什麼。



該問答將自動從英語翻譯而來。原始內容可在stackexchange上找到,我們感謝它分發的cc by-sa 4.0許可。
Loading...