寄托家园留学论坛 › 论坛 › 论坛管理 › 版务讨论区 › 麻烦大家都过来给个意见，尤其是T版，gre和gmat！

返回列表

查看: 125|回复: 13

麻烦大家都过来给个意见，尤其是T版，gre和gmat！ [复制链接]

imong
UID: 140258

永久会员

Rank: 16

声望: 266
寄托币: 22475
注册时间: 2003-7-14
精华: 88
帖子: 188

电梯直达

楼主

发表于 2004-1-12 00:08:11 |只看该作者 |倒序浏览

我从今天早上8点开始看文献然后写文章写到了今天早上现在是0点了~~
这篇文章早在两个礼拜之前就已经在筹划了，可是考虑到观点以及可能的影响，我先把它发在内部，先在内部交流一下意见，然后再放出去！

Imong的E-rater调查报告for gmat gre and toefl

前言：

2003年7月的时候我开始准备gre作文，然后就听到了当时关于e-rater的一些传言，并且看到了一些流传甚广的帖子，心里面自然受到了不小的影响。等到考完作文，在作文版翻老帖子的时候，还看到了当时曾经有次吵得很厉害，也是跟e-rater有关，也有人提出了反驳的意见，从6月到8月一直都有这方面的话题。再往后，就是到12月的时候有一天版面上有人提起e-rater的事情，我就去google搜了一下，这一搜不要紧，吓了我一大跳：我一直以为没有e-rater这么一个东西，结果情况表明这东西的确存在。

冷静下来自己好好想了一想，觉得有必要把事情搞清楚。当初自己准备作文的时候曾经被一些吵得沸沸扬扬的消息影响的非常厉害，还郁闷过一阵子。推己及人，要是能把事情的前前后后调查清楚，让大家都放心，都明白，那就好了。于是我就试着去找相关的资料——还算幸运，通过网络，并不很困难就找到了十几篇很关键的文献，仔细研读完了之后，自有一番特别的体会，而且觉得十分有必要和大家交流一下这些感想。

废话少说，进入正题。

第一部分：E-rater的存在与现状

首要的问题必然是这个：到底有没有e-rater这个东西？答案是：有！根据文献调研的结果，1999年的时候ETS就已经在着手研究这种叫做Automated Essay Grading的东西，然后2001年在gmat考试中就已经开始应用了。另外，从网络上搜集的信息表明，目前国内和ETS合作的泰德集团已经引进了这个电子评改系统作为“线上托福作文测评系统”作为在网络上给考生准备托福作文的一种营利性服务平台。关于这一点可以访问这个地址得到证实：http://www.englishtide.com/ets.asp （但是关于托福正式考试的作文评分，由于我没有刻意去收集相关文献资料，因而情况不能确定。）

那么说到GRE，目前的状况是什么呢？根据今天在ETS官方网站上发布的信息，可以得出结论：目前GRE作文的测评仍然是人工完成。这个结论是通过比较gre.org和mba.com上面的关于essay scoring官方说明的措辞得到的。GMAT方面，mba.com的措辞是这样的：Each of your essays in the AWA section will be given two, independent ratings, one of which may be performed by E-rater®. 而GRE方面，gre.org的措辞如下：Each essay receives a score from two trained readers, using a 6-point holistic scale.在GRE这边，压根就没有提到过e-rater这个字。因此，我得出的结论，就是目前的GRE作文仍然是人工评分。

（那么，如果对GRE考生，得到这个结论已经足够或者只对这个结论感兴趣的话，后面的内容也可以不看了）

上面两段介绍的应该是大家最关注的事情。关于e-rater本身，其实有两点还是值得一提的。第一，ETS这边的E-rater从问世到现在，也经历着不断自我完善的过程，现在应用的E-rater系统的设计已经是对最初的系统设计进行了改进。很明显的一个例子，就是现在ETS提供的Automated Essay Grading系统，除了最初的E-rater，又有了一个Criterion的系统，后者是可以提出一些分析意见而不仅是评分，目前ETS提供的GRE作文Score it now，就是基于Criterion的开发，而泰德则在网络上提供了E-rater和Criterion两者。第二，除了ETS的E-rater以外，仍然有其它的集团在做Automated Essay Grading这样的项目。从2001年发布的几篇文献综述上能够看到的有4个版本的Automated Essay Grading系统，ETS开发的E-rater只是其中之一。

第二部分：E-rater工作原理

关于E-rater，大家心里面最犯嘀咕的，莫过于对这个系统的有效性的怀疑。最极端的例子，恐怕是曾经有考生在GMAT的考试中，在自己的essay里面写过“I don’t want to be graded by a robot”这样的句子。

1999年Business Week对Fred McHale，当时的GMAC Vice-President for Assessment & Research，进行了采访，其中就提到了这个问题：(http://businessweek.com/bschools/originals/bs90329.htm)

Q: What has been the biggest challenge surrounding the E-Rater since you've implemented it? Have you encountered a lot of skepticism? Are folks scratching their heads wondering how this electronic assessment software actually works, wondering if the results have any validity?

A: There has been a lot of skepticism, and it was expected. People tend to think that E-Rater is just your average grammar-checker on your word processor. But that's just not the case. All we can do is show the results.

的确，all they can do is to show the results. 在ETS官方网站上找到的文献表明，E-rater判分和human reader判分之间的一致性一直是他们的研发组关注的重点。在至少3篇文献中都提到了如下所述的实验：对某一个题目找出human reader给出了1,2,3,4,5,6的文章各n篇，然后拿给E-rater判，然后研究给出分数的一致性。实验结果表明，E-rater的判分与human reader判分的Exact Agreement与Adjacent Agreement的情况是绝对多数，而出现Disagreement的情况则是绝对少数。根据公布的实验结果，各个分数段的E-rater判分与Human reader一致性总是大于80%，平均agreement的比率在90%左右。此外，考虑到两个Human reader之间判分一致性也存在差异（这一点也有相关的实验记录），再将这种差异和E-rater与Human reader之间差异的情况进行比较，所得到的结论是，E-rater判分的有效性（也就是文献中反复出现的Automated Essay Score Validity）是完全可以得到保证的。

那E-rater到底是怎么做到这一点的？

一个计算机程序能够做出对一篇文章的量化评价？

也许我们第一次听说E-rater的时候，心里面产生的疑问就是：“一个计算机程序能做什么？统计文章字数？计算平均句子长度？某个字眼出现的频率？然后就评个分出来？不是吧？”

这样的看法，恐怕小看了E-rater的功能了。

虽然E-rater的具体评价识别的设计我们无从得知（这个自然，基本上是商业秘密），不过从目前可以拿到的文献中也可以看出一点端倪来，例如：I also assume that shrinking high school enrollment… 这句话，至少可以分析出来：also表达了parallel argument，that表达了claim，句子涉及到的content则有assume shrink high school enrollment… 也就是说，E-rater工作原理，远远不是简单的统计点字数，统计点用词频率。

再举一个例子：
Q: Differentiate between triggers and stored procedures.
A: Triggers are programs embedded within a table that are automatically invoked by updates to another table. Stored procedures are programs embedded within a table that can be called from an application program.

从这一段中可以识别出什么东西呢？文献中给出了至少这几点：
Syntactic Variety: …can be called from a program
…that a program can call
Synonymy: …can be invoked from a program…
Negation: …are NOT invoked by updates…
Anaphoric Reference: TRIGGERS are programs. THEY are embedded…

因此可以看出：E-rater所识别的元素也许远远超过我们一般能够构想出的范围，而恐怕我们不得不承认这种识别是合理设计并应用的。参考下面这段文献：
E-rater focuses on three general classes of essay features: discourse, indicated by various rhetorical features that are expected to occur throughout an essay; syntactic, indicated by the structure of sentences; and content, indicated by prompt-specific vocabulary expected to be present in the essay. A total of 59 features are “extractable,” but in practice usually only the most predictive features, as measured by their regression weights, are retained and used for further scoring.

上文提及的59个feature是相当广泛的。例如，就syntactic variety而言，文献中给出了如下几点（当然，这个list是不完全的）：number of complement clauses, subordinate clauses, infinitive clauses and relative clauses, occurrences of subjunctive modal auxiliary verbs such as would, could, should, might and may. 对于Argument structure，E-rater着重识别parallelism, contrast, evidence, argument development以及其它一些coherence relations. 至于Discourse的方面，下面一段文献非常有启发性：

Literature in the field of discourse analysis points out that rhetorical relations can often be identified by the occurrence of cue words and specific syntactic structures (Cohen 1984, Mann and Thompson 1988, Hovy, et al. 1992, Hirschberg and Litman 1993, Van der Linden and Martin 1995, Knott 1996). E-rater follows this approach by identifying and quantifying an essay’s use of cue words and other rhetorical structure features. For example, we adapted the conceptual framework of conjunctive relations from Quirk, et al. (1985) in which phrases such as “In summary” and “In conclusion,” are classified as conjuncts used for summarizing. E-rater identifies these phrases and others as cues for a Summary relation. Words such as “perhaps” and “possibly” are considered to be cues for a Belief relation, one used by the writer to express a belief while developing an argument in the essay. Words like “this” and “these” are often used within certain syntactic structures to indicate that the writer has not changed topics (Sidner 1986). In certain discourse contexts, structures such as infinitive clauses mark the beginning of a new argument.

由上文可以看出，通过对文章的feature的识别，E-rater完全可以做出对文章的相关判断。而下面就是一个实际的例子。就coherence这个方面而言，下面的passage得到了6分，评语是“The following paragraph demonstrates an example of a maximally coherent text, centering the company ’Famous name’s Baby Food’ and continuing with the same center through the entire paragraph.”

Yet another company that strives for the ”big bucks” through conventional thinking is Famous name’s Baby Food. This company does not go beyond the norm in their product line, product packaging or advertising. If they opted for an extreme market place, they would be ousted. Just look who their market is. As new parents, the Famous name customer wants tradition, quality and trust in their product of choice. Famous name knows this and gives it to them by focusing on ”all natural” ingredients, packaging that shows the happiest baby in the world and feel good commercials the exude great family values. Famous name has really stuck to the typical ways of doing things and in return has been awarded with a healthy bottom line.

而下面这段评语和相应的例文进一步说明了E-rater对coherence的识别：
Following the same mark-up conventions, we demonstrate text incoherence with an excerpt (a paragraph again) of a student essay scored 4. In this case, repeated Rough-Shift transitions are identified. Several entities are centered, opinion, success and conventional practices, none of which is linked to the previous or following discourse. This discontinuity created by the very short lived Cbs makes it hard to identify the topic of this paragraph and at the same time it is capturing the fact that the introduced centers are poorly developed.

下面就是所说的这段东拉西扯的而在coherence上被判为4分的passage:
I disagree with the opinion stated above. In order to achieve real and lasting success a person does not have to be a billionaire. And also because conventional practices and ways of thinking can help a person to become rich.

综上所述，E-rater有能力做到对文章进行识别和判定，文献中摘出的下面这三段话是第二部分内容的最好结束语。
Overall, while it is largely the case that the raters were not actually counting occurrences of indicator cues representing e-rater features, they were tracing qualities that incorporate such features.

Specifically, when an essay writer would make a certain type of assertion in the essay, the raters would expect to see the associated use of certain types of syntactic structures. The absence of such syntax in such an instance would render the assertion superficial. While essays with and without such syntactic variety were both seen, clearly the essays containing the syntactic variety associated with that type of discourse were viewed by the raters as superior.

Obviously, e-rater does not read an essay, so it cannot “look for” or “evaluate” writing qualities. However, e-rater can, and does in some instances, detect evidentiary traces, the proverbial “breadcrumbs in the path,” that signal these qualities, using its own version of the characteristics.

第三部分：E-rater在考试评分中的过程

那么说了这么半天，似乎E-rater本身是一个相当强大的工具。也许大家会产生这样的问题：E-rater如果这样强力，作文的Grading是不是可以脱离人工的判阅了？

现在我就要解决这个问题。

刚才说了很多E-rater对文章的识别就像“breadcrumbs in the path”，那E-rater如何就能够认出这些Breadcrumb呢？很显然，如果没有预先的人工调试和素材输入，E-rater什么也识别不出来。也就是说，E-rater不可能独立的对一篇文章进行评判，E-rater判分之前，其实是另有一个预先的过程。

大家可能都已经知道，对于每一个独立题目，E-rater那里已经存好了几百篇预先人工评好分（各级分数都有几十篇）的文章，这些文章的用处是什么呢？学理科的同学（esp.学过化学的）看到这个词估计立刻就明白了：标定。上文已经提到，E-rater可以识别出50多个linguistic feature，但是每个feature之间并非简单加和，而是有regression wight的因素，那这个regression weight从哪里来？当然是要用“标准物”来“标定”，也就是用“标准essay”来确立！

这也就引出了这篇文章里我要强调的一个核心事实：如果E-rater的评分不能和Human reader的评分有效吻合，E-rater就根本没用！也就是说，E-rater的评分规则，全部都是来源于原先设立的Human reader的评分标准，都是以Human reader的标准为基础。全部的标准，都是人确立的。

也就是说，E-rater必须服从人，必须通过调试达到其自身最大程度的与Human reader的一致。

第四部分：所谓的“对策”
出现了一个新的东西，一开始的时候肯定会造成一些疑虑和紧张，于是“E-rater的应对策略”就成为了热门话题。那么，真的有这样的应对策略吗？

曾经有一篇流传很广的帖子里写过：“电脑评分器潜在地给人工评分者施加压力。电脑评分器和人工评分者各自给你的作文评分，如果结果存在着较大的差异，你的作文将会被传到第三个人工评分者的手中（当然这提高了ETS的费用）。这乃属常理，但ETS拒绝这么做，所以唯一的结果是人工评分者将尽力遵循电脑评分器的标准和规则。也就是说，以电脑评分器的判分为准，因为像GRE这样的标准化考试是不容主观和偏见的。所以，不要试图取悦人工评分者期待他能否决电脑评分器给你的低分，而应该尽量符合电脑评分器的规则。”

对此，我在此再回顾一下刚才的结论：E-rater的评分规则全部来源于Human reader的预设，也就是说，如果有所谓的“E-rater应对策略”，那这个策略也就应该是能够应对Human reader的策略，再进一步说，也不过就是一般的写作策略！

也就是说，任何所谓的“迎合E-rater的写作策略”，如果真的可以“迎合”E-rater的话，那也就是在“迎合”Human reader，那也就根本没什么新鲜的，仅仅是最基础最根本的写作方法。“迎合E-rater的写作策略”这个短语的确能够吸引眼球，但它所给出的“策略”并非它诱导人构想的“单独迎合E-rater而使机器倾向给高分”的“策略”，因为根本就没有这种策略！

这一点恐怕与一部分人的设想不太一样。可能有相当一部分人都心存幻想，认为有能够单独欺骗到E-rater的策略，甚至一个国外的网站上都打出了“how to fool the E-rater”的字样。那好，说到这一点，这里有一个来自ETS官方的例子：ETS组织了一帮专家刻意去写一些essay来尝试trick the E-rater，结果呢？最成功的一位教授骗到了5分的正差异（E-rater的减去Human reader的），然而“His principal strategy was simply to write several paragraphs and to repeat them (37 times, in fact!).”！而后面几位成功者的策略也都是类似的，例如 attempted, alternatively, to write essays that is rambled, missed the point, used faulty logic, or were haphazard in their progression, but used relevant content words, complex sentence structure, or other features valued by e-rater. 且不说这些人费了多少心机写出这样能够造成E-rater出现bug的文章，这样的文章，难道在Human reader那里能够过关？这样写出来的东西，能不能被叫做“文章”恐怕要首先打问号。

如果说真的有fool the E-rater的tip的话，我想上面这个tip恐怕要让大家失望了。而能够提出来的所谓“针对E-rater的tip”，也不过就超不出那些常规的写作技巧。没什么新鲜的。

再如果，真的要说有什么tip的话，恐怕也只有这一点了：尽量克服语法和拼写的错误，因为这样的错误会干扰E-rater对更高级的feature的识别。不过说回来，这个所谓的tip，怎么看也看不出来是什么很高深的“fool the E-rater”的技巧，而只不过是最最基本的东西。也许，是因为本来就不存在这种针对机器的投机技巧呢？是不是，E-rater不值得我们过分的关注，而精力还是应该放在基本的写作水平的练习上？

因此，在本部分的开头引用的那段话，除了前半部分是在叙述事实（而且，所谓的“施加压力”也是缺乏论据的），后半部分的推论，什么增加费用，ETS拒绝如何做，更有甚者什么“人工评分者努力遵循E-rater的原则”，等等诸如此类，完全都是在缺乏论据的情况下作出的本末倒置的误导性谬论。

后记：
曾经有人提出过“E-rater就是搜索引擎的远房亲戚”的论点，然后引出了若干结论。不过简单的提出上面这个论点，未免会让人误解。就目前的文献信息而言，E-rater的功能和设计原则恐怕远比我们能够设想的程度要复杂，而想要一句话精辟的概括恐怕不是那么简单。至少，参照第二部分引用的资料，我们可以稍微准确一点来认识E-rater这个概念。

从ETS的专家捣乱实验也可以看得出来，为什么GMAT最多是“one of them MAY be an e-rater”，为什么绝对不可能是两个E-rater. 机器只能从人的设计出发来为人服务，人的判断标准总是最根本的。

下面列出本文的主要参考资料。全部资料都是从网络搜集得来，在google中输入e-rater作为搜索关键字，或者附加上doc或pdf作为第二关键字，可以搜索得到绝大部分本文参考的文献。

http://businessweek.com/bschools/originals/bs90329.htm
http://www.scoreitnow.org/e_rater.html
http://www.ets.org/research/erater.html （有一大堆官方发布的东西）
http://www.englishtide.com/ets_erater.asp

Further Evaluation of Automated Essay Score Validity, P. Adam Kelly, Houston VA Medical Center and Baylor College of Medicine*, April 4, 2002

Automated Scoring of Essays: Evaluating Score Validity, P. Adam Kelly, Houston VA Medical Center and Baylor College of Medicine*,March 1, 2002

Computer Analysis of Essays
Jill Burstein, Karen Kukich, Susanne Wolff,
Chi Lu† and Martin Chodorow‡
Educational Testing Service, Princeton NJ
‡ Hunter College, New York City

Text Understanding Techniques for Automated Assessment, Claudia Leacock, Educational Testing Service, March 2001 GRE Board Professional Report No. 98-08bP ETS Research Report 01-03

Stumping E-Rater: Challenging the Validity of Automated Essay Scoring, Donald E. Powers, Jill C. Burstein, Martin Chodorow, Mary E. Fowles, Karen Kukich

Automated Evaluation of Coherence in Student Essays
Eleni Miltsakaki_, Karen Kukichy
_University of Pennsylvania
619Williams Hall, 36th & Spruce St., Philadelphia, PA 19104-6305, U.S.A.
elenimi@unagi.cis.upenn.edu
yEducational Testing Service
Rosedale Road, Princeton, NJ 08541, U.S.A.
kkukich@ets.org

Rien de réel ne peut être menacé.
Rien d'irréel n'existe.

0 0

使用道具举报

blueqiao
UID: 111634

元老版主

Rank: 11

声望: 90
寄托币: 15177
注册时间: 2002-10-3
精华: 26
帖子: 21

沙发

发表于 2004-1-12 09:23:22 |只看该作者

分析的非常不错。呵呵

如果机器阅作文，那么对于那些作文写的太好的人估计不会有利。对于那些有文采，典故，花样的文章机器不会欣赏的。考生只能按照所谓的标准，写“八股文”才能得高分。

其实觉得现在ETS作文的评卷人也跟机器差不多了。文采风流的文章不会得高分的。我一个同学，写的作文有口皆碑，TWE考完后也觉得发挥的很好，但最后只得了4.0，满地的眼镜片啊。当然，一个案例并不能说明问题。不知道有没有类似的case。

个人觉得，按照固定模式的标准来判分，只要技术上能保证机器功能，是人还是机器判卷，没有什么太大区别，都是很机械的。从这个角度来说，机器完全能替代人，甚至比人还要“公平”。

没有理由保持沉默！

起初他们追杀共产主义者，我不是共产主义者，我不说话；
接着他们追杀犹太人，我不是犹太人，我不说话；
后来他们追杀工会会员，我不是工会会员，我不说话；
此后他们追杀天主教徒，我不是天主教徒，我不说话；
最后，他们奔我而来，再也没有人站起来为我说话了。

－－－美国波士顿犹太人大屠杀纪念碑 Martin Niemoller (德国新教牧师)

双非DIY美硕申请总结

使用道具举报

paisley
UID: 64183

永久会员

Rank: 16

声望: 6
寄托币: 55070
注册时间: 2001-9-3
精华: 211
帖子: 415

板凳

发表于 2004-1-12 11:15:20 |只看该作者

分析得有道理！我相信你的结论：标准化、平庸而不出大错的文章能得高分。

文章写得很好，相信发表以后再取一个吸引眼球的标题，文章会流传得很广。

不过，你这篇文章作为对GTERS的参考，还需要一个最有力的结尾：在这种情况下，我们应该如何写作。你上文已经提到两个关键的因素：拼写和语法错误。这需要更多的elaboration，以及在练习时的具体方法的建议。

UA
我说人生哪，如果赏过一回痛哭淋漓的风景，写一篇杜鹃啼血的文章，与一个赏心悦目的人错肩，也就够了。不要收藏美、钤印美，让美随风而逝。生命最清醉的时候，是将万里长江视为一匹白绢，裂帛。(简桢)

使用道具举报

麦丰
UID: 125455

荣誉版主

Rank: 9 Rank: 9 Rank: 9

声望: 1
寄托币: 661
注册时间: 2003-2-13
精华: 13
帖子: 166

地板

发表于 2004-1-12 11:39:59 |只看该作者

　e-rater是Electronic Essay Rater的缩写，中文译作英语论文自动评分系统，是由美国ETS利用自然语言处理技术 (NLP, natural language processing) 与信息撷取技术 (IR, information retrieval)研究开发的一种在线测评英语写作能力的计算机程序。它的诞生，缘于美国的GMAT考试计算机化之后，GMAT考试的次数由每年4次增加到216次，由此产生了大量的写作评分工作，e-rater于是应运而生。自1999年起，用e-rater技术测评GMAT应试者的作文已逾60万篇，经与常规人工批阅作文的结果比较，e-rater评分的准确率超过百分之九十七。

　　2002年1月10日美国ETS技术公司将e-rater TOEFL作文自动评测系统的使用权利首批授予福来得学校，福来得学校目前是北京著名的英语培训学校，其拥有的前沿培训网是国内最大的职业教育培训网站，在此可了解e-rater的工作原理、过程，通过考试切身体会到它的即时性、客观性、经济性、互动性。………

Maybe all in your mind
Perhaps that we all died, say, years ago
Now what do you have left
Future dreams of passion plays and dancing people
All, so, lonely

使用道具举报

麦丰
UID: 125455

荣誉版主

Rank: 9 Rank: 9 Rank: 9

声望: 1
寄托币: 661
注册时间: 2003-2-13
精华: 13
帖子: 166

5楼

发表于 2004-1-12 11:41:42 |只看该作者

http://www.etstechnologies.com/html/eraterdemo.html
demo

Maybe all in your mind
Perhaps that we all died, say, years ago
Now what do you have left
Future dreams of passion plays and dancing people
All, so, lonely

使用道具举报

麦丰
UID: 125455

荣誉版主

Rank: 9 Rank: 9 Rank: 9

声望: 1
寄托币: 661
注册时间: 2003-2-13
精华: 13
帖子: 166

6楼

发表于 2004-1-12 11:48:26 |只看该作者

此前因与新东方学校官司而进入普通中国人视野的美国教育考试服务中心ETS，于2002年1月10日在人民大会堂宣布，将其技术公司专利产品e－rater TM英语论文自动评分系统授权国内民营企业泰德新媒体集团“空中美语网站”（www.Englishtide.com）使用。ETS技 ... 胫泄牡谝淮魏献鳌�

　　ETS是世界上最大的从事教育考试和测评服务的私有公司和组织，中国人熟悉的TOEFL、GRE、Gm at考试均由其发展和主持，也因此其知识产权产品一直受到国内教育界、出版界、教育培训市场和网络业的热烈关注。但在此次授权之前还未有任何正规渠道获得授权，向中国学生提供相关考试信息。

　　据介绍，e－rater TM系统是ETS开发的服务于网络学习教育及测评技术应用的专利产品。学生可以将作文提交e－rater TM系统，几秒钟后系统会有评分及相关评判分析报告。据ETS称，这一评判与TOEFL考官评分标准不相上下。目前，这一系统已在EnglishTide.com上开通，每次收费90元

Maybe all in your mind
Perhaps that we all died, say, years ago
Now what do you have left
Future dreams of passion plays and dancing people
All, so, lonely

使用道具举报

imong
UID: 140258

永久会员

Rank: 16

声望: 266
寄托币: 22475
注册时间: 2003-7-14
精华: 88
帖子: 188

7楼

发表于 2004-1-12 15:22:03 |只看该作者

我今天早上一早起来发现昨天夜里写的头昏，居然拉掉了几句重要的话（主要是抨击微迪留学公布的那个版本的说明），赶紧就给补上了。我自己基本上就收尾在这里，文章还需要怎样改进，麻烦大家多提提意见！paisley姐麻烦你也解释更详细一点好吗？

（其实我的结论主要打算落在的地方，就是原来各种对E-rater的传言和猜测进行确定，反驳和批判，其中最主要的就是对weidi那个版本的批判，最最主要的结论就是否定“迎合E-rater”这种说法。这是我写这篇文章的最初的出发点所在。）

Rien de réel ne peut être menacé.
Rien d'irréel n'existe.

使用道具举报

paisley
UID: 64183

永久会员

Rank: 16

声望: 6
寄托币: 55070
注册时间: 2001-9-3
精华: 211
帖子: 415

8楼

发表于 2004-1-12 22:20:06 |只看该作者

是呀，如果以e-rater为论证对象，你这篇文章写得已经够咯，但是对大多数同学来说，弄清楚这件事情以后，他们最需要知道的是接下来该如何做。现在好多gters好象不太习惯没人指引的学习方式。所以他们对今后学习重点的关注恐怕要超过对e-rater本身。

所以，我们就应该有一套理论（也许没那么夸张），论述今后作文写作的重点。比如，从基本功练起，讲究最起码的语法正确；何时用上几个关联词；如何避免用大家都会用的例子导致被判抄袭；如果要锦上添花的话，如何用从句。至于如何把文章写深入，暂时就不做要求了。

因此我们以前修改的思路是不是也可以变一变。以前对思维的深度比较强调，现在还是先从字面上着手吧。

使用道具举报

imong
UID: 140258

永久会员

Rank: 16

声望: 266
寄托币: 22475
注册时间: 2003-7-14
精华: 88
帖子: 188

9楼

发表于 2004-1-12 22:41:40 |只看该作者

paisley：你的话说得很准。的确关于E-rater本身我已经尽我的能力把事情写透彻，但是后面的那些恐怕有困难。其实，weidi以及以前的一些帖子后面给出的就是一些他们的所谓的tip，而我的结论其实就是练习好常规写作，就等同于应付了E-rater（其实根本都不应该用应付这个词），我提倡大家把精力放在踏踏实实的写作上。但是如果说要进一步把常规写作原则技巧介绍说明，这个工程量未免太大~~而且我想我文章最初的主题就是围绕E-rater而言的，也许本身想要涉及面广是有些难度的。你觉得呢？

其实我很同意你说的要提出那些“理论”，只不过得考虑我们能不能提得出来，然后怎么插入到文章里~~我现在还是感觉把话停在“提倡大家把精力放在踏踏实实的写作上”就已经达到这篇文章的目的和能力所限了。

也许以后再写一篇专门关于“理论”的文章？

Rien de réel ne peut être menacé.
Rien d'irréel n'existe.

使用道具举报

木耳
UID: 123036

荣誉版主

Rank: 9 Rank: 9 Rank: 9

声望: 7
寄托币: 7885
注册时间: 2003-1-17
精华: 7
帖子: 17

10楼

发表于 2004-1-13 19:37:05 |只看该作者

核心事实

这也就引出了这篇文章里我要强调的一个核心事实：如果E-rater的评分不能和Human reader的评分有效吻合，E-rater就根本没用！也就是说，E-rater的评分规则，全部都是来源于原先设立的Human reader的评分标准，都是以Human reader的标准为基础。全部的标准，都是人确立的。

不错，这个是核心事实。既然这样，那么是不是也可以把这个e-rater当作一个human-reader?

既然是human-reader，那么也就没什么不同了。

至于存在作文写得太好的人反而不会的高分的现象，我持保留意见。这毕竟是很严谨的学术论文，要有一个标准。不是抒情散文，读着爽就行。

首先，他在考场上写的到底怎样很难讲。

其次，所谓的好文章就真的好？也许只是文采上占了点便宜。我在改作文的过程中就见过这种文章。很多人说好，可是我看了之后觉得除了文采好之外一无是处，要我判分也就是最多3.5。

再有，一些剑走偏峰的非八股文也许读起来给人以新鲜之感，文笔逻辑上也大开大阖，不落俗套。这自然会赢得很多人的亲睐。但这样的文章在对论点的论证上难道就一定强过四平八稳，有板有眼的八股文吗？其实很多时候所谓的新意只是奇技淫巧而已。

八不八股只是其次，能不打咳儿的把事儿说的清清楚楚没有破绽就是好文章！在这一点上，用e-rater这样的东西来评判analytical writting反而更公平，相比human reader他更不会带有所谓八股与非八股的感情偏见，只是以事实为依据，用逻辑和标准说话。

生活在此处

使用道具举报

木耳
UID: 123036

荣誉版主

Rank: 9 Rank: 9 Rank: 9

声望: 7
寄托币: 7885
注册时间: 2003-1-17
精华: 7
帖子: 17

11楼

发表于 2004-1-13 19:50:48 |只看该作者

所谓对策

任何东西都该有本末之分，做什么事也都要搞清楚前因后果。

在我看来：客观公正的标准为本，所谓八股与非八股的个人喜好为末；考生们写出的水品各不相同的文章为因，ets因此制定的e-rater的判分标准为果。

以前怎么写现在还怎么写。
e-rater其实就是没有感情的人，没有特别的好于不好之说，故挖空心思投其所好怎么也是枉然。

生活在此处

使用道具举报

imong
UID: 140258

永久会员

Rank: 16

声望: 266
寄托币: 22475
注册时间: 2003-7-14
精华: 88
帖子: 188

12楼

发表于 2004-1-13 19:57:02 |只看该作者

不错，这个是核心事实。既然这样，那么是不是也可以把这个e-rater当作一个human-reader?

既然是human-reader，那么也就没什么不同了。

这句话恐怕稍微有点问题。我举一个例子，就是俗得不能再俗的例子：生产力和生产关系按照上课讲的理论总有一个是根本问题。我想要表明的就是E-rater和Human rater中总是以Human Rater的标准为最基本。如果Human Rater给的标定文章或者标定标准稍微变化一点那E-rater这边的结论很可能就偏差很多。我觉得这里谁是Cause，谁是Effect不能倒过来。正是因为原先weidi的帖子把因果颠倒了，说什么“所以唯一的结果是人工评分者将尽力遵循电脑评分器的标准和规则”，是，如果做一个进一步的推导的确就把两方面都画等号了，但是这两种表述背后的最基本观点是完全不同，完全对立的。而更进一步，这两种表述给出的导向性信息也是完全不同的。

作文写得太好得不到高分的话，我觉得要看怎么界定这个“写得太好”。也就是先要定义什么叫做写得太好，然后才能清楚明了的分析这个问题。

感觉现在就像在写issue似的。:D 在对外发布之前全力讨论吧。

Rien de réel ne peut être menacé.
Rien d'irréel n'existe.

使用道具举报

imong
UID: 140258

永久会员

Rank: 16

声望: 266
寄托币: 22475
注册时间: 2003-7-14
精华: 88
帖子: 188

13楼

发表于 2004-1-13 19:58:55 |只看该作者

任何东西都该有本末之分，做什么事也都要搞清楚前因后果。

故挖空心思投其所好怎么也是枉然。

这个说的好。

Rien de réel ne peut être menacé.
Rien d'irréel n'existe.

使用道具举报

imong
UID: 140258

永久会员

Rank: 16

声望: 266
寄托币: 22475
注册时间: 2003-7-14
精华: 88
帖子: 188

14楼

发表于 2004-1-13 20:14:16 |只看该作者

另外，说到八股文，从我掌握的文献看来，应该说的确存在这样的情况。一个比较重要的信息就是ETS训练Human rater的时候也是通过一种标定的方式，让Human rater寻找feature，这个过程和标定E-rater的过程很相似，而且正是因为ETS评分标准可以对应上一些语言分析模型才使E-rater成为可能。

但是毕竟人和机器有区别。文献中也有报道在某些地方（例如1分的essay，或者比较长/比较短的essay）两者存在显著性差异。当然，当时的文献提到的可能的further studies里面早就提到这方面的进一步改进。我想也许现在的E-rater已经和Human reader符合的很好了（和以前相比）。

至于GRE TOEFL，也许技术还不成熟，不排除过两年改过来的可能啊。（不过这个猜测就没太大根据了）

最后突然想到关于E-rater的公正性之类的话题，我觉得不应该高估或者过分欣赏这个东西。要是E-rater真得那么公正了，为什么还需要另一个Human reader呢？或者为什么不是两个E-rater呢？而且再加上ETS的那个专家捣乱实验，我觉得这也是很说明问题的。

Rien de réel ne peut être menacé.
Rien d'irréel n'existe.

使用道具举报