imong 发表于 2004-1-15 09:44:40

[b]独家原创:解密E-rater,ETS出品之电子评分器![/b]

(~~这就是我上个礼拜天写得吐血的那篇文章——从早上8点开始看文献,等写完了已经是凌晨
快1点了——~~不过想想真得很值得呢~~)

本文系寄托天下作者原创,转载请保持文章完整,并请务必注明原作者和出处

Imong的E-rater调查报告for gmat gre and toefl

前言:

2003年7月的时候我开始准备gre作文,然后就听到了当时关于e-rater的一些传言,并且看到了一些流传甚广的帖子,心里面自然受到了不小的影响。等到考完作文,在作文版翻老帖子的时候,还看到了当时曾经有次吵得很厉害,也是跟e-rater有关,也有人提出了反驳的意见,从6月到8月一直都有这方面的话题。再往后,就是到12月的时候有一天版面上有人提起e-rater的事情,我就去google搜了一下,这一搜不要紧,吓了我一大跳:我一直以为没有e-rater这么一个东西,结果情况表明这东西的确存在。

冷静下来自己好好想了一想,觉得有必要把事情搞清楚。当初自己准备作文的时候曾经被一些吵得沸沸扬扬的消息影响的非常厉害,还郁闷过一阵子。推己及人,要是能把事情的前前后后调查清楚,让大家都放心,都明白,那就好了。于是我就试着去找相关的资料——还算幸运,通过网络,并不很困难就找到了十几篇很关键的文献,仔细研读完了之后,自有一番特别的体会,而且觉得十分有必要和大家交流一下这些感想。

废话少说,进入正题。

第一部分:E-rater的存在与现状

首要的问题必然是这个:到底有没有e-rater这个东西?答案是:有!根据文献调研的结果,1999年的时候ETS就已经在着手研究这种叫做Automated Essay Grading的东西,然后2001年在gmat考试中就已经开始应用了。另外,从网络上搜集的信息表明,目前国内和ETS合作的泰德集团已经引进了这个电子评改系统作为“线上托福作文测评系统”作为在网络上给考生准备托福作文的一种营利性服务平台。关于这一点可以访问这个地址得到证实:http://www.englishtide.com/ets.asp (但是关于托福正式考试的作文评分,由于我没有刻意去收集相关文献资料,因而情况不能确定。)

那么说到GRE,目前的状况是什么呢?根据今天在ETS官方网站上发布的信息,可以得出结论:目前GRE作文的测评仍然是人工完成。这个结论是通过比较gre.org和mba.com上面的关于essay scoring官方说明的措辞得到的。GMAT方面,mba.com的措辞是这样的:Each of your essays in the AWA section will be given two, independent ratings, one of which may be performed by E-rater®. 而GRE方面,gre.org的措辞如下:Each essay receives a score from two trained readers, using a 6-point holistic scale.在GRE这边,压根就没有提到过e-rater这个字。因此,我得出的结论,就是目前的GRE作文仍然是人工评分。

(那么,如果对GRE考生,得到这个结论已经足够或者只对这个结论感兴趣的话,后面的内容也可以不看了。)

上面两段介绍的应该是大家最关注的事情。关于e-rater本身,其实有两点还是值得一提的。第一,ETS这边的E-rater从问世到现在,也经历着不断自我完善的过程,现在应用的E-rater系统的设计已经是对最初的系统设计进行了改进。很明显的一个例子,就是现在ETS提供的Automated Essay Grading系统,除了最初的E-rater,又有了一个Criterion的系统,后者是可以提出一些分析意见而不仅是评分,目前ETS提供的GRE作文Score it now,就是基于Criterion的开发,而泰德则在网络上提供了E-rater和Criterion两者。第二,除了ETS的E-rater以外,仍然有其它的集团在做Automated Essay Grading这样的项目。从2001年发布的几篇文献综述上能够看到的有4个版本的Automated Essay Grading系统,ETS开发的E-rater只是其中之一。

第二部分:E-rater工作原理

关于E-rater,大家心里面最犯嘀咕的,莫过于对这个系统的有效性的怀疑。最极端的例子,恐怕是曾经有考生在GMAT的考试中,在自己的essay里面写过“I don’t want to be graded by a robot”这样的句子。

1999年Business Week对Fred McHale,当时的GMAC Vice-President for Assessment & Research,进行了采访,其中就提到了这个问题:(http://businessweek.com/bschools/originals/bs90329.htm)

Q: What has been the biggest challenge surrounding the E-Rater since you've implemented it? Have you encountered a lot of skepticism? Are folks scratching their heads wondering how this electronic assessment software actually works, wondering if the results have any validity?

A: There has been a lot of skepticism, and it was expected. People tend to think that E-Rater is just your average grammar-checker on your word processor. But that's just not the case. All we can do is show the results.

的确,all they can do is to show the results. 在ETS官方网站上找到的文献表明,E-rater判分和human reader判分之间的一致性一直是他们的研发组关注的重点。在至少3篇文献中都提到了如下所述的实验:对某一个题目找出human reader给出了1,2,3,4,5,6的文章各n篇,然后拿给E-rater判,然后研究给出分数的一致性。实验结果表明,E-rater的判分与human reader判分的Exact Agreement与Adjacent Agreement的情况是绝对多数,而出现Disagreement的情况则是绝对少数。根据公布的实验结果,各个分数段的E-rater判分与Human reader一致性总是大于80%,平均agreement的比率在90%左右。此外,考虑到两个Human reader之间判分一致性也存在差异(这一点也有相关的实验记录),再将这种差异和E-rater与Human reader之间差异的情况进行比较,所得到的结论是,E-rater判分的有效性(也就是文献中反复出现的Automated Essay Score Validity)是完全可以得到保证的。

那E-rater到底是怎么做到这一点的?

一个计算机程序能够做出对一篇文章的量化评价?

也许我们第一次听说E-rater的时候,心里面产生的疑问就是:“一个计算机程序能做什么?统计文章字数?计算平均句子长度?某个字眼出现的频率?然后就评个分出来?不是吧?”

这样的看法,恐怕小看了E-rater的功能了。

虽然E-rater的具体评价识别的设计我们无从得知(这个自然,基本上是商业秘密),不过从目前可以拿到的文献中也可以看出一点端倪来,例如:I also assume that shrinking high school enrollment… 这句话,至少可以分析出来:also表达了parallel argument,that表达了claim,句子涉及到的content则有assume shrink high school enrollment… 也就是说,E-rater工作原理,远远不是简单的统计点字数,统计点用词频率。

再举一个例子:
Q: Differentiate between triggers and stored procedures.
A: Triggers are programs embedded within a table that are automatically invoked by updates to another table. Stored procedures are programs embedded within a table that can be called from an application program.

从这一段中可以识别出什么东西呢?文献中给出了至少这几点:
Syntactic Variety: …can be called from a program
…that a program can call
Synonymy: …can be invoked from a program…
Negation: …are NOT invoked by updates…
Anaphoric Reference: TRIGGERS are programs. THEY are embedded…

因此可以看出:E-rater所识别的元素也许远远超过我们一般能够构想出的范围,而恐怕我们不得不承认这种识别是合理设计并应用的。参考下面这段文献:
E-rater focuses on three general classes of essay features: discourse, indicated by various rhetorical features that are expected to occur throughout an essay; syntactic, indicated by the structure of sentences; and content, indicated by prompt-specific vocabulary expected to be present in the essay. A total of 59 features are “extractable,” but in practice usually only the most predictive features, as measured by their regression weights, are retained and used for further scoring.

上文提及的59个feature是相当广泛的。例如,就syntactic variety而言,文献中给出了如下几点(当然,这个list是不完全的):number of complement clauses, subordinate clauses, infinitive clauses and relative clauses, occurrences of subjunctive modal auxiliary verbs such as would, could, should, might and may. 对于Argument structure,E-rater着重识别parallelism, contrast, evidence, argument development以及其它一些coherence relations. 至于Discourse的方面,下面一段文献非常有启发性:

Literature in the field of discourse analysis points out that rhetorical relations can often be identified by the occurrence of cue words and specific syntactic structures (Cohen 1984, Mann and Thompson 1988, Hovy, et al. 1992, Hirschberg and Litman 1993, Van der Linden and Martin 1995, Knott 1996). E-rater follows this approach by identifying and quantifying an essay’s use of cue words and other rhetorical structure features. For example, we adapted the conceptual framework of conjunctive relations from Quirk, et al. (1985) in which phrases such as “In summary” and “In conclusion,” are classified as conjuncts used for summarizing. E-rater identifies these phrases and others as cues for a Summary relation. Words such as “perhaps” and “possibly” are considered to be cues for a Belief relation, one used by the writer to express a belief while developing an argument in the essay. Words like “this” and “these” are often used within certain syntactic structures to indicate that the writer has not changed topics (Sidner 1986). In certain discourse contexts, structures such as infinitive clauses mark the beginning of a new argument.

由上文可以看出,通过对文章的feature的识别,E-rater完全可以做出对文章的相关判断。而下面就是一个实际的例子。就coherence这个方面而言,下面的passage得到了6分,评语是“The following paragraph demonstrates an example of a maximally coherent text, centering the company ’Famous name’s Baby Food’ and continuing with the same center through the entire paragraph.”

Yet another company that strives for the ”big bucks” through conventional thinking is Famous name’s Baby Food. This company does not go beyond the norm in their product line, product packaging or advertising. If they opted for an extreme market place, they would be ousted. Just look who their market is. As new parents, the Famous name customer wants tradition, quality and trust in their product of choice. Famous name knows this and gives it to them by focusing on ”all natural” ingredients, packaging that shows the happiest baby in the world and feel good commercials the exude great family values. Famous name has really stuck to the typical ways of doing things and in return has been awarded with a healthy bottom line.

而下面这段评语和相应的例文进一步说明了E-rater对coherence的识别:
Following the same mark-up conventions, we demonstrate text incoherence with an excerpt (a paragraph again) of a student essay scored 4. In this case, repeated Rough-Shift transitions are identified. Several entities are centered, opinion, success and conventional practices, none of which is linked to the previous or following discourse. This discontinuity created by the very short lived Cbs makes it hard to identify the topic of this paragraph and at the same time it is capturing the fact that the introduced centers are poorly developed.

下面就是所说的这段东拉西扯的而在coherence上被判为4分的passage:
I disagree with the opinion stated above. In order to achieve real and lasting success a person does not have to be a billionaire. And also because conventional practices and ways of thinking can help a person to become rich.

综上所述,E-rater有能力做到对文章进行识别和判定,文献中摘出的下面这三段话是第二部分内容的最好结束语。
Overall, while it is largely the case that the raters were not actually counting occurrences of indicator cues representing e-rater features, they were tracing qualities that incorporate such features.

Specifically, when an essay writer would make a certain type of assertion in the essay, the raters would expect to see the associated use of certain types of syntactic structures. The absence of such syntax in such an instance would render the assertion superficial. While essays with and without such syntactic variety were both seen, clearly the essays containing the syntactic variety associated with that type of discourse were viewed by the raters as superior.

Obviously, e-rater does not read an essay, so it cannot “look for” or “evaluate” writing qualities. However, e-rater can, and does in some instances, detect evidentiary traces, the proverbial “breadcrumbs in the path,” that signal these qualities, using its own version of the characteristics.

第三部分:E-rater在考试评分中的过程

那么说了这么半天,似乎E-rater本身是一个相当强大的工具。也许大家会产生这样的问题:E-rater如果这样强力,作文的Grading是不是可以脱离人工的判阅了?

现在我就要解决这个问题。

刚才说了很多E-rater对文章的识别就像“breadcrumbs in the path”,那E-rater如何就能够认出这些Breadcrumb呢?很显然,如果没有预先的人工调试和素材输入,E-rater什么也识别不出来。也就是说,E-rater不可能独立的对一篇文章进行评判,E-rater判分之前,其实是另有一个预先的过程。

大家可能都已经知道,对于每一个独立题目,E-rater那里已经存好了几百篇预先人工评好分(各级分数都有几十篇)的文章,这些文章的用处是什么呢?学理科的同学(esp.学过化学的)看到这个词估计立刻就明白了:标定。上文已经提到,E-rater可以识别出50多个linguistic feature,但是每个feature之间并非简单加和,而是有regression wight的因素,那这个regression weight从哪里来?当然是要用“标准物”来“标定”,也就是用“标准essay”来确立!

这也就引出了这篇文章里我要强调的一个核心事实:如果E-rater的评分不能和Human reader的评分有效吻合,E-rater就根本没用!也就是说,E-rater的评分规则,全部都是来源于原先设立的Human reader的评分标准,都是以Human reader的标准为基础。全部的标准,都是人确立的。

也就是说,E-rater必须服从人,必须通过调试达到其自身最大程度的与Human reader的一致。

第四部分:所谓的“对策”
出现了一个新的东西,一开始的时候肯定会造成一些疑虑和紧张,于是“E-rater的应对策略”就成为了热门话题。那么,真的有这样的应对策略吗?

曾经有一篇流传很广的帖子里写过:“电脑评分器潜在地给人工评分者施加压力。电脑评分器和人工评分者各自给你的作文评分,如果结果存在着较大的差异,你的作文将会被传到第三个人工评分者的手中(当然这提高了ETS的费用)。这乃属常理,但ETS拒绝这么做,所以唯一的结果是人工评分者将尽力遵循电脑评分器的标准和规则。也就是说,以电脑评分器的判分为准,因为像GRE这样的标准化考试是不容主观和偏见的。 所以,不要试图取悦人工评分者期待他能否决电脑评分器给你的低分,而应该尽量符合电脑评分器的规则。”

对此,我在此再回顾一下刚才的结论:E-rater的评分规则全部来源于Human reader的预设,也就是说,如果有所谓的“E-rater应对策略”,那这个策略也就应该是能够应对Human reader的策略,再进一步说,也不过就是一般的写作策略!

也就是说,任何所谓的“迎合E-rater的写作策略”,如果真的可以“迎合”E-rater的话,那也就是在“迎合”Human reader,那也就根本没什么新鲜的,仅仅是最基础最根本的写作方法。“迎合E-rater的写作策略”这个短语的确能够吸引眼球,但它所给出的“策略”并非它诱导人构想的“单独迎合E-rater而使机器倾向给高分”的“策略”,因为根本就没有这种策略!

这一点恐怕与一部分人的设想不太一样。可能有相当一部分人都心存幻想,认为有能够单独欺骗到E-rater的策略,甚至一个国外的网站上都打出了“how to fool the E-rater”的字样。那好,说到这一点,这里有一个来自ETS官方的例子:ETS组织了一帮专家刻意去写一些essay来尝试trick the E-rater,结果呢?最成功的一位教授骗到了5分的正差异(E-rater的减去Human reader的),然而“His principal strategy was simply to write several paragraphs and to repeat them (37 times, in fact!).”!而后面几位成功者的策略也都是类似的,例如 attempted, alternatively, to write essays that is rambled, missed the point, used faulty logic, or were haphazard in their progression, but used relevant content words, complex sentence structure, or other features valued by e-rater. 且不说这些人费了多少心机写出这样能够造成E-rater出现bug的文章,这样的文章,难道在Human reader那里能够过关?这样写出来的东西,能不能被叫做“文章”恐怕要首先打问号。

如果说真的有fool the E-rater的tip的话,我想上面这个tip恐怕要让大家失望了。而能够提出来的所谓“针对E-rater的tip”,也不过就超不出那些常规的写作技巧。没什么新鲜的。

再如果,真的要说有什么tip的话,恐怕也只有这一点了:尽量克服语法和拼写的错误,因为这样的错误会干扰E-rater对更高级的feature的识别。不过说回来,这个所谓的tip,怎么看也看不出来是什么很高深的“fool the E-rater”的技巧,而只不过是最最基本的东西。也许,是因为本来就不存在这种针对机器的投机技巧呢?是不是,E-rater不值得我们过分的关注,而精力还是应该放在基本的写作水平的练习上?

因此,在本部分的开头引用的那段话,除了前半部分是在叙述事实(而且,所谓的“施加压力”也是缺乏论据的),后半部分的推论,什么增加费用,ETS拒绝如何做,更有甚者什么“人工评分者努力遵循E-rater的原则”,等等诸如此类,完全都是在缺乏论据的情况下作出的本末倒置的误导性谬论。

后记:
曾经有人提出过“E-rater就是搜索引擎的远房亲戚”的论点,然后引出了若干结论。不过简单的提出上面这个论点,未免会让人误解。就目前的文献信息而言,E-rater的功能和设计原则恐怕远比我们能够设想的程度要复杂,而想要一句话精辟的概括恐怕不是那么简单。至少,参照第二部分引用的资料,我们可以稍微准确一点来认识E-rater这个概念。

从ETS的专家捣乱实验也可以看得出来,为什么GMAT最多是“one of them MAY be an e-rater”,为什么绝对不可能是两个E-rater. 机器只能从人的设计出发来为人服务,人的判断标准总是最根本的。

下面列出本文的主要参考资料。全部资料都是从网络搜集得来,在google中输入e-rater作为搜索关键字,或者附加上doc或pdf作为第二关键字,可以搜索得到绝大部分本文参考的文献。

http://businessweek.com/bschools/originals/bs90329.htm
http://www.scoreitnow.org/e_rater.html
http://www.ets.org/research/erater.html (有一大堆官方发布的东西)
http://www.englishtide.com/ets_erater.asp

Further Evaluation of Automated Essay Score Validity,  P. Adam Kelly, Houston VA Medical Center and Baylor College of Medicine*, April 4, 2002

Automated Scoring of Essays:  Evaluating Score Validity, P. Adam Kelly, Houston VA Medical Center and Baylor College of Medicine*,March 1, 2002

Computer Analysis of Essays
Jill Burstein, Karen Kukich, Susanne Wolff,
Chi Lu† and Martin Chodorow‡
Educational Testing Service, Princeton NJ
‡ Hunter College, New York City

Text Understanding Techniques for Automated Assessment, Claudia Leacock, Educational Testing Service, March 2001 GRE Board Professional Report No. 98-08bP ETS Research Report 01-03

Stumping E-Rater: Challenging the Validity of Automated Essay Scoring, Donald E. Powers, Jill C. Burstein, Martin Chodorow, Mary E. Fowles, Karen Kukich

Automated Evaluation of Coherence in Student Essays
Eleni Miltsakaki_, Karen Kukichy
_University of Pennsylvania
619Williams Hall, 36th & Spruce St., Philadelphia, PA 19104-6305, U.S.A.
elenimi@unagi.cis.upenn.edu
yEducational Testing Service
Rosedale Road, Princeton, NJ 08541, U.S.A.
kkukich@ets.org

本文系寄托天下作者原创,转载请保持文章完整,并请务必注明原作者和出处

如有疑问欢迎到 https://bbs.gter.net/forum.php?mod=viewthread&tid=161834 进行讨论。

imong 发表于 2004-1-15 11:51:39

另外补充一句:查雷同的那个软件和E-rater不是一个东西!

pooh 发表于 2004-1-15 11:57:52

分析得很精彩啊,辛苦了! 我想大家有必要一起讨论一下作文形式的问题,那些教授费尽心思的骗过e-rater虽然表面上看起来意义不大,编造出来的可能也算不上文章,但可以给我们一点启示,就是的确有一些形式细节是我们应当留心,最好的办法也就是分析范文的句式跟用词。
再次感激imong!

imong 发表于 2004-1-15 12:17:39

我作出的这个结论和我在最初推断GRE作文是人工判卷所用的推理方法是相同的。官方是这样写的:During the scoring process, your essay responses on the analytical writing section will be reviewed by ETS essay-similarity-detection software and by experienced essay readers.

这里的用词是essay-similarity-detection software,不是e-rater!而且从我查到的文献来看,所有关于E-rater的那些文献里根本就没有提到过similarity detection之类的东西。

从这两点我得出的结论:essay-slimlarity detection software和e-rater不是一个东西。

另外附上ETS关于Independent Intellectual Activity的说明:
Independent Intellectual Activity. In light of the high value placed on independent intellectual activity within United States graduate schools and universities, ETS reserves the right to cancel test scores of any test taker when there is substantial evidence that an essay response includes, but is not limited to, any of the following:

text that is substantially similar to that found in one or more other GRE essay responses;
quoting or paraphrasing, without attribution, language or ideas that appear in published or unpublished sources;
unacknowledged use of work that has been produced through collaboration with others without citation of the contribution of others;
essays that are submitted as work of the examinee when the ideas or words have, in fact, been borrowed from elsewhere or prepared by another person.
When one or more of the above circumstances occurs, your essay text, in ETS's professional judgment, does not reflect the independent, analytical writing skills that this test seeks to measure. Therefore, ETS must cancel the essay score as invalid and cannot report the GRE General Test scores of which the essay score is an indispensable part

至于新东方的老师是不是乱说话我不想评论。我只知道我的一切结论都来源于事实和逻辑,并且我要为自己的言论负责任。

beatrice 发表于 2004-1-15 17:00:23

精辟,独到

楼主可费了不少心啊

chusuifeng 发表于 2004-1-16 08:39:40

搂主 牛人呀

imong 发表于 2004-1-16 16:02:53

简要地说:

我的意思是所谓的E-rater标准永远是来源于人的标准,并且否定所谓的“迎合策略”,主张踏踏实实的写作练习和常规技术,认为没有必要去费心思琢磨E-rater以及什么“to fool the erater”的东西。

fortitudesag 发表于 2004-1-16 16:54:28

同意!
老美认为honest是一种美德,在中国就不是那么一回事了,不过今年期末考试时还是被我的外教感染了一把,honest虽然有时表面上不会让你受益,但从长远角度上看还是有益的。老老实实从作文的基本功练起吧,你会发现受益的不仅是这一次考试,也不仅是作文或英语水平的提高,而是整个生命!涉足政治的同学除外。

imong 发表于 2004-1-18 08:43:51

另外我并不赞同“E-rater比人更客观公正”的看法。如果E-rater真的比人更公正,那为什么最多只能是一个E-rater换掉一个人,而不是两个E-rater替换两个人(这样一来也就是剩下一个E-rater了)?

实际上E-rater总是在尽力遵循人设定的标准规则,而不是vice versa。

睡到自然醒 发表于 2010-12-3 16:58:12

虽然是老帖子,还是up一下,imong前辈当年真是寄托的神童!!!
转载的。% ^" j5 Y8 V+ \! o

电脑怎样评分 电脑评分器是网络搜索引擎的“同胞兄弟”。我们在门户网站搜索时,搜索引擎利用你输入的关键词来寻找并列出与之相关的信息,常用的搜索引擎包括Alta Vista和“概念” Excite 搜索引擎。电脑评分器通过扫描你的作文,寻找那些揭示逻辑推理的关键词汇。 电脑评分器为250题中的每一题储存了成千上百的已计分的作文。这些作文都分为1, 2, 3,4, 5, 和 6 分六种。电脑评分器通过扫描你的作文,利用它的存储数据库决定你的作文 和这六种中的哪一种最为相似,然后给你的作文评分。比如,你的作文跟数据库中的5分作文最像,那么你的作文就的5分。这就是为什么后面的20篇范文如此重要的原因。在这些范文中,你将看到逻辑结构紧凑的作文。通过这些范文,你也将学会利用正确的语气来取悦电脑评分器和人工评分者。 3 ~6 A9 ]( L$ ^' k
- z% p# `2 _9 |# V- u5 w
什么是电脑评分器发现不到的有些东西电脑评分器是发现不到的,如幽默,拼写错误和语法错误。它是通过一些段落过渡词,段落变化等来分析你的文章结构,通过比较其他考生来评价你作文的内容。所以,即使你用非凡的推理风格,电脑评分器也不会发现。但是,电脑评分器能间接地发现拼写和语法错误。假如你作文里的过渡词和逻辑标志词, 如"therefore", "for example",拼错的话,电脑评分器就当你作文里没有这些词,从 而削弱你的作文。因为这些词能有效地揭示你作文的逻辑结构和思路。   改变战略 电脑评分器对人工评分的影响 电脑评分器潜在地给人工评分者施加压力。电脑评分器和人工评分者各自给你的作文评 分,如果结果存在着较大的差异,你的作文将会被传到第三个人工评分者的手中(当然这提 高了ETS的费用)。这乃属常理,但ETS拒绝这么做,所以唯一的结果是人工评分者将尽力遵 循电脑评分器的标准和规则。也就是说,以电脑评分器的判分为准,因为像GRE这样的标化 考试是不容主观和偏见的。 所以,不要试图取悦人工评分者期待他能否决电脑评分器给你的低分,而应该尽量符合电脑评分器的规则。 % w; s  z& t5 Z+ b: g( k* ]
取悦电脑评分器:
确保你的作文结构严谨。让它在结构上看起来像5分或者6分的作文。
2. 利用诸如"for example", "therefore", 等词或短语清楚地界分段落和区域。
. 明智使用限定词. 电脑评分器将谨慎使用限定词和高分相联系。 - O* g, i( p! z& k0 ?$ a4 R( E& ^
4. 仔细阅读后面的20道范文,找找6分作文的感觉。 ' D& k! F( y# n0 C! c
5. 用精确的术语(常见的逻辑错误部分所列举的13种)来表述推理中的逻辑错误。
h- Q7 r. _# e" r. c
不要犯会降低你分数的错误:
1.采取独特的,即使是很有创造力的风格写作文. 在给你的作文评分时,电脑评分器将 你的 作文和储存的样文比较,并寻找相似之处,所以一个独特的推理结构只能起反作用.
2.关键词的拼写错误,如将 "for example" 和 "therefore" 误写成 "for esample" 和 ”therefor”. 电脑评分器没能识别这些错误,当作你没有使用这些词(这些词揭示 了你文章的结构).
3. 塞入一些玩笑和不必要的注释。电脑评分器发现不了这些“幽默”,只能识别你的结 构,所以幽默和注解并不能提高你的分数。
]
4.运用那些其他学生不常用的引用或者俗语。不要以为使用这些专业词汇会使电脑评分 器认为你专业知识丰富。在GRE的作文里,不要用不寻常的例子,应该尽量用一些常用的关键词和紧凑的逻辑结构。
Y
5. 完全没有使用或者过多使用限定词如 "likely", "should" 等等. 聪明的考生会用一 定数量的限定词,以使自己的论述客观,态度明朗。但过多的使用限定词会稀释你的作文 或者使文章显得太主观或带有偏见。 & G/ k% w* N& I3 T3 x( ~7 ^; ]% x

6. 用一些独特的修辞来给你的作文增加乐趣。
s) }3 \) j
7.模仿别具一格的广告语,如苹果电脑公司的“不同凡响”-- "Think Different". 事 实上,在GRE作文中应该"Think the Same". , c' I9 m4 [% d9 O0 c1 O

你想写6分的作文.而在Issue部分,6分的作文体现为遵循某种规则,即标准的书面写作. 电脑评分器与英国英语 留学生如何对付作文和电脑评分器 GRE作文的规律可以总结为这么一句话:书面英语要求文章中的每一段由主题句展开而来 或者总结为一个主题句。前者称为演绎论,后者则为归纳论。既然所有的英语写作都属于这 两种中的其中一种,你就没有像其他语言那样自由地用英语表达你的观点或者推理分析了。 评论性的写作风格应该是直接的,也就是说都有主题,即使引用了一些例子,解析和列举来 证明其论点。这些例子经常用典型的过渡词连接,如 for example, thus, 或者 moreover.
{* L! e
电脑评分器讲的是“美语” 你应该用美国英语来写,而不是英国英语。有一些词汇,如indeed, hence等在英国英语 很常用,但在美国英语里就很少用。电脑评分器不认这些词汇,所以一定注意。 从小接受英国英语教育的考生要特别注意调整自己的语言风格和习惯,以适应“讲美语 ”的电脑评分器的口味。既然电脑评分器里存储的样文是用美国英语写成的,如果你用英国 英语写作,特别是如果揭示逻辑结构的关键词是英国英语表达的话,电脑评分器只会把你的 文章 当成没有清晰逻辑结构的二流或三流文章(2分或者3分)。所以,尽管避免这些英国英 语。最好的办法是仔细阅读后面的20篇范文和多看一些美国学术杂志,了解美国人是如何构 造推理的。

睡到自然醒 发表于 2010-12-3 17:05:00

方便后人检索吧,补充个应用实例
https://bbs.gter.net/bbs/viewthread.php?tid=1059265&highlight=
页: [1]
查看完整版本: 独家原创:解密E-rater,ETS出品之电子评分器!