寄托天下
查看: 2657|回复: 2
打印 上一主题 下一主题

[备考经验] AWA中,电脑评分简介 [复制链接]

Rank: 1

声望
0
寄托币
42
注册时间
2005-9-10
精华
0
帖子
1
跳转到指定楼层
楼主
发表于 2010-7-1 23:48:21 |只看该作者 |倒序浏览
本帖最后由 LIK 于 2010-7-2 00:01 编辑

电脑怎样评分

http://www.ets.org/research/capabilities/automated_scoring

电脑评分器是网络搜索引擎的“同胞兄弟”。我们在门户网站搜索时,搜索引擎利用你输入的关键词来寻找并列出与之相关的信息,常用的搜索引擎包括Alta Vista和“概念”Excite 搜索引擎。电脑评分器通过扫描你的作文,寻找那些揭示逻辑推理的关键词汇。

电脑评分器为280题中的每一题储存了成千上百的已计分的作文。这些作文都分为1, 2, 3, 4, 5, 和 6 分六种。电脑评分器通过扫描你的作文,利用它的存储数据库决定你的作文和这六种中的哪一种最为相似,然后给你的作文评分。比如,你的作文跟数据库中的5分作文最像,那么你的作文就的5分。

这就是为什么后面的20篇范文如此重要的原因。在这些范文中,你将看到逻辑结构紧凑的作文。通过这些范文,你也将学会利用正确的语气来取悦电脑评分器和人工评分者。

什么是电脑评分器发现不到的

有些东西电脑评分器是发现不到的,如幽默,拼写错误和语法错误。它是通过一些段落过渡词,段落变化等来分析你的文章结构,通过比较其他考生来评价你作文的内容。所以,即使你用非凡的推理风格,电脑评分器也不会发现。

但是,电脑评分器能间接地发现拼写和语法错误。假如你作文里的过渡词和逻辑标志词,如"therefore", "for example",拼错的话,电脑评分器就当你作文里没有这些词,从而削弱你的作文。因为这些词能有效地揭示你作文的逻辑结构和思路。

参看更多的关于E-rater的信息,请参考《US News》的报道。

**********************************************************************************************************

转载一篇

荒废啊荒废,今天又不想学习了,于是翻出从ETS下载的一篇研究报告,名称是

Automated Essay Scoring With E-rater v2.0,读了一读,挺解闷的。下面把阅

读所得和大家分享

相关研究成果和提到的商标名词均属于ETS及两名作者。

这个决定大家考试分数一半的系统是怎么研发的呢?据我理解,它首先(1)规定了

几个指标,然后(2)评判海量文章,得到每篇文章各指标的分值,再(3)和真人考

官做出的评分比对,对程序参数进行“训练”,最后得到各指标所占的权值。

那么有那些指标呢?下面就是论文提到的2.0版E-rater着重的指标

1.在语法、用法(usage)、拼写、风格(style)里面存在的33种错误归结到以上四

项之一的数量,再除以文章长度,得出四项指标

2.主体句(thesis),结尾段(conclusion),三个分论点(three main points),以

及支持论点的论据。起始分0分,每缺一项扣一分,最低-8分,作为一个指标

(Development)。

3.表达每个观点(discourse elements)所用的单词数(称作AEL)。

4.出现的单词种类(包括变形)除以文章单词数

5.根据文章出现的单词属于的“Breland标准词频指数”下属五个等级中的等级评

定的词汇量等级

6.单词的平均字母长度

7.一篇文章和1-6分文章的相似性。这是通过每个单词在各得分段中的词频与所有

单词的平均词频之比,与此单词在一篇文章词频与这篇文章所有单词平均词频之

比再通过向量分析得到的(这个向量分析方法的三个提出者里有两个中国人:))
通俗来将,就是尽量用那些高分文章里出现的单词。

8.文章总长度!

中间的回归分析啊什么的懒得看了(我看到了可爱的条件概率了耶),也没时间和

精力看,就把最后几个表格和大家说一下吧。

有一个表格展现了训练软件时人工评分中各个分值文章在各个指标上的差距。
指标数字越小越好,从1到0。
1-2 主要差在语法(从1到0.39)和拼写(从1到0.46)还有文章长度(1-0.46)上了。
2-3 语言风格(0.70-0.49),Development(0.76-0.53),其他相差不多。
3-4 语言用法,development
4-5 5-6 语言风格!还有Development也相差一些。

总体看法:字数在2分以上就不重要了,别太少就行。
语法、语法和拼写在低分段(1-2)跳变,其它呈直线分布,区别不大。
风格和行文是区分度很大的指标。用法(usage)也很重要,但即使6分也还剩(0.3)
单词平均长度似乎用处不大,6分还剩0.92
那个“向量和余弦分布”什么的我也没仔细看,就不说了。
“重复单词”到6分还剩0.75,所以用一些重复单词还是没太大问题,别太多就行


“词汇”6分还剩0.68,所以词汇量不高的同学也不用太担心。

最后还给了一个各个指标的权重以及和人工判卷的“可靠性”表
其中权重最高的是Development 0.21(这个我不用多说什么了吧)
然后是AEL 0.12(使用长句子并尽量把观点表达得详细一些吧)
然后是风格和单词平均长度 都是0.08(我也不清楚具体算法,所以也不清楚长单

词有没有用)。

给自己和其它人的备考建议:
1.看北美范文
3.练习写三个论点的长文章
回应
0

使用道具 举报

RE: AWA中,电脑评分简介 [修改]
您需要登录后才可以回帖 登录 | 立即注册

问答
Offer
投票
面经
最新
精华
转发
转发该帖子
AWA中,电脑评分简介
https://bbs.gter.net/thread-1117187-1-1.html
复制链接
发送
报offer 祈福 爆照
回顶部