韩寒代笔文本分析课题_20120328


所有跟贴·加跟贴·新语丝读书论坛

送交者: 筋斗云 于 2012-03-28, 03:53:30:

韩寒代笔文本分析课题_20120328


定下课题后,目前主要找环境。暂时定下:
讨论区在百度俱乐部:文本分析俱乐部http://tieba.baidu.com/club/11560594
因为俱乐部不支持附件,附件用新浪微盘。

想了解韩寒代笔文本分析课题起因的,可见
"韩寒代笔的文本分析课题v10.doc" http://vdisk.weibo.com/s/3yCxv

本周进度
第一组资料组
上传了零下一度的文件。在 "零下一度.rar" http://vdisk.weibo.com/s/3wcEi
第三组IT组
因为词的分析较难,但是字的分析是简单的,首先完成了“零下一度”字的
统计工作,见 "零下一度log.rar" http://vdisk.weibo.com/s/3wcFf
第四组理论组
上传了关于文本分析的三本书,为英文
"An Introduction to Forensic Linguistics.pdf" http://vdisk.weibo.com/s/3l56p
"handbook_of_forensic_linguistics.pdf" http://vdisk.weibo.com/s/3l5_h
"Forensic Linguistics, Advances in Forensic Stylistics.pdf" http://vdisk.weibo.com/s/3l5TY

第五组判断组
文本理论中,关于字的极少。但是有一些关于标点符号的理论。
零下一度的标点符号统计没有决定性结论。
"零下一度标点统计.xls" http://vdisk.weibo.com/s/3wMh6
大家可以下载看看,是否有其它结论。
求医/书店 是逗号的比例高,句号比较少。
一起沉默/小镇生活 是逗号少,句号多。
是比较明显的极端,这可能是文体造成的。

文件名    总字数    ,    %    。    %    、    %
穿着棉袄洗澡    1189    44    3.700589    17    1.429773    4    0.336417
早已离开    6373    249    3.907108    210    3.295151    16    0.251059
眼中    5439    238    4.375804    125    2.298217    17    0.312557
一起沉默    5710    250    4.378284    199    3.485114    5    0.087566
小镇生活    8239    380    4.61221    286    3.471295    2    0.024275
永远的远方    1330    64    4.81203    41    3.082707        
文学啊文学    2195    109    4.965831    57    2.596811    7    0.318907
足球啊足球    2928    147    5.020492    86    2.937158    6    0.204918
夕阳依旧美丽    3061    156    5.096374    96    3.13623        
来自海边    3239    166    5.125039    85    2.624267    6    0.185242
读《人的末日》    2413    124    5.138831    50    2.072109    4    0.165769
傻子    3598    189    5.252918    100    2.779322    5    0.138966
那些事那些人    4810    254    5.280665    145    3.014553    2    0.04158
杯中窥人    1171    63    5.380017    31    2.64731    4    0.341588
兄弟成长于天蓝年代    3009    177    5.882353    79    2.625457    6    0.199402
三个地方的三轮车    3303    200    6.055101    90    2.724796    1    0.030276
第三个人    2473    150    6.065507    70    2.83057    7    0.283057
头发    3168    195    6.155303    81    2.556818    1    0.031566
书店    2097    130    6.199332    42    2.002861    5    0.238436
求医    2068    137    6.624758    46    2.224371    6    0.290135
书店2    2547    170    6.674519    57    2.237927    2    0.078524

框架基本搭好了,可行性很强,可以进入下一阶段:呼唤网友了。




所有跟贴:


加跟贴

笔名: 密码: 注册笔名请按这里

标题:

内容: (BBCode使用说明