2月 15

十年

十年,一个说短不短、说长不长的时间。
十年,有的早已改变,有的却一如既往。
十年,有的人哭闹着来了、有的人不情愿得走了。
十年,有的事情早已淡忘,有的却依然刻骨铭心。
十年,有过相聚、有过离别;十年,有过欢笑、有过悲伤;十年,有过选择、有过无奈。
十年,似近似远、如梦如幻。十年,……

  • 《唐诗三百首》中的“十年”

遣怀(杜牧)
落魄江湖载酒行,楚腰纤细掌中轻。
十年一觉扬州梦,赢得青楼薄幸名。

宿府(杜甫)
清秋幕府井梧寒,独宿江城蜡炬残。
永夜角声悲自语,中庭月色好谁看。
风尘荏苒音书绝,关塞萧条行路难。
已忍伶俜十年事,强移栖息一枝安。

淮上喜会梁川故人(韦应物)
江汉曾为客,相逢每醉还。
浮云一别后,流水十年间。
欢笑情如旧,萧疏鬓已斑。
何因北归去,淮上对秋山。

喜见外弟又言别(李益)
十年离乱后,长大一相逢,
问姓惊初见,称名忆旧容。
别来沧海事,语罢暮天钟。
明日巴陵道,秋山又几重。

赠阙下裴舍人(钱起)
二月黄鹂飞上林,春城紫禁晓阴阴。
长乐钟声花外尽,龙池柳色雨中深。
阳和不散穷途恨,霄汉常悬捧日心。
献赋十年犹未遇,羞将白发对华簪。

古意呈补阙乔知之(沈佺期)
卢家少妇郁金堂,海燕双栖玳瑁梁。
九月寒砧催木叶,十年征戍忆辽阳。
白浪河北音书断,丹凤城南秋夜长。
谁为含愁独不见,更教明月照流黄。
Continue reading

3月 21

山人何处君不见?东风一花倚阑干! ——《全唐诗》、《全宋词》统计分析报告

山人何处君不见?东风一花倚阑干!

——《全唐诗》、《全宋词》统计分析报告

一、源起

前两天看到了邱怡轩写的统计词话(一)。受其启发,决定利用自己的编程及统计分析能力,对《全唐诗》和《全宋词》进行一个较为全面的统计分析与比较。于是便有了你现在看到的这篇文章。
此处使用到的原始数据、程序脚本及结果图表等均可以在文末找到下载链接。

二、数据

《全唐诗》及《全宋词》的原始数据均来自于网络。
通过基本的编码转换以及“简单”的过滤筛选之后,就得到了用于后续统计分析的数据。

三、工具

系统平台:Linux(Ubuntu 10.10,AMD64)。
Shell命令行:转换编码(iconv)与换行符(fromdos)。
Perl(v5.10.1):用来过滤、筛选原始数据,得到可以用于后续分析的格式化数据。
R(v2.12.2):统计分析及图表绘制。
其他:Vim(v7.2.330),TimeForScience

四、结果

1.基本信息

general_info
补充:只考虑诗或词的主体内容的话,《全唐诗》共使用了7513种(个)汉字,而《全宋词》则使用了5750种(个)汉字。
此处的统计数据仅为约数,与其他的数据有一定的出入。主要原因在于原始数据的质量以及数据处理过程中的过滤筛选等。
相关的参考数据:
百度百科:《全唐诗》共收录唐代诗人2529人,诗作42863首。
玄烨为《全唐诗》所作的序中的说法:诗48900余首,2200余人。
日本学者平冈武夫的统计结果:《全唐诗》共收诗49403首,句1555条,作者2873人。
维基百科:《全宋词》收录宋代词人1330家,词作21116首。
Continue reading