用OCR的方式读相声

要找一本对胃口的文本格式电子书真是太难了。网上能挖到的文本格式电子书一般都是主流、名著级别的,而稍微偏门一点的找起来就难了。

联想到现在的OCR软件对文字的正确识别率相当高,于是就想到我读书的时候何不顺手将它们转成文本格式呢?于是经过一番折腾,选软件、找技巧……结果,从年初到现在一共生产出了三本书的电子版本(具体内容请在www.0791.net查找):

《常宝堃相声选》
《教你学相声》
《中国的相声》

《常宝堃相声选》是一本老书,收集的是常宝堃先生的一些个段子。他的演出录音我没怎么听过,但是看名头应该是很牛的。这些段子里可以看见很多传统相声原始的风貌,别有一番风味。如果是相声FANS,习惯了阅读相声文本,可以做到一边看字,一边通过条件反射式的想象还原出表演时的语气来。这实在是很有趣的一件事情。

《教你学相声》是点击率非常高的一本书。我当初读他是因为介绍了如“三番四抖”之类的相声常识,以及这个很有号召力的书名。有不少相声词汇我以前只是有耳闻,在这本书里得到了进一步的解释。该书的目标读者是小学生,可以理解成是一本辅导学生业余演出的辅导书。书中收录的几个名家为小学生表演编写的段子是本书一大特色,很多访问者都是通过搜索“小学生相声台词”来的。可能是六一快到,要准备节目的原因吧。看到这么多查找儿童相声文本的搜索记录,本来打算再找点儿童相声做个专题,但是想到六一过后也许就没人关注这个了,于是作罢。该书成于1998年,也是三本书里最“新”的。看来相声在小读者群里还是可能有市场的,出版社不会做亏本买卖。

《中国的相声》是著名相声研究者薛宝琨的相声理论作品。从一个老学究的视角观察相声,记述相声界的人、事、作品,以及对相声进行引述、评论,实在是一本少见的相声理论书籍。这本书今天刚刚做完,看后感觉相当有水平。书成于1985年,那时候相声还是处在非常火暴的时期,而书中对相声的分析中就包含了对未来发展隐忧的思考。

前面三本书都是相声,之后想换换口味,打算读一读《趣味逻辑》这本书。书中用小故事来揭示枯燥的逻辑知识。发现这本书是缘起同事偶然的随口推荐,于是我就把它找了出来。根据同事的描述和粗略的翻看,我想这本书一定会非常精彩。还有一本讲述世界名画故事的书也在选择之列,只是翻译实在太差,如果要OCR的话,不如我重新写过一遍,那样的话可就算“原创”了。

还有很多的书在选择之列。比如这几年一些工作用书就很少看,有点落伍了,也许有必要补补混饭吃的知识了吧。

发表评论

邮箱地址不会被公开。 必填项已用*标注