当利用这种方法构建语料库的时候,用户只需要提供所需的文本类别体系。
而后从互联网中采集大量网站,提取并分析网站的内容层次结构和每个主题词对应的网页内容信息。
从每个网站中筛选出用户所需要的文本作为候选语料。
这个过程其实不复杂,有点类似于爬虫抓取网页的过程。
比较困难的是这种方法形成的语料库如何去噪。
但这对于林灰也不是问题。
只需要将从多个网站中匹配上的同一文本类别的候选语料合并成每个类别的候选语料库。
而后再对候选语料库中每个类别下的文本进行去噪处理就可以提高语料库的质量。
在完成去噪之后就可以输出语料库。
虽然这个过程实现起来仍旧不容易。
但学术领域上除了个别被孤立的杠精喜欢钻牛角尖之外。
大多数情况下只要逻辑自洽就没人死磕。
除了好奇林灰是如何构建语料库之外。
涉及到“使用相似度模型评估文本和摘要之间的语义相关性”
伊芙·卡莉比较好奇林灰究竟是使用何种相似度模型来评估文本摘要和摘要之间的语义相关的。
额,这个问题就比较涉及到林灰搞定的文本摘要准确度模型最核心的东西了。
关于这个问题的答案就不是三言两语能说得清的了。
本网站为网友提供小说上传储存空间平台,为网友提供在线阅读交流、txt下载,平台上的所有文学作品均来源于网友的上传
用户上传的文学作品均由网站程序自动分割展现,无人工干预,本站自身不编辑或修改网友上传的内容(请上传有合法版权的作品)
如发现本站有侵犯权利人版权内容的,请向本站投诉,一经核实,本站将立即删除相关作品并对上传人ID账号作封号处理