材料中讨论的问题:
什么是文本中的停用词
停用词和表达方式有哪些类型?
为什么搜索机器人会忽略停用词?
对于人和机器人来说,什么才是好的文本?
如何检查文本中的停用词
尽管现在有很多作家和文案作家,但并不 巴林电报数据库 是每个人都能写出真正好的文字。私人表演者写的文章大多内容很少。它们包含最少的有用信息。文本中的停用词使文章变得无趣且难以阅读。这使读者感到排斥,并且一个人进入该页面后几乎立即离开该页面。
什么是文本中的停用词
安全词
有这样一类词,从文本中删除它不仅不会违背其含义,反而会使它更容易理解、更容易理解。它们被称为停用词。
美国教授小威廉·斯特伦克在他的小书《风格的元素》(1920 年,美国)中,他列出了有助于以易于理解和有趣的方式写作的规则。教授称这种情况下常见的错误之一是使用不必要的词语。
动态文本应该简洁——威廉·斯特伦克(William Strunk)是当时第一个表达这一想法的人。多余的单词会破坏一个句子,多余的句子会加重一个段落的负担,就像一幅画不需要多余的笔画,多余的细节会干扰机制的运作。
这并不是要求将每句话削减到最低限度,省略重要的细节,并给出笼统的描述。建议不要在文本中使用停用词;它们不带有任何语义负载,只会干扰感知。
类似的建议可以在编辑兼翻译者诺拉·加尔 (Nora Gal) 的著作《生与死的词》(The Living and the Dead Word) 中找到,该书于苏联出版 (1972)。作者呼吁不要使用教权主义,不要使用动词名词(而不是动词),要简单地表达,不要过度形式化,少用外来词,多用俄语词,力求快速抓住本质。
这个方向已经发展起来,这要归功于先进的记者、语言学家和懂得如何书写和感受这个词的人们的功绩。已经为那些撰写文本和文章的人提出了新的建议。额外的“垃圾”词被分类。
安全词
如今,这个话题变得更加重要,互联网正在迅速发展,新的写作风格正在出现。 “停用词”几乎是官方术语,指的是那些可以被忽略的段落。
现在已经有专门设计的算法来计算文本中的停用词。新术语已经形成:“overspam”、“nausea”、“wateriness”等。“安全词”的定义现在适用于整个短语,而不仅仅是单个词。
任何现有语言均不禁止使用停用词;作者可以自行决定使用它们。但是,通常来说,没有填充停用词的文本会被感知得更好。
编辑的工作是确定安全词的使用在每种特定情况下的有用性。编辑器删除不带有语义负载的单词,但保留那些对文本有意义的单词。
您可能还感兴趣:网站优化:初学者指南
文本中停用词的简单示例
带有额外单词的文本 只是文字
由于霜冻严重,学校停课了。
由于寒冷,学校课程被取消。
在所有居住在英国的人中,这位首富是那天最不高兴的一个。
那天英格兰首富是最不幸的。
自然地,我开始相信你美丽的外表确实符合你所有的精神品质。
我相信你的灵魂和你的外表一样美丽。
我当然知道他对你如此关注的真正原因。
我知道他为什么对你这么关心了。
当然,实际上有很多例子可以完整地说明什么是停用词。
有很多例子表明停用词在文本中出现得太频繁。
常规文本中的停用词有哪些类型:14类
如今,语言学家在回答“文本中的停用词是什么?”这一问题时,包含了 2000 多个单词。为了便于使用,它们分为 14 类。
感叹词:啊,呃,嗯,真的,哦。
代词:我、我们、我的、你、你的。
不确定性:某处、某事、出于某种原因、以某种方式、一些、关于、秩序、大约、一切。
介绍性结构:其实,比如说,一般来说。
强化词:极其、最大、最、非常、最、绝对、强烈。
评价性:豪华、舒适、美丽、昂贵(不应与上一段中的词语结合使用)。
明显的措辞:本文档、本网站、本页面、单击此按钮、单击此处、页面底部的表格。
日常陈词滥调:左右,一直,一步一步,这样或那样,一点一点。
媒体的陈词滥调特征:在加速的节奏中,时间的沙子,一种气氛统治着最好的传统。
企业或广告邮票:个性化方法,解决业务问题,赢得客户信任,扩大销售地域。
“临时”寄生词:当今、当前、现代世界。
带动词名词的短语:提供维修服务、进行维修、进行活动。
情态短语:您需要办理手续,您可以登录,您需要完成订单。
非人称句子中的被动动词和谓语:体育中心是根据市长办公室的命令建造的,森林正在被砍伐。
有人会说这个列表太长了(尤其是后半部分)。这并不意味着文本中的停用词是不好的和不可接受的词。重要的是要学会深思熟虑地使用它们,赋予每一个意义。