为什么谷歌的SMITH算法是一个重要的事件搜索引擎优化-这里是为什么#262 -高效博客

谷歌在机器学习及其语言处理能力方面投入了大量资金，以帮助改善整体用户体验和满意度。

在这一集中赢得的这一集中是CVS的数字营销视频系列，杰西卡·佩克（Jessica Peck）CVS的高级分析顾问加入Eric讨论谷歌的史密斯算法是什么以及为什么它是SEO的重要事件。

</ spec> </ spec> </ spec> </ spec>

不要错过任何一集《为什么这样》．点击下面的订阅按钮，将通过电子邮件通知每一个新的视频发布。

订阅“这就是为什么”

资源

成绩单

埃里克:嘿,每一个人。我叫Eric Enge，是Perficient公司数字营销解决方案业务部门的负责人。今天，我很高兴欢迎杰西·派克回来。她在Perficient担任营销技术助理时就已经是这个系列的固定成员了。现在她是CVS公司的高级分析顾问，负责监控数据最佳实践和QA分析标签。说嗨,杰斯。

杰斯：嗨，每个人。

埃里克:有一段时间了，你能回来真是太好了。

杰西:很高兴回来。我很高兴今天能和你们谈谈史密斯算法。

埃里克：所以，这是另一个谷歌算法与一个人的名字和一个聪明的首字母缩写吗？

杰斯：是的

埃里克:市场营销人员是否应该放下手头的工作，开始追逐史密斯?

杰斯:不。

埃里克:好吧。这就是本期视频的内容。哦,开玩笑的。那么，什么是斯密，我们为什么要关心它?

杰斯：因此，史密斯是谷歌的自然语言处理的建议技术模型。它在彼此竞争更长的文档方面匹配了更好的是，在快速打破长文本并了解文本的部分如何与本身有关的情况下更好。

埃里克：是的，它在谷歌的语言处理能力方面是一个大规模的跳跃。那么，你能解释史密斯吗？

杰茜:嗯，我会试着沉浸其中，同时保持视频的娱乐性，时间不要太长。让我们看看怎么做。SMITH代表暹罗多深度转换器分层，这是SMITH位，编码器。这确实很拗口，但如果我们把它拆开，就说得通了。从两种模式的意义上说，它是暹罗语。它有多个深度。它是基于像BERT这样的变形金刚。它是分层的，所以基本上有不同的结构。

数字必需品，第3部分

制定一个强有力的数字战略既是挑战，也是机遇。Digital Essentials指南系列的第3部分探讨了客户期望的5种基本技术驱动的体验，这些体验您可能会错过或没有充分利用。

获取指南

所以，让我们谈谈史密斯试图解决的问题。基于文本的长度，可以将语义匹配问题分为四种不同类别，因此如果一个是短，或者是另一个长，或者反之亦然，或者它们都短，或者两者都很长。因此，史密斯模型的开发人员看了正在完成的工作，并且在这两个文本很长时间时，匹配它们需要更全面地了解语义关系，如彼此之间距离长距离的碎片之间的匹配模式。

埃里克：对。长期包含内部结构，如部分和段落以及句子。当您阅读页面的人时，该页面的结构是文本整体含义的一部分，并且机器学习模型必须考虑更好的匹配性能。

杰斯：而且，是的，这是真的。最实际上，由于这一切，机器学习已经占用了很多内存。但是，长文本的处理更有可能触发出于TPU或GPU存储器的实际问题，以及其他类似的东西，至少没有真正谨慎的模型设计。经常性的神经网络或RNNs处于较长且更大的任务。像变压器和伯特这样的模型在这种任务中更好。但是，建立一个基于变压器的长文本编码器很难，因为处理内存是艰难的，并且有二次计算时间，这正是它似乎的似乎。

埃里克:那么史密斯是怎么应对的呢?

杰西:他们把输入文档分成几个块，其中包含一个或多个句子，用的是他们所谓的“贪婪句子”方法。然后句子级的transformer学习每个句子块中输入标记的上下文表示。基本上，他们把大的内容分成几块，然后试着理解这些块中的句子之间的关系。

关于史密斯的好东西是这些文档表示可以彼此独立生成，然后在在线服务之前索取索取。并且分层模型捕获文档的内部结构信息，如句子边界。这两个事情都真正有助于内存和对整个文件的理解。

第三，与直接将transformer应用到整个文档相比，它有一种两级层次结构，包括句子级和文档级的transformer，它减少了我们之前提到过的二次记忆问题和时间复杂度，通过将整个文档的完全自我注意改变为每个句子块中的几个局部自我注意。

Eric:那么句子级的转换器捕获句子块中令牌之间的交互，然后文档级的转换器查看不同句子块之间的全局交互，寻找长距离依赖关系?

杰斯:没错。因为注意力分散在两种模式之间，它可以快速覆盖更多的领域，并让你对文本有更深层次的理解。所以像BERT一样，SMITH也采用了无监督的前训练和模型训练的微调范式。因此，他们在训练过程中随机选择单词和句子块进行隐藏或伪装。所以如果你曾经见过这样的停电诗，想象一下给一台电脑停电诗，让它猜诗的其余部分。

埃里克：听起来像史密斯一样令人印象深刻。

杰斯:没错。它会影响神经匹配，长文本建模的自我注意模型，转换器模型和BERT，但长文本。像transformer和BERT这样的自我注意模型在自然语言处理和信息检索方面表现良好。还有非监督语言模型预训练，如果你听说过ELMo, GPT, Word2Vec，或BERT，所有这些模型都可以通过在同一个句子中使用其他单词预测一个单词或一个文本范围进行预训练。这更多地展示了如何在更大范围内使用它。

我不会再深入到技术细节了。但所有这些元素都是相互联系的，指向了搜索的未来。

Eric:谷歌目前没有在算法中使用SMITH，是吗?

杰斯:不。但我认为，通过观察SMITH可以让我们对信息检索，特别是谷歌搜索，在未来将如何发展有一些见解。所以，让我们来谈谈这篇论文中一些熟悉seo的营销人员应该关注的概念。

埃里克:很明显,这张纸展示了谷歌对自然语言处理的持续关注，特别是在信息检索方面，并进一步关注事物、实体和概念。

杰斯：而且，是的，有了这个，我认为技术SEO和对机器学习感兴趣的人有价值，以阅读和尝试和了解关注模型。注意力只是模仿人类的注意。它增强了输入数据的重要部分，并逐渐消失。并且您可以在各种机器学习模型中看到它的效果，从计算机视觉到图像生成，文本生成和翻译。变形金刚是另一个机器学习概念，投入技术SEO应该看。它们像经常发生的神经网络一样，它们在史密斯，伯特和GPT中使用。我们都看到这些语言模型有多强大。

Eric:我认为在NLP的机器方面之外，谷歌还在继续投资于理解自然语言以及人们如何说话和查询。

杰西:对，这是另一个信号，表明我们不仅超越了文本匹配，还让机器以更快、更好、更有说服力的方式使用机器学习。

埃里克：是的，搜索的未来是确保你的网站是最容易的，你的内容是好的或优秀的，而且你提供了你的搜索者正在寻找的东西，无论他们如何单词。

不要错过任何一集《为什么这样》．点击下面的订阅按钮，将通过电子邮件通知每一个新的视频发布。

订阅“这就是为什么”

查看我们所有的“这里是为什么”视频|请订阅我们的YouTube频道