首页> 中国专利> 目标用户特征提取方法、目标用户特征提取系统和目标用户特征提取服务器

目标用户特征提取方法、目标用户特征提取系统和目标用户特征提取服务器

摘要

具有处理器和存储器的计算机取得保存有访问网页服务器的内容的用户终端的历史信息的会话数据和保存有用户的属性信息的用户属性数据来作为用户数据,取得保存有所述内容的属性的页面属性数据和保存有提供了所述内容的发布者的属性的发布者属性数据作为发布者数据,取得作为提取对象的发布者和该发布者设为获得目标的用户特征作为目标类型,根据目标类型计算提取对象的数据的项目和值的范围,根据所述用户数据和所述发布者数据计算与所述项目对应的提取对象数据,根据所述提取对象数据和所述发布者数据,基于所述项目的值的范围计算访问的特征量。

著录项

  • 公开/公告号CN114902196A

    专利类型发明专利

  • 公开/公告日2022-08-12

    原文格式PDF

  • 申请/专利权人 株式会社日立高新技术;

    申请/专利号CN202180008023.5

  • 发明设计人 佐藤江里子;林秀树;

    申请日2021-01-20

  • 分类号G06F13/00(2006.01);

  • 代理机构北京银龙知识产权代理有限公司 11243;北京银龙知识产权代理有限公司 11243;

  • 代理人范胜杰;曹鑫

  • 地址 日本东京都

  • 入库时间 2023-06-19 16:20:42

法律信息

  • 法律状态公告日

    法律状态信息

    法律状态

  • 2022-08-30

    实质审查的生效 IPC(主分类):G06F13/00 专利申请号:2021800080235 申请日:20210120

    实质审查的生效

说明书

参照引用

本申请主张于令和2年(2020年)3月9日申请的日本申请日本特愿2020-039825的优先权,通过参照而将其内容引入本申请。

技术领域

本发明涉及从阅览网站的用户的历史信息中提取特定的用户特征的技术。

背景技术

在因特网上的网站,已知有基于访问内容的用户的行为历史(阅览、视听或者检索的历史记录)来决定显示于内容的广告的内容的技术。

另外,在提供商品或服务的网站,已知有基于访问商品或评论的用户的行为历史来估计用户的偏好,并决定推荐的商品或服务的技术。

作为对访问网站的用户的偏好进行分析的网页解析的技术,例如已知有专利文献1、2。

在专利文献1中公开了如下技术:参照用户信息存储部以及用户历史信息存储部,按每个用户来估计推荐候选的项目。另外,在专利文献2中公开了如下技术:根据用户选择出的项目的选择历史,对用户的偏好分布进行解析,计算接近于偏好分布的中心、远离偏好分布形状的推荐指标,并基于计算出的所述推荐指标,显示推荐的项目。

现有技术文献

专利文献

专利文献1:日本特开2015-148975号公报

专利文献2:日本特开2011-96025号公报

发明内容

发明所要解决的课题

向网站提供内容等信息的发布者有时会根据访问所提供的内容的用户而有意地创造出新的商机,或者进行现有的用户的挖掘。在发布者提取作为目标的用户的特征(以下,设为用户特征)时,重视的项目依赖于发布者的偏好、目标(获得目标)。

例如,在发布者中,有为了扩大当前的商业而重视对现有的顾客的接近的人,也有为了创造出新的商机而重视搜索潜在的顾客的人。为了提取发布者作为目标的用户特征,除了用户的网页解析以外,还需要准确地提取发布者的意图。

在上述现有例的专利文献1中,在判定用户的偏好后,根据用户的行为历史计算向用户提示信息的计划。在该专利文献1所公开的偏好判定部中,存在如下问题:仅通过在类似度的判定中使用用户的属性信息和历史信息,而未考虑与提供项目(内容)的一侧的目标有关的意图(或偏好)。

另外,在现有例的专利文献2中,对用户的偏好进行解析,计算远离偏好分布形状的推荐指标,提供有意外性的项目。但是,在该专利文献2中,存在没有考虑项目的提供者想要的目标的问题。

因此,本发明是鉴于上述问题点而完成的,其目的在于,从访问网站的用户的历史中提取向网站提供信息的发布者想要获得的用户特征。

用于解决课题的手段

本发明提供一种目标用户特征提取方法,由具有处理器和存储器的计算机从访问网页服务器的内容的历史信息中提取发布者设为获得目标的用户特征,其中,所述目标用户特征提取方法包含:用户数据取得步骤,所述计算机取得保存有访问了所述网页服务器的内容的用户终端的历史信息的会话数据和保存有利用所述用户终端的用户的属性信息的用户属性数据来作为用户数据;发布者数据取得步骤,所述计算机取得保存有所述内容的属性的页面属性数据和保存有提供了所述内容的所述发布者的属性的发布者属性数据来作为发布者数据;偏好取得步骤,所述计算机接受作为提取对象的发布者,并且取得所述发布者设为获得目标的用户的信息来作为目标类型;目标计算步骤,所述计算机根据所述发布者的目标类型来计算提取对象的数据的项目和所述项目的值的范围;会话特征计算步骤,所述计算机根据所述用户数据和所述发布者数据来计算与所述项目对应的提取对象数据;访问特征提取步骤,所述计算机根据所述提取对象数据和所述发布者数据,基于所述项目的值的范围计算访问的特征量。

发明效果

因此,本发明能够从访问网站的用户的历史信息中提取与提供内容的发布者的偏好相应的用户特征。由此,除了信息的发布者所期待的用户的提取以外,还能够提取与发布者的意图不同的新的用户特征,也能够创造出新的商机。

在本说明书中公开的主题的至少一个实施的详细情况,记述在所附的附图和以下的记述中。所公开的主题的其他特征、方式、效果通过以下的公开、附图、权利要求而明确。

附图说明

图1表示本发明的实施例,是表示目标用户特征提取系统的结构的一例的框图。

图2表示本发明的实施例,是表示目标用户特征提取服务器的结构的一例的框图。

图3表示本发明的实施例,是表示在目标用户特征提取服务器中进行的处理的概要的图。

图4表示本发明的实施例,是表示会话数据的一例的图。

图5表示本发明的实施例,是表示用户属性数据的一例的图。

图6表示本发明的实施例,是表示提取对象数据的一例的图。

图7表示本发明的实施例,是表示范围转换信息的一例的图。

图8表示本发明的实施例,是表示由目标用户特征提取服务器的会话特征计算部进行的处理的一例的流程图。

图9表示本发明的实施例,是表示由目标计算部进行的处理的一例的流程图。

图10表示本发明的实施例,是表示在范围转换部中进行的处理的一例的流程图。

图11表示本发明的实施例,是表示在范围转换部中进行的处理的一例的图。

图12表示本发明的实施例,是表示由目标判定项目加工部进行的处理的一例的流程图。

图13表示本发明的实施例,是表示用于学习的选择数据的一例的图。

图14表示本发明的实施例,是表示选择数据的一例的图表。

图15A表示本发明的实施例,是表示类别表的一例的图。

图15B表示本发明的实施例,是表示条件表的一例的图。

图16表示本发明的实施例,是表示选择数据的一例的图表。

图17表示本发明的实施例,是表示选择数据的一例的图。

图18表示本发明的实施例,是表示行业类似度映射的一例的图。

图19表示本发明的实施例,是表示阅览数数据的一例的图。

图20表示本发明的实施例,是表示行业类似度映射的一例的图。

图21表示本发明的实施例,是表示统计数据的一例的图。

图22表示本发明的实施例,是表示行业类似度映射的一例的图。

图23表示本发明的实施例,是表示提取结果画面的一例的图。

图24表示本发明的实施例,是表示提取对象的一例的图。

具体实施方式

以下,基于附图对本发明的实施方式进行说明。

图1表示本发明的实施例,是表示目标用户特征提取系统的结构的一例的框图。

目标用户特征提取系统包含:管理包含内容210和广告220的网站的网页(Web)服务器200;访问网站的信息的用户终端100-1至100-3;向网页服务器200提供信息的发布终端300-1至300-3;以及从网页服务器200的访问历史(日志230)中提取从发布终端300-1至300-3提供信息的发布者所期望获得的用户(目标类型)的目标用户特征提取服务器1。

用户终端100-1~100-3的附图标记在不分别确定的情况下使用省略了“-”以后而得的附图标记“100”。对于其他结构要素的附图标记也使用同样的附图标记。

发布终端300-1~300-3分别由不同的行业的发布者A、B、C运用,各发布者A~C也兼作广告主而提供内容210和广告220。

此外,在本实施例中,示出了运用发布终端300的发布者兼作内容210的提供和广告主的例子,但并不限定于此,内容210的发布者与广告主也可以不同。另外,用户终端100-1~100-3分别由不同的行业a、b、c的用户运用,阅览网页服务器200的内容210、广告220。

网页服务器200由计算机构成,向目标用户特征提取服务器1发送用户终端100的访问历史(历史信息)、利用发布终端300的发布者的信息、以及内容210的属性数据。此外,网页服务器200也可以与数据库服务器、应用服务器等连接来构建网站。

目标用户特征提取服务器1针对向网页服务器200提供的网站提供信息的发布者A~C想要获得的用户(用户终端100的利用者),从访问了网页服务器200的用户的历史(会话数据)中提取用户特征。另外,目标用户特征提取服务器1分析由发布终端300提供的内容(页面)210来提取为页面特征。

目标用户特征提取服务器1以预定的周期(例如,1个月)收集用户终端100的访问的历史记录,针对提取对象的发布者提取包含用户特征和页面特征的访问的特征量,并通知给发布终端300。

此外,发布终端300将发布者想要获得的用户的信息作为目标类型,预先通知给目标用户特征提取服务器1。或者,发布者也可以从发布终端300向网页服务器200通知目标类型,目标用户特征提取服务器1从网页服务器200取得目标类型。

图2是表示目标用户特征提取服务器1的结构的一例的框图。目标用户特征提取服务器1是包含处理器11、存储器12、存储装置13、输入装置14、输出装置15以及通信装置16的计算机。

通信装置16与网络400连接,与网页服务器200以及发布终端300进行通信。输出装置15由显示器等构成。输入装置14由键盘、鼠标或触摸面板构成。

在存储器12中,处理对象选择部21、会话特征计算部22、目标计算部23、访问特征提取部27、目标判定项目加工部28、数据加工部30以及学习部31作为程序而被加载,由处理器11执行。

处理器11通过按照各功能部的程序执行处理,作为提供预定的功能的功能部进行工作。例如,处理器11通过按照会话特征提取程序来执行处理,作为会话特征计算部22发挥功能。关于其他程序也是同样的。进而,处理器11也作为提供各程序所执行的多个处理各自的功能的功能部来进行工作。计算机及计算机系统是包含这些功能部的装置及系统。

在存储装置13中,作为上述各程序所使用的数据,存储有会话数据41、用户属性数据42、页面属性数据43、发布者属性数据44、发布者目标数据45、范围转换信息46。

会话数据41表示网页服务器200收集到的日志230中的、访问了内容210(或广告220)的用户终端100的访问历史。用户属性数据42表示利用用户终端100的用户的属性。页面属性数据43表示内容210的属性。发布者属性数据44表示发布者的属性。发布者目标数据45将发布者A~C想要获得的用户层(目标类型)设定为定性的信息。此外,发布者目标数据45也能够设定项目和值的范围(或阈值)。在范围转换信息46中,设定有按每个目标类型确定用户层的分析对象数据的项目和项目的值的范围(或阈值)。此外,关于各数据的详细情况在后面叙述。

接着,对在目标用户特征提取服务器1中运行的各程序的概要进行说明。

处理对象选择部21从输入装置14等接受从网页服务器200取得的用户终端100的访问历史(会话数据41)中的、分析中使用的会话数据41的期间和分析对象的发布者。此外,也可以不指定发布者而指定会话数据441的期间,并对所有发布者的目标实施分析。

目标计算部23接受分析对象的发布者,从发布者目标数据45取得发布者想要获得的用户特征的范围作为目标信息,基于目标信息决定分析会话数据的项目和值的范围。

分析会话数据的项目和范围如后述那样,根据发布者A~C各自的目标信息(获得目标)、偏好来设定,例如,作为判定发布者的目标的项目,使用网页服务器200中的阅览数和停留时间等,范围能够通过这些数值的范围、阈值等来指定。

对于分析会话数据41的项目和范围,存在范围计算部26参照范围转换信息46来决定的情况、和目标判定模型25计算项目和范围的情况。

范围转换部24在存在与发布者目标数据45的目标信息对应的范围转换信息46的情况下,使范围计算部26参照范围转换信息46来决定项目和范围。另外,范围转换部24在不存在与目标信息对应的范围转换信息46的情况下,将指定的期间的会话数据41、用户属性数据42、页面属性数据43、发布者属性数据44以及目标信息向目标判定模型25输入,生成分析对象的项目和范围。

会话特征计算部22取得处理对象选择部21所接受的期间的会话数据41、会话数据41所包含的用户的用户属性数据42、页面属性数据43以及发布者属性数据44,将目标计算部23所决定的项目的数据生成为表示会话的特征的提取对象数据。此外,在会话数据41中存在上述决定的项目的情况下,将所指定的期间的会话数据41作为提取对象数据50。

会话特征计算部22如后述那样,使用目标判定项目加工部28和数据加工部30,生成与所决定的项目对应的提取对象数据50。此外,在目标判定项目加工部28中,根据目标的项目使用类似度计算部29。

另外,会话特征计算部22能够针对用户终端100所访问的内容210的每个页面、或者页面属性数据43的每个标签或者提供内容210的每个发布者,将用户终端100访问了网页服务器200的历史计算为表示会话的特征的数据。

访问特征提取部27接受来自会话特征计算部22的提取对象数据和来自目标计算部23的项目和范围,提取用户特征和所访问的内容210的特征(页面特征)。

首先,访问特征提取部27基于来自会话特征计算部22的提取对象数据、来自目标计算部23的项目、和项目的值的范围,计算用户的特征量作为用户特征。另外,访问特征提取部27接受发布者的属性数据(发布者属性数据44)和发布者向网页服务器200提供的内容210的属性数据(页面属性数据43),提取与用户的访问等相关的内容210的特征量作为页面特征。

访问特征提取部27提取出的用户特征和页面特征被通知给发布终端300。另外,访问特征提取部27能够将提取出的用户特征和页面特征显示于输出装置15。

访问特征提取部27提取的用户特征能够包含例如访问了提取对象的发布者的内容210的用户的行业的比率、会话的特性(重复次数的多少)等来作为特征量。

另外,访问特征提取部27提取的页面特征能够包含例如被访问的内容210的标签的比率、各页面的平均停留时间等作为特征量。

学习部31输入会话数据41、用户属性数据42、发布者属性数据44、页面属性数据43和发布者目标数据45来实施机器学习,生成目标判定模型25。目标判定模型25的生成在提取用户特征51、页面特征52之前预先实施。

<数据>

接着,对各程序所利用的数据进行说明。图4是表示会话数据41的一例的图。会话数据41是目标用户特征提取服务器1从网页服务器200以预定的周期等收集到的历史信息。

会话数据41是在一个记录中包含ID411、访问时刻412、访问页面413、重复次数414和脱离时刻415的表。

ID411存储有用户终端100的标识符。ID411是由网页服务器200赋予的值,只要是在目标用户特征提取系统内唯一的值即可。

访问时刻412存储用户终端100开始访问该页面的日期时间。访问页面413存储用户终端100访问过的内容210的URL。

重复次数414存储访问该页面的累计次数。脱离时刻415保存用户终端100结束了该页面的阅览的时刻。

图5是表示用户属性数据42的一例的图。用户属性数据42是由目标用户特征提取服务器1设定的表。用户属性数据42是在一个记录中包含ID421、IP422、行业423和营业额424的表。

ID421保存用户终端100的标识符。ID421是与会话数据41的ID411相同的值。IP422存储用户终端100的IP地址。

行业423保存利用用户终端100的用户的公司(或团体)的行业。由于行业423能够根据用户终端100的IP地址确定用户所属的公司,因此只要根据该公司的信息来决定行业即可。营业额424保存用户所属的公司的营业额。

此外,利用用户终端100的用户的行业、营业额既可以由目标用户特征提取服务器1的管理者等设定,也可以由预先设定的数据库等来设定。

图6是表示提取对象数据50的一例的图。提取对象数据50是由会话特征计算部22计算出的中间数据。在图示的例子中,作为确定用户层的提取对象数据的项目,示出了从目标计算部23输出了阅览数和平均停留时间的例子。

在图示的提取对象数据50的情况下,表示会话特征计算部22根据处理对象选择部21所接受的期间内的会话数据41,对每个发布者统计各用户阅览的页面,并与用户属性数据42结合的例子。

提取对象数据50是在一个记录中包含ID501、发布者502、阅览数503、平均停留时间504和行业505的表。

ID501保存用户终端100的标识符。ID501是与会话数据41的ID411相同的值。发布者502存储该ID501的用户阅览过的内容210的发布者的标识符。内容210的发布者的标识符是针对构成内容210的每个页面预先设定的信息,从网页服务器200发送来的页面属性数据43中取得。

阅览数503保存该ID501的用户阅览过的发布者502所提供的页面的合计。平均停留时间504保存该ID501的用户在由发布者502提供的页面停留(阅览)的平均时间。行业505保存用户属性数据42的行业423。

图7是表示范围转换信息46的一例的图。范围转换信息46是用于将发布者目标数据45的定性信息转换为提取对象的项目和值的范围的表。

范围转换信息46是针对将发布者想要获得的用户层分类而得的每个目标类型461,预先设定了根据会话数据41和用户属性数据42等计算出的提取对象数据50的项目和数据的范围462的信息。此外,目标类型461是发布者目标数据45的目标信息的值。

作为目标类型461的一例,示出了设定了“新的”、“现有”、“花费时间订阅的人”、“重复者”、“优良顾客”、“对切削感兴趣的人”的例子。

“新的”的目标类型461表示以发布者获得新的用户为目的而向网页服务器200的网站提供内容210以及广告220的信息。在本实施例中,预先设定将相应的发布者的内容210的阅览数为50次以下的用户设为“新的”用户的范围462。

“现有”的目标类型461表示发布者以挖掘现有的用户为目的而向网页服务器200提供信息。在本实施例中,预先设定将相应的发布者的内容210的阅览数超过50的用户设为“现有”的用户的范围462。

“花费时间订阅的人”的目标类型461表示以获得花费时间阅览发布者的内容210的用户为目的,向网页服务器200提供内容210。在本实施例中,预先设定将相应的发布者的内容210的平均停留时间504为每页500秒以上的用户判定为相应的用户的范围462。

“重复者”的目标类型461表示以获得反复阅览发布者的内容210的用户为目的而向网页服务器200提供信息。在本实施例中,预先设定将相应的发布者的内容210的重复次数414为2次以上且访问间隔为1周以下的用户判定为相应的用户的范围462。

“优良顾客”的目标类型461预先设定有将访问发布者的内容210的用户中的、用户所属的公司的营业额424为10亿日元以上的用户判定为相应的用户的范围462。

“对切削感兴趣的人”的目标类型461预先设定将对发布者的内容210中的、包含“切削”的标签的页面进行了访问的用户判定为相应的用户的范围462。

此外,在与发布者目标数据45的目标信息对应的目标类型461不存在于范围转换信息46的情况下,如后所述,范围转换部24向目标判定模型25输入会话数据41、用户属性数据42、页面属性数据43以及发布者属性数据44,生成项目和范围。

虽未图示,但页面属性数据43是按各内容210的每个页面,包含URL、表示内容210的种类的标签、提供内容210的发布者的识别符的表格。此外,页面属性数据43既可以包含内容210的使用单词等静态信息,也可以包含由word2vec等计算出的文章、报道的特征量。

虽未图示,但在发布者目标数据45中设定有发布者的标识符和发布者预先选择的目标信息。此外,发布者目标数据45的目标信息与上述的范围转换信息46的目标类型461的值对应,但能够设定不包含在范围转换信息46的目标类型461中的值。另外,在发布者目标数据45中,除了定性的信息以外,还能够以包含项目和值的范围的信息进行设定。另外,虽未图示,但发布者属性数据44保存有发布者的标识符、发布者的行业、发布者所属的部门。

<提取处理>

以下,对由目标用户特征提取服务器1进行的处理的一例进行说明。图3是表示由目标用户特征提取服务器1进行的处理的概要的图。基于目标用户特征提取服务器1的用户的指令而开始该处理。

处理对象选择部21接受抽取对象的期间和发布者。此外,如上所述,在没有输入发布者的情况下,将网页服务器200的全部发布者作为提取对象。

首先,目标计算部23从处理对象选择部21接受发布者,从发布者目标数据45取得每个发布者的目标类型,并根据范围转换信息46或目标判定模型25决定与目标信息对应的项目和值的范围。

目标计算部23使用范围转换部24按每个发布者决定提取对象数据50的项目和范围,向会话特征计算部22输出项目,向访问特征提取部27输出范围。

如上所述,范围转换部24在与目标信息对应的目标类型461不存在于范围转换信息46的情况下,向目标判定模型25输入会话数据41、用户属性数据42、页面属性数据43以及发布者属性数据44,决定提取对象的项目和范围。

另外,在与目标信息对应的目标类型461不存在于范围转换信息46的情况下,范围转换部24通过由目标判定模型25生成提取对象的项目和范围,从而访问特征提取部27能够提取与该目标信息一致的用户特征。

目标判定模型25是预先通过机器学习而生成的模型。目标用户特征提取服务器1的学习部31通过在用户终端100的会话数据41和用户属性数据42中对发布者属性数据44和页面属性数据43进行机器学习,生成目标判定模型25。

会话特征计算部22取得从处理对象选择部21接受的期间内的会话数据41,取得与会话数据41的ID411对应的用户属性数据42。

会话特征计算部22从目标计算部23接受项目,生成包含从被指定的期间内的会话数据41和用户属性数据42指定的项目的提取对象数据50。

根据与范围转换信息46的目标类型461对应的范围462的内容或目标判定模型25的输出来决定提取对象数据50的项目。所生成的提取对象数据50被输出到访问特征提取部27。此外,会话特征计算部22既可以按每个提取对象的发布者生成提取对象数据50,也可以生成包含提取对象的发布者的全部项目的提取对象数据50。

访问特征提取部27从目标计算部23接受提取对象的值的范围,从会话特征计算部22接受提取对象数据50。访问特征提取部27应用周知或公知的分析技术,按每个发布者从提取对象数据50提取与指定的范围462对应的用户特征,并输出用户特征51作为会话的特征量。

例如,在使用通过机器学习生成的特征提取模型的情况下,访问特征提取部27使用发布者的目标类型作为说明变量,使用阅览数的范围作为目标变量,推测目标信息中包含的用户特征。

另外,访问特征提取部27取得发布者属性数据44和页面属性数据43,将提取对象数据50中包含的用户访问的页面提取出,并作为表示会话的特征量的页面特征52来进行输出。此外,访问特征提取部27对于页面特征52的提取,也能够与上述同样地通过机器学习来推测。此外,访问特征提取部27并不限定于机器学习模型,也可以应用平均值、中央值等统计值等。

图23是表示访问特征提取部27提取出的用户特征51和页面特征52的提取结果画面600的一例的图。另外,图24是表示访问特征提取部27分析出的会话数据41的一例的图。

在图24中,示出了利用用户终端100的用户1~3访问发布者A的页面A1、A2和发布者B的页面B1,发布者D的页面D1的页面特征也与页面A1、A2、B1相同的例子。

图23表示作为提取对象而显示了符合发布者A的目标类型461的用户的用户特征51和页面特征52的提取结果的例子。

在发布者A的目标类型461中,示出了图24所示的用户1~3符合的例子。作为用户特征51,将用户1~3的行业示为金属行业为67%、材料制造商为33%,且用户1~3的访问为重复次数414较多的情况提取为特征。

另外,用户1~3访问过的页面特征52作为页面属性数据43的标签而包含金属和加工,作为会话数据41的特征而显示平均停留时间504较长。

通过以上的处理,目标用户特征提取服务器1能够根据每个会话的ID411、访问页面413、时刻信息(412、415)、用户属性数据42的行业、页面属性数据43的标签和发布者,从提取对象数据50中提取与目标信息(发布者的偏好)一致的用户特征。

发布者的目标信息例如是“以新顾客为目标”这一定性的值,对该目标信息进行定量转换而得到的项目和范围是“针对发布者的记事的阅览数为30以上且小于50,与发布者的属性的距离(类似度)远离10以上的行业”。

在访问特征提取部27中应该提取的会话的特征(用户特征)之一是针对发布者的内容210的用户的每个行业的访问数(阅览数)的数据。另一种是表示用户的行业的属性彼此的距离的特征,这能够使用根据用户的行业和针对页面属性数据43的标签的访问数对类似度进行计算而得的结果。

因此,在数据加工部30中,针对每个用户的页面的访问数,针对每个发布者的内容210计算与用户的ID411关联的每个属性(行业423)的合计数。另外,关于距离,数据加工部30例如使用计算多维尺度法等类似度的方法来计算与特征量相关的距离,并通过这些数据来构成提取对象数据50。

针对这样的提取对象数据50,作为与发布者的偏好即“将新顾客作为目标”匹配的会话的特征,访问特征提取部27能够将用户的行业和访问数量作为用户特征51而进行提示。进而,访问特征提取部27在通过会话的特征所包含的用户的行业和发布者的内容210的链接目的地而缩小了会话数据时,能够提取用户的行业所访问过的页面的特征并输出为页面特征52。

作为范围462,除了上述以外,通过使用用户属性数据42的行业423,计算访问过访问页面413的多个用户间的行业的特征量(类似度)的距离,在访问特征提取部27中,能够针对内容210按照每个发布者,将与距离对应的用户的群组作为用户特征51来进行提示。

图8是表示由图3所示的会话特征计算部22进行的处理的一例的流程图。会话特征计算部22当从处理对象选择部21接受期间,从目标计算部23接受项目时,进行以下的处理。

会话特征计算部22从会话数据41取得接受的期间内的数据(S1)。接着,会话特征计算部22取得指定期间内的会话数据41所包含的用户(用户终端100)的用户属性数据42(S2)。

会话特征计算部22将用户ID411、421一致的用户属性数据42与在上述步骤S1中取得的会话数据41结合来生成结合数据(S3)。

会话特征计算部22判定从目标计算部23接受的项目是否包含在上述步骤S3中生成的结合数据中(S4)。会话特征计算部22在结合数据中包含所有提取对象的项目的情况下,将该结合后的数据直接作为提取对象数据50输出。另一方面,会话特征计算部22在结合数据中不包含所有提取对象的项目的情况下,进入步骤S5,通过数据加工部30,根据结合数据生成所接受的项目的数据。

数据加工部30针对每个用户根据结合数据生成由目标计算部23决定的提取对象的项目的数据。

例如,在项目为平均停留时间的情况下,数据加工部30针对会话数据41的ID411与访问页面413一致的记录,计算脱离时刻415与访问时刻412的差,将同一访问页面413的平均值作为平均停留时间进行计算。另外,数据加工部30也可以参照页面属性数据43来确定各访问页面413的发布者(识别符),针对每个发布者计算平均停留时间。

接着,会话特征计算部22将在步骤S6中按每个上述项目生成的数据作为提取对象数据50输出到访问特征提取部27。

通过以上的处理,会话特征计算部22根据所指定的期间内的会话数据41和用户属性数据42,计算在目标信息的判定中使用的项目的数据并作为提取对象数据50输出。

图9是表示由图3所示的目标计算部23进行的处理的一例的流程图。目标计算部23从处理对象选择部21接受发布者并开始以下的处理。

目标计算部23针对所接受的发布者,从发布者目标数据45获得目标信息(S11)。目标计算部23判定所取得的目标信息是否是包含项目与值的范围(或阈值)的信息(S12)。在包含项目和范围的情况下进入步骤S14,否则进入步骤S13。

在步骤S13中,目标信息是定性的信息的情况,在该情况下,目标计算部23使用范围转换部24将定性的信息转换为项目和范围。然后,在步骤S14中,将转换后的项目和值的范围输出至会话特征计算部22和访问特征提取部27。

图10是表示由目标计算部23的范围转换部24进行的处理的一例的流程图。目标计算部23判定是否存在与目标信息对应的范围转换信息46(S21)。在存在范围转换信息46的情况下进入步骤S22,在不存在的情况下进入步骤S23。

在步骤S22中,范围转换部24参照范围转换信息46,从与目标信息对应的目标类型461取得范围462,决定在范围462中设定的项目和值的范围。

在步骤S23中,范围转换部24向目标判定模型25输入会话数据41、用户属性数据42、页面属性数据43和发布者属性数据44,使目标判定模型25决定提取对象的项目和范围。

通过以上的处理,在发布者目标数据45的目标信息是定性的信息的情况下,通过范围转换信息46或者目标判定模型25决定提取对象的项目和值的范围。

图11是表示由目标计算部23的范围转换部24进行的目标判定项目加工部28的一例的图。范围转换部24在使用目标判定模型25的情况下,通过目标判定项目加工部28对会话数据41和用户属性数据42的用户数据510进行处理,对发布者的每个内容210(页面)进行后述的统计处理(S231)。另外,会话数据41是从处理对象选择部21接受的期间内的数据。

接着,范围转换部24使包含页面属性数据43、发布者属性数据44和发布者目标数据45的发布者数据520与目标判定项目加工的处理结果结合(S232)。此外,页面属性数据43使用与从处理对象选择部21接受的期间内的会话数据41所包含的访问页面413相应的数据。

然后,将用户数据510的目标判定项目加工处理结果与发布者数据520结合而成的数据提供给目标判定模型25,决定提取对象的项目和值的范围。

图12是表示由目标判定项目加工部28进行的处理的一例的流程图。该处理在上述图11的步骤S231中执行。

目标判定项目加工部28取得图11所示的用户数据510(S32)。目标判定项目加工部28判定是否利用用户属性数据42(S32)。有无利用用户属性数据42例如能够通过发布者目标数据45按发布者的每个识别符预先设定。

目标判定项目加工部28在参照发布者目标数据45而利用用户属性数据42的情况下进入步骤S33,在不利用的情况下进入步骤S36。

在步骤S33中,目标判定项目加工部28取得用户属性数据42的行业423、会话数据41的访问页面413和页面属性数据43的标签,计算行业423的特征量。然后,目标判定项目加工部28在计算出的特征量的空间中,使用多维尺度解析法(MDS:Multi-DimensionalScaling)等计算用户的行业423间的距离,将该距离作为类似度。

该处理如图19所示,针对每个页面属性数据43的标签,对每个发布者合计用户属性数据42的每个行业423的阅览数,生成阅览数数据530。图19的阅览数数据530是针对每个内容210的标签计算出用户属性数据42的每个行业423的阅览数的合计值的信息。

在图19中,关于发布者A的内容210的标签A的页面,保存有行业a~行业d的用户各自的阅览数的合计值。图19的阅览数数据530能够针对发布者A的每个标签表现基于用户的行业423的兴趣的多少。

目标判定项目加工部28使用多维尺度解析法,从图19的阅览数数据530计算特征量1、特征量2,如图20所示,在特征量1、特征量2的空间上配置行业423。此外,图20是将特征量1、2所表示的行业423间的距离表现为类似度的映射。此外,在图示的例子中,示出了根据针对发布者A的内容210的阅览数数据530计算出类似度的例子。

接着,在图12的步骤S34中,目标判定项目加工部28判定是否利用会话的特征。会话的特征的利用的有无例如能够通过发布者目标数据45按发布者的每个识别符预先设定。

目标判定项目加工部28在参照发布者目标数据45来利用会话的特征的情况下进入步骤S35,在不利用的情况下结束处理。在步骤S35中,目标判定项目加工部28按发布者的每个页面实施用户数据510和发布者数据520的统计处理。图21是表示通过统计处理生成的统计数据540的一例的图。

统计数据是表示目标判定项目加工部28将针对每个发布者的内容210的用户的按行业423的阅览数进行合计的结果的图。在图21中,关于发布者A的内容210,保存有行业a~行业d的用户各自的阅览数的合计值。图21的统计数据540能够针对每个发布者表现基于用户的行业423的兴趣的多少。

图22是表示将统计处理的结果加入到图21的映射中的类似度映射的一例的图。图中,每个行业的圆的大小与针对发布者A的各行业的用户的阅览数成比例。

如上所述,目标判定项目加工部28输出按每个发布者合计了通过用户属性数据42和页面属性数据43进行了统计处理的行业423间的距离的信息。

此外,在不利用用户属性数据42的情况下的步骤S36中,在会话特征计算部22使用的数据加工部30中,实施每个访问页面413的停留时间等的数据处理,并向目标判定模型25输出。

如上所述,在目标计算部23使用目标判定模型25的情况下,通过将在图10~图12的处理中生成的数据输入到目标判定模型25,即使在没有范围转换信息46的情况下也能够决定项目和值的范围。

<学习处理>

接着,对由学习部31进行的用于构建目标判定模型25的学习处理进行说明。图13是表示在不利用用户属性数据42或发布者属性数据44的情况下对进行目标判定模型25的学习的数据进行定义的选择数据550的一例的图。

选择数据550是在一个记录中包含ID5501、目标顾客5502、平均停留时间5503、阅览数5504的表。在ID5501中保存有发布者的标识符。在目标顾客5502中保存有各发布者所选择的目标类型。此外,目标类型只要根据预先设定的定性信息按每个发布者进行选择即可。

在平均停留时间5503中,保存有用户在该ID5501的发布者所提供的页面中停留(阅览)的平均时间的条件。阅览数5504中保存有用户阅览该ID5501的发布者所提供的页面的总数的条件。

上述选择数据550可以基于目标用户特征提取服务器1的管理者从发布者接受的目标类型来生成,也可以从发布终端300输入。

在图示的例子中,示出作为用于构建目标判定模型25的目标类型,设为将新顾客设为优先的“新的”、将现有顾客设为优先的“现有”这2种,作为学习处理的项目,使用平均停留时间5503和阅览数5504的例子。

由发布者在平均停留时间5503和阅览数5504的空间中选择图13的选择数据550的区域如图14所示。图14是表示选择数据550的一例的图表。

在图14中,用实线表示选择了“现有”的发布者A、C设为目标的用户特征的区域,用虚线表示选择了“新的”发布者B、D设为目标的用户特征的区域。

学习部31生成由选择数据550设定的条件的学习用数据并提供给目标判定模型25来进行学习。此外,提供给目标判定模型25的学习用数据可以由实际的会话数据41和用户属性数据42生成,也可以使用虚拟数据。

此外,目标类型(新的或现有)的会话的特征不需要是对实际的数据进行加工后的特征,可以用虚拟数据来表示几个会话的特征,使多个发布者选择目标类型来进行尝试,使用保持了尝试的结果的数据。另外,与目标类型对应的区域是预先将目标类型的特征转换为选择数据550的项目而得,可以如图14的图表那样按每个目标类型输出选择了哪个项目。

此外,也可以通过图15A、图15B所示的类别表560和条件表570来定义学习用的数据。图15A表示反映发布者的目标类型(偏好)的类别表560的一例。图15B表示设定每个类别的项目和值的范围的条件表的一例。

图15A的类别表560在一个记录中包含ID5601、目标顾客5602、类别编号5603。在ID5601中保存有发布者的标识符。在目标顾客5602中保存有各发布者所选择的目标类型。此外,目标类型只要根据预先设定的定性的信息对每个发布者进行选择即可。类别编号5603中设定有表示各发布者所选择的会话的特征的区域的编号。此外,类别编号5603从预先设定的编号中存储发布者所选择的编号。

图15B的条件表570在一个记录中包含目标顾客5701、平均停留时间5702、阅览数5703。在目标顾客5701中保存与类别表560的类别编号5603对应的编号。

在平均停留时间5702中,保存与用户停留在(阅览)发布者所提供的页面的平均时间相关的条件。阅览数5703中保存有与用户阅览发布者所提供的页面的总数相关的条件。

上述选择数据550可以基于目标用户特征提取服务器1的管理者从发布者接受的目标类型来生成,也可以从发布终端300输入。

在图15A的例子中,示出选择了“现有”作为目标类型的发布者A、C选择类别编号5603=“1”,选择了“新的”的发布者B、D分别选择了类别编号5603=2、3的例子。

与类别编号5603对应的区域被条件表570的平均停留时间5702和阅览数5703限制,成为图16所示的区域。在图16中,与阅览数5703无关,平均停留时间小于100小时的数据成为类别“2”。另外,在阅览数5703小于50、平均停留时间小于100小时的数据成为类别“3”,其他区域成为类别“1”。

如上所述,也可以通过保存发布者的偏好的类别表560和决定数据的范围的条件表570生成学习用的数据。

接着,以下示出在决定目标判定模型25的学习用的数据时,利用用户属性数据42和发布者属性数据44,与上述图21、图22同样地使用发布者与用户的行业间的距离的例子。

图17是表示对目标判定模型25的学习用的数据进行定义的选择数据580的一例的图。选择数据580是在一个记录中包含ID5801、目标顾客5802、行业5803、选择行业5804、距离5805、阅览数5806的表。在ID5801中保存有发布者的标识符。在目标顾客5802中保存有各发布者所选择的目标类型。此外,目标类型只要根据预先设定的定性的信息按每个发布者进行选择即可。

行业5803保存有在发布者属性数据44中设定的发布者的行业。在选择行业5804中保存有发布者所选择的用户的行业。在距离5805中保存有发布者与用户的行业之间的类似度的距离。阅览数5806中保存有用户阅览该ID5801的发布者所提供的页面的总数。

上述选择数据580可以基于目标用户特征提取服务器1的管理者从发布者接受的目标类型来生成,也可以从发布终端300输入。

在图示的例子中,在ID5801=发布者A的记录中,选择“现有”作为目标顾客5802,发布者A的行业5803=a,发布者A选择出的目标用户的行业5804=b,行业间的距离5805=L

图18表示上述图17所示的选择数据5801的发布者A的行业5803=a与选择行业5804间的类似度的映射。图中,每个行业的圆的大小与各行业a~d的用户对于发布者A的内容210的阅览数成比例。

在该例子中,根据会话数据41、用户属性数据42以及发布者属性数据44计算行业间的类似度,参照该类似度,根据发布者的属性和目标类型提取与所选择的行业相对的距离和与行业相关的信息。

此外,在图示的例子中,将用户的属性的类似度应用为发布者的属性的类似度,但这使用如下前提:无论是用户还是发布者,如果行业相似,则对感兴趣的标签的行为也相似。

另外,并不限于例如根据针对用户的检索单词的会话数据41(访问历史)计算类似度等,仅使用针对标签的数据。使用从这些提取出的数据,将说明变量设为属性和目标类型或偏好,将目标变量设为属性间的距离和访问数(阅览数),使目标判定模型25学习所选择的项目。作为学习方法,例如能够使用随机森林(Random Forest)那样的机器学习方法。

<总结>

如上所述,本实施例的目标用户特征提取服务器1根据会话数据41、用户属性数据42、页面属性数据43以及发布者属性数据44,基于发布者所希望的目标类型,决定提取对象数据50的项目和值的范围,生成提取对象数据50。然后,通过向访问特征提取部27输入值的范围和提取对象数据50,能够从访问网页服务器200的用户(用户终端100)的历史中提取向网页服务器200提供内容210的发布者想要获得的用户特征。另外,目标用户特征提取服务器1也能够提取与发布者的意图不同的新的用户,从而也能够创造出新的商机。

另外,目标用户特征提取服务器1能够将所提取出的用户特征的会话数据41的特征从页面属性数据43中提取出来,因此能够缩小用户对发布者的内容210的什么样的内容(标签)会表示出兴趣的范围,能够辅助营销。

此外,在上述实施例中,示出了使用用户的行业作为用户属性数据42和使用发布者的行业作为发布者属性数据44的例子,但并不限定于此。例如,能够将用户的兴趣、趣向、发布者的兴趣、趣向用作属性数据,能够从这样的属性数据中提取目标用户特征。

另外,在决定提取对象数据50的项目和值的范围的情况下,即使在不存在与反映了发布者的偏好的目标类型对应的范围转换信息46的情况下,通过利用目标判定模型25,也能够从会话数据41等中提取发布者想要获得的目标类型的用户特征。

如上所述,上述实施例的目标用户特征提取服务器1能够采用以下的结构。

(1)一种目标用户特征提取方法,由具有处理器11和存储器12的计算机1从访问了网页服务器200的内容210的历史信息(会话数据41)中提取发布者设为获得目标的用户特征,其中,

所述目标用户特征提取方法包含:用户数据取得步骤,所述计算机取得保存有访问所述网页服务器200的内容210的用户终端100的历史信息的会话数据41、和保存有利用所述用户终端100的用户的属性信息的用户属性数据42来作为用户数据510;发布者数据取得步骤,所述计算机1取得保存有所述内容210的属性的页面属性数据43、和保存有提供了所述内容210的所述发布者的属性的发布者属性数据44来作为发布者数据520;偏好取得步骤,所述计算机1接受作为提取对象的发布者,取得所述发布者设为获得目标的用户的信息来作为目标类型461;目标计算步骤(目标计算部23),所述计算机1根据所述发布者的目标类型461计算提取对象的数据的项目和所述项目的值的范围;会话特征计算步骤(会话特征计算部22),所述计算机1根据所述用户数据510和所述发布者数据520来计算与所述项目对应的提取对象数据;访问特征提取步骤(访问特征提取部27),所述计算机1根据所述提取对象数据和所述发布者数据520,基于所述项目的值的范围来计算访问的特征量。

通过上述结构,如上所述,本实施例的目标用户特征提取服务器1根据会话数据41、用户属性数据42、页面属性数据43以及发布者属性数据44,基于发布者所希望的目标类型,决定提取对象数据50的项目和值的范围,生成提取对象数据50。然后,通过向访问特征提取部27输入值的范围和提取对象数据50,能够从访问过网页服务器200的用户(用户终端100)的历史中提取向网页服务器200提供内容210的发布者想要获得的用户特征。另外,目标用户特征提取服务器1也能够提取与发布者的意图不同的新的用户,也能够创造出新的商机。

另外,目标用户特征提取服务器1能够将所提取出的用户特征的会话数据41的特征从页面属性数据43中提取出来,因此能够缩小用户对发布者的内容210的什么样的内容(标签)会表示出兴趣的范围,能够辅助营销。

此外,在上述实施例中,示出了使用用户的行业作为用户属性数据42和使用发布者的行业作为发布者属性数据44的例子,但并不限定于此。例如,能够将用户的兴趣、趣向、发布者的兴趣、趣向用作属性数据,能够从这样的属性数据中提取目标用户特征。

(2)根据上述(1)所述的目标用户特征提取方法,其中,所述目标计算步骤23包含:范围转换步骤(范围转换部24),在所述目标类型461是定性的信息的情况下,将所述定性的信息转换为数据的项目和所述项目的值的范围。

通过上述结构,能够根据定性的信息计算提取对象的数据的项目和上述项目的值的范围,能够提取与作为对象的发布者的偏好一致的用户特征。

(3)根据上述(2)所述的目标用户特征提取方法,其中,所述范围转换步骤23中向预先设定的判定模型(目标判定模型25)输入所述目标类型461、所述用户数据510和所述发布者数据520,输出提取对象的数据的项目和所述项目的值的范围。

根据上述结构,能够向预先设定的目标判定模型25输入目标类型461、用户数据510和发布者数据520,根据定性的信息计算出提取对象的数据的项目和上述项目的值的范围。

(4)根据上述(3)所述的目标用户特征提取方法,其中,所述目标用户特征提取方法还包含:学习步骤(学习部31),所述计算机1将所述用户数据510、所述发布者数据520和所述目标类型461提供给所述判定模型25来进行学习。

根据上述结构,学习部31能够对从网页服务器200取得的会话数据41、用户属性数据42、页面属性数据43、发布者属性数据44和目标类型进行机器学习,由此生成目标判定模型25。

(5)根据上述(4)所述的目标用户特征提取方法,其中,所述学习步骤31包含:类似度计算步骤(类似度计算部29),使用所述用户属性数据42来计算用户的属性间的类似度。

根据上述结构,通过使用用户属性数据42的行业423,计算访问过访问页面413的多个用户间的行业的特征量(类似度)的距离,由此在访问特征提取部27中,能够针对内容210按照每个发布者,将与距离对应的用户的群组作为用户特征51来进行提示。

另外,在类似度计算部29中,根据会话数据41和用户属性数据42以及发布者属性数据44计算行业间的类似度,访问特征提取部27能够参照该类似度,根据发布者的属性和目标类型提取与所选择的行业相对应的距离和与行业相关的信息。

此外,本发明并不限定于上述的实施例,包含各种变形例。例如,上述的实施例是为了容易理解地说明本发明而详细记载的,并不限定于必须具备所说明的全部结构。另外,能够将某实施例的结构的一部分置换为其他实施例的结构,另外,也能够在某实施例的结构中添加其他实施例的结构。另外,对于各实施例的结构的一部分,其他结构的追加、删除或置换均可以单独或组合使用。

另外,上述的各结构、功能、处理部以及处理单元等也可以通过例如利用集成电路来设计等,从而通过硬件来实现它们的一部分或者全部。另外,上述的各结构以及功能等也可以通过处理器解释并执行实现各个功能的程序,从而通过软件来实现。实现各功能的程序、表、文件等信息能够放置在存储器、硬盘、SSD(Solid State Drive:固态驱动器)等记录装置、或者IC卡、SD卡、DVD等记录介质中。

另外,控制线、信息线表示被认为是在说明上所必需的结构,在产品上不一定表示全部的控制线、信息线。实际上也可以认为几乎全部结构相互连接。

去获取专利,查看全文>

相似文献

  • 专利
  • 中文文献
  • 外文文献
获取专利

客服邮箱:kefu@zhangqiaokeyan.com

京公网安备:11010802029741号 ICP备案号:京ICP备15016152号-6 六维联合信息科技 (北京) 有限公司©版权所有
  • 客服微信

  • 服务号