AppList和SmsList是xjd的核心风控数据,各家风控能力的差异基本就体现在对这两部分信息的抽取上。

前几个月一直在研究SMS的信息提取(参考《SMS特征提取的一些心得【1】》和《SMS特征提取的一些心得【2】》),最近又回来琢磨App了。

之前我们对App打的标签的包括:

  1. 是否是LendingApp:根据app_id去爬取GooglePlay页面,然后根据产品描述做判别模型,最后人工确认

  2. App安装时间:客户端直接获取

  3. App更新时间:客户端直接获取

  4. 产品发布时间:爬虫获取

  5. 产品安装量:爬虫获取


几个标签里除了是否是LendingApp有人工参与外,剩下都是借助程序自动化打的标签,还是希望尽量淡化人工的干预程度,尽量Tech和Automatic一些。

这几个标签在过去几年中很好用,比如量级大的 / 发布时间早的LendingApp周期更长费率更低产品更合规,对应的客户质量就更好但是从去年开始AppList的区分性衰减的很明显,量级大的App开始不再满足“周期更长费率更低产品更合规”的特征。一个App可以在很短的时间通过疯狂满量冲到百万级,然而一看review,7天+高费率+砍头+爆催,可能还会给新户批高的离谱的额度。

这个时候一个很自然而然的思路是不使用安装量级,改用产品的真实周期和费率(这个思路是去年跟同行交流时候他们在用的)。这个时候又有一个很尴尬的问题:风险定价。新户给的期限短,费率高;老户给的期限长,费率低。首先能找到的信息更多是新户给的,没法代表整体的情况;其次是周期有长有短费率有高有低,很难总结一个值来当标签。

最近还在摸索+找大牛讨论,有结论了再在这里进行更新。

有思路心得愿意share的小伙伴也欢迎在风控群里交流or后台留言。


PS 真想有一个大模型可以把产品review里的期限和费率信息给提取出来,一个一个看的我想死。


点赞(3) 打赏

评论列表 共有 0 条评论

暂无评论

服务号

订阅号

备注【拉群】

商务洽谈

微信联系站长

发表
评论
立即
投稿
返回
顶部