LOADING...
LOADING...
LOADING...
当前位置: 玩币族首页 > 新闻观点 > 如何给要投资的项目打分数(下)

如何给要投资的项目打分数(下)

2020-01-07 月儿妈 来源:区块链网络

我们真正想做的事情,是在加密产业建立一个资料导向的决策流程,让相关的讨论有一个成熟可信的依据。

1前言

在上篇文章中,我们提到在众筹投资市场,缺乏以[建立资料导向的决策流程」为取向的评分机制,因此我们便兴起了建立一套完全奠基于客观数据的项目评分模型,然而具体上我们是怎么做的呢?

在资料分析领域,当我们想要进行统计建模时,首先要确认我们要预测哪个项目,其次则是用什么预测。在上一篇文章中我们提到预测项目是短期的ROI 之后,现在让我们来想想要用什么输入来料理这道菜。

2输入的选择

当前在评估一个区块链项目的品质时,主要是以下列六个面向进行分析:


评估众筹项目的6个面向

其中,尤其以团队成员、VC 名单与代币发行规则三者占据较高的影响力。当我们在选择使用哪些指标(Features) 当作模型的输入进行测试时,我们需要考量到该指标:

a.是否容易取得;

b. 是否客观正确;

再经过几番调研与测试之后,我们最终选择「团队成员与「代币发行规则的两类指标当作输入,而舍弃其他类别。个别的原因描述于下:

VC名单:收集VC名单的第一个选择是透过项目的官方网站查找,其次是crunchbase等第三方资料收集网站。然而在我们初步尝试后,发现仍有许多项目的官方网站找不到相关资料,在第三方的网站的资料也是残缺不全,所以只能舍弃这个关键类别。

技术概念:该类别的大多数指标都需要主观定义,比方说判断技术水平、是否创新、市场竞争状况等,所以暂略不计。

官网及白皮书:主观判定成分高。

社群状态:在考量社群时,我们首重项目在上交易所前Telegram 与Twitter 的状态,例如当时Twitter 的周均发文数或Telegram 的日活跃月户数、日均讨论次数、日均发文次数等,有些资料现在已难以计算,能计算的也需要下一些功夫处理,所以跳过。

在决定好输入的指标类别后,我们再厘清思路框架。定性而言,一个加密货币A 的价格判定可表达成:


其中,

Factor(A,USD):大环境对币种A 的价值判定;

Factor(A,Crypto):加密市场对币种A 的价值判定;

Factor(Crypto,USD):大环境对加密市场的价值判定;

Factor(A,Crypto) * Factor(Crypto,USD):纠缠项。

这样的表达式也在Binance Research的一篇报告中提及。按照上述的想法,我们只要设定好用哪些指标来组成Factor(A,Crypto)与Factor(Crypto,USD) ,便可以建构起大环境对币种A的价值判定模型了。

关于Factor(Crypto,USD) 的想法


总体特点 vs 日期

在分析数种用来衡量大环境对加密市场的信心这件事情上,最终我们选定了以下三种:

价格(BTC,USD):CoinMarketCap上,比特币对美元的历史价格。由于比特币是当前流动性最广且市值占比最高的币种,传统投资圈跨入加密市场的头一个选择也是比特币,用比特币价格来衡量该因子也就显得直观。

BTC主导地位:CoinMarketCap上,比特币市值占比。通常而言, BTC主导地位上升的原因可分成两种:(I)对比特币的信心增强;(II)对其他币种的信心减弱。两者看起来相同,差别在于主体不同。举例而言,从2019年4月初开始,比特币价格从4,000美元上涨到5月份中的8,000美元,与此同时BTC主导地位从50 %拉升到60 %,这个上涨过程的起始原因是(I )而非(II) 。同理, BTC主导地位下滑的原因也可分为:(III)对比特币的信心减弱;(IV)对其他币种的信心增强。在2018年年初小币狂涨的阶段,BTC 主导地位一度滑落到32 %,是由于(IV)而非(III)。我们把BTC 主导地位放入模型中的缘故,在于撷取其对衡量(I)跟(III)的有效性。另外,对于(I) ~ (IV)之间先后发生的影响与研究,不在这次的讨论范围。

恐慌&贪婪指数 (FGI):FGI是第三方组织根据加密市场的波动性、交易量、社群媒体分析、市场调查、市值占比与趋势等因素组合而成的单一指标,数字越大代表当前加密市场越贪婪;越小代表越恐慌。由于资料完整透明且经过量化,虽然含有主观判定的成份在里头,我们经过各种测试后发现该指标对于模型建构是有帮助的,所以添加进来。


恐慌和贪婪指数

关于Factor(A,Crypto) 的想法之一:代币发行规则

在前面提到的评估区块链项目的六个面向,实际上便反应加密产业圈内人判定项目价值的依据。所以,我们将以代币发行规则与团队成员来衡量Factor(A,Crypto)。在我们收集资料的过程中,我们发现有几个指标的资料相对完整,分别是:

众筹价格;

总代币数;

总募资金额;

初始市值(预估值);

代币起始流通量(Initial Circulating Supply, ICS);

代币起始流通量占比。

若再添加其他项指标,则会因资料齐全的项目数急速减少而不利模型的发展,所以最后就敲定这6 项指标。

关于Factor(A,Crypto) 的想法之二:团队成员

为了要量化团队成员指标,并且从客观资料为起 点,我们首先筛选出项目的核心成员,将这些成员的(I) 性别与在Linkedin 上的(II) 学历(III) 工作经历收集起来,进行资料清洗、资料探索,定义新的指标,并放入模型之中。

以Mainframe这个项目为例,我们认为团队中具备决策能力的成员能够反映团队整体的水准,所以定义以下的成员为团队的核心成员:

Funder

Co-Funder

Chief X Officer

Vice President

Director

Head of X

Principal X


Mainframe 的部分团队核心成员

接着,我们前往这些成员的Linkedin 收集相应的学历与工作经历,例如学校名称与学位、每个工作阶段的时间长短与位阶等。我们最终收集千名核心成员近万笔的学经历资料。

3核心成员资料的初步探索

在我们所进行的资料探索过程中,在核心成员的部分发现了比较有趣的现象,所以我们来谈谈这一个部分。

下图是343 个项目的1,036 名核心成员的数据,核心成员数介于1 ~ 8 人,平均一个项目有3 名。另外,核心成员团队中,女性成员数介于0 ~ 2 人不等。


核心成员数与其男女分布

下左图描绘log10(Short-Term ROI) 与核心成员数的变化图,纵向直线代表Error Bar。资料量越多,则Error Bar 越短;资料量越少,则Error Bar 越长。由于是以log-scale 表现,若转成linear-scale 的话,变化会更显著。

如果撇开资料量不足而使得误差范围较大的6 ~ 8名核心成员数的3个点,我们可以发现随着核心成员数增加,其短期的ROI逐步下滑。这或许暗示着决策层的意见变多,那么团队的发展将会受阻碍。

而在右下图中,我们针对这两个指标进行简单的线性回归,得到代表结果的蓝色实线与代表信赖区间的蓝色阴影。由于信赖区间并未涵盖水平红线,表示两指标间的确实存在负相关性,因此这个结果值得玩味,建议新创团队可以参考。


log10(短期的 ROI) vs 核心成员数

4女成员的正面影响?

另一方面,下图中的横坐标F/M指的是「女性与男性核心成员数的比率区间」,其中「None」表示全男性团队;「Half」代表F/M = 0.33 ~ 0.67,也就是女男比是1:3、1:2或2:3 ,「All」代表女性居多的核心团队。随着F/M的增加,相应的短期的ROI也随着提高,或许暗示着女性决策者的参与对团队的发展起到关键的影响。


log10(短期的 ROI) vs F/M

5谈谈学历的影响


QS世界大学排名

在量化核心成员学历的方法,我们运用第三方世界大学排名名单QS World University Rankings 2019的资料进行处理。左下图把排名前1,000名的大学切成5个区间,从排名前100大的Tier 5到排名在1,000后面的Tier 0。可以看见在我们收集的名单中,大多数核心成员毕业于世界前百大学校。

而右下图的线性回归也表明,学历与投资回报率之间存在正向的关联性。


6定义关键指标

在进行资料探索的过程中,我们同时也开始探索新的指标来当作模型的输入,借此获得新的洞见与更好的模型,其中一个我们称作「企业家指标」(Entrepreneurship Index):


Entrepreneurship Index

j:一特定团队的第j 名核心成员。

i:该成员的第i 项工作经历。

tier:第i 项工作的职称的分级。

time:第i 项工作期长。

duration:该名成员的总工作期长。

将一个核心成员团队中,每个成员根据上式计算而得的数字加总起来,变成了企业家指标,结果呈现于下图的纵轴。企业家指标在衡量团队水准方面具备简洁易懂与代表性,对模型而言是一个关键指标。


企业家指标vs 总工作期长

7最佳模型与其结果

我们将预测标的短期的ROI 切成三个层级:Low、Medium 与High,运用前面提及的输入指标进行预测。在我们进行Modeling 的过程中,曾经尝试的演算法共有:

Logistic Regression

Random Forest Embedding + Logistic

Polynomial + Logistic Regression

KNN

Naive Bayes

Support Vector Machine

Kernel SVC

XGBoost

从结果论,是被称为竞赛神器的XGBoost(eXtreme Gradient Boosting)得到最好的结果,其精确度比随机猜测提高60 %。。2015年,在全球最大的资料分析竞赛平台Kaggle上的29个冠军队伍中,有17个团队在他们的模型中使用XGBoost,足可见其威力。


但和预测模型本身相比,我们认为更重要的结果是输入指标的重要性排序,这大致可以归纳成四个要点:

大环境指标> 核心团队素质> 代币发行规则。

大环境指标:BTC 主导地位 > 价格(BTC,USD)。

核心成员素质:企业家指标> 学历。

代币发行规则:起始流通量与占比最重要。

8展望

透过这两篇文章,我们带你走过在加密产业建立一个项目评级模型的过程,并得出许多有意义的结果。

然而,我们真正想做的事情,是在加密产业建立一个资料导向的决策流程,让相关的讨论有一个成熟可信的依据,借此深入了解评估一个区块链项目时,我们应该重视的是什么事情。

这里只是一个起始点,往后我们将把这套方法论运用在其他方面上,例如二级市场币种高/低估判定的模型上。

作者:Terry Huang

原文链接:Take the hammer and knock it down

—-

编译者/作者:月儿妈

玩币族申明:玩币族作为开放的资讯翻译/分享平台,所提供的所有资讯仅代表作者个人观点,与玩币族平台立场无关,且不构成任何投资理财建议。文章版权归原作者所有。

LOADING...
LOADING...