我有一个大的数据集,专门用于股票市场价格& &;信息。因为数据还没有准备好进行最终分析,所以我现在正处于数据清理阶段,以使其准备好用于分析。造型。
由于单元格中的信息并不都遵循已经排序的单一格式。它包含了一组不同的模式,我需要对所有这些模式进行解释。
交货。
列目的- DIVIDEND-RE。1/-每股
- agm/div-rs.3.50每股
- spldiv-rs.2.70/share
- DIV - FIN 3.50RE/SHARE + sl - rs .1.4
- FV SPLIT Rs.10 to RE.1
- BON 3:2 + SPLT Rs. 5至Rs.2.5
- 奖金4:1
- DIV: 10%
所以我想要一个模糊逻辑方法来检查是否存在SPLIT、DIVIDEND、BONUS以及模式匹配发生在列PURPOSE中的哪个单元格,我需要字符串中该特定模式的索引位置来提取它后面的数值。
在R中是否有任何方法来确定模式是否可以被检查和匹配,同时返回值-在各自的字符串中相同的索引?(以便日后根据政府网站在数据存储中的符号进一步更改,或格式/位置/间距发生变化时,它可以自动解释所有这些变化)
这里有一个你可以考虑的替代方法,尽管它不会回答这个问题:
- 以csv格式从NSE网站获取名称更改:https://www.nseindia.com/corporates/content/securities_info.htm
-
使用包
quantmod
从雅虎获得拆分和股息getDividends (INFY。",from = "2000-01-01");
getSplits (INFY。