admin 发布的文章

1.自然语言生成(Natural Language Generation)

自然语言生成是人工智能的分支,研究如何将数据转化为文本,用于客户服务、报告生成以及市场概述。

2.语音识别(Speech Recognition)

Siri就是一个典型的例子。

目前,通过语音应答交互系统和移动应用程序对人类语言进行转录的系统已多达数十万。

3.虚拟助理(Virtual Agents)

虚拟助理是一种能与人类进行交互的计算机代理或程序,其中以聊天机器人最为著名。虚拟助理多用于客户服务和支持,并可以作为智能家居的管理者。

4.机器学习平台(Machine Learning Platforms)

机器学习是计算机科学和人工智能技术的分支,它能提升计算机的学习能力。

通过提供算法、API(应用程序接口)、开发和训练工具包、数据、以及计算能力来设计、培训和部署模型到应用程序、流程和其他机器,广受企业青睐,用以解决预测和分类任务。

Adext是世界上第一个也是唯一的观众管理工具,它将人工智能和机器学习应用于数字广告,以期将广告精准的投放给最符合产品定位的受众。

5.人工智能硬件优化(AI-optimized Hardware)

用于运行面向人工智能的计算任务,是经过专门设计和架构的GPU(图形处理单元)和CPU(中央处理单元)。

即将推出的基于人工智能优化的硅芯片,将直接嵌入到你的便携设备以及生活各处。

6.决策管理(Decision Management)

智能机器能够向AI系统引入规则及逻辑,因此你可以利用它们进行初始化设置/训练,以及持续的维护和优化。

决策管理在多类企业应用中得以实现,它能协助或者进行自动决策,实现企业收益最大化。

7.深度学习平台(Deep Learning Platforms)

深度学习平台是机器学习的一种特殊形式,它包含多层的人工神经网络,能够模拟人类大脑,处理数据并创建决策模式。目前主要被用于基于大数据集的模式识别和分类。

8.生物信息(Biometrics)

这项技术能够识别、测量、分析人类行为以及身体的物理结构和形态。

它能赋予人类和机器之间更多的自然交互能力,包括但不仅限于图像、触控识别和身体语言识别,目前被广泛用于市场研究领域。

9.机器处理自动化(Robotic Processes Automation)

机器处理自动化使用脚本和其它方法实现人类操作的自动化,以支持更高效的商业流程。

目前被用于人力成本高昂或效率较低的任务和流程。

机器处理自动化能将人类的才能最大化的展示出来,并且让职工更加具有创造性和战略性,对公司的发展至关重要。

10.文本分析和自然语言处理(Text Analytics and Natural Language Processing)

文本分析和自然语言处理利用统计和机器学习方法理解句子的结构、含义、情绪和意图,广泛应用于欺诈探测和信息安全等领域,同时还可用于非结构化数据的挖掘。

11.数字孪生/AI建模(Digital Twin/AI Modeling)

数字孪生是一种软件架构,搭建起物理系统和数字世界的桥梁。

通用电气公司(General Electric,GE)宣布将成立一家人工智能公司,用于对飞机引擎、机车、燃气轮机的监控、以及故障预测。该公司的数字孪生仅几行代码,即便是最复杂的版本看上去也就像三维计算机辅助设计图纸,充满了交互式图表和数据点。

12.网络防御(Cyber Defense)

网络防御是一种计算机网络防御机制,专注于预防、检测以及在基础设施和信息在受到攻击和威胁时进行及时响应。

人工智能和机器学习将网络防御带入了新的发展阶段:在2017年,共检测出20亿次的入侵记录,其中76%的入侵是意外发生的,69%是身份丢失造成的。

递归神经网络(Recurrent neural networks,RNN)能够处理输入序列,与机器学习技术相结合创建出监督学习技术,能够发现可疑目标,并检测出高达85%的网络攻击。

Darktrace和Cylance等初创公司高度重视人工智能结合网络防御领域的工作。Darktrace将行为分析与高等数学相结合,自动检测组织内部的异常行为,Cylance应用人工智能算法来阻止恶意软件的入侵并减轻攻击造成的损害。另一家致力于网络防御的公司,Deep Instinct,被看作是“最具破坏性的初创公司”,该公司旨在保护企业的端点、服务器和移动设备。

13.合规( Compliance)

合规是指一个人或者一家公司的经营活动与公认管理、法规、规章、标准或合同条款相一致。

将人工智能应用于合规工作中已屡见不鲜,自然语言处理技术能够扫描文本并且将其模式与关键字相匹配,以识别与公司有关的变动。

具有预测分析功能和场景构建器的资本压力测试技术能够帮助公司遵守监管资本要求。此外,深度学习的使用,能有效减少被标记为潜在洗钱活动的交易数量。

14.知识工作辅助(Knowledge Worker Aid)

虽然许多人都很担心AI是否会完全取代人类工作,但别忘了,AI科技能够在很大程度上帮助人们出色的完成自己的工作,特别是在知识工作领域。

知识工作的自动化已被列为第二大最具破坏性的新兴技术。在大量依靠知识工作者的医疗和法律领域,从业者们将逐渐使用AI技术作为诊断工具。

15.内容创作(Content Creation)

内容创作包括人们对网络世界输入的任何材料,如视频、广告、博客、白皮书、信息图表以及其它视觉或者书面材料。

哥伦比亚广播公司等团队已使用了AI技术进行内容生成;Wibbitz的SaaS平台可以通过人工智能视频产品把文字内容转化为视频内容;自动透视公司研发的Wordsmith,在获取数据后利用自然语言处理技术进行新闻写作。

16.P2P网络( Peer-to-Peer Networks)

P2P网络是指网络的参与者共享他们所拥有的一部分硬件资源,这些共享资源通过网络提供服务和内容,能被其它P2P节点直接访问而无需经过中间实体。

Bet Capital LLC的首席执行长本•哈特曼在接受《创业者》杂志采访时表示,P2P网络也被用于货币加密,甚至能够通过收集和分析大量数据来解决一些世界上最具挑战性的问题。

普瑞斯是一家旨在利用P2P网络和人工智能让搜索引擎更加通俗易懂的公司,以加密货币为奖励,让参与者们借出他们电脑的计算能力。相应地,该公司许诺会建立一个更加透明的搜索引擎平台。

17.情绪识别(Emotion Recognition)

情绪识别可以通过高级图像处理或音频数据处理来“读取”人类脸上的表情。目前,我们已经能够捕捉“微表情”,识别肢体语言暗示,以及分析含有情绪的语音语调。

执法人员在审讯过程中使用这项技术能够获取更多的信息,这项技术也被广泛运用于市场营销。

18.图像识别( Image Recognition)

图像识别是指在数字图像或者视频中识别和检测出物体或特征的过程,人工智能技术在该领域具有独特的优势。

人工智能可以在社交媒体平台上搜索照片,并将其与大量数据集进行比较,从而找出与之最为相关的内容。

图像识别技术能用于车牌识别、疾病检测、客户意见分析以及身份验证等。

19.智能营销(Marketing Automation)

到目前为止,市场部门已经从人工智能中获益良多,业界对人工智能的信任是有充分理由的。55%的营销人员确信人工智能在他们的领域会比社交媒体有更大的影响力。

智能营销能够提升公司的参与度和效率,对客户进行细分、集成客户数据和管理活动,并简化重复任务,让决策者们有更多的时间专注战略制定。

参考文章:
https://www.jiqizhixin.com/articles/2020-05-11-3
https://developer.aliyun.com/article/626767
https://blog.adext.com/artificial-intelligence-technologies-2019/

最近做paper有些代码可以做成果转化,所以,在学校申请了软著。

记录流程,方便复盘。

  1. 软著代码编写完成;
  2. 在学校“知识产权服务平台”填写软著申请,按照软著信息认真核对填写,并上传代码说明及源代码;
  3. 联系院系负责人(一般为科技成果转化办公室此类职务)进行审批;
  4. 联系专利中心负责软著的老师,请求给与软著实名认证短信验证码;
  5. 导出国家版权保护中心申请表无缩放打印,连同知产服务平台申请表及审核状态打印表,一起去往科技成果转化处申请用章用印法人证书小条子;
  6. 去往师生服务中心校长办公室申请加盖公章及法人证书复印件(办公室用印去向此次办理为国家知识产权局);
  7. 交文件至国家版权保护中心。

1、word2vec
耳熟能详的NLP向量化模型。
Paper: https://papers.nips.cc/paper/5021-distributed-representations-of-words-and-phrases-and-their-compositionality.pdf

Java: http://deeplearning4j.org/word2vec

C++: https://github.com/jdeng/word2vec

Python:

https://radimrehurek.com/gensim/models/word2vec.html
https://github.com/danielfrg/word2vec

2、doc2vec
Paper: https://cs.stanford.edu/~quocle/paragraph_vector.pdf

Python: https://radimrehurek.com/gensim/models/doc2vec.html

word2vec模型对词向量进行平均处理,我们仍然忽略了单词之间的排列顺序对情感分析的影响。即上述的word2vec只是基于词的维度进行”语义分析”的,而并不具有上下文的”语义分析”能力。

  作为一个处理可变长度文本的总结性方法,Quoc Le 和 Tomas Mikolov 提出了 Doc2Vec方法。除了增加一个段落向量以外,这个方法几乎等同于 Word2Vec。和 Word2Vec 一样,该模型也存在两种方法:Distributed Memory(DM) 和 Distributed Bag of Words(DBOW)。DM 试图在给定上下文和段落向量的情况下预测单词的概率。在一个句子或者文档的训练过程中,段落 ID 保持不变,共享着同一个段落向量。DBOW 则在仅给定段落向量的情况下预测段落中一组随机单词的概率。
(参考:Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型 )

3、tweet2vec
Paper: https://arxiv.org/abs/1605.03481

Python: https://github.com/bdhingra/tweet2vec

一些社交文本中的语言结构跟书面语大不相同,所以作者别出心裁的特意做了一个基于字符组合的模型,其可以基于整个微博环境下复杂、非正常语言的字符串中学习到一种向量化的表达方式。

4、batter-pitcher-2vec
Python: https://github.com/airalcorn2/batter-pitcher-2vec

5、illustration-2vec
Python: https://github.com/rezoo/illustration2vec

6、lda2vec
Paper: https://arxiv.org/pdf/1605.02019v1.pdf

Slideshare: http://www.slideshare.net/ChristopherMoody3/word2vec-lda-and-introducing-a-new-hybrid-algorithm-lda2vec-57135994

Python: https://github.com/cemoody/lda2vec

将LDA与word2vec相结合,LDA是我比较在意的研究方向,这个模型很早提出,不过应用地倒是不多。

这里写图片描述
lda2vec the topics can be ‘supervised’ and forced to predict another target.

7、sentence2vec
Python: https://github.com/klb3713/sentence2vec

8、wiki2vec
Java/Scala: https://github.com/idio/wiki2vec

9、topicvec
Paper: http://bigml.cs.tsinghua.edu.cn/~jun/topic-embedding.pdf

Python: https://github.com/askerlee/topicvec

10、entity2vec
Python: https://github.com/ot/entity2vec

Paper: http://www.di.unipi.it/~ottavian/files/wsdm15_fel.pdf

11、str2vec
Python: https://github.com/pengli09/str2vec

12、node2vec
Paper: https://arxiv.org/abs/1607.00653

Page: https://snap.stanford.edu/node2vec/

Python: https://github.com/aditya-grover/node2vec

可见:笔记︱基于网络节点的node2vec、论文、算法python实现

13、item2vec
Paper: https://arxiv.org/abs/1603.04259

14、author2vec
Paper: https://www.microsoft.com/en-us/research/publication/author2vec-learning-author-representations-by-combining-content-and-link-information/

15、playlist-to-vec
Python: https://github.com/mattdennewitz/playlist-to-vec

16、sense2vec
Paper: https://arxiv.org/abs/1511.06388

17、med2vec
Paper: https://arxiv.org/abs/1602.05568

Python: https://github.com/mp2893/med2vec

SCODE Word Embeddings using Substitute Words

Python: https://github.com/ai-ku/wvec

18、game2vec
Python: https://github.com/warchildmd/game2vec

19、paper2vec
Paper: https://arxiv.org/pdf/1703.06587.pdf

参考文章:
https://www.cnblogs.com/feiyumo/p/8021869.html

按照先前代码批量处理YouTube相关信息时,往往在感情极性这步出现错误,提示 list out of range,批量处理代码并不方便进行debug,所以升级代码。

升级代码思路为,comments信息已经全部抓取成功,不再需要重新抓取信息进行分析,只需要对已有comments信息进行处理。
对最初代码进行更换,删除调用词云图部分、删除调用commentsdownload部分,重新定义comments为读取到的comments.txt的列表信息。

代码如下:

#本部分为对driverreadtxt.py进行修改,其余部分,可保留不变。
#后续待完成为,对极性分析模块sentimentyoutube部分代码进行修改,实现对空值进行控制,直接跳过,目前还未完成。
import comment_downloader as CD 
import fancySentiment as FS
# import sys
# sys.path.append('path路径或省略')
import sentimentYouTube as SYT
import requests
import json
def main():
    # print(comments)
    with open('comments.txt', 'r') as fhijklmn:
        comments = fhijklmn.read().splitlines()
    SYT.sentiment(comments)



if __name__ == '__main__':
    main()

出现此问题,一般为list中有空值,需要去除。

使用pq删除空行,筛选去掉空值,随后使用notepad++转编码为utf8或者ANSI,随后再次检查有无空值,进行处理。

例如,处理YouTube评论信息,进行感情极性分析,出现此报错,按照上述步骤后,如仍有问题,试着提取英文或中文,分别进行处理。