程序员必须掌握哪些算法?

链接:https://www.zhihu.com/question/23148377

编辑:深度学习与计算机视觉

声明:仅做学术分享,侵删

作者:Cat Chen
https://www.zhihu.com/question/23148377/answer/751465017

在工作时,没有什么核心算法是必须掌握的,更需要的是对算法背后思想的理解,使得你在需要时能想起这个算法来。只要你能想起这个算法的名字,上网搜一下就能找到对这个算法的详细解释,这个算法的主流语言实现也肯定能找到。所以你懂不懂某个算法不重要,重要的是关键时候能想起它。

在面试时,有很多基础算法必须能熟练运用和默写代码。这你通过刷题来掌握就可以了,反正你没真弄懂的话面试后就不记得了。

作者:程其一
https://www.zhihu.com/question/23148377/answer/974518148

算法一:快速排序算法

快速排序是由东尼·霍尔所发展的一种排序算法。在平均状况下,排序n个项目要Ο(nlogn)次比较。在最坏状况下则需要Ο(n2)次比较,但这种状况并不常见。事实上,快速排序通常明显比其他Ο(nlogn)算法更快,因为它的内部循环(innerloop)可以在大部分的架构上很有效率地被实现出来。快速排序使用分治法(Divideandconquer)策略来把一个串行(list)分为两个子串行(sub-lists)。

算法步骤:
1.从数列中挑出一个元素,称为“基准”(pivot)

2.重新排序数列,所有元素比基准值小的摆放在基准前面,所有元素比基准值大的摆在基准的后面(相同的数可以到任一边)。在这个分区退出之后,该基准就处于数列的中间位置。这个称为分区(partition)操作。

3.递归地(recursive)把小于基准值元素的子数列和大于基准值元素的子数列排序。递归的最底部情形,是数列的大小是零或一,也就是永远都已经被排序好了。虽然一直递归下去,但是这个算法总会退出,因为在每次的迭代(iteration)中,它至少会把一个元素摆到它最后的位置去。

算法二:堆排序算法

堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。堆排序的平均时间复杂度为Ο(nlogn) 。

算法步骤:

1.创建一个堆H[0..n-1]

2.把堆首(最大值)和堆尾互换

3.把堆的尺寸缩小1,并调用shift_down(0),目的是把新的数组顶端数据调整到相应位置

4.重复步骤2,直到堆的尺寸为1

算法三:归并排序

归并排序(Mergesort,*译作:合并排序)是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(DivideandConquer)的一个非常典型的应用。

算法步骤:

1.申请空间,使其大小为两个已经排序序列之和,该空间用来存放合并后的序列

2.设定两个指针,最初位置分别为两个已经排序序列的起始位置

3.比较两个指针所指向的元素,选择相对小的元素放入到合并空间,并移动指针到下一位置

4.重复步骤3直到某一指针达到序列尾5.将另一序列剩下的所有元素直接复制到合并序列尾

算法四:二分查找算法

二分查找算法是一种在有序数组中查找某一特定元素的搜索算法。

搜素过程从数组的中间元素开始,如果中间元素正好是要查找的元素,则搜素过程结束;如果某一特定元素大于或者小于中间元素,则在数组大于或小于中间元素的那一半中查找,而且跟开始一样从中间元素开始比较。

如果在某一步骤数组为空,则代表找不到。这种搜索算法每一次比较都使搜索范围缩小一半。折半搜索每次把搜索区域减少一半,时间复杂度为Ο(logn) 。

算法五:BFPRT(线性查找算法)

BFPRT算法解决的问题十分经典,即从某n个元素的序列中选出第k大(第k小)的元素,通过巧妙的分析,BFPRT可以保证在最坏情况下仍为线性时间复杂度。

该算法的思想与快速排序思想相似,当然,为使得算法在最坏情况下,依然能达到o(n)的时间复杂度,五位算法作者做了精妙的处理。

算法步骤:
1.将n个元素每5个一组,分成n/5(上界)组。
2.取出每一组的中位数,任意排序方法,比如插入排序。
3.递归的调用selection算法查找上一步中所有中位数的中位数,设为x,偶数个中位数的情况下设定为选取中间小的一个。
4.用x来分割数组,设小于等于x的个数为k,大于x的个数即为n-k。
5.若i==k,返回x;若i<k,在小于x的元素中递归查找第i小的元素;若i>k,在大于x的元素中递归查找第i-k小的元素。终止条件:n=1时,返回的即是i小元素。

算法六:DFS(深度优先搜索)

深度优先搜索算法(Depth-First-Search),是搜索算法的一种。它沿着树的深度遍历树的节点,尽可能深的搜索树的分支。当节点v的所有边都己被探寻过,搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。

如果还存在未被发现的节点,则选择其中一个作为源节点并重复以上过程,整个进程反复进行直到所有节点都被访问为止。DFS属于盲目搜索。深度优先搜索是图论中的经典算法,利用深度优先搜索算法可以产生目标图的相应拓扑排序表,利用拓扑排序表可以方便的解决很多相关的图论问题,如最大路径问题等等。一般用堆数据结构来辅助实现DFS算法。

深度优先遍历图算法步骤:

1.访问顶点v;
2.依次从v的未被访问的邻接点出发,对图进行深度优先遍历;直至图中和v有路径相通的顶点都被访问;
3.若此时图中尚有顶点未被访问,则从一个未被访问的顶点出发,重新进行深度优先遍历,直到图中所有顶点均被访问过为止。

上述描述可能比较抽象,举个实例:

DFS在访问图中某一起始顶点v后,由v出发,访问它的任一邻接顶点w1;再从w1出发,访问与w1邻接但还没有访问过的顶点w2;然后再从w2出发,进行类似的访问,…如此进行下去,直至到达所有的邻接顶点都被访问过的顶点u为止。接着,退回一步,退到前一次刚访问过的顶点,看是否还有其它没有被访问的邻接顶点。如果有,则访问此顶点,之后再从此顶点出发,进行与前述类似的访问;如果没有,就再退回一步进行搜索。重复上述过程,直到连通图中所有顶点都被访问过为止。

算法七:BFS(广度优先搜索)广度优先搜索算法

(Breadth-First-Search),是一种图形搜索算法。简单的说,BFS是从根节点开始,沿着树(图)的宽度遍历树(图)的节点。如果所有节点均被访问,则算法中止。BFS同样属于盲目搜索。一般用队列数据结构来辅助实现BFS算法。

算法步骤:

1.首先将根节点放入队列中。
2.从队列中取出第一个节点,并检验它是否为目标。如果找到目标,则结束搜寻并回传结果。否则将它所有尚未检验过的直接子节点加入队列中。
3.若队列为空,表示整张图都检查过了——亦即图中没有欲搜寻的目标。结束搜寻并回传“找不到目标”。
4.重复步骤2。

算法八:Dijkstra算法戴克斯特拉算法

(Dijkstra’salgorithm)是由荷兰计算机科学家艾兹赫尔·戴克斯特拉提出。迪科斯彻算法使用了广度优先搜索解决非负权有向图的单源最短路径问题,算法最终得到一个最短路径树。该算法常用于路由算法或者作为其他图算法的一个子模块。

该算法的输入包含了一个有权重的有向图G,以及G中的一个来源顶点S。我们以V表示G中所有顶点的集合。每一个图中的边,都是两个顶点所形成的有序元素对。(u,v)表示从顶点u到v有路径相连。我们以E表示G中所有边的集合,而边的权重则由权重函数w:E→[0,∞]定义。

因此,w(u,v)就是从顶点u到顶点v的非负权重(weight)。边的权重可以想像成两个顶点之间的距离。任两点间路径的权重,就是该路径上所有边的权重总和。已知有V中有顶点s及t,Dijkstra算法可以找到s到t的最低权重路径(例如,最短路径)。

这个算法也可以在一个图中,找到从一个顶点s到任何其他顶点的最短路径。对于不含负权的有向图,Dijkstra算法是目前已知的最快的单源最短路径算法。

算法步骤:

1.初始时令S={V0},T={其余顶点},T中顶点对应的距离值,若存在<V0,Vi>,d(V0,Vi)为<V0,Vi>弧上的权值;若不存在<V0,Vi>,d(V0,Vi)为∞。

2.从T中选取一个其距离值为最小的顶点W且不在S中,加入S

3.对其余T中顶点的距离值进行修改:若加进W作中间顶点,从V0到Vi的距离值缩短,则修改此距离值重复上述步骤2、3,直到S中包含所有顶点,即W=Vi为止

算法九:动态规划算法

动态规划(Dynamicprogramming)是一种在数学、计算机科学和经济学中使用的,通过把原问题分解为相对简单的子问题的方式求解复杂问题的方法。动态规划常常适用于有重叠子问题和最优子结构性质的问题,动态规划方法所耗时间往往远少于朴素解法。

动态规划背后的基本思想非常简单。大致上,若要解一个给定问题,我们需要解其不同部分(即子问题),再合并子问题的解以得出原问题的解。通常许多子问题非常相似,为此动态规划法试图仅仅解决每个子问题一次,从而减少计算量:一旦某个给定子问题的解已经算出,则将其记忆化存储,以便下次需要同一个子问题解之时直接查表。

这种做法在重复子问题的数目关于输入的规模呈指数增长时特别有用。关于动态规划最经典的问题当属背包问题。

算法步骤:

1.最优子结构性质。如果问题的最优解所包含的子问题的解也是最优的,我们就称该问题具有最优子结构性质(即满足最优化原理)。最优子结构性质为动态规划算法解决问题提供了重要线索。

2.子问题重叠性质。子问题重叠性质是指在用递归算法自顶向下对问题进行求解时,每次产生的子问题并不总是新问题,有些子问题会被重复计算多次。动态规划算法正是利用了这种子问题的重叠性质,对每一个子问题只计算一次,然后将其计算结果保存在一个表格中,当再次需要计算已经计算过的子问题时,只是在表格中简单地查看一下结果,从而获得较高的效率。

算法十:朴素贝叶斯分类算法

朴素贝叶斯分类算法是一种基于贝叶斯定理的简单概率分类算法。贝叶斯分类的基础是概率推理,就是在各种条件的存在不确定,仅知其出现概率的情况下,如何完成推理和决策任务。概率推理是与确定性推理相对应的。而朴素贝叶斯分类器是基于独立假设的,即假设样本每个特征与其他特征都不相关。

朴素贝叶斯分类器依靠精确的自然概率模型,在有监督学习的样本集中能获取得非常好的分类效果。在许多实际应用中,朴素贝叶斯模型参数估计使用最大似然估计方法,换言之朴素贝叶斯模型能工作并没有用到贝叶斯概率或者任何贝叶斯模型。

尽管是带着这些朴素思想和过于简单化的假设,但朴素贝叶斯分类器在很多复杂的现实情形中仍能够取得相当好的效果。

作者:马遥
https://www.zhihu.com/question/23148377/answer/341583043

就游戏程序员来说。

信息学竞赛里面常见的算法,能用到游戏里的凤毛麟角。

游戏里面用的算法要么很朴素,要么专业性非常强。和什么贪心、背包、动归之类的基本没什么关系。

3D引擎算法非常多,但是此算法非彼算法,感觉不是一个路数。

唯一做过有印象的是做脏字过滤,用到了类似霍夫曼树的压缩编码机制,把许多脏词编到一棵树里。

作者:一一哥
https://www.zhihu.com/question/23148377/answer/946796695

一.排序算法

1、冒泡排序

冒泡排序是一种简单的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。

2、选择排序

选择排序(Selection-sort)是一种简单直观的排序算法。它的工作原理:首先在未排序序列中找到最小(大)元素,存放到排序序列的起始位置,然后,再从剩余未排序元素中继续寻找最小(大)元素,然后放到已排序序列的末尾。以此类推,直到所有元素均排序完毕。

3、插入排序

插入排序(Insertion-Sort)的算法描述是一种简单直观的排序算法。它的工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入。

4、希尔排序

1959年Shell发明,第一个突破O(n2)的排序算法,是简单插入排序的改进版。它与插入排序的不同之处在于,它会优先比较距离较远的元素。希尔排序又叫缩小增量排序。

5、归并排序

归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为2-路归并。

6、快速排序

快速排序的基本思想:通过一趟排序将待排记录分隔成独立的两部分,其中一部分记录的关键字均比另一部分的关键字小,则可分别对这两部分记录继续进行排序,以达到整个序列有序。

7、堆排序

堆排序(Heapsort)是指利用堆这种数据结构所设计的一种排序算法。堆积是一个近似完全二叉树的结构,并同时满足堆积的性质:即子结点的键值或索引总是小于(或者大于)它的父节点。

8、计数排序

计数排序不是基于比较的排序算法,其核心在于将输入的数据值转化为键存储在额外开辟的数组空间中。作为一种线性时间复杂度的排序,计数排序要求输入的数据必须是有确定范围的整数。

9、桶排序

桶排序是计数排序的升级版。它利用了函数的映射关系,高效与否的关键就在于这个映射函数的确定。桶排序 (Bucket sort)的工作的原理:假设输入数据服从均匀分布,将数据分到有限数量的桶里,每个桶再分别排序(有可能再使用别的排序算法或是以递归方式继续使用桶排序进行排)。

10、基数排序

基数排序是按照低位先排序,然后收集;再按照高位排序,然后再收集;依次类推,直到最高位。有时候有些属性是有优先级顺序的,先按低优先级排序,再按高优先级排序。最后的次序就是高优先级高的在前,高优先级相同的低优先级高的在前。

二.数据结构

1、数组

数组是可以再内存中连续存储多个元素的结构,在内存中的分配也是连续的,数组中的元素通过数组下标进行访问,数组下标从0开始。

2、栈

栈是一种特殊的线性表,仅能在线性表的一端操作,栈顶允许操作,栈底不允许操作。栈的特点是:先进后出,或者说是后进先出,从栈顶放入元素的操作叫入栈,取出元素叫出栈。

3、队列

队列与栈一样,也是一种线性表,不同的是,队列可以在一端添加元素,在另一端取出元素,也就是:先进先出。从一端放入元素的操作称为入队,取出元素为出队。

4、链表

链表是物理存储单元上非连续的、非顺序的存储结构,数据元素的逻辑顺序是通过链表的指针地址实现,每个元素包含两个结点,一个是存储元素的数据域 (内存空间),另一个是指向下一个结点地址的指针域。根据指针的指向,链表能形成不同的结构,例如单链表,双向链表,循环链表等。

5、树

树是一种数据结构,它是由n(n>=1)个有限节点组成一个具有层次关系的集合。

在日常的应用中,我们讨论和用的更多的是树的其中一种结构是二叉树。

6、散列表

散列表,也叫哈希表,是根据关键码和值 (key和value) 直接进行访问的数据结构,通过key和value来映射到集合中的一个位置,这样就可以很快找到集合中的对应元素。

7、堆

堆是一种比较特殊的数据结构,可以被看做一棵树的数组对象,具有以下的性质:

堆中某个节点的值总是不大于或不小于其父节点的值;

堆总是一棵完全二叉树。

8、图

图是由结点的有穷集合V和边的集合E组成。其中,为了与树形结构加以区别,在图结构中常常将结点称为顶点,边是顶点的有序偶对,若两个顶点之间存在一条边,就表示这两个顶点具有相邻关系。

三.递归

一种计算过程,如果其中每一步都要用到前一步或前几步的结果,称为递归的。用递归过程定义的函数,称为递归函数,例如连加、连乘及阶乘等。

作者:茹姐
https://www.zhihu.com/question/23148377/answer/768492489

对于程序员来讲,数据结构和算法还是很重要的。但是你从事不同的领域所要掌握的算法也不同,下面我们就罗列一些基本的算法:枚举、贪心、递归。

除了这些还有以下:

搜索:粗略地说,只要知道两种类型的搜索算法:顺序搜索和二分搜索。深度优先搜索(DFS)和广度优先搜索(BFS)也非常重要。

排序:排序的算法有很多,但是选几个比较常见的掌握就可以了。比如冒泡排序,选择排序,插入排序,快速排序,希尔排序,归并排序等。

匹配模式和解析:正则表达式

哈希

哈希算法,在加密

还有就是一些数据结构:

比如数组、链表、堆栈、队列、哈希表、树等。

还想了解更多,建议去看看算法书吧:算法(第4版):

程序员必须掌握哪些算法?

作者:LoveJenny https://www.zhihu.com/question/23148377/answer/36996055

leetcode 刷完,你就知道答案了

作者:Coldwings

https://www.zhihu.com/question/23148377/answer/37698533

具体取决于这个程序员是做什么类型程序的。

广泛的说,《数据结构》、《运筹学》、《Introduction to algorithms》这三本书里的算法都应该了解,对于搜索类算法应该熟悉,其余至少知道大致思想和特点。

不要把动态规划当算法,因为dp其实是一种思想而不是算法,要实现dp完全可以脱离原本的循环遍历模式而使用各种最短路、记忆化搜索等等具体算法。

此外,《机器学习与人工智能》里的算法都应了解并且掌握。现实问题大多数都是近似问题,不一定非要求最优解,近似算法会经常派得上用场。

毕竟,做ACM与实际做软件对算法需求差异还挺大的,当然大公司专注做后台复杂计算的另说…

作者:伊撒尔
https://www.zhihu.com/question/23148377/answer/1022408813

其实说算法不太合适,我觉得其实重要的是数据结构

队列,栈,堆,链表,树……

不同的数据结构适合做不同的事情,我个人特别喜欢将同一个实现用不同的结构去实现,然后对比差异和好坏

但你要和我说算法,说实话真的没什么兴趣去刷题

我一直认为,算法不是用来提高【代码能力】的,而是提高【设计能力】的

作者:暗灭
https://www.zhihu.com/question/23148377/answer/897208445

如果你是一个初级程序员,薪水在15k一下,没有什么你必须掌握的算法,排序可能都不需要。

如果你是一个中级程序员,你需要了解的可能包括hash ,md5,des,编辑距离,pagerank,一致性哈希,gossip等一系列各种开源框架中用到的算法。

如果你想成为一个算法工程师,你可能需要了解最大熵,决策树,条件随机场,神经网络等一系列机器学习的算法。

作者:肖飞
https://www.zhihu.com/question/23148377/answer/1501033108

面试无数回,总结一下面试中常见的算法问题,讲讲自己的认识:

1.冒泡排序

这个属于排序里的经典算法了

基本上面试的时候都会让你手写一个冒泡排序,而且排序在实际的项目中应用的也非常多。

并且你得深知冒泡排序的时间复杂度和空间复杂度。

如果再引申一下,你还需要知道。快速排序,堆排序,插入排序。以及各个排序的时间空间复杂度。

2.斐波那契数列

主要考察计算机的一门递归思想

这种思想在计算机编程领域有很多的应用,迭代的优点就在于简单明了,容易用数学归纳法解释。也是考察数学思想的一中基础的算法。

一般会让你用递归的方法手写斐波那契数列或者杨辉三角形。

3.链表

主要考察计算机中这种特殊的数据结构的理解

一般会让你手写一个单链表,手写一个双链表;增加些难度,写一下链表的删除和插入。

再问问链表的经典问题,判断一个链表是否有环,链表反转,合并链表等等

4.二叉树

二叉树作为计算机中查找的重要一种遍历方式

基本上会让你手写二叉树的三种遍历方法,前序遍历,中序遍历,后序遍历。

加点难度会问:找出一个二叉树的节点数,求二叉树的最低深度等等

5.图

数据结构中重要的一点

如果不是面试算法工程师的话,一般不会问到图相关的

手写图的存储结构,写出深度遍历和广度遍历的算法。

6.队列和栈

队列和栈常常会应用到消息系统,一个是先进先出,一个是后进先出。

一般会考察让你手写一个队列和栈的代码

暂时能想到的就是这么多了,这些都属于计算机算法的最基础的思想,如果还想细扣的话,那建议去lintcode刷一下具体的题目。

作者:ToString

https://www.zhihu.com/question/23148377/answer/782615261

一、算法

图搜索 (广度优先、深度优先)深度优先特别重要

排序

动态规划

匹配算法和网络流算法

正则表达式和字符串匹配

二、数据结构

图 (树尤其重要)

Map

栈/队列

Tries | 字典树

三、额外推荐

贪婪算法

概率方法

近似算法

☆ END ☆

如果看到这里,说明你喜欢这篇文章,请转发、点赞。微信搜索「uncle_pn」,欢迎添加小编微信「 mthler」,每日朋友圈更新一篇高质量博文。

扫描二维码添加小编↓

程序员必须掌握哪些算法?